Sync Jobs & Data Status

Percorso: /dashboard/jobs · Permessi: Modulo Sync Jobs

I Sync Jobs tracciano ogni attività in background che aggiorna la tua knowledge base: caricamento di file, scansione di URL e indicizzazione delle FAQ. Usa questa pagina per monitorare i progressi, identificare i fallimenti e riprovare i job problematici.

Come vengono creati i sync jobs

Non è mai necessario creare i sync jobs manualmente. Vengono generati automaticamente ogni volta che:

Carichi un file in Knowledge Base → Files
Aggiungi un URL in Knowledge Base → URLs
Aggiungi o aggiorni una FAQ in Knowledge Base → FAQs
Clicchi su Refresh Knowledge Base per avviare una re-indicizzazione completa
Esegui nuovamente la scansione (re-crawl) di un URL per aggiornare il contenuto di un sito web che è cambiato

Ogni azione crea uno o più job che appaiono immediatamente su questa pagina.

Colonne della lista job

Colonna	Cosa mostra
Type	Il tipo di job: caricamento file, scansione URL, sync FAQ o re-indicizzazione completa
Source	Il nome del file o l'URL in fase di elaborazione: clicca per vedere il percorso completo
Status	Stato attuale: Pending, Processing, Completed o Error (codificato per colore)
Duration	Quanto tempo ha impiegato il job dall'inizio alla fine
Created	Quando il job è stato messo in coda per la prima volta
Updated	L'ultima volta che lo stato è cambiato

Spiegazione degli stati dei job

Stato	Colore	Significato	Cosa fare
Pending	Grigio	In coda, in attesa che un worker lo prenda in carico	Nulla: inizierà automaticamente
Processing	Blu/Ambra	Estrazione del testo, segmentazione del contenuto (chunking) e creazione degli embedding vettoriali in corso	Attendi: l'elaborazione è attiva
Completed	Verde	Il contenuto è completamente indicizzato e ricercabile dal bot	Nulla: il bot può ora utilizzare questo contenuto
Error	Rosso	Qualcosa è andato storto durante l'elaborazione	Leggi il messaggio di errore, risolvi la causa e riprova

Cosa succede durante l'elaborazione

Quando un sync job viene eseguito, il sistema compie questi passaggi:

Extraction — Il testo viene estratto dalla sorgente (parsing PDF, rimozione tag HTML, formattazione FAQ).
Chunking — I contenuti lunghi vengono divisi in segmenti più piccoli e sovrapposti per una migliore precisione di ricerca.
Embedding — Ogni segmento (chunk) viene convertito in un vettore numerico utilizzando il modello di embedding.
Indexing — I vettori vengono memorizzati nel motore di ricerca in modo che il bot possa recuperare i segmenti pertinenti quando gli utenti pongono domande.

L'intero processo richiede tipicamente 10–60 secondi per un singolo file e diversi minuti per sitemap di grandi dimensioni o caricamenti massivi.

Tipi di errore comuni e soluzioni

Errore	Causa probabile	Soluzione
Unsupported format	Tipo di file non riconosciuto	Converti in PDF, DOCX, TXT, CSV o Markdown e ricarica
Password protected	Il PDF o DOCX è crittografato	Rimuovi la protezione con password e ricarica
Image-only PDF	Documento scansionato senza testo selezionabile	Usa un software OCR per convertirlo prima in un PDF testuale
URL blocked / 403	Il sito web blocca i crawler automatici	Prova un URL diverso, usa una sitemap o carica il contenuto della pagina come file
URL timeout	La pagina ha impiegato troppo tempo a rispondere	Il sito potrebbe essere lento: riprova più tardi o carica il contenuto manualmente
Empty content	L'URL non ha restituito testo leggibile	La pagina potrebbe essere basata pesantemente su JavaScript (SPA). Carica il contenuto come file
Connection error	L'URL non è raggiungibile	Verifica che l'URL sia corretto e accessibile pubblicamente

Per riprovare un job fallito, clicca sul retry button nella riga del job. Il sistema lo rimetterà in coda con la stessa sorgente.

Formati di file supportati

Formato	Estensione	Note
PDF	`.pdf`	Deve contenere testo selezionabile (non immagini scansionate)
Word	`.docx`	Documenti Microsoft Word
Plain text	`.txt`	File di testo semplice
CSV	`.csv`	Dati separati da virgola: ideale per liste prodotti e listini
JSON	`.json`	Dati strutturati: utile per documentazione API
Markdown	`.md`	Documentazione tecnica e file README
PowerPoint	`.pptx`	Contenuto testuale da diapositive di presentazione

Suggerimenti per le prestazioni

PDF grandi e sitemap richiedono più tempo — Un PDF di 100 pagine o una sitemap con più di 500 URL possono richiedere diversi minuti. È normale.
Scagliona i caricamenti massivi — Caricare 50 file contemporaneamente crea una coda lunga. Carica in lotti da 5–10 per un feedback più rapido.
Rimuovi i contenuti obsoleti — I vecchi documenti aumentano la dimensione dell'indice e possono far sì che il bot recuperi informazioni non pertinenti. Elimina i file che non ti servono più.
Monitora dopo modifiche massive — Dopo aver caricato molti file o aggiornato la knowledge base, controlla i Sync Jobs per confermare che tutto sia stato completato con successo prima di testare il bot.
Usa le sitemap per i siti web — Invece di aggiungere 50 URL individuali, fornisci la sitemap.xml del sito e lascia che il sistema scopra tutte le pagine automaticamente.

FAQ

D: Un job è bloccato in "Processing" da molto tempo.

File di grandi dimensioni o sitemap con molte pagine possono legittimamente richiedere diversi minuti. Se un job è bloccato da più di 15 minuti, prova a riavviarlo. Se continua a fallire, contatta il tuo account manager.

D: Un URL mostra ripetutamente "Error".

Probabilmente il sito web blocca i crawler automatici, richiede autenticazione o restituisce contenuti vuoti. Prova a: usare l'URL di una pagina diversa, fornire l'URL di una sitemap, oppure caricare il contenuto della pagina come file.

D: Devo avviare i sync jobs manualmente?

No. I sync jobs vengono creati automaticamente quando carichi file, aggiungi URL o crei FAQ. Il pulsante Refresh Knowledge Base nella pagina Knowledge Base avvia una re-indicizzazione completa di tutte le sorgenti.

D: Qual è la differenza tra un sync job e una re-indicizzazione (re-index)?

Un sync job elabora una singola sorgente nuova o aggiornata (un file, un URL, una FAQ). Una re-indicizzazione (attivata da Refresh Knowledge Base) ricostruisce l'intero indice vettoriale da tutte le sorgenti attuali. La re-indicizzazione è utile dopo aver eliminato contenuti o quando vuoi assicurarti che tutto sia aggiornato.

D: I sync jobs sono per singolo bot?

Sì. I sync jobs di ogni bot sono indipendenti. I job mostrati si riferiscono solo al bot attualmente selezionato.