Sync Jobs & Data Status
Percorso: /dashboard/jobs · Permessi: Modulo Sync Jobs
I Sync Jobs tracciano ogni attività in background che aggiorna la tua knowledge base: caricamento di file, scansione di URL e indicizzazione delle FAQ. Usa questa pagina per monitorare i progressi, identificare i fallimenti e riprovare i job problematici.
Come vengono creati i sync jobs
Non è mai necessario creare i sync jobs manualmente. Vengono generati automaticamente ogni volta che:
- Carichi un file in Knowledge Base → Files
- Aggiungi un URL in Knowledge Base → URLs
- Aggiungi o aggiorni una FAQ in Knowledge Base → FAQs
- Clicchi su Refresh Knowledge Base per avviare una re-indicizzazione completa
- Esegui nuovamente la scansione (re-crawl) di un URL per aggiornare il contenuto di un sito web che è cambiato
Ogni azione crea uno o più job che appaiono immediatamente su questa pagina.
Colonne della lista job
| Colonna | Cosa mostra |
|---|---|
| Type | Il tipo di job: caricamento file, scansione URL, sync FAQ o re-indicizzazione completa |
| Source | Il nome del file o l'URL in fase di elaborazione: clicca per vedere il percorso completo |
| Status | Stato attuale: Pending, Processing, Completed o Error (codificato per colore) |
| Duration | Quanto tempo ha impiegato il job dall'inizio alla fine |
| Created | Quando il job è stato messo in coda per la prima volta |
| Updated | L'ultima volta che lo stato è cambiato |
Spiegazione degli stati dei job
| Stato | Colore | Significato | Cosa fare |
|---|---|---|---|
| Pending | Grigio | In coda, in attesa che un worker lo prenda in carico | Nulla: inizierà automaticamente |
| Processing | Blu/Ambra | Estrazione del testo, segmentazione del contenuto (chunking) e creazione degli embedding vettoriali in corso | Attendi: l'elaborazione è attiva |
| Completed | Verde | Il contenuto è completamente indicizzato e ricercabile dal bot | Nulla: il bot può ora utilizzare questo contenuto |
| Error | Rosso | Qualcosa è andato storto durante l'elaborazione | Leggi il messaggio di errore, risolvi la causa e riprova |
Cosa succede durante l'elaborazione
Quando un sync job viene eseguito, il sistema compie questi passaggi:
- Extraction — Il testo viene estratto dalla sorgente (parsing PDF, rimozione tag HTML, formattazione FAQ).
- Chunking — I contenuti lunghi vengono divisi in segmenti più piccoli e sovrapposti per una migliore precisione di ricerca.
- Embedding — Ogni segmento (chunk) viene convertito in un vettore numerico utilizzando il modello di embedding.
- Indexing — I vettori vengono memorizzati nel motore di ricerca in modo che il bot possa recuperare i segmenti pertinenti quando gli utenti pongono domande.
L'intero processo richiede tipicamente 10–60 secondi per un singolo file e diversi minuti per sitemap di grandi dimensioni o caricamenti massivi.
Tipi di errore comuni e soluzioni
| Errore | Causa probabile | Soluzione |
|---|---|---|
| Unsupported format | Tipo di file non riconosciuto | Converti in PDF, DOCX, TXT, CSV o Markdown e ricarica |
| Password protected | Il PDF o DOCX è crittografato | Rimuovi la protezione con password e ricarica |
| Image-only PDF | Documento scansionato senza testo selezionabile | Usa un software OCR per convertirlo prima in un PDF testuale |
| URL blocked / 403 | Il sito web blocca i crawler automatici | Prova un URL diverso, usa una sitemap o carica il contenuto della pagina come file |
| URL timeout | La pagina ha impiegato troppo tempo a rispondere | Il sito potrebbe essere lento: riprova più tardi o carica il contenuto manualmente |
| Empty content | L'URL non ha restituito testo leggibile | La pagina potrebbe essere basata pesantemente su JavaScript (SPA). Carica il contenuto come file |
| Connection error | L'URL non è raggiungibile | Verifica che l'URL sia corretto e accessibile pubblicamente |
Per riprovare un job fallito, clicca sul retry button nella riga del job. Il sistema lo rimetterà in coda con la stessa sorgente.
Formati di file supportati
| Formato | Estensione | Note |
|---|---|---|
.pdf |
Deve contenere testo selezionabile (non immagini scansionate) | |
| Word | .docx |
Documenti Microsoft Word |
| Plain text | .txt |
File di testo semplice |
| CSV | .csv |
Dati separati da virgola: ideale per liste prodotti e listini |
| JSON | .json |
Dati strutturati: utile per documentazione API |
| Markdown | .md |
Documentazione tecnica e file README |
| PowerPoint | .pptx |
Contenuto testuale da diapositive di presentazione |
Suggerimenti per le prestazioni
- PDF grandi e sitemap richiedono più tempo — Un PDF di 100 pagine o una sitemap con più di 500 URL possono richiedere diversi minuti. È normale.
- Scagliona i caricamenti massivi — Caricare 50 file contemporaneamente crea una coda lunga. Carica in lotti da 5–10 per un feedback più rapido.
- Rimuovi i contenuti obsoleti — I vecchi documenti aumentano la dimensione dell'indice e possono far sì che il bot recuperi informazioni non pertinenti. Elimina i file che non ti servono più.
- Monitora dopo modifiche massive — Dopo aver caricato molti file o aggiornato la knowledge base, controlla i Sync Jobs per confermare che tutto sia stato completato con successo prima di testare il bot.
- Usa le sitemap per i siti web — Invece di aggiungere 50 URL individuali, fornisci la
sitemap.xmldel sito e lascia che il sistema scopra tutte le pagine automaticamente.
FAQ
D: Un job è bloccato in "Processing" da molto tempo.
- File di grandi dimensioni o sitemap con molte pagine possono legittimamente richiedere diversi minuti. Se un job è bloccato da più di 15 minuti, prova a riavviarlo. Se continua a fallire, contatta il tuo account manager.
D: Un URL mostra ripetutamente "Error".
- Probabilmente il sito web blocca i crawler automatici, richiede autenticazione o restituisce contenuti vuoti. Prova a: usare l'URL di una pagina diversa, fornire l'URL di una sitemap, oppure caricare il contenuto della pagina come file.
D: Devo avviare i sync jobs manualmente?
- No. I sync jobs vengono creati automaticamente quando carichi file, aggiungi URL o crei FAQ. Il pulsante Refresh Knowledge Base nella pagina Knowledge Base avvia una re-indicizzazione completa di tutte le sorgenti.
D: Qual è la differenza tra un sync job e una re-indicizzazione (re-index)?
- Un sync job elabora una singola sorgente nuova o aggiornata (un file, un URL, una FAQ). Una re-indicizzazione (attivata da Refresh Knowledge Base) ricostruisce l'intero indice vettoriale da tutte le sorgenti attuali. La re-indicizzazione è utile dopo aver eliminato contenuti o quando vuoi assicurarti che tutto sia aggiornato.
D: I sync jobs sono per singolo bot?
- Sì. I sync jobs di ogni bot sono indipendenti. I job mostrati si riferiscono solo al bot attualmente selezionato.

