Vai al contenuto

Sync Jobs & Data Status

Percorso: /dashboard/jobs · Permessi: Modulo Sync Jobs

Monitoraggio Sync Jobs Monitoraggio Sync Jobs

I Sync Jobs tracciano ogni attività in background che aggiorna la tua knowledge base: caricamento di file, scansione di URL e indicizzazione delle FAQ. Usa questa pagina per monitorare i progressi, identificare i fallimenti e riprovare i job problematici.


Come vengono creati i sync jobs

Non è mai necessario creare i sync jobs manualmente. Vengono generati automaticamente ogni volta che:

  • Carichi un file in Knowledge Base → Files
  • Aggiungi un URL in Knowledge Base → URLs
  • Aggiungi o aggiorni una FAQ in Knowledge Base → FAQs
  • Clicchi su Refresh Knowledge Base per avviare una re-indicizzazione completa
  • Esegui nuovamente la scansione (re-crawl) di un URL per aggiornare il contenuto di un sito web che è cambiato

Ogni azione crea uno o più job che appaiono immediatamente su questa pagina.


Colonne della lista job

Colonna Cosa mostra
Type Il tipo di job: caricamento file, scansione URL, sync FAQ o re-indicizzazione completa
Source Il nome del file o l'URL in fase di elaborazione: clicca per vedere il percorso completo
Status Stato attuale: Pending, Processing, Completed o Error (codificato per colore)
Duration Quanto tempo ha impiegato il job dall'inizio alla fine
Created Quando il job è stato messo in coda per la prima volta
Updated L'ultima volta che lo stato è cambiato

Spiegazione degli stati dei job

Stato Colore Significato Cosa fare
Pending Grigio In coda, in attesa che un worker lo prenda in carico Nulla: inizierà automaticamente
Processing Blu/Ambra Estrazione del testo, segmentazione del contenuto (chunking) e creazione degli embedding vettoriali in corso Attendi: l'elaborazione è attiva
Completed Verde Il contenuto è completamente indicizzato e ricercabile dal bot Nulla: il bot può ora utilizzare questo contenuto
Error Rosso Qualcosa è andato storto durante l'elaborazione Leggi il messaggio di errore, risolvi la causa e riprova

Cosa succede durante l'elaborazione

Quando un sync job viene eseguito, il sistema compie questi passaggi:

  1. Extraction — Il testo viene estratto dalla sorgente (parsing PDF, rimozione tag HTML, formattazione FAQ).
  2. Chunking — I contenuti lunghi vengono divisi in segmenti più piccoli e sovrapposti per una migliore precisione di ricerca.
  3. Embedding — Ogni segmento (chunk) viene convertito in un vettore numerico utilizzando il modello di embedding.
  4. Indexing — I vettori vengono memorizzati nel motore di ricerca in modo che il bot possa recuperare i segmenti pertinenti quando gli utenti pongono domande.

L'intero processo richiede tipicamente 10–60 secondi per un singolo file e diversi minuti per sitemap di grandi dimensioni o caricamenti massivi.


Tipi di errore comuni e soluzioni

Errore Causa probabile Soluzione
Unsupported format Tipo di file non riconosciuto Converti in PDF, DOCX, TXT, CSV o Markdown e ricarica
Password protected Il PDF o DOCX è crittografato Rimuovi la protezione con password e ricarica
Image-only PDF Documento scansionato senza testo selezionabile Usa un software OCR per convertirlo prima in un PDF testuale
URL blocked / 403 Il sito web blocca i crawler automatici Prova un URL diverso, usa una sitemap o carica il contenuto della pagina come file
URL timeout La pagina ha impiegato troppo tempo a rispondere Il sito potrebbe essere lento: riprova più tardi o carica il contenuto manualmente
Empty content L'URL non ha restituito testo leggibile La pagina potrebbe essere basata pesantemente su JavaScript (SPA). Carica il contenuto come file
Connection error L'URL non è raggiungibile Verifica che l'URL sia corretto e accessibile pubblicamente

Per riprovare un job fallito, clicca sul retry button nella riga del job. Il sistema lo rimetterà in coda con la stessa sorgente.


Formati di file supportati

Formato Estensione Note
PDF .pdf Deve contenere testo selezionabile (non immagini scansionate)
Word .docx Documenti Microsoft Word
Plain text .txt File di testo semplice
CSV .csv Dati separati da virgola: ideale per liste prodotti e listini
JSON .json Dati strutturati: utile per documentazione API
Markdown .md Documentazione tecnica e file README
PowerPoint .pptx Contenuto testuale da diapositive di presentazione

Suggerimenti per le prestazioni

  • PDF grandi e sitemap richiedono più tempo — Un PDF di 100 pagine o una sitemap con più di 500 URL possono richiedere diversi minuti. È normale.
  • Scagliona i caricamenti massivi — Caricare 50 file contemporaneamente crea una coda lunga. Carica in lotti da 5–10 per un feedback più rapido.
  • Rimuovi i contenuti obsoleti — I vecchi documenti aumentano la dimensione dell'indice e possono far sì che il bot recuperi informazioni non pertinenti. Elimina i file che non ti servono più.
  • Monitora dopo modifiche massive — Dopo aver caricato molti file o aggiornato la knowledge base, controlla i Sync Jobs per confermare che tutto sia stato completato con successo prima di testare il bot.
  • Usa le sitemap per i siti web — Invece di aggiungere 50 URL individuali, fornisci la sitemap.xml del sito e lascia che il sistema scopra tutte le pagine automaticamente.

FAQ

D: Un job è bloccato in "Processing" da molto tempo.

  • File di grandi dimensioni o sitemap con molte pagine possono legittimamente richiedere diversi minuti. Se un job è bloccato da più di 15 minuti, prova a riavviarlo. Se continua a fallire, contatta il tuo account manager.

D: Un URL mostra ripetutamente "Error".

  • Probabilmente il sito web blocca i crawler automatici, richiede autenticazione o restituisce contenuti vuoti. Prova a: usare l'URL di una pagina diversa, fornire l'URL di una sitemap, oppure caricare il contenuto della pagina come file.

D: Devo avviare i sync jobs manualmente?

  • No. I sync jobs vengono creati automaticamente quando carichi file, aggiungi URL o crei FAQ. Il pulsante Refresh Knowledge Base nella pagina Knowledge Base avvia una re-indicizzazione completa di tutte le sorgenti.

D: Qual è la differenza tra un sync job e una re-indicizzazione (re-index)?

  • Un sync job elabora una singola sorgente nuova o aggiornata (un file, un URL, una FAQ). Una re-indicizzazione (attivata da Refresh Knowledge Base) ricostruisce l'intero indice vettoriale da tutte le sorgenti attuali. La re-indicizzazione è utile dopo aver eliminato contenuti o quando vuoi assicurarti che tutto sia aggiornato.

D: I sync jobs sono per singolo bot?

  • Sì. I sync jobs di ogni bot sono indipendenti. I job mostrati si riferiscono solo al bot attualmente selezionato.