Ga naar inhoud

Sync Jobs & Data Status

Pad: /dashboard/jobs · Permissie: Sync Jobs module

Sync Jobs Monitoring Sync Jobs Monitoring

Sync Jobs volgen elke achtergrondtaak die je knowledge base bijwerkt — bestandsuploads, URL-crawls en FAQ-indexering. Gebruik deze pagina om de voortgang te bewaken, fouten te identificeren en problematische taken opnieuw te proberen.


Hoe sync jobs worden aangemaakt

Je hoeft nooit handmatig sync jobs aan te maken. Ze worden automatisch gegenereerd wanneer je:

  • Een bestand uploadt in Knowledge Base → Files
  • Een URL toevoegt in Knowledge Base → URLs
  • Een FAQ toevoegt of bijwerkt in Knowledge Base → FAQs
  • Op Refresh Knowledge Base klikt om een volledige herindexering te starten
  • Een URL opnieuw crawlt om inhoud bij te werken van een website die is gewijzigd

Elke actie creëert een of meer taken die onmiddellijk op deze pagina verschijnen.


Kolommen in de takenlijst

Kolom Wat het toont
Type Het soort taak — bestandsupload, URL-crawl, FAQ-sync of volledige herindexering
Source De bestandsnaam of URL die wordt verwerkt — klik om het volledige pad te zien
Status Huidige status: Pending, Processing, Completed, of Error (met kleurcode)
Duration Hoe lang de taak duurde van begin tot eind
Created Wanneer de taak voor het eerst in de wachtrij is geplaatst
Updated De laatste keer dat de status is gewijzigd

Uitleg van taakstatussen

Status Kleur Wat het betekent Wat te doen
Pending Grijs In de wachtrij, wachtend op een verwerker om het op te pakken Niets — het start automatisch
Processing Blauw/Oranje Actief bezig met tekstextractie, het opdelen van inhoud (chunking) en het maken van vector-embeddings Wacht — er is voortgang
Completed Groen Inhoud is volledig geïndexeerd en doorzoekbaar door de bot Niets — de bot kan deze inhoud nu gebruiken
Error Rood Er is iets misgegaan tijdens de verwerking Lees het foutbericht, los de oorzaak op en probeer het opnieuw

Wat er gebeurt tijdens de verwerking

Wanneer een sync job wordt uitgevoerd, doorloopt het systeem deze stappen:

  1. Extraction — Tekst wordt geëxtraheerd uit de bron (PDF-parsing, HTML-stripping, FAQ-formattering).
  2. Chunking — Lange inhoud wordt opgedeeld in kleinere, overlappende segmenten voor een betere zoeknauwkeurigheid.
  3. Embedding — Elk segment (chunk) wordt omgezet in een numerieke vector met behulp van het embedding-model.
  4. Indexing — Vectoren worden opgeslagen in de zoekmachine, zodat de bot relevante fragmenten kan ophalen wanneer gebruikers vragen stellen.

Dit hele proces duurt doorgaans 10–60 seconden voor een enkel bestand, en enkele minuten voor grote sitemaps of bulk-uploads.


Veelvoorkomende fouttypen en oplossingen

Fout Waarschijnlijke oorzaak Oplossing
Unsupported format Bestandstype niet herkend Converteer naar PDF, DOCX, TXT, CSV of Markdown en upload opnieuw
Password protected PDF of DOCX is versleuteld Verwijder de wachtwoordbeveiliging en upload opnieuw
Image-only PDF Gescand document zonder selecteerbare tekst Gebruik OCR-software om eerst te converteren naar een tekstgebaseerde PDF
URL blocked / 403 Website blokkeert automatische crawlers Probeer een andere URL, gebruik een sitemap of upload de pagina-inhoud als bestand
URL timeout Pagina deed er te lang over om te reageren De site is mogelijk traag — probeer het later opnieuw of upload handmatig
Empty content URL gaf geen leesbare tekst terug De pagina is mogelijk JavaScript-zwaar (SPA). Upload de inhoud als een bestand
Connection error De URL is onbereikbaar Controleer of de URL correct is en openbaar toegankelijk

Om een mislukte taak opnieuw te proberen, klik je op de retry button in de taakregel. Het systeem plaatst deze opnieuw in de wachtrij met dezelfde bron.


Ondersteunde bestandsformaten

Formaat Extensie Notities
PDF .pdf Moet selecteerbare tekst bevatten (geen gescande afbeeldingen)
Word .docx Microsoft Word-documenten
Plain text .txt Eenvoudige tekstbestanden
CSV .csv Komma-gescheiden gegevens — ideaal voor productlijsten en prijzen
JSON .json Gestructureerde data — handig voor API-documentatie
Markdown .md Technische documentatie en README-bestanden
PowerPoint .pptx Tekstinhoud van presentatiedia's

Prestatietips

  • Grote PDF's en sitemaps duren langer — Een PDF van 100 pagina's of een sitemap met meer dan 500 URL's kan enkele minuten duren. Dit is normaal.
  • Spreid grote uploads — Het uploaden van 50 bestanden tegelijk creëert een lange wachtrij. Upload in batches van 5–10 voor snellere feedback.
  • Verwijder verouderde inhoud — Oude documenten vergroten de indexgrootte en kunnen ervoor zorgen dat de bot irrelevante informatie ophaalt. Verwijder bestanden die je niet meer nodig hebt.
  • Controleer na bulk-wijzigingen — Controleer na het uploaden van veel bestanden of het vernieuwen van de knowledge base de Sync Jobs om te bevestigen dat alles succesvol is voltooid voordat u de bot test.
  • Gebruik sitemaps voor websites — In plaats van 50 individuele URL's toe te voegen, geef je de sitemap.xml van de site op en laat je het systeem automatisch alle pagina's ontdekken.

FAQ

V: Een taak blijft lange tijd hangen op "Processing".

  • Grote bestanden of sitemaps met veel pagina's kunnen legitiem enkele minuten duren. Als een taak langer dan 15 minuten vastloopt, probeer deze dan opnieuw uit te voeren. Als het blijft mislukken, neem dan contact op met je accountmanager.

V: Een URL toont herhaaldelijk "Error".

  • De website blokkeert waarschijnlijk automatische crawlers, vereist authenticatie of geeft lege inhoud terug. Probeer: een andere pagina-URL, geef in plaats daarvan een sitemap-URL op, of upload de pagina-inhoud als een bestand.

V: Moet ik sync jobs handmatig starten?

  • Nee. Sync jobs worden automatisch aangemaakt wanneer je bestanden uploadt, URL's toevoegt of FAQ's aanmaakt. De Refresh Knowledge Base knop op de Knowledge Base-pagina start een volledige herindexering van alle bronnen.

V: Wat is het verschil tussen een sync job en een re-index?

  • Een sync job verwerkt een enkele nieuwe of bijgewerkte bron (één bestand, één URL, één FAQ). Een re-index (geactiveerd door Refresh Knowledge Base) bouwt de volledige vector-index opnieuw op op basis van alle huidige bronnen. Herindexering is nuttig na het verwijderen van inhoud of wanneer je wilt verzkeren dat alles vers is.

V: Zijn sync jobs per bot?

  • Ja. De sync jobs van elke bot zijn onafhankelijk. De getoonde taken zijn alleen voor de momenteel geselecteerde bot.