Sync Jobs & Data Status

Pad: /dashboard/jobs · Permissie: Sync Jobs module

Sync Jobs volgen elke achtergrondtaak die je knowledge base bijwerkt — bestandsuploads, URL-crawls en FAQ-indexering. Gebruik deze pagina om de voortgang te bewaken, fouten te identificeren en problematische taken opnieuw te proberen.

Hoe sync jobs worden aangemaakt

Je hoeft nooit handmatig sync jobs aan te maken. Ze worden automatisch gegenereerd wanneer je:

Een bestand uploadt in Knowledge Base → Files
Een URL toevoegt in Knowledge Base → URLs
Een FAQ toevoegt of bijwerkt in Knowledge Base → FAQs
Op Refresh Knowledge Base klikt om een volledige herindexering te starten
Een URL opnieuw crawlt om inhoud bij te werken van een website die is gewijzigd

Elke actie creëert een of meer taken die onmiddellijk op deze pagina verschijnen.

Kolommen in de takenlijst

Kolom	Wat het toont
Type	Het soort taak — bestandsupload, URL-crawl, FAQ-sync of volledige herindexering
Source	De bestandsnaam of URL die wordt verwerkt — klik om het volledige pad te zien
Status	Huidige status: Pending, Processing, Completed, of Error (met kleurcode)
Duration	Hoe lang de taak duurde van begin tot eind
Created	Wanneer de taak voor het eerst in de wachtrij is geplaatst
Updated	De laatste keer dat de status is gewijzigd

Uitleg van taakstatussen

Status	Kleur	Wat het betekent	Wat te doen
Pending	Grijs	In de wachtrij, wachtend op een verwerker om het op te pakken	Niets — het start automatisch
Processing	Blauw/Oranje	Actief bezig met tekstextractie, het opdelen van inhoud (chunking) en het maken van vector-embeddings	Wacht — er is voortgang
Completed	Groen	Inhoud is volledig geïndexeerd en doorzoekbaar door de bot	Niets — de bot kan deze inhoud nu gebruiken
Error	Rood	Er is iets misgegaan tijdens de verwerking	Lees het foutbericht, los de oorzaak op en probeer het opnieuw

Wat er gebeurt tijdens de verwerking

Wanneer een sync job wordt uitgevoerd, doorloopt het systeem deze stappen:

Extraction — Tekst wordt geëxtraheerd uit de bron (PDF-parsing, HTML-stripping, FAQ-formattering).
Chunking — Lange inhoud wordt opgedeeld in kleinere, overlappende segmenten voor een betere zoeknauwkeurigheid.
Embedding — Elk segment (chunk) wordt omgezet in een numerieke vector met behulp van het embedding-model.
Indexing — Vectoren worden opgeslagen in de zoekmachine, zodat de bot relevante fragmenten kan ophalen wanneer gebruikers vragen stellen.

Dit hele proces duurt doorgaans 10–60 seconden voor een enkel bestand, en enkele minuten voor grote sitemaps of bulk-uploads.

Veelvoorkomende fouttypen en oplossingen

Fout	Waarschijnlijke oorzaak	Oplossing
Unsupported format	Bestandstype niet herkend	Converteer naar PDF, DOCX, TXT, CSV of Markdown en upload opnieuw
Password protected	PDF of DOCX is versleuteld	Verwijder de wachtwoordbeveiliging en upload opnieuw
Image-only PDF	Gescand document zonder selecteerbare tekst	Gebruik OCR-software om eerst te converteren naar een tekstgebaseerde PDF
URL blocked / 403	Website blokkeert automatische crawlers	Probeer een andere URL, gebruik een sitemap of upload de pagina-inhoud als bestand
URL timeout	Pagina deed er te lang over om te reageren	De site is mogelijk traag — probeer het later opnieuw of upload handmatig
Empty content	URL gaf geen leesbare tekst terug	De pagina is mogelijk JavaScript-zwaar (SPA). Upload de inhoud als een bestand
Connection error	De URL is onbereikbaar	Controleer of de URL correct is en openbaar toegankelijk

Om een mislukte taak opnieuw te proberen, klik je op de retry button in de taakregel. Het systeem plaatst deze opnieuw in de wachtrij met dezelfde bron.

Ondersteunde bestandsformaten

Formaat	Extensie	Notities
PDF	`.pdf`	Moet selecteerbare tekst bevatten (geen gescande afbeeldingen)
Word	`.docx`	Microsoft Word-documenten
Plain text	`.txt`	Eenvoudige tekstbestanden
CSV	`.csv`	Komma-gescheiden gegevens — ideaal voor productlijsten en prijzen
JSON	`.json`	Gestructureerde data — handig voor API-documentatie
Markdown	`.md`	Technische documentatie en README-bestanden
PowerPoint	`.pptx`	Tekstinhoud van presentatiedia's

Prestatietips

Grote PDF's en sitemaps duren langer — Een PDF van 100 pagina's of een sitemap met meer dan 500 URL's kan enkele minuten duren. Dit is normaal.
Spreid grote uploads — Het uploaden van 50 bestanden tegelijk creëert een lange wachtrij. Upload in batches van 5–10 voor snellere feedback.
Verwijder verouderde inhoud — Oude documenten vergroten de indexgrootte en kunnen ervoor zorgen dat de bot irrelevante informatie ophaalt. Verwijder bestanden die je niet meer nodig hebt.
Controleer na bulk-wijzigingen — Controleer na het uploaden van veel bestanden of het vernieuwen van de knowledge base de Sync Jobs om te bevestigen dat alles succesvol is voltooid voordat u de bot test.
Gebruik sitemaps voor websites — In plaats van 50 individuele URL's toe te voegen, geef je de sitemap.xml van de site op en laat je het systeem automatisch alle pagina's ontdekken.

FAQ

V: Een taak blijft lange tijd hangen op "Processing".

Grote bestanden of sitemaps met veel pagina's kunnen legitiem enkele minuten duren. Als een taak langer dan 15 minuten vastloopt, probeer deze dan opnieuw uit te voeren. Als het blijft mislukken, neem dan contact op met je accountmanager.

V: Een URL toont herhaaldelijk "Error".

De website blokkeert waarschijnlijk automatische crawlers, vereist authenticatie of geeft lege inhoud terug. Probeer: een andere pagina-URL, geef in plaats daarvan een sitemap-URL op, of upload de pagina-inhoud als een bestand.

V: Moet ik sync jobs handmatig starten?

Nee. Sync jobs worden automatisch aangemaakt wanneer je bestanden uploadt, URL's toevoegt of FAQ's aanmaakt. De Refresh Knowledge Base knop op de Knowledge Base-pagina start een volledige herindexering van alle bronnen.

V: Wat is het verschil tussen een sync job en een re-index?

Een sync job verwerkt een enkele nieuwe of bijgewerkte bron (één bestand, één URL, één FAQ). Een re-index (geactiveerd door Refresh Knowledge Base) bouwt de volledige vector-index opnieuw op op basis van alle huidige bronnen. Herindexering is nuttig na het verwijderen van inhoud of wanneer je wilt verzkeren dat alles vers is.

V: Zijn sync jobs per bot?

Ja. De sync jobs van elke bot zijn onafhankelijk. De getoonde taken zijn alleen voor de momenteel geselecteerde bot.