Sync Jobs & Data Status
Pad: /dashboard/jobs · Permissie: Sync Jobs module
Sync Jobs volgen elke achtergrondtaak die je knowledge base bijwerkt — bestandsuploads, URL-crawls en FAQ-indexering. Gebruik deze pagina om de voortgang te bewaken, fouten te identificeren en problematische taken opnieuw te proberen.
Hoe sync jobs worden aangemaakt
Je hoeft nooit handmatig sync jobs aan te maken. Ze worden automatisch gegenereerd wanneer je:
- Een bestand uploadt in Knowledge Base → Files
- Een URL toevoegt in Knowledge Base → URLs
- Een FAQ toevoegt of bijwerkt in Knowledge Base → FAQs
- Op Refresh Knowledge Base klikt om een volledige herindexering te starten
- Een URL opnieuw crawlt om inhoud bij te werken van een website die is gewijzigd
Elke actie creëert een of meer taken die onmiddellijk op deze pagina verschijnen.
Kolommen in de takenlijst
| Kolom | Wat het toont |
|---|---|
| Type | Het soort taak — bestandsupload, URL-crawl, FAQ-sync of volledige herindexering |
| Source | De bestandsnaam of URL die wordt verwerkt — klik om het volledige pad te zien |
| Status | Huidige status: Pending, Processing, Completed, of Error (met kleurcode) |
| Duration | Hoe lang de taak duurde van begin tot eind |
| Created | Wanneer de taak voor het eerst in de wachtrij is geplaatst |
| Updated | De laatste keer dat de status is gewijzigd |
Uitleg van taakstatussen
| Status | Kleur | Wat het betekent | Wat te doen |
|---|---|---|---|
| Pending | Grijs | In de wachtrij, wachtend op een verwerker om het op te pakken | Niets — het start automatisch |
| Processing | Blauw/Oranje | Actief bezig met tekstextractie, het opdelen van inhoud (chunking) en het maken van vector-embeddings | Wacht — er is voortgang |
| Completed | Groen | Inhoud is volledig geïndexeerd en doorzoekbaar door de bot | Niets — de bot kan deze inhoud nu gebruiken |
| Error | Rood | Er is iets misgegaan tijdens de verwerking | Lees het foutbericht, los de oorzaak op en probeer het opnieuw |
Wat er gebeurt tijdens de verwerking
Wanneer een sync job wordt uitgevoerd, doorloopt het systeem deze stappen:
- Extraction — Tekst wordt geëxtraheerd uit de bron (PDF-parsing, HTML-stripping, FAQ-formattering).
- Chunking — Lange inhoud wordt opgedeeld in kleinere, overlappende segmenten voor een betere zoeknauwkeurigheid.
- Embedding — Elk segment (chunk) wordt omgezet in een numerieke vector met behulp van het embedding-model.
- Indexing — Vectoren worden opgeslagen in de zoekmachine, zodat de bot relevante fragmenten kan ophalen wanneer gebruikers vragen stellen.
Dit hele proces duurt doorgaans 10–60 seconden voor een enkel bestand, en enkele minuten voor grote sitemaps of bulk-uploads.
Veelvoorkomende fouttypen en oplossingen
| Fout | Waarschijnlijke oorzaak | Oplossing |
|---|---|---|
| Unsupported format | Bestandstype niet herkend | Converteer naar PDF, DOCX, TXT, CSV of Markdown en upload opnieuw |
| Password protected | PDF of DOCX is versleuteld | Verwijder de wachtwoordbeveiliging en upload opnieuw |
| Image-only PDF | Gescand document zonder selecteerbare tekst | Gebruik OCR-software om eerst te converteren naar een tekstgebaseerde PDF |
| URL blocked / 403 | Website blokkeert automatische crawlers | Probeer een andere URL, gebruik een sitemap of upload de pagina-inhoud als bestand |
| URL timeout | Pagina deed er te lang over om te reageren | De site is mogelijk traag — probeer het later opnieuw of upload handmatig |
| Empty content | URL gaf geen leesbare tekst terug | De pagina is mogelijk JavaScript-zwaar (SPA). Upload de inhoud als een bestand |
| Connection error | De URL is onbereikbaar | Controleer of de URL correct is en openbaar toegankelijk |
Om een mislukte taak opnieuw te proberen, klik je op de retry button in de taakregel. Het systeem plaatst deze opnieuw in de wachtrij met dezelfde bron.
Ondersteunde bestandsformaten
| Formaat | Extensie | Notities |
|---|---|---|
.pdf |
Moet selecteerbare tekst bevatten (geen gescande afbeeldingen) | |
| Word | .docx |
Microsoft Word-documenten |
| Plain text | .txt |
Eenvoudige tekstbestanden |
| CSV | .csv |
Komma-gescheiden gegevens — ideaal voor productlijsten en prijzen |
| JSON | .json |
Gestructureerde data — handig voor API-documentatie |
| Markdown | .md |
Technische documentatie en README-bestanden |
| PowerPoint | .pptx |
Tekstinhoud van presentatiedia's |
Prestatietips
- Grote PDF's en sitemaps duren langer — Een PDF van 100 pagina's of een sitemap met meer dan 500 URL's kan enkele minuten duren. Dit is normaal.
- Spreid grote uploads — Het uploaden van 50 bestanden tegelijk creëert een lange wachtrij. Upload in batches van 5–10 voor snellere feedback.
- Verwijder verouderde inhoud — Oude documenten vergroten de indexgrootte en kunnen ervoor zorgen dat de bot irrelevante informatie ophaalt. Verwijder bestanden die je niet meer nodig hebt.
- Controleer na bulk-wijzigingen — Controleer na het uploaden van veel bestanden of het vernieuwen van de knowledge base de Sync Jobs om te bevestigen dat alles succesvol is voltooid voordat u de bot test.
- Gebruik sitemaps voor websites — In plaats van 50 individuele URL's toe te voegen, geef je de
sitemap.xmlvan de site op en laat je het systeem automatisch alle pagina's ontdekken.
FAQ
V: Een taak blijft lange tijd hangen op "Processing".
- Grote bestanden of sitemaps met veel pagina's kunnen legitiem enkele minuten duren. Als een taak langer dan 15 minuten vastloopt, probeer deze dan opnieuw uit te voeren. Als het blijft mislukken, neem dan contact op met je accountmanager.
V: Een URL toont herhaaldelijk "Error".
- De website blokkeert waarschijnlijk automatische crawlers, vereist authenticatie of geeft lege inhoud terug. Probeer: een andere pagina-URL, geef in plaats daarvan een sitemap-URL op, of upload de pagina-inhoud als een bestand.
V: Moet ik sync jobs handmatig starten?
- Nee. Sync jobs worden automatisch aangemaakt wanneer je bestanden uploadt, URL's toevoegt of FAQ's aanmaakt. De Refresh Knowledge Base knop op de Knowledge Base-pagina start een volledige herindexering van alle bronnen.
V: Wat is het verschil tussen een sync job en een re-index?
- Een sync job verwerkt een enkele nieuwe of bijgewerkte bron (één bestand, één URL, één FAQ). Een re-index (geactiveerd door Refresh Knowledge Base) bouwt de volledige vector-index opnieuw op op basis van alle huidige bronnen. Herindexering is nuttig na het verwijderen van inhoud of wanneer je wilt verzkeren dat alles vers is.
V: Zijn sync jobs per bot?
- Ja. De sync jobs van elke bot zijn onafhankelijk. De getoonde taken zijn alleen voor de momenteel geselecteerde bot.

