Sync-Aufträge & Datenstatus
Pfad: /dashboard/jobs · Berechtigung: Modul „Sync Jobs“
Sync-Aufträge (Sync Jobs) verfolgen jede Hintergrundaufgabe, die Ihre Wissensdatenbank aktualisiert – Datei-Uploads, URL-Crawls und FAQ-Indizierung. Nutzen Sie diese Seite, um den Fortschritt zu überwachen, Fehler zu identifizieren und problematische Aufträge erneut zu versuchen.
Wie Sync-Aufträge erstellt werden
Sie müssen Sync-Aufträge nie manuell erstellen. Sie werden automatisch generiert, wenn Sie:
- Eine Datei hochladen unter Wissensdatenbank → Dateien
- Eine URL hinzufügen unter Wissensdatenbank → URLs
- Ein FAQ hinzufügen oder aktualisieren unter Wissensdatenbank → FAQs
- Wissensdatenbank aktualisieren klicken, um eine vollständige Neuindizierung auszulösen
- Eine URL erneut crawlen, um Inhalte von einer geänderten Website zu aktualisieren
Jede Aktion erstellt einen oder mehrere Aufträge, die sofort auf dieser Seite erscheinen.
Spalten der Auftragsliste
| Spalte | Anzeige |
|---|---|
| Typ | Die Art des Auftrags – Datei-Upload, URL-Crawl, FAQ-Synchronisierung oder vollständige Neuindizierung |
| Quelle | Der Dateiname oder die URL, die verarbeitet wird – klicken Sie darauf, um den vollständigen Pfad zu sehen |
| Status | Aktueller Status: Ausstehend, In Verarbeitung, Abgeschlossen oder Fehler (farbcodiert) |
| Dauer | Wie lange der Auftrag von Anfang bis Ende gedauert hat |
| Erstellt | Wann der Auftrag in die Warteschlange gestellt wurde |
| Aktualisiert | Das letzte Mal, dass sich der Status geändert hat |
Erläuterung der Auftragsstati
| Status | Farbe | Bedeutung | Maßnahme |
|---|---|---|---|
| Ausstehend | Grau | In der Warteschlange, wartet auf die Bearbeitung | Nichts – der Vorgang startet automatisch |
| In Verarbeitung | Blau/Bernstein | Text wird extrahiert, Inhalte in Segmente unterteilt (Chunking) und Vektor-Embeddings erstellt | Warten – der Fortschritt läuft |
| Abgeschlossen | Grün | Inhalt wurde vollständig indiziert und ist für den Bot durchsuchbar | Nichts – der Bot kann diesen Inhalt jetzt nutzen |
| Fehler | Rot | Während der Verarbeitung ist ein Fehler aufgetreten | Fehlermeldung lesen, Ursache beheben und erneut versuchen |
Was während der Verarbeitung passiert
Wenn ein Sync-Auftrag ausgeführt wird, führt das System diese Schritte aus:
- Extraktion – Text wird aus der Quelle extrahiert (PDF-Parsing, HTML-Bereinigung, FAQ-Formatierung).
- Chunking – Lange Inhalte werden in kleinere, überlappende Segmente unterteilt, um eine bessere Suchgenauigkeit zu erzielen.
- Embedding – Jeder Chunk wird mithilfe des Embedding-Modells in einen numerischen Vektor umgewandelt.
- Indizierung – Vektoren werden in der Suchmaschine gespeichert, damit der Bot bei Benutzerfragen relevante Segmente abrufen kann.
Dieser gesamte Prozess dauert normalerweise 10–60 Sekunden für eine einzelne Datei und mehrere Minuten für große Sitemaps oder Massen-Uploads.
Häufige Fehlertypen und Lösungen
| Fehler | Wahrscheinliche Ursache | Lösung |
|---|---|---|
| Nicht unterstütztes Format | Dateityp wird nicht erkannt | In PDF, DOCX, TXT, CSV oder Markdown konvertieren und erneut hochladen |
| Passwortgeschützt | PDF oder DOCX ist verschlüsselt | Passwortschutz entfernen und erneut hochladen |
| Nur-Bild-PDF | Gescanntes Dokument ohne auswählbaren Text | OCR-Software verwenden, um es zuerst in ein textbasiertes PDF zu konvertieren |
| URL blockiert / 403 | Website blockiert automatisierte Crawler | Andere URL versuchen, eine Sitemap nutzen oder Seiteninhalt als Datei hochladen |
| URL-Timeout | Seite hat zu lange für eine Antwort gebraucht | Die Seite ist möglicherweise langsam – später erneut versuchen oder Inhalt manuell hochladen |
| Leerer Inhalt | URL lieferte keinen lesbaren Text | Die Seite ist eventuell JavaScript-lastig (SPA). Inhalt stattdessen als Datei hochladen |
| Verbindungsfehler | Die URL ist nicht erreichbar | Prüfen Sie, ob die URL korrekt und öffentlich zugänglich ist |
Um einen fehlgeschlagenen Auftrag zu wiederholen, klicken Sie auf die Schaltfläche Erneut versuchen in der entsprechenden Zeile. Das System stellt ihn mit derselben Quelle erneut in die Warteschlange.
Unterstützte Dateiformate
| Format | Endung | Hinweise |
|---|---|---|
.pdf |
Muss auswählbaren Text enthalten (keine gescannten Bilder) | |
| Word | .docx |
Microsoft Word Dokumente |
| Klartext | .txt |
Einfache Textdateien |
| CSV | .csv |
Kommagetrennte Daten – ideal für Produktlisten und Preise |
| JSON | .json |
Strukturierte Daten – nützlich für API-Dokumentationen |
| Markdown | .md |
Technische Dokumentationen und README-Dateien |
| PowerPoint | .pptx |
Textinhalte aus Präsentationsfolien |
Tipps zur Performance
- Große PDFs und Sitemaps dauern länger – Ein 100-seitiges PDF oder eine Sitemap mit mehr als 500 URLs kann mehrere Minuten in Anspruch nehmen. Das ist normal.
- Massen-Uploads staffeln – Das gleichzeitige Hochladen von 50 Dateien erzeugt eine lange Warteschlange. Laden Sie in Chargen von 5–10 Dateien hoch, um schnelleres Feedback zu erhalten.
- Veraltete Inhalte entfernen – Alte Dokumente vergrößern den Index und können dazu führen, dass der Bot irrelevante Informationen abruft. Löschen Sie Dateien, die Sie nicht mehr benötigen.
- Nach Massenänderungen überwachen – Überprüfen Sie nach dem Hochladen vieler Dateien oder dem Aktualisieren der Wissensdatenbank die Sync-Aufträge, um sicherzustellen, dass alles erfolgreich abgeschlossen wurde, bevor Sie den Bot testen.
- Sitemaps für Websites nutzen – Anstatt 50 einzelne URLs hinzuzufügen, geben Sie die
sitemap.xmlder Website an, damit das System alle Seiten automatisch erkennt.
FAQ
F: Ein Auftrag hängt seit langer Zeit im Status „In Verarbeitung“.
- Große Dateien oder Sitemaps mit vielen Seiten können legitimerweise mehrere Minuten dauern. Wenn ein Auftrag länger als 15 Minuten feststeckt, versuchen Sie, ihn zu wiederholen. Falls er weiterhin fehlschlägt, kontaktieren Sie Ihren Account Manager.
F: Eine URL zeigt wiederholt „Fehler“ an.
- Die Website blockiert wahrscheinlich automatisierte Crawler, erfordert eine Authentifizierung oder liefert leere Inhalte zurück. Versuchen Sie: eine andere Seiten-URL, die Angabe einer Sitemap-URL oder das Hochladen des Seiteninhalts als Datei.
F: Muss ich Sync-Aufträge manuell auslösen?
- Nein. Sync-Aufträge werden automatisch erstellt, wenn Sie Dateien hochladen, URLs hinzufügen oder FAQs erstellen. Die Schaltfläche Wissensdatenbank aktualisieren auf der Wissensdatenbank-Seite löst eine vollständige Neuindizierung aller Quellen aus.
F: Was ist der Unterschied zwischen einem Sync-Auftrag und einer Neuindizierung?
- Ein Sync-Auftrag verarbeitet eine einzelne neue oder aktualisierte Quelle (eine Datei, eine URL, ein FAQ). Eine Neuindizierung (ausgelöst durch „Wissensdatenbank aktualisieren“) baut den gesamten Vektorindex aus allen aktuellen Quellen neu auf. Die Neuindizierung ist nützlich nach dem Löschen von Inhalten oder wenn Sie sicherstellen möchten, dass alles auf dem neuesten Stand ist.
F: Gelten Sync-Aufträge pro Bot?
- Ja. Die Sync-Aufträge jedes Bots sind unabhängig. Die angezeigten Aufträge beziehen sich nur auf den aktuell ausgewählten Bot.

