Travaux de synchronisation et état des données
Chemin : /dashboard/jobs · Permission : Module Sync Jobs
Les travaux de synchronisation (Sync Jobs) assurent le suivi de chaque tâche d'arrière-plan qui met à jour votre base de connaissances : téléchargements de fichiers, exploration d'URL et indexation de FAQ. Utilisez cette page pour surveiller la progression, identifier les échecs et relancer les travaux problématiques.
Comment les travaux de synchronisation sont créés
Vous n'avez jamais besoin de créer des travaux de synchronisation manuellement. Ils sont générés automatiquement chaque fois que vous :
- Téléchargez un fichier dans Base de connaissances → Fichiers
- Ajoutez une URL dans Base de connaissances → URLs
- Ajoutez ou mettez à jour une FAQ dans Base de connaissances → FAQs
- Cliquez sur Rafraîchir la base de connaissances pour déclencher une réindexation complète
- Ré-explorez une URL pour mettre à jour le contenu d'un site web qui a changé
Chaque action crée un ou plusieurs travaux qui apparaissent immédiatement sur cette page.
Colonnes de la liste des travaux
| Colonne | Ce qu'elle indique |
|---|---|
| Type | Le type de travail — téléchargement de fichier, exploration d'URL, synchronisation de FAQ ou réindexation complète |
| Source | Le nom du fichier ou l'URL en cours de traitement — cliquez pour voir le chemin complet |
| Statut | État actuel : En attente, En cours, Terminé ou Erreur (code couleur) |
| Durée | Temps total mis par le travail du début à la fin |
| Créé le | Date et heure de mise en file d'attente initiale |
| Mis à jour | Dernière fois que le statut a changé |
Explication des statuts
| Statut | Couleur | Signification | Action à entreprendre |
|---|---|---|---|
| Pending | Gris | En file d'attente, en attente d'un processus libre | Rien — il démarrera automatiquement |
| Processing | Bleu/Ambre | Extraction active du texte, découpage du contenu et création d'incorporations vectorielles (embeddings) | Attendre — la progression est en cours |
| Completed | Vert | Le contenu est entièrement indexé et interrogeable par le bot | Rien — le bot peut désormais utiliser ce contenu |
| Error | Rouge | Une erreur est survenue lors du traitement | Lire le message d'erreur, corriger la cause et réessayer |
Ce qui se passe pendant le traitement
Lorsqu'un travail de synchronisation s'exécute, le système suit ces étapes :
- Extraction — Le texte est extrait de la source (analyse de PDF, nettoyage HTML, formatage FAQ).
- Découpage (Chunking) — Le contenu long est divisé en segments plus petits avec chevauchement pour une meilleure précision de recherche.
- Incorporation (Embedding) — Chaque segment est converti en un vecteur numérique à l'aide du modèle d'incorporation.
- Indexation — Les vecteurs sont stockés dans le moteur de recherche afin que le bot puisse récupérer les segments pertinents lorsque les utilisateurs posent des questions.
Ce processus complet prend généralement entre 10 et 60 secondes pour un seul fichier, et plusieurs minutes pour des sitemaps volumineux ou des téléchargements groupés.
Types d'erreurs courants et solutions
| Erreur | Cause probable | Solution |
|---|---|---|
| Format non supporté | Type de fichier non reconnu | Convertir en PDF, DOCX, TXT, CSV ou Markdown et télécharger à nouveau |
| Protégé par mot de passe | Le PDF ou DOCX est crypté | Supprimer la protection par mot de passe et télécharger à nouveau |
| PDF image uniquement | Document scanné sans texte sélectionnable | Utiliser un logiciel OCR pour convertir en PDF textuel d'abord |
| URL bloquée / 403 | Le site web bloque les robots d'exploration | Essayer une autre URL, utiliser un sitemap ou télécharger le contenu en tant que fichier |
| Délai d'URL dépassé | La page a mis trop de temps à répondre | Le site est peut-être lent — réessayer plus tard ou télécharger le contenu manuellement |
| Contenu vide | L'URL n'a renvoyé aucun texte lisible | La page est peut-être riche en JavaScript (SPA). Télécharger le contenu comme fichier à la place |
| Erreur de connexion | L'URL est inaccessible | Vérifier que l'URL est correcte et accessible publiquement |
Pour réessayer un travail ayant échoué, cliquez sur le bouton de nouvelle tentative sur la ligne du travail. Le système le remettra en file d'attente avec la même source.
Formats de fichiers supportés
| Format | Extension | Notes |
|---|---|---|
.pdf |
Doit contenir du texte sélectionnable (pas d'images scannées) | |
| Word | .docx |
Documents Microsoft Word |
| Texte brut | .txt |
Fichiers texte simples |
| CSV | .csv |
Données séparées par des virgules — idéal pour les listes de produits et tarifs |
| JSON | .json |
Données structurées — utile pour la documentation d'API |
| Markdown | .md |
Documentation technique et fichiers README |
| PowerPoint | .pptx |
Contenu textuel des diapositives de présentation |
Conseils de performance
- Les PDF volumineux et les sitemaps prennent plus de temps — Un PDF de 100 pages ou un sitemap avec plus de 500 URL peut prendre plusieurs minutes. C'est normal.
- Échelonnez les téléchargements massifs — Télécharger 50 fichiers à la fois crée une longue file d'attente. Téléchargez par lots de 5 à 10 pour un suivi plus rapide.
- Supprimez le contenu obsolète — Les anciens documents augmentent la taille de l'index et peuvent amener le bot à récupérer des informations non pertinentes. Supprimez les fichiers dont vous n'avez plus besoin.
- Surveillez après des modifications groupées — Après avoir téléchargé de nombreux fichiers ou rafraîchi la base de connaissances, vérifiez les travaux de synchronisation pour confirmer que tout s'est terminé avec succès avant de tester le bot.
- Utilisez des sitemaps pour les sites web — Au lieu d'ajouter 50 URL individuelles, fournissez le fichier
sitemap.xmldu site et laissez le système découvrir toutes les pages automatiquement.
FAQ
Q : Un travail est bloqué sur "En cours" depuis longtemps.
- Les fichiers volumineux ou les sitemaps contenant de nombreuses pages peuvent légitimement prendre plusieurs minutes. Si un travail est bloqué depuis plus de 15 minutes, essayez de le relancer. S'il continue d'échouer, contactez votre gestionnaire de compte.
Q : Une URL affiche "Erreur" de manière répétée.
- Le site web bloque probablement les robots d'exploration automatisés, nécessite une authentification ou renvoie un contenu vide. Essayez : une autre URL de page, de fournir une URL de sitemap à la place, ou de télécharger le contenu de la page sous forme de fichier.
Q : Dois-je déclencher manuellement les travaux de synchronisation ?
- Non. Les travaux de synchronisation sont créés automatiquement lorsque vous téléchargez des fichiers, ajoutez des URL ou créez des FAQ. Le bouton Rafraîchir la base de connaissances dans la page Base de connaissances déclenche une réindexation complète de toutes les sources.
Q : Quelle est la différence entre un travail de synchronisation et une réindexation ?
- Un travail de synchronisation traite une seule source nouvelle ou mise à jour (un fichier, une URL, une FAQ). Une réindexation (déclenchée par "Rafraîchir la base de connaissances") reconstruit l'intégralité de l'index vectoriel à partir de toutes les sources actuelles. La réindexation est utile après la suppression de contenu ou lorsque vous voulez vous assurer que tout est à jour.
Q : Les travaux de synchronisation sont-ils par bot ?
- Oui. Les travaux de synchronisation de chaque bot sont indépendants. Les travaux affichés concernent uniquement le bot actuellement sélectionné.

