Travaux de synchronisation et état des données

Chemin : /dashboard/jobs · Permission : Module Sync Jobs

Les travaux de synchronisation (Sync Jobs) assurent le suivi de chaque tâche d'arrière-plan qui met à jour votre base de connaissances : téléchargements de fichiers, exploration d'URL et indexation de FAQ. Utilisez cette page pour surveiller la progression, identifier les échecs et relancer les travaux problématiques.

Comment les travaux de synchronisation sont créés

Vous n'avez jamais besoin de créer des travaux de synchronisation manuellement. Ils sont générés automatiquement chaque fois que vous :

Téléchargez un fichier dans Base de connaissances → Fichiers
Ajoutez une URL dans Base de connaissances → URLs
Ajoutez ou mettez à jour une FAQ dans Base de connaissances → FAQs
Cliquez sur Rafraîchir la base de connaissances pour déclencher une réindexation complète
Ré-explorez une URL pour mettre à jour le contenu d'un site web qui a changé

Chaque action crée un ou plusieurs travaux qui apparaissent immédiatement sur cette page.

Colonnes de la liste des travaux

Colonne	Ce qu'elle indique
Type	Le type de travail — téléchargement de fichier, exploration d'URL, synchronisation de FAQ ou réindexation complète
Source	Le nom du fichier ou l'URL en cours de traitement — cliquez pour voir le chemin complet
Statut	État actuel : En attente, En cours, Terminé ou Erreur (code couleur)
Durée	Temps total mis par le travail du début à la fin
Créé le	Date et heure de mise en file d'attente initiale
Mis à jour	Dernière fois que le statut a changé

Explication des statuts

Statut	Couleur	Signification	Action à entreprendre
Pending	Gris	En file d'attente, en attente d'un processus libre	Rien — il démarrera automatiquement
Processing	Bleu/Ambre	Extraction active du texte, découpage du contenu et création d'incorporations vectorielles (embeddings)	Attendre — la progression est en cours
Completed	Vert	Le contenu est entièrement indexé et interrogeable par le bot	Rien — le bot peut désormais utiliser ce contenu
Error	Rouge	Une erreur est survenue lors du traitement	Lire le message d'erreur, corriger la cause et réessayer

Ce qui se passe pendant le traitement

Lorsqu'un travail de synchronisation s'exécute, le système suit ces étapes :

Extraction — Le texte est extrait de la source (analyse de PDF, nettoyage HTML, formatage FAQ).
Découpage (Chunking) — Le contenu long est divisé en segments plus petits avec chevauchement pour une meilleure précision de recherche.
Incorporation (Embedding) — Chaque segment est converti en un vecteur numérique à l'aide du modèle d'incorporation.
Indexation — Les vecteurs sont stockés dans le moteur de recherche afin que le bot puisse récupérer les segments pertinents lorsque les utilisateurs posent des questions.

Ce processus complet prend généralement entre 10 et 60 secondes pour un seul fichier, et plusieurs minutes pour des sitemaps volumineux ou des téléchargements groupés.

Types d'erreurs courants et solutions

Erreur	Cause probable	Solution
Format non supporté	Type de fichier non reconnu	Convertir en PDF, DOCX, TXT, CSV ou Markdown et télécharger à nouveau
Protégé par mot de passe	Le PDF ou DOCX est crypté	Supprimer la protection par mot de passe et télécharger à nouveau
PDF image uniquement	Document scanné sans texte sélectionnable	Utiliser un logiciel OCR pour convertir en PDF textuel d'abord
URL bloquée / 403	Le site web bloque les robots d'exploration	Essayer une autre URL, utiliser un sitemap ou télécharger le contenu en tant que fichier
Délai d'URL dépassé	La page a mis trop de temps à répondre	Le site est peut-être lent — réessayer plus tard ou télécharger le contenu manuellement
Contenu vide	L'URL n'a renvoyé aucun texte lisible	La page est peut-être riche en JavaScript (SPA). Télécharger le contenu comme fichier à la place
Erreur de connexion	L'URL est inaccessible	Vérifier que l'URL est correcte et accessible publiquement

Pour réessayer un travail ayant échoué, cliquez sur le bouton de nouvelle tentative sur la ligne du travail. Le système le remettra en file d'attente avec la même source.

Formats de fichiers supportés

Format	Extension	Notes
PDF	`.pdf`	Doit contenir du texte sélectionnable (pas d'images scannées)
Word	`.docx`	Documents Microsoft Word
Texte brut	`.txt`	Fichiers texte simples
CSV	`.csv`	Données séparées par des virgules — idéal pour les listes de produits et tarifs
JSON	`.json`	Données structurées — utile pour la documentation d'API
Markdown	`.md`	Documentation technique et fichiers README
PowerPoint	`.pptx`	Contenu textuel des diapositives de présentation

Conseils de performance

Les PDF volumineux et les sitemaps prennent plus de temps — Un PDF de 100 pages ou un sitemap avec plus de 500 URL peut prendre plusieurs minutes. C'est normal.
Échelonnez les téléchargements massifs — Télécharger 50 fichiers à la fois crée une longue file d'attente. Téléchargez par lots de 5 à 10 pour un suivi plus rapide.
Supprimez le contenu obsolète — Les anciens documents augmentent la taille de l'index et peuvent amener le bot à récupérer des informations non pertinentes. Supprimez les fichiers dont vous n'avez plus besoin.
Surveillez après des modifications groupées — Après avoir téléchargé de nombreux fichiers ou rafraîchi la base de connaissances, vérifiez les travaux de synchronisation pour confirmer que tout s'est terminé avec succès avant de tester le bot.
Utilisez des sitemaps pour les sites web — Au lieu d'ajouter 50 URL individuelles, fournissez le fichier sitemap.xml du site et laissez le système découvrir toutes les pages automatiquement.

FAQ

Q : Un travail est bloqué sur "En cours" depuis longtemps.

Les fichiers volumineux ou les sitemaps contenant de nombreuses pages peuvent légitimement prendre plusieurs minutes. Si un travail est bloqué depuis plus de 15 minutes, essayez de le relancer. S'il continue d'échouer, contactez votre gestionnaire de compte.

Q : Une URL affiche "Erreur" de manière répétée.

Le site web bloque probablement les robots d'exploration automatisés, nécessite une authentification ou renvoie un contenu vide. Essayez : une autre URL de page, de fournir une URL de sitemap à la place, ou de télécharger le contenu de la page sous forme de fichier.

Q : Dois-je déclencher manuellement les travaux de synchronisation ?

Non. Les travaux de synchronisation sont créés automatiquement lorsque vous téléchargez des fichiers, ajoutez des URL ou créez des FAQ. Le bouton Rafraîchir la base de connaissances dans la page Base de connaissances déclenche une réindexation complète de toutes les sources.

Q : Quelle est la différence entre un travail de synchronisation et une réindexation ?

Un travail de synchronisation traite une seule source nouvelle ou mise à jour (un fichier, une URL, une FAQ). Une réindexation (déclenchée par "Rafraîchir la base de connaissances") reconstruit l'intégralité de l'index vectoriel à partir de toutes les sources actuelles. La réindexation est utile après la suppression de contenu ou lorsque vous voulez vous assurer que tout est à jour.

Q : Les travaux de synchronisation sont-ils par bot ?

Oui. Les travaux de synchronisation de chaque bot sont indépendants. Les travaux affichés concernent uniquement le bot actuellement sélectionné.