Aller au contenu

Travaux de synchronisation et état des données

Chemin : /dashboard/jobs · Permission : Module Sync Jobs

Suivi des travaux de synchronisation Suivi des travaux de synchronisation

Les travaux de synchronisation (Sync Jobs) assurent le suivi de chaque tâche d'arrière-plan qui met à jour votre base de connaissances : téléchargements de fichiers, exploration d'URL et indexation de FAQ. Utilisez cette page pour surveiller la progression, identifier les échecs et relancer les travaux problématiques.


Comment les travaux de synchronisation sont créés

Vous n'avez jamais besoin de créer des travaux de synchronisation manuellement. Ils sont générés automatiquement chaque fois que vous :

  • Téléchargez un fichier dans Base de connaissances → Fichiers
  • Ajoutez une URL dans Base de connaissances → URLs
  • Ajoutez ou mettez à jour une FAQ dans Base de connaissances → FAQs
  • Cliquez sur Rafraîchir la base de connaissances pour déclencher une réindexation complète
  • Ré-explorez une URL pour mettre à jour le contenu d'un site web qui a changé

Chaque action crée un ou plusieurs travaux qui apparaissent immédiatement sur cette page.


Colonnes de la liste des travaux

Colonne Ce qu'elle indique
Type Le type de travail — téléchargement de fichier, exploration d'URL, synchronisation de FAQ ou réindexation complète
Source Le nom du fichier ou l'URL en cours de traitement — cliquez pour voir le chemin complet
Statut État actuel : En attente, En cours, Terminé ou Erreur (code couleur)
Durée Temps total mis par le travail du début à la fin
Créé le Date et heure de mise en file d'attente initiale
Mis à jour Dernière fois que le statut a changé

Explication des statuts

Statut Couleur Signification Action à entreprendre
Pending Gris En file d'attente, en attente d'un processus libre Rien — il démarrera automatiquement
Processing Bleu/Ambre Extraction active du texte, découpage du contenu et création d'incorporations vectorielles (embeddings) Attendre — la progression est en cours
Completed Vert Le contenu est entièrement indexé et interrogeable par le bot Rien — le bot peut désormais utiliser ce contenu
Error Rouge Une erreur est survenue lors du traitement Lire le message d'erreur, corriger la cause et réessayer

Ce qui se passe pendant le traitement

Lorsqu'un travail de synchronisation s'exécute, le système suit ces étapes :

  1. Extraction — Le texte est extrait de la source (analyse de PDF, nettoyage HTML, formatage FAQ).
  2. Découpage (Chunking) — Le contenu long est divisé en segments plus petits avec chevauchement pour une meilleure précision de recherche.
  3. Incorporation (Embedding) — Chaque segment est converti en un vecteur numérique à l'aide du modèle d'incorporation.
  4. Indexation — Les vecteurs sont stockés dans le moteur de recherche afin que le bot puisse récupérer les segments pertinents lorsque les utilisateurs posent des questions.

Ce processus complet prend généralement entre 10 et 60 secondes pour un seul fichier, et plusieurs minutes pour des sitemaps volumineux ou des téléchargements groupés.


Types d'erreurs courants et solutions

Erreur Cause probable Solution
Format non supporté Type de fichier non reconnu Convertir en PDF, DOCX, TXT, CSV ou Markdown et télécharger à nouveau
Protégé par mot de passe Le PDF ou DOCX est crypté Supprimer la protection par mot de passe et télécharger à nouveau
PDF image uniquement Document scanné sans texte sélectionnable Utiliser un logiciel OCR pour convertir en PDF textuel d'abord
URL bloquée / 403 Le site web bloque les robots d'exploration Essayer une autre URL, utiliser un sitemap ou télécharger le contenu en tant que fichier
Délai d'URL dépassé La page a mis trop de temps à répondre Le site est peut-être lent — réessayer plus tard ou télécharger le contenu manuellement
Contenu vide L'URL n'a renvoyé aucun texte lisible La page est peut-être riche en JavaScript (SPA). Télécharger le contenu comme fichier à la place
Erreur de connexion L'URL est inaccessible Vérifier que l'URL est correcte et accessible publiquement

Pour réessayer un travail ayant échoué, cliquez sur le bouton de nouvelle tentative sur la ligne du travail. Le système le remettra en file d'attente avec la même source.


Formats de fichiers supportés

Format Extension Notes
PDF .pdf Doit contenir du texte sélectionnable (pas d'images scannées)
Word .docx Documents Microsoft Word
Texte brut .txt Fichiers texte simples
CSV .csv Données séparées par des virgules — idéal pour les listes de produits et tarifs
JSON .json Données structurées — utile pour la documentation d'API
Markdown .md Documentation technique et fichiers README
PowerPoint .pptx Contenu textuel des diapositives de présentation

Conseils de performance

  • Les PDF volumineux et les sitemaps prennent plus de temps — Un PDF de 100 pages ou un sitemap avec plus de 500 URL peut prendre plusieurs minutes. C'est normal.
  • Échelonnez les téléchargements massifs — Télécharger 50 fichiers à la fois crée une longue file d'attente. Téléchargez par lots de 5 à 10 pour un suivi plus rapide.
  • Supprimez le contenu obsolète — Les anciens documents augmentent la taille de l'index et peuvent amener le bot à récupérer des informations non pertinentes. Supprimez les fichiers dont vous n'avez plus besoin.
  • Surveillez après des modifications groupées — Après avoir téléchargé de nombreux fichiers ou rafraîchi la base de connaissances, vérifiez les travaux de synchronisation pour confirmer que tout s'est terminé avec succès avant de tester le bot.
  • Utilisez des sitemaps pour les sites web — Au lieu d'ajouter 50 URL individuelles, fournissez le fichier sitemap.xml du site et laissez le système découvrir toutes les pages automatiquement.

FAQ

Q : Un travail est bloqué sur "En cours" depuis longtemps.

  • Les fichiers volumineux ou les sitemaps contenant de nombreuses pages peuvent légitimement prendre plusieurs minutes. Si un travail est bloqué depuis plus de 15 minutes, essayez de le relancer. S'il continue d'échouer, contactez votre gestionnaire de compte.

Q : Une URL affiche "Erreur" de manière répétée.

  • Le site web bloque probablement les robots d'exploration automatisés, nécessite une authentification ou renvoie un contenu vide. Essayez : une autre URL de page, de fournir une URL de sitemap à la place, ou de télécharger le contenu de la page sous forme de fichier.

Q : Dois-je déclencher manuellement les travaux de synchronisation ?

  • Non. Les travaux de synchronisation sont créés automatiquement lorsque vous téléchargez des fichiers, ajoutez des URL ou créez des FAQ. Le bouton Rafraîchir la base de connaissances dans la page Base de connaissances déclenche une réindexation complète de toutes les sources.

Q : Quelle est la différence entre un travail de synchronisation et une réindexation ?

  • Un travail de synchronisation traite une seule source nouvelle ou mise à jour (un fichier, une URL, une FAQ). Une réindexation (déclenchée par "Rafraîchir la base de connaissances") reconstruit l'intégralité de l'index vectoriel à partir de toutes les sources actuelles. La réindexation est utile après la suppression de contenu ou lorsque vous voulez vous assurer que tout est à jour.

Q : Les travaux de synchronisation sont-ils par bot ?

  • Oui. Les travaux de synchronisation de chaque bot sont indépendants. Les travaux affichés concernent uniquement le bot actuellement sélectionné.