Aller au contenu

Base de connaissances

Chemin : /dashboard/ (onglet Données) · Permission : Module Base de connaissances

Gestion de la base de connaissances Gestion de la base de connaissances

La base de connaissances est l'endroit où vous entraînez votre assistant IA. Elle définit ce que le bot sait et peut répondre en utilisant vos propres documents, pages web et FAQ organisées. Tout ce que vous téléchargez est indexé dans un moteur de recherche vectoriel afin que le bot puisse effectuer des recherches par sens — et non seulement par mots-clés. C'est le fondement de l'intelligence de votre bot.


Comment fonctionne la recherche vectorielle

Contrairement à la recherche par mots-clés traditionnelle, FRENZY.BOT utilise la recherche sémantique (également appelée recherche vectorielle). Cela signifie que :

  • Un utilisateur demandant "Quel est le tarif ?" correspondra à un document sur les "plans de tarification" — même si les mots exacts diffèrent.
  • Le système comprend le sens, pas seulement les mots-clés.
  • Chaque élément de contenu est converti en une "empreinte numérique" (embedding) qui capture sa signification.
  • Lorsqu'un utilisateur pose une question, le système trouve le contenu le plus sémantiquement similaire et l'envoie au modèle d'IA pour générer la réponse.

C'est pourquoi la qualité du contenu de votre base de connaissances détermine directement la qualité des réponses de votre bot.


Fichiers

Téléchargez des documents internes directement dans la base de connaissances de votre bot.

Formats supportés

Format Idéal pour
PDF Politiques, rapports, fiches produits (utilisez des PDF textuels, pas des images scannées)
DOCX Documents internes, procédures (SOP), guides
TXT Contenu texte brut, logs, notes
CSV Données structurées, tableaux de prix, listes de produits
JSON Documentation API, données de configuration
Markdown Docs techniques, fichiers README
PPTX Présentations avec contenu textuel

Étape par étape : Télécharger un fichier

  1. Allez dans Base de connaissances → Fichiers.
  2. Faites glisser les fichiers dans la zone de téléchargement ou cliquez sur Upload.
  3. Attendez que l'indicateur de statut affiche Live.
  4. Posez une question au bot basée sur ce fichier pour confirmer qu'il a appris le contenu.

Gestion des fichiers

  • Activer/désactiver — Basculez l'état des fichiers individuels sans les supprimer.
  • Aperçu — Visualisez le texte extrait pour vérifier la qualité du contenu.
  • Supprimer — Supprimez les documents obsolètes (cela les retire également de l'index vectoriel).
  • Opérations groupées — Sélectionnez plusieurs fichiers pour des actions en masse.

Taille des fichiers et limites

Limite Valeur
Taille maximale du fichier 50 Mo par fichier
Taille recommandée Moins de 10 Mo pour un traitement plus rapide
Nombre de fichiers Pas de limite stricte — dépend des ressources du serveur
Temps de traitement 10 à 60 secondes par fichier ; les gros PDF peuvent prendre plusieurs minutes

Bonnes pratiques

  • Utilisez des PDF textuels propres. Les PDF d'images scannées sans texte sélectionnable produiront de mauvais résultats. Si vous n'avez que des PDF scannés, passez-les d'abord par un logiciel OCR.
  • Nommez les fichiers de manière descriptive (ex: tarifs_2026.pdf, politique_retour_v3.docx) — cela vous aide à identifier le contenu plus tard.
  • Divisez les documents volumineux en fichiers plus petits pour une indexation plus rapide et une récupération plus précise. Un manuel de 200 pages devrait être divisé en chapitres.
  • Supprimez le contenu obsolète pour éviter que le bot ne donne des réponses périmées. Les anciennes fiches de prix ou les politiques expirées sont des erreurs courantes.
  • Vérifiez le texte extrait — Utilisez la fonction d'aperçu pour vérifier que le système a correctement extrait le texte de votre fichier.

URLs

Enseignez à votre bot directement à partir de pages web publiques. Le système récupère chaque page, supprime la navigation, les menus et les scripts, et n'indexe que le contenu lisible.

Modes URL

  • Page unique — Ajoutez une URL à la fois pour des pages spécifiques.
  • Sitemap — Fournissez l'URL d'un sitemap.xml pour découvrir et importer toutes les pages d'un site web.

Étape par étape : Ajouter une URL

  1. Allez dans Base de connaissances → URLs.
  2. Collez une URL publique (doit être http:// ou https://).
  3. Cliquez sur Ajouter l'URL.
  4. Surveillez le statut : En attente → Traitement → Live.

Gestion du crawl

  • Suivi du statut — Chaque URL affiche son état actuel (Live / Traitement / Erreur).
  • Recrawler — Relancez le crawl lorsque le contenu de votre site web change pour maintenir le bot à jour.
  • Gestion des erreurs — Si une URL échoue, vérifiez si le site bloque les bots ou nécessite une authentification.

Conseils pour les URLs

  • Pages publiques uniquement. Les pages derrière un mur de connexion ne pourront pas être indexées.
  • L'import par sitemap est le moyen le plus rapide pour indexer un site web entier d'un coup.
  • Certains sites bloquent les robots d'indexation. Si une URL affiche une erreur, essayez de fournir le contenu sous forme de fichier.
  • Les sites riches en JavaScript (SPA) peuvent renvoyer un contenu vide. Si une URL ne montre aucun texte après indexation, téléchargez le contenu de la page et importez-le comme fichier.
  • Recrawlez régulièrement si le contenu de votre site change fréquemment — fixez un rappel pour actualiser mensuellement.

Sources de données

Chemin : /dashboard/data-sources

Sources de données Sources de données

La page Sources de données offre une vue d'ensemble de toutes les sources de contenu alimentant votre base de connaissances. Elle affiche :

Colonne Ce qu'elle indique
Source Nom du fichier, URL ou identifiant FAQ
Type Fichier, URL ou FAQ
Status Live (recherchable), Traitement, Erreur ou Désactivé
Size Taille du contenu ou nombre de segments (chunks) indexés
Last Updated Date de la dernière indexation ou du dernier crawl

Synchronisation WordPress

Si votre site web fonctionne sous WordPress, FRENZY.BOT peut synchroniser automatiquement le contenu de votre site :

  1. Allez dans Sources de données ou Base de connaissances → URLs.
  2. Ajoutez l'URL sitemap.xml de votre site WordPress (généralement https://votresite.com/sitemap.xml).
  3. Le système découvre et indexe toutes les pages et articles publiés.
  4. Lorsque vous publiez du nouveau contenu sur WordPress, recrawlez le sitemap pour garder le bot à jour.

Gardez votre bot synchronisé avec votre site web

Après avoir publié de nouveaux articles de blog ou mis à jour des pages produits, cliquez sur Actualiser la base de connaissances pour tout ré-indexer. Cela garantit que le bot dispose toujours de votre dernier contenu.


FAQ (Foire Aux Questions)

Ajoutez des réponses exactes pour vos questions les plus prioritaires. Les FAQ vous donnent un contrôle total sur des réponses spécifiques.

Pourquoi les FAQ sont puissantes

  • Réponses prioritaires — Les réponses FAQ sont prioritaires sur la récupération basée sur les documents pour les questions correspondantes.
  • Indexation instantanée — Les FAQ sont disponibles immédiatement, sans délai de traitement.
  • Contrôle précis — Vous rédigez la réponse exacte que le bot utilisera.
  • Mises à jour faciles — Modifiez ou supprimez des paires Q&R individuelles sans retélécharger de fichiers.

Étape par étape : Ajouter une FAQ

  1. Allez dans Base de connaissances → FAQ.
  2. Cliquez sur Ajouter FAQ.
  3. Entrez la question que vos utilisateurs poseraient.
  4. Entrez votre réponse exacte.
  5. Enregistrez — la FAQ est en ligne immédiatement.
  6. Testez dans le chat pour vérifier.

Quand utiliser les FAQ

Scénario Exemple
Questions de tarif "Combien coûte le plan Pro ?" → Réponse tarifaire exacte
Réponses politiques "Quelle est votre politique de retour ?" → Texte officiel de la politique
Horaires / contact "Quand êtes-vous ouvert ?" → Horaires d'ouverture
Objections courantes "Pourquoi vous choisir plutôt que X ?" → Argumentaire de positionnement
Corrections Le bot se trompe sur un point → La FAQ outrepasse avec la réponse correcte

Actualisation des connaissances

Cliquez sur Actualiser la base de connaissances pour ré-indexer tout le contenu. Cela reconstruit l'index vectoriel à partir de vos fichiers, URLs et FAQ actuels.

Quand actualiser :

  • Après avoir téléchargé ou mis à jour des fichiers
  • Après un changement de contenu sur le site web
  • Après avoir ajouté plusieurs FAQ en masse
  • Après avoir supprimé du contenu obsolète

L'actualisation n'est pas destructive

L'actualisation ne supprime pas votre contenu source. Elle retraite tout pour s'assurer que l'index vectoriel correspond à vos données actuelles.


Isolation des données par bot

Dans une configuration multi-bot, chaque bot possède sa propre collection vectorielle séparée. Cela signifie que :

  • La base de connaissances du Bot A est complètement invisible pour le Bot B.
  • Télécharger un fichier vers un bot n'affecte aucun autre bot.
  • Supprimer un bot supprime toute sa collection vectorielle et tous les fichiers téléchargés.
  • Chaque bot peut avoir un contenu totalement différent, optimisé pour son public spécifique.

FAQ

Q : Un fichier affiche le statut "Erreur".

  • Le fichier peut être corrompu, protégé par un mot de passe ou dans un format non supporté. Essayez de le convertir en PDF ou DOCX et de le télécharger à nouveau.

Q : Les URLs sont bloquées ou affichent un contenu vide.

  • Certains sites web bloquent les robots automatisés. Essayez une URL différente, fournissez un sitemap, ou téléchargez le contenu de la page sous forme de fichier.

Q : Le bot répond incorrectement sur un sujet.

  • Ajoutez une FAQ avec la réponse exacte — les FAQ sont prioritaires. Vérifiez également votre prompt système dans Paramètres → Comportement du modèle pour d'éventuelles instructions contradictoires.

Q : Combien de temps prend l'indexation ?

  • Fichiers : généralement 10-60 secondes selon la taille. Les gros PDF ou les sitemaps avec beaucoup de pages peuvent prendre plusieurs minutes. Surveillez la progression dans les Tâches de synchronisation.

Q : Puis-je indexer du contenu derrière une connexion ?

  • Pas directement. Les pages nécessitant une authentification échoueront. Exportez le contenu et téléchargez-le plutôt sous forme de fichier.