Перейти к содержанию

Задачи синхронизации и статус данных

Путь: /dashboard/jobs · Разрешение: Модуль «Задачи синхронизации» (Sync Jobs)

Мониторинг задач синхронизации Мониторинг задач синхронизации

Задачи синхронизации (Sync Jobs) отслеживают каждое фоновое задание, которое обновляет вашу базу знаний — загрузку файлов, сканирование URL-адресов и индексацию FAQ. Используйте эту страницу для мониторинга прогресса, выявления ошибок и повторного запуска проблемных задач.


Как создаются задачи синхронизации

Вам никогда не нужно создавать задачи синхронизации вручную. Они генерируются автоматически каждый раз, когда вы:

  • Загружаете файл в разделе База знаний → Файлы
  • Добавляете URL в разделе База знаний → URL-адреса
  • Добавляете или обновляете FAQ в разделе База знаний → FAQ
  • Нажимаете «Обновить базу знаний», чтобы запустить полную переиндексацию
  • Повторно сканируете URL, чтобы обновить контент с изменившегося сайта

Каждое действие создает одну или несколько задач, которые немедленно появляются на этой странице.


Столбцы списка задач

Столбец Что показывает
Тип Вид задачи — загрузка файла, сканирование URL, синхронизация FAQ или полная переиндексация
Источник Имя файла или URL, который обрабатывается — нажмите, чтобы увидеть полный путь
Статус Текущее состояние: В очереди, В обработке, Завершено или Ошибка (с цветовой кодировкой)
Длительность Сколько времени заняло выполнение задачи от начала до конца
Создано Время, когда задача была поставлена в очередь
Обновлено Время последнего изменения статуса

Пояснение статусов задач

Статус Цвет Что это значит Что делать
В очереди (Pending) Серый Задача в очереди, ожидает освободившегося обработчика Ничего — она запустится автоматически
В обработке (Processing) Синий/Янтарный Активное извлечение текста, разбивка на фрагменты и создание векторных эмбеддингов Подождите — процесс идет
Завершено (Completed) Зеленый Контент полностью проиндексирован и доступен для поиска ботом Ничего — бот теперь может использовать этот контент
Ошибка (Error) Красный Что-то пошло не так во время обработки Прочитайте сообщение об ошибке, исправьте причину и попробуйте снова

Что происходит во время обработки

Когда запускается задача синхронизации, система выполняет следующие шаги:

  1. Извлечение (Extraction) — текст извлекается из источника (парсинг PDF, очистка HTML, форматирование FAQ).
  2. Разбивка (Chunking) — объемный контент разбивается на более мелкие сегменты с перекрытием для повышения точности поиска.
  3. Эмбеддинг (Embedding) — каждый фрагмент преобразуется в числовой вектор с использованием модели эмбеддингов.
  4. Индексация (Indexing) — векторы сохраняются в поисковом движке, чтобы бот мог извлекать релевантные фрагменты при ответах на вопросы пользователей.

Весь процесс обычно занимает от 10 до 60 секунд для одного файла и несколько минут для крупных карт сайта или массовых загрузок.


Распространенные типы ошибок и их решение

Ошибка Вероятная причина Исправление
Неподдерживаемый формат Тип файла не распознан Конвертируйте в PDF, DOCX, TXT, CSV или Markdown и загрузите снова
Защищено паролем PDF или DOCX зашифрован Снимите защиту паролем и загрузите файл повторно
PDF только с изображениями Отсканированный документ без выделяемого текста Используйте ПО для распознавания текста (OCR), чтобы создать текстовый PDF
URL заблокирован / 403 Веб-сайт блокирует автоматических краулеров Попробуйте другой URL, используйте карту сайта или загрузите контент страницы как файл
Тайм-аут URL Страница отвечала слишком долго Сайт может работать медленно — попробуйте позже или загрузите контент вручную
Пустой контент URL не вернул читаемого текста Страница может быть перегружена JavaScript (SPA). Загрузите контент как файл
Ошибка соединения URL недоступен Проверьте правильность URL и его доступность в публичном интернете

Чтобы повторить неудавшуюся задачу, нажмите кнопку повтора в строке задачи. Система снова поставит её в очередь с тем же источником.


Поддерживаемые форматы файлов

Формат Расширение Примечания
PDF .pdf Должен содержать выделяемый текст (не сканы)
Word .docx Документы Microsoft Word
Обычный текст .txt Простые текстовые файлы
CSV .csv Данные, разделенные запятыми — отлично подходит для списков товаров и цен
JSON .json Структурированные данные — полезно для документации API
Markdown .md Техническая документация и файлы README
PowerPoint .pptx Текстовый контент из слайдов презентаций

Советы по производительности

  • Большие PDF и карты сайтов обрабатываются дольше — PDF на 100 страниц или карта сайта с 500+ URL могут занять несколько минут. Это нормально.
  • Загружайте файлы порциями — Одновременная загрузка 50 файлов создает длинную очередь. Загружайте их группами по 5–10 штук для более быстрого получения результата.
  • Удаляйте устаревший контент — Старые документы увеличивают размер индекса и могут привести к тому, что бот будет выдавать неактуальную информацию. Удаляйте файлы, которые вам больше не нужны.
  • Проверяйте статус после массовых изменений — После загрузки множества файлов или обновления базы знаний проверьте «Задачи синхронизации», чтобы убедиться, что всё завершилось успешно, прежде чем тестировать бота.
  • Используйте карты сайтов (sitemaps) — Вместо того чтобы добавлять 50 отдельных URL, укажите sitemap.xml сайта, и система автоматически обнаружит все страницы.

FAQ

В: Задача застряла в статусе «В обработке» на долгое время.

  • Обработка больших файлов или карт сайта с множеством страниц действительно может занять несколько минут. Если задача висит более 15 минут, попробуйте запустить её повторно. Если ошибка повторяется, свяжитесь со своим аккаунт-менеджером.

В: URL постоянно выдает «Ошибку».

  • Скорее всего, сайт блокирует автоматических краулеров, требует аутентификации или возвращает пустой контент. Попробуйте: другой URL страницы, использование URL карты сайта или загрузку контента страницы в виде файла.

В: Нужно ли мне запускать задачи синхронизации вручную?

  • Нет. Задачи синхронизации создаются автоматически при загрузке файлов, добавлении URL или создании FAQ. Кнопка «Обновить базу знаний» на странице базы знаний запускает полную переиндексацию всех источников.

В: В чем разница между задачей синхронизации и переиндексацией?

  • Задача синхронизации обрабатывает один новый или обновленный источник (один файл, один URL, один FAQ). Переиндексация (запускается кнопкой «Обновить базу знаний») перестраивает весь векторный индекс на основе всех текущих источников. Переиндексация полезна после удаления контента или когда вы хотите убедиться, что все данные актуальны.

В: Задачи синхронизации привязаны к конкретному боту?

  • Да. Задачи синхронизации для каждого бота независимы. В списке отображаются задачи только для выбранного в данный момент бота.