Большие файлы
Большие файлы - раздел базы знаний, позволяющий дать боту возможность при формировании ответов использовать информацию из большого массива данных. На текущий момент заложено ограничение на размер файла - 10 Мб. Для документа Word, это более 5000 страницы 12 шрифтом.

Вы можете как загрузить файл со своего ПК, так и подключиться к файлу через аккаунт Google.
Для каких задач?
В отличии от раздела базы знаний Прямые вопросы, который предназначен для максимального точного определения для бота ответа, на поставленный вопрос, раздел Большие файлы, наоборот, позволяет боту передать максимальный объем информации, подходящий под запрос клиента, и бот сам на основании этой полученной информации формирует ответ. Ответы будут более уникальными, непохожими друг на друга. То есть, данный режим работы с базой знаний подходит для случаев когда:
Информации очень много и сформировать из нее "прямы вопросы" либо очень трудозатратно, либо невозможно;
Когда необходимо чтобы бот использовал весь имеющийся набор информации и формировал уникальные, максимально непохоже ответы. То есть, общение было более свободное, и более похожее на общение живого человека;
Когда допускается "свобода" в ответах бота, и нет критичности в точных формулировках ответа.
Принцип работы
В основу принципа работы текущего раздела базы знаний заложены принципы векторного поиска. Более подробно с ним можно ознакомиться в интернете, тут мы отметим только ключевые вещи, которые доступны к настройке и максимально важны для корректной работы.
Коротко и простыми словами порядок работы с базой можно описать следующим образом:
Загружаем документ, система его разбивает на смысловые куски (чанки), запоминает их в специальном формате;
Для модели передается описание функции, в которой говорится, что ей доступен дополнительный источник информации, в который она может передать запрос и получить ответ;
По мере необходимости модель, вызывает функцию работы с базой знаний и передает в нее свой вопрос;
Вопрос преобразуется системой в "специальный" формат, в такой же, в котором хранятся в ней "смысловые куски" (чанки) загруженного документа.
Система по полученному вопросу, производит поиск подходящих чанков. Поиск производит по специальному алгоритму, путем выбора максимально близки по смыслу к заданному вопросу ответов.
Согласно сделанным настройкам ("порог поиска" и "максимальное число подходящих чанков") найденные чанки передаются в модель, которая на их базе формирует ответ клиенту.
Как настроить?
Автоматическая разбивка документа на чанки.
После того, как Вы выбрали документ для загрузки, и нажали Открыть, на экране появится окно с автоматической разбивкой на чанки:

Вы можете:
Выбрать Тип разделения файла при векторном поиске:

Выбрать Размер чанка:

Выбрать Предобработку файла при помощи ИИ:

Если документ не был правильно подготовлен с точки зрения разбивки на заголовки и параграфы внутренняя нейромодель сделает разбивку автоматически.
При данной операции происходит расход токенов модели, поэтому будет списание небольшой суммы с баланса за каждую разбивку.
Вы можете отключить флаг Сгенерировать эмбеддинги:

Генерация эмбеддингов - это обязательный процесс перевода блоков текста (чанков) в векторный формат.
В случае, если этот флаг выключен, генерация эмбеддингов произойдет в любом случае при дальнейшем сохранении файла.
Оставить изображения (ссылками):

Теперь при загрузке больших файлов в разделе База знаний, можно загружать изображения и Савви будет их отправлять вместе с ответом, в виде ссылок или в виде изображений.
Подробно работа этого режима описана в подразделе Оставить изображения (ссылками)
Режим распознавания изображений, как текста:

Режим распознавания изображений как текста позволяет корректно загрузить файл и разбить его на чанки (смысловые блоки текста), в случае, когда файл является сканированной копией или содержит изображения с текстовой информацией.
Специальный механизм распознавания изображений переведет эти изображения в текст.
Выбираем необходимые параметры, нажимаем Продолжить:

Процесс подготовки документа запущен:

После завершения разбивки, Вы увидите название документа на белом фоне.

Документ готов к работе.
Оставить изображения (ссылками)

При формировании эмбеддингов все изображения преобразуются в ссылки, которые бот использует для отправки ссылок на изображения или полноразмерных изображений в чат. При этом бот не видит и не анализирует содержание самих изображений.
Способы добавления изображений:
Полноразмерное изображение в документе:

✅ Если в документе содержатся полноразмерные изображения, то, при загрузке документа в "Большие файлы", эти изображения будут преобразованы в ссылки, которые бот будет использовать для отправки в чат.
При этом, в чат будут всегда отправляться именно полноразмерные изображения. (Т.е. ссылки будут автоматически преобразованы обратно в изображения)
Ссылка на изображение с облачного хранилища (например, гугл-драйв):

❌ Если в документ будет добавлена ссылка на изображение, хранящееся в облачном хранилище, например, Google Drive, то Бот будет использовать эту ссылку для отправки в чат. В этом случае ссылка НЕ БУДЕТ преобразована в изображение. Будет отправлена именно ссылка.
Прямая ссылка на изображение:

✅ Если в документ будет добавлена прямая ссылка на изображение (обязательно заканчивающуюся, например, на .jpg или .jpeg), то Бот сможет отправить это изображение в чат либо как ссылку, либо как полноразмерное изображение.
Правильная разбивка документа
Чтобы бот для работы мог максимально эффективно с одной стороны и максимально правильно с другой стороны использовать загруженные данные, мы должны произвести корректную разбивку документа на смысловые отрезки.
Смысловой отрезок (чанк) - это минимальная "кусок" (или несколько кусков) текста, которые будут подобраны ботом под входящий запрос клиента, с последующей их обработкой и формировании на их основе релевантного ответа клиенту. Тут важна "золотая середина", между избыточно большим чанком, и наоборот очень маленьким, в котором теряется суть и смысл. Важно чтобы чанк полностью передавал заложенную в него мысль, в рамках поставленной перед ботом задачей. То есть, важно, чтобы при формировании чанков не терялся смысл, не рвался контекст. Оптимальной считается разбивка по параграфам. На текущий момент в системе заложены следующие варианты разбивки на чанки:

Важно, перед загрузкой документа, проверить его и корректно разбить на абзацы. В качестве разделителя берется два переноса строки подряд. Поэтому перед загрузкой, документ обязательно надо проанализировать и при необходимости корректно подготовить к разбивке, как с точки зрения смыслов (контекста), так и наличия пропусков между абзацами. Также важно учитывать, что размер одного чанка не может быть более 2048 символов.
После загрузки, документ автоматически разбивается на чанки, согласно выбранному режиму. Корректность разбивки можно проверить используя кнопку "Сформировать/Показать чанки":

Ниже Вы можете проверить содержимое документа:

Для поддержки и интеграторов, доступны более тонкие настройки в разделе Служебное:
Возвращать чанки. Включение этого режима говорит о том, что для формирования ответа бота будут использовать только найденные чанки (куски текста). Если переключатель выключить, то в этом случае для формирования ответа в модель будет передаваться весь документ, чанки которого были найдены согласно полученного запроса клиента. По умолчанию, переключатель включен.
Количество чанков. Поиск чанков происходит согласно заданного порога срабатывания (точности поиска). Поэтому по полученному запросу могут быть найдены несколько чанков (или их большое число), данный параметр определяет максимальное число чанков, которые будут использоваться для формирования ответа. Из общего списка удовлетворяющих результату поиска, берутся самые точные варианты (которые максимально близки к запросу);
Порог срабатывания. Определяет порог поиска. Рекомендуемые значения:
Строгий подбор это 0.7;
Средний подбор 0.5;
Гибкий подбор 0.3.
Значение по умолчанию 0.5.

Обращение к базе знаний через функцию
Важно отметить, что в инструкции, также как и при работе с простыми вопросами, можно обращаться к функции работы с большими файлами. Например: "Get all the information about product using the function search_in_knowledge_base".
Last updated
Was this helpful?