Обучаем виртуального библиотекаря с помощью нейронки GigaChat

Продолжаем тестировать нейронные сети, пытаясь научить нашего Виртуального библиотекаря отвечать на вопросы пользователей, помогать им найти релевантную информацию.

Сейчас много говорят про негативный и позитивный сценарии развития нейронных сетей. Для меня данные системы являются лишь инструментом, который можно использовать себе во благо. Уверен, что в течение нескольких лет ажиотаж вокруг нейросетей постепенно спадёт до такой степени, что мы будем относиться к ним как к ещё одному подарку технического прогресса.

Главная прелесть обучения нейросетевых моделей заключается в том, что у вас нет необходимости писать конкретные «правила» для его работы, модель сама научится обобщать свои знания на основе предоставленных данных.

Прошлый пост был посвящен экспериментам с нейронной сетью YandexGPT, сейчас же продолжаем работу с нейронной сетью от Сбера под названием GigaChat.

Обученная нейросеть умеет обращать внимание на определённые части входного текста, которые она считает более важными в каждый момент генерации.

База знаний Виртуального библиотекаря на входе

Нейронная сеть сама выбирает ответ из данных, которые были представлены в рамках данных о времени работы филиалов библиотеки.

Генерация ответа нейронной сети на выходе в Telegram

У нейросети GigaChat довольно приличный по объёму контекст беседы. Нейросеть способна охватывать до 8 тысяч токенов (понятных ей единиц текста – слов или символов, а это примерно 12-16 листов печатного текста формата A4). Такой размер контекста означает, что в его рамках GigaChat ориентируется в поднятой теме или поставленной задаче, не требуя заново начинать с ним диалог.

Беседа с Виртуальным библиотекарем

В целом всё общение с GigaChat строится в форме диалога, поэтому пользователь всегда может задать ему дополнительный вопрос, если не хватает данных или он чего-то не понял в предоставленной информации.

Продолжение диалога с ботом

GigaChat – это сервис, в функционале которого представлены разнообразные опции: он взаимодействует с пользователем в формате диалога, умеет писать код, создавать тексты и картинки по запросу. Многозадачность нейросети предполагает несколько отдельных областей, в которых она вполне применима как специально разработанный инструмент.

Плюс данной нейронной сети еще и в том, что GigaChat поддерживает два языка: русский и английский. Можно спросить его на английском, он ответит вам как на русском, так и английском языках.

Пример диалога с Виртуальным библиотекарем

Если вкратце, то процесс обучения Виртуального библиотекаря состоит из подготовки данных, обучения основной модели. Данные эти должны представлять собой огромный массив текстов с самыми разнообразными знаниями.

Нашей задачей является научить нейронку понимать человеческий язык и выполнять просьбы пользователей, как если бы мы просили об этом человека.

Пример ответа 7 летнему ребенку

Чтобы подготовить сценарий для Виртуального библиотекаря в GigaChat проще всего выбрать Graph – это проект для разработки чат-бота в визуальном конструкторе. Здесь можно создать проект самостоятельно и разработать сценарную логику, а также выбрать шаблон с готовым примером сценария.

Удобство заключается в том, что можно создать чат-бот даже без погружения в программирование и долгой предварительной подготовки. Для этого воспользуйтесь визардом создания проекта по шаблону бот-консультант GigaChat.

При использовании бота-консультанта GigaChat создаётся простой шаблон сценария, в котором выполняется запрос в GigaChat для генерации ответа. Ответ чат-бота будет генерироваться на основании информации, предоставленной разработчиком чат-бота.

Можно создать и настроить чат-бота, просто описав его на естественном языке.

Сценарий Виртуального библиотекаря

Данные для обучения могут быть в формате PDF объемом до 300 тысяч cлов и включать в себя: информацию по библиотечным продуктам и услугам, часто задаваемые вопросы (FAQ), презентации и другие.

На базе загруженной информации формируется уникальная «база данных», позволяющая ускорить процесс создания персонализированного бота, способного обрабатывать до 85% обращений пользователей. Технология RAG позволяет находить релевантный запросу пользователя фрагмент в загруженных документах, а бот уточняет запрос и адаптирует информацию из базы в удобный для восприятия формат.

GigaChat в ходе выполнения сценария классифицирует вопрос и представляет ответ на основании имеющихся документов.

Ответы, построенные на основе базы знаний

Выглядит довольно органично, такой сценарий активно используется, когда необходимо обработать большое количество диалогов.

Еще один вариант ответа Виртуального консультанта

При обращении в поддержку библиотеки, используя нашего Виртуального библиотекаря, в GigaChat можно попросить вести его определённым образом.

Пример диалога

В зависимости от объема документов и сложности вопроса время ответа может составлять 3 секунды и более.

Ответы на актуальные вопросы

Для тестирования сценария с учетом базы знаний по документам учитывается выставленный приоритет базы знаний по документам. Найденные ответы из базы знаний по документам срабатывают в первую очередь, при этом если в документах не найдено ничего подходящего, должны проверяться варианты по интентам, примерам и паттернам.

Продолжаем тестировать и обучать модель. 

Впереди много интересного!