Продолжаем тестировать нейронные сети, пытаясь научить нашего Виртуального библиотекаря отвечать на вопросы пользователей, помогать им найти релевантную информацию.
Сейчас много говорят про негативный и позитивный сценарии развития нейронных сетей. Для меня данные системы являются лишь инструментом, который можно использовать себе во благо. Уверен, что в течение нескольких лет ажиотаж вокруг нейросетей постепенно спадёт до такой степени, что мы будем относиться к ним как к ещё одному подарку технического прогресса.
Главная прелесть обучения нейросетевых моделей заключается в том, что у вас нет необходимости писать конкретные «правила» для его работы, модель сама научится обобщать свои знания на основе предоставленных данных.
Прошлый пост был посвящен экспериментам с нейронной сетью YandexGPT, сейчас же продолжаем работу с нейронной сетью от Сбера под названием GigaChat.
Обученная нейросеть умеет обращать внимание на определённые части входного текста, которые она считает более важными в каждый момент генерации.
Нейронная сеть сама выбирает ответ из данных, которые были представлены в рамках данных о времени работы филиалов библиотеки.
У нейросети GigaChat довольно приличный по объёму контекст беседы. Нейросеть способна охватывать до 8 тысяч токенов (понятных ей единиц текста – слов или символов, а это примерно 12-16 листов печатного текста формата A4). Такой размер контекста означает, что в его рамках GigaChat ориентируется в поднятой теме или поставленной задаче, не требуя заново начинать с ним диалог.
В целом всё общение с GigaChat строится в форме диалога, поэтому пользователь всегда может задать ему дополнительный вопрос, если не хватает данных или он чего-то не понял в предоставленной информации.
GigaChat – это сервис, в функционале которого представлены разнообразные опции: он взаимодействует с пользователем в формате диалога, умеет писать код, создавать тексты и картинки по запросу. Многозадачность нейросети предполагает несколько отдельных областей, в которых она вполне применима как специально разработанный инструмент.
Плюс данной нейронной сети еще и в том, что GigaChat поддерживает два языка: русский и английский. Можно спросить его на английском, он ответит вам как на русском, так и английском языках.
Если вкратце, то процесс обучения Виртуального библиотекаря состоит из подготовки данных, обучения основной модели. Данные эти должны представлять собой огромный массив текстов с самыми разнообразными знаниями.
Нашей задачей является научить нейронку понимать человеческий язык и выполнять просьбы пользователей, как если бы мы просили об этом человека.
Чтобы подготовить сценарий для Виртуального библиотекаря в GigaChat проще всего выбрать Graph – это проект для разработки чат-бота в визуальном конструкторе. Здесь можно создать проект самостоятельно и разработать сценарную логику, а также выбрать шаблон с готовым примером сценария.
Удобство заключается в том, что можно создать чат-бот даже без погружения в программирование и долгой предварительной подготовки. Для этого воспользуйтесь визардом создания проекта по шаблону бот-консультант GigaChat.
При использовании бота-консультанта GigaChat создаётся простой шаблон сценария, в котором выполняется запрос в GigaChat для генерации ответа. Ответ чат-бота будет генерироваться на основании информации, предоставленной разработчиком чат-бота.
Можно создать и настроить чат-бота, просто описав его на естественном языке.
Данные для обучения могут быть в формате PDF объемом до 300 тысяч cлов и включать в себя: информацию по библиотечным продуктам и услугам, часто задаваемые вопросы (FAQ), презентации и другие.
На базе загруженной информации формируется уникальная «база данных», позволяющая ускорить процесс создания персонализированного бота, способного обрабатывать до 85% обращений пользователей. Технология RAG позволяет находить релевантный запросу пользователя фрагмент в загруженных документах, а бот уточняет запрос и адаптирует информацию из базы в удобный для восприятия формат.
GigaChat в ходе выполнения сценария классифицирует вопрос и представляет ответ на основании имеющихся документов.
Выглядит довольно органично, такой сценарий активно используется, когда необходимо обработать большое количество диалогов.
При обращении в поддержку библиотеки, используя нашего Виртуального библиотекаря, в GigaChat можно попросить вести его определённым образом.
В зависимости от объема документов и сложности вопроса время ответа может составлять 3 секунды и более.
Для тестирования сценария с учетом базы знаний по документам учитывается выставленный приоритет базы знаний по документам. Найденные ответы из базы знаний по документам срабатывают в первую очередь, при этом если в документах не найдено ничего подходящего, должны проверяться варианты по интентам, примерам и паттернам.
Продолжаем тестировать и обучать модель.
Впереди много интересного!