Время идет быстро, а информация ищется медленно
По данным исследования IDC, офисные сотрудники, работающие с информацией, тратят до 16,5 часов в неделю на сбор данных, их анализ и поиск документов. При этом только в 56% случаев им вообще удается найти то, что искали. Такие проблемы актуальны для крупных и средних компаний, в которых есть большие информационные фонды, порталы, системы обучения. 72% опрошенных заявили, что найти нужные сведения на корпоративных ресурсах гораздо сложнее, чем в интернете.
Часто бывают ситуации, когда сотрудник не может продолжить работу, не проверив какой-то факт или не найдя нужной документации. Поиски могут затянуться на долгие часы, из-за чего рабочие задачи будут выполняться очень медленно. Специалисты Softline задались целью исправить ситуацию и создать систему, которая будет отвечать людям также быстро и информативно, как осведомленный человек. Используя технологию глубокого обучения, основанную на обработке текстовых массивов данных, команда Data Scientist Softline разработала прототип вопросно-ответной системы, которая повышает скорость и качество поиска информации до мгновенных и точных ответов.
Чем интеллектуальный поиск отличается от обычного?
Стандартные поисковики, проводя текстовый поиск по базам организации, ориентируются на совпадение ключевых слов. При этом язык пользователя, который задает вопрос, и письменные формулировки документации могут в корне различаться. Человек и информационные фонды разговаривают разными словами и не могут понять друг друга, а интеллектуально обученная вопросно-ответная система обеспечивает ясный диалог между ними.
Как работает вопросно-ответная система
Помимо того, что система находит релевантные запросу материалы, ее ценность в том, что в отобранных документах она выделяет еще и конкретные абзацы, которые содержат суть ответа на вопрос. Это особенно удобно, когда дело касается сложных и объемных регламентов, технической документации и т.п. Человеку требуется много времени и сил, чтобы просмотреть их и разобраться в содержании, а система сразу подсвечивает нужный фрагмент текста.
На вопрос «Где заявитель проводит испытания образцов зерна?» система находит два документа с одинаковым ответом – «В аккредитованной испытательной лаборатории». Помимо этого, она ранжирует результаты по уровню точности, который измеряется в процентах (Score). Чем больше Score, тем выше точность информации. В этом случае в качестве основного ответа система выводит абзац со Score 100%, так как в нем идет речь конкретно о зерне, в то время как в альтернативном абзаце – об образцах пищевой продукции. Система оценивает контекст и выдает рейтинг правильных ответов.
В этом примере система ищет ответ на вопрос «В какие сроки нужно заменить сломанную лампу светофора?» и находит – «Замену выведенных из строя источников света дорожного светофора следует осуществить в сроки, установленные в международных и региональных стандартах». Интересно, что слово «лампы» вообще не встречается в этом абзаце, но система понимает, что это то же самое, что источники света. Обычный поисковик, скорее всего, этот момент бы упустил.
Применение на практике
Самый очевидный путь – это разработка интеллектуального поисковика для информационных систем организаций. Веб-сервис, который будет быстро находить нужные сведения, понимая естественный язык сотрудников и улучшать производительность труда. Это применимо как среди офисных сотрудников, так и для продавцов в магазинах, которые смогут быстро подсказывать людям ответы даже на неочевидные и сложные вопросы.
Второй вариант – это расширение возможностей виртуальных помощников. Можно помочь чат-ботам обрабатывать еще больше запросов без участия человека, чем привычные 30-40%. Те вопросы, на которые чат-бот не может с ходу найти ответы, можно отправлять на вторую линию – в вопросно-ответную систему. Она сможет, просканировав все документы, выдать точный ответ. Такая практика позволит увеличить эффективность этих платформ.
Персональная настройка
Каждая организация имеет свою специфику – у всех разные области деятельности, наборы документации, информационные системы и т.д. Поэтому, чтобы интеллектуальный поиск работал на массиве данных клиента, требуется персональная настройка. Модель глубокого обучения сама по себе обучена на очень большом корпусе данных, но, чтобы она узнала тонкости и нюансы, присущие конкретному направлению бизнеса, ее необходимо дообучить на материалах, которые отражают специфику компании или подразделения. Специалисты Softline проводят такие работы, «затачивая» систему под конкретных клиентов.
Также необходимо организовывать процедуры по обработке новых документов. Когда они только появляются, система о них еще не знает и соответственно не сможет учесть их при поиске ответов. Чтобы поддерживать полноту баз данных, источники знаний нужно вовремя добавлять.
О ресурсах
Для реализации такой системы используются тяжелые модели сетевого типа, которые сами по себе «весят» несколько ГБ. Разместить их в оперативной памяти – это не быстрый процесс, а обработка массива документов при каждом запросе – это большая нагрузка. Чтобы добиться высокой скорости отклика, необходимо использовать довольно мощное специализированное железо.
Однако систему можно разделить на уровни. Первый уровень, быстрое составление списка совпадений, похожих по контексту, реализуется достаточно просто. А вот второй уровень, на котором происходит поиск ответов в документах, задействует глубокую модель обучения и требует мощных ресурсов. Таким образом, при грамотном подходе, можно создать систему, используя имеющиеся в организации ресурсы.
Прототипы
Сейчас эти решения существуют в виде прототипов, которые планируется пилотировать в различных направлениях. Команда Softline ищет возможности сделать систему максимально полезной и удобной для пользователей.
«Мы считаем данную систему перспективной разработкой, так как она может быть применима во многих сферах экономики и государственного сектора, имеет потенциал развития и на международном рынке. Сейчас мы тестируем ещё одну нейросетевую модель способную самостоятельно генерировать обучающий набор данных по текстовым документам. Она анализирует фрагмент текста и выдает сгенерированный список из вопросов и ответов по его содержанию. Данный алгоритм призван ускорить процесс персональной настройки системы, за счет создания набора данных для дообучения нейронной сети на документах заказчика. Также алгоритм генерации вопросов и ответов может быть использован для расширения базы часто задаваемых вопросов», – Максим Милков, технический директор, Lead data Scientist Softline.