R&D регулярно проводит исследования новых технологий, связанных с продуктами департамента. Одним из перспективных направлений работы является автоматическое реферирование текста.
В ходе работы удалось достичь результатов мирового уровня, которые были приняты с докладом и публикацией в виде статьи на международную научную конференцию по искусственному интеллекту SoICT, которая пройдет во Вьетнаме близ Ханоя в декабре 2019. Исследования, выполненные Татьяной Кувшиновой и Антоном Хританковым, посвящены автоматическому сжатию предложений — технологии, которая позволяет мгновенно делать из длинных предложений короткие, сохраняя смысл.
Сжатие предложения (sentence compression) — задача по удалению части слов, при этом исходное предложение должно остаться правильным с точки зрения языка и сохранить смысл. Раньше для решения этой задачи применялись нейронные сети глубокого обучения. Этот подход позволяет учитывать сложные закономерности внутри структуры текста, но часто после сжатия предложения становились нечитаемыми. Например, из них пропадало подлежащее и прямое дополнение.
Чтобы решить эту проблему, мы решили добавить информацию об устройстве языка в алгоритм сжатия предложений. Теперь на обучение нейронной сети напрямую влияет то, насколько правильным получается сжатое предложение. После месяцев экспериментов удалось добиться результата: сжатые версии предложений стали более правильными, а вместе с тем выросло и общее качество алгоритма.
Например, для английского языка из предложения “Security software maker Palo Alto Networks’s quarterly revenue jumped 49 percent as subscriptions rose, sending its shares up 8 percent in extended trading.” получается предложение “Palo Alto Networks’s quarterly revenue jumped 49 percent sending its shares up 8 percent.”.
Полученное решение в будущем найдет применение в одном из продуктов департамента — сервисе Samuraizer. Уже сейчас разработанные алгоритмы позволяют сократить текст, исключив некоторые предложения целиком. Теперь сокращения будут возможны и в рамках одного предложения.
Симпозиум SoICT проводится с 2010 года и охватывает такие темы, как AI и Big Data аналитика, телеком и сети передачи данных, человеко-машинные интерфейсы, программная инженерия и прикладные вычисления. Труды конференции SoICT 2019 (ISBN: 978-1-4503-7245-9) публикуются в ACM и доступны в ACM Digital Library, проиндексированы DBLP, Elsevier, Scopus и Clarivate Analytics Web of Science (ISI Web of Science).
Я даю согласие на обработку персональных данных в соответствие с требованиями статьи 9 Федерального закона от 27.07.2006 № 152-ФЗ «О персональных данных»