29.06.2022

Amazon опубликовал набор данных для понимания речи на 51 языке

Компания Amazon опубликовала под лицензией CC BY 4.0 набор данных «MASSIVE» (Multilingual Amazon SLURP for Slot Filling, Intent Classification, and Virtual-assistant Evaluation), модели для систем машинного обучения и инструментарий для тренировки собственных моделей, которые можно использовать для понимания информации на естественном языке (NLU, Natural Language Understanding). Набор включает более миллиона аннотированных и классифицированных текстовых высказываний, подготовленных для 51 языка.

Одной из целей создания и публикации набора является адаптация голосовых помощников, таких как Alexa, для обработки информации сразу на различных языках, а также стимулирование сторонних разработчиков к созданию приложений и сервисов, расширяющих возможности голосовых помощников. Чтобы привлечь внимание разработчиков Amazon учредил конкурс по созданию лучшей универсальной модели, использующей опубликованный набор данных.

В настоящее время голосовые помощники поддерживают лишь несколько языков и применяет модели машинного обучения, привязанные к конкретному языку. Проект MASSIVE нацелен на устранение этого недостатка путём создания универсальных моделей и систем машинного обучения, способных разбирать и обрабатывать информацию сразу на нескольких языках.

В качестве эталона для построения набора MASSIVE была использована коллекция SLURP, изначально доступная для английского языка, которая была локализована на 50 других языков с привлечением профессиональных переводчиков. Применяемая в голосом помощнике Alexa технология понимания информации на естественном языке (NLU) вначале преобразует речь в текст, после чего применяет к тексту несколько NLU-моделей, анализирующих наличие ключевых слов для определения сути заданного пользователем вопроса.

Источник.