30.06.2022

Обновление голосовых данных Mozilla Common Voice 8.0

Компания Mozilla представила обновление наборов голосовых данных Common Voice, включающих примеры произношения около 200 тысяч людей. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился на 30% — с 13.9 до 18.2 тысяч часов речи. Число поддерживаемых языков возросло с 67 до 87.

Набор для русского языка охватывает 2452 участника и 193 часа речевого материала (было 2136 участников и 173 часов), для белорусского языка — 6160 участников и 987 часов (было — 3831 участник и 356 часов), для украинского языка — 684 участника и 76 часов (было 615 участников и 66 часов). В подготовке материалов на английском языке приняли участие более 79 тысяч человек, надиктовавших 2886 часов подтверждённой речи (было 75 тысяч участников и 2637 часов).

Напомним, что проект Common Voice нацелен на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах. По мнению автора библиотеки распознавания слитной речи Vosk недостатками набора Common Voice является однобокость голосового материала (преобладание людей мужского пола 20-30 лет, и недостаток материала с голосом женщин, детей и пожилых людей), отсутствие вариативности словаря (повторение одних и тех же фраз) и распространение записей во вносящем искажения формате MP3.

Дополнительно можно отметить выпуск инструментария NVIDIA NeMo 1.6, предоставляющего методы машинного обучения для создания систем распознавания речи, синтеза речи и обработки информации на естественном языке. В состав NeMo входят готовые натренированные модели для систем машинного обучения на базе фреймворка PyTorch, подготовленные компанией NVIDIA с использованием речевых данных Common Voice и охватывающие различные языки, акценты и формы речи. Модели могут оказаться полезными для исследователей, занимающихся созданием голосовых диалоговых систем, платформ для транскрипции и автоматизированных колл-центров. Например, NVIDIA NeMo применяется в автоматизированных голосовых сервисах МТС и Сбербанка. Код NeMo написан на языке Python с использованием PyTorch и распространяется под лицензией Apache 2.0.

Источник.