Филолог НИУ ВШЭ — Санкт-Петербург изучила ошибки ИИ при распознавании речи
Заменят ли нейросети профессиональных лингвистов? Какие ошибки допускает ИИ при расшифровке речи? Доцент департамента филологии НИУ ВШЭ — Санкт-Петербург Татьяна Шерстинова провела эксперимент и выяснила, насколько можно доверять большим языковым моделям.

Интерес академического руководителя образовательной программы «Филология» Татьяны Шерстиновой к системам для автоматической транскрипции возник не случайно. Многие годы она работала над созданием корпусов устной русской речи и хорошо знакома с проблемами расшифровки живой речи. Основная сложность — огромные затраты времени: иногда минута записи превращается в час работы. Ускорить процесс помогает искусственный интеллект, но его точность вызывает вопросы.
«В фокусе исследования — изучение распределения основных частей речи в живом разговоре. На первом этапе мы проанализировали лексику всех транскрипций, затем рассмотрели распределение частей речи в выборках. Для статистической представительности результатов исследования необходимы большие данные. Но без автоматических моделей получить их невозможно. Мне как эксперту потребуется полторы рабочих недели, чтобы расшифровать и сделать аннотации к часовому аудио», — поделилась Татьяна Шерстинова.
Материалом для исследования стали 200 записей повседневных разговоров на русском языке. Ученая сравнила результаты «человеческой» транскрипции с результатами акустической модели НТР и языковой моделью Whisper. Принцип их работы различен: первая анализирует содержание звукового сигнала, вторая с помощью искусственного интеллекта пытается подобрать наиболее вероятное слово.
Исследовательница отмечает: обе системы при распознавании речи чаще всего теряют союзы, частицы, междометия, числительные и местоимения-прилагательные. Из-за внешних шумов и помех ИИ не может сделать точную расшифровку. При этом акустическая модель довольно точно воспроизводит то, как слова реально произносятся в спонтанной речи. Иногда эти фонетические искажения довольно неожиданны. Например, слово «мост» может превратиться в «мас», Евпатория — в «епаторию», «азбука» — в «азбух», а «придумал» становится существительным «придума».
«Акустическая модель часто выдает фонетически точные, но орфографически несуществующие формы. Система распознавания речи Whisper, обученная на письменных текстах, нередко подменяет плохо различимые фрагменты литературными аналогами. Из-за этих ошибок в распознавании компьютерные лингвистические программы путают части речи», — рассказала доцент.
Татьяна Шерстинова поясняет: экспертные расшифровки больше автоматических транскрипций по объему. Так, акустическая модель смогла «услышать» около 90 % слов, Whisper — только 77 %.
«Цифровые помощники не могут заменить живого эксперта, но позволяют дать общее представление о глобальных характеристиках речи и анализировать крупные массивы данных, если статистическая частота встречаемости отдельных единиц не является критически важной», — подытожила Татьяна Шерстинова.
В перспективе исследование позволит проанализировать глобальные закономерности повседневной русской речи, синтаксис и морфологию устного разговорного языка, расширить методы корпусной лингвистики и повысить качество распознавания повседневной речи моделями ИИ.
Исследование было представлено в секции «Русская грамматика в цифровом измерении» на IX Международном симпозиуме «Русская грамматика: полипарадигмальность как методологический принцип современных научных исследований». Мероприятие проводилось на базе Института филологии, иностранных языков и медиакоммуникации Иркутского государственного университета.

