• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

От тайны публичной речи к Пелевину против афазии: студенты первого курса — о своих проектах


Неделю назад студентки первого курса Маргарита Соловьёва, Елизавета Куликова, Полина Колмогорова выступили Всероссийском онлайн-форуме «Диалогическая речь: Семантика и прагматика». Специально для тех, кто там не был они рассказали о своих проектах и о том, как это — упрощать тексты для тех кто столкнулся с афазией, искать тайные элементы отличных публичных выступлений и заниматься распознаванием речи.

«Сейчас для людей с афазией есть упрощённый Пришвин, но что, если они хотят читать Пелевина?»

«Сейчас для людей с афазией есть упрощённый Пришвин, но что, если они хотят читать Пелевина?»

Маргарита Соловьёва

студентка первого курса ЯТБиО

Я создаю модель, которая упрощала бы тексты так, чтобы их могли воспринимать люди с афазией. Это речевое расстройство, которое иногда появляется при поражении мозга, например, при инсультах или из-за черепно-мозговой травмы. Интеллектуальные способности при этом не страдают, но поражаются зоны мозга, которые отвечают за речь: люди не понимают смысла некоторых слов, им сложно воспринимать письмо. При реабилитации пациентам часто дают читать тексты, но такие материалы должны быть адаптированы: упрощены. Я хочу создать программу, которая будет делать это автоматически по критериям.

Например, в текстах не должно быть сложносочинëнных предложений и длинных слов. Идеал — когда слогов не больше двух, и тут выручают синонимы. Хотя заменить на них не всё и не всегда возможно — например, для «молока» нет аналогов. Также я стараюсь использовать слова с высокой представимостью — то есть такие, которые нам легче всего вообразить и соотнести с мысленной картинкой. Например, слово «рука» — это слово с большей представимостью, чем «конечность».

За проект я решила взяться, потому что руководитель нашей программы, Анастасия Владимировна Колмогорова, сотрудничает с Отделением нейрореабилитации Федерального Сибирского Научно-клинического центра ФМБА и общается со специалистами, которые занимаются составлением программ для пациентов. Меня радует, что результаты можно будет апробировать, а если проект будет успешным, программа действительно сможет помочь врачам составлять индивидуальные программы для пациентов. Как показывает статистика, это на 10 - 20% эффективнее, чем задания без персонализации. Сейчас есть уже упрощённый Пришвин, но что, если люди хотят читать Пелевина?

Для работы решили взять модель t5 — это text-to-text трансформер обученный на параллельном корпусе обычных, нормативных текстов, и упрощенных по критериям. В нашем случае упрощение будет поэтапным, и для того, чтобы всё сработало нам нужен особый корпус. Разметкой по критериям занимаюсь я и ребята-бакалавры. Там тексты из газет, отрывки художественной литературы — обычные и уже упрощённые, рецепты, статьи из популярных журналов.

«Думаю, то, “как” мы говорим, не менее важно, чем “что именно”»

«Думаю, то, “как” мы говорим, не менее важно, чем “что именно”»

Елизавета Куликова

студентка первого курса ЯТБиО

Я создаю инструмент для оценки успешности публичных выступлений на основе автоматического анализа просодической стороны речи. Такой тренажер-оценщик для развития public speaking skills. Мне кажется, что то, «как» мы говорим, не менее важно, чем «что именно», особенно если это касается выступлений на публике.

Сейчас мне интересно найти тот набор акустических характеристик речи, который бы позволил определить, насколько привлекательна для слушателей речь говорящего, какие выступления можно условно назвать «успешными», а какие попадают в категорию «надо ещё поработать».

Значение точно играют средняя частота основного тона — её мы называем «ЧОТ», стандартное отклонение «ЧОТ», коэффициент изменчивости интонации, скорость речи и артикуляции. Для нашей задачи нужно обрабатывать достаточно большой объем длинных аудиозаписей и из-за того, что многие традиционные инструменты, типа программы PRAAT для работы со звуком, для этого не подходят, ищем решения на Python. Для извлечения акустических характеристик речи я тестирую библиотеку Parselmouth и пробую оценить скорость речи, детектируя слоги без использования ручной разметки или speech-to-text.

Корпус собираю из записей Zoom-созвонов нашей группы, во время которых мы что-то презентовали, выступали с докладами и участвовали в конференциях.

В будущем планирую внедриться на пары к бакалаврам и магистрам, записать их защиты дипломов. Задумка состоит в том, что все записи из корпуса будут оценены информантами по опроснику, а после на его основе мы попробуем обучить модель, чтобы посмотреть, есть ли вообще зависимости между субъективной оценкой — «это было приятно слушать» — и тем набором параметров, которые мы извлечем.

«Каждая модель распознавания речи сталкивается со своими трудностями»

«Каждая модель распознавания речи сталкивается со своими трудностями»

Полина Колмогорова

студентка первого курса ЯТБиО

В своем проекте я создаю программу для распознавания речи торговых представителей дистрибьюторских компаний. Одна из таких, с которой мы сотрудничаем, записывает диалоги с клиентами при продажах и хотела бы получить программу, которая бы проверяла, произносят ли торговые представители ключевые слова. Например, не забывают ли предлагать товар, который недавно вышел. Чтобы это сделать, нам нужно получить скрипт речи торгового представителя и помочь понять, в каких случаях общение с клиентом было успешным, а в каких — нет.

На первом этапе мы проверили две популярные модели распознавания речи: Google speech recognition и открытую модель от VK. Оказалось, что каждая сталкивается со своими трудностями: модель от VK распознает больше, но Google — лучше.

В дальнейшем  мы будем использовать алгоритмы машинного обучения, чтобы программа стала распознавать самые трудные для восприятия сущности: названия продуктов и профессионализмы.