Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Речевые технологии

2022/2023
Учебный год
RUS
Обучение ведется на русском языке
6
Кредиты
Статус:
Курс по выбору
Когда читается:
2-й курс, 1, 2 модуль

Преподаватель


Холявин Павел Андреевич

Программа дисциплины

Аннотация

Курс знакомит студентов с основными принципами и методами анализа и автоматического синтеза речевого сигнала, а также автоматического распознавания речи. Студенты получают представление об акустике речевого сигнала, учатся применять различные инструменты для его обработки и разметки. Также студенты знакомятся с существующими системами распознавания и синтеза речи и учатся применять их на практике.
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомление с методами обработки сигнала.
  • Ознакомление с методами распознавания и синтеза речи
  • Освоение студентами систем и моделей синтеза и распознавания речи
Планируемые результаты обучения

Планируемые результаты обучения

  • имеет представление об акустической теории речеобразования, оперирует основными акустическими понятиями (частота, период, амплитуда, резонатор, спектр, гармоники, форманты, основной тон);
  • владеет навыками обработки сигнала: построение мгновенных спектров и сонаграмм, вычисление формант, разметка сигнала в программе Praat, манипуляция свойствами сигнала (амплитуда, основной тон);
  • ориентируется в основных методах синтеза речевого сигнала (компилятивный: субаллофонный, аллофонный, дифонный, слоговый, макросинтез, unit selection; параметрический, артикуляционный);
  • владеет навыками разработки звуковой базы для компилятивного синтеза
  • ориентируется в устройстве системы автоматического распознавания речи (АРР): акустическая модель, языковая модель, декодер;
  • владеет навыками извлечения из сигнала релевантных для АРР акустических признаков с использованием Kaldi или Python
  • понимает принципы создания произносительных словарей, ориентируется в методах и инструментах их разработки
  • владеет навыками применения систем АРР на практике, оценки качества распознавания
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Акустическая теория речеобразования.
  • Тема 2. Акустический анализ речевого сигнала.
  • Тема 3. История речевых технологий.
  • Тема 4. Направления синтеза речи.
  • Тема 5. Компилятивный синтез речи.
  • Тема 6. Автоматическая транскрипция и нормализация текста.
  • Тема 7. Общая информация о системах АРР.
  • Тема 8. Акустическое моделирование в системах АРР.
  • Тема 9. Языковое моделирование и словари в системах АРР.
  • Тема 10. Поиск правильного решения.
Элементы контроля

Элементы контроля

  • неблокирующий Практические задания
    среднее арифметическое оценок за практические задания (работа в PRAAT/scipy, работа по компилятивному синтезу, работа в системе Kaldi)
  • неблокирующий Аудиторная работа
    Среднее арифметическое оценок за краткие ответы на вопросы лектора в начале занятия, полученных в течение семестра
  • неблокирующий Экзамен
    Экзамен проводится в устной форме по билетам. В каждом билете два вопроса.
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 2 модуль
    0.3 * Экзамен + 0.5 * Практические задания + 0.2 * Аудиторная работа
Список литературы

Список литературы

Рекомендуемая основная литература

  • Малышева, Е. Г. Фонетика : учебное пособие / Е. Г. Малышева, О. С. Рогалева. — Москва : ФЛИНТА, 2012. — 64 с. — ISBN 978-5-9765-1249-8. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/13021 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Irina Rumyantseva. (2018). Фонетика и фонология как два аспекта единой науки о звучании человеческой речи. Психолінгвістика, (23(2)), 203. https://doi.org/10.5281/zenodo.1199220

Авторы

  • Цветкова Екатерина Андреевна