We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Speech Technologies

2022/2023
Academic Year
RUS
Instruction in Russian
6
ECTS credits
Course type:
Elective course
When:
2 year, 1, 2 module

Instructor


Холявин Павел Андреевич

Программа дисциплины

Аннотация

Курс знакомит студентов с основными принципами и методами анализа и автоматического синтеза речевого сигнала, а также автоматического распознавания речи. Студенты получают представление об акустике речевого сигнала, учатся применять различные инструменты для его обработки и разметки. Также студенты знакомятся с существующими системами распознавания и синтеза речи и учатся применять их на практике.
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомление с методами обработки сигнала.
  • Ознакомление с методами распознавания и синтеза речи
  • Освоение студентами систем и моделей синтеза и распознавания речи
Планируемые результаты обучения

Планируемые результаты обучения

  • имеет представление об акустической теории речеобразования, оперирует основными акустическими понятиями (частота, период, амплитуда, резонатор, спектр, гармоники, форманты, основной тон);
  • владеет навыками обработки сигнала: построение мгновенных спектров и сонаграмм, вычисление формант, разметка сигнала в программе Praat, манипуляция свойствами сигнала (амплитуда, основной тон);
  • ориентируется в основных методах синтеза речевого сигнала (компилятивный: субаллофонный, аллофонный, дифонный, слоговый, макросинтез, unit selection; параметрический, артикуляционный);
  • владеет навыками разработки звуковой базы для компилятивного синтеза
  • ориентируется в устройстве системы автоматического распознавания речи (АРР): акустическая модель, языковая модель, декодер;
  • владеет навыками извлечения из сигнала релевантных для АРР акустических признаков с использованием Kaldi или Python
  • понимает принципы создания произносительных словарей, ориентируется в методах и инструментах их разработки
  • владеет навыками применения систем АРР на практике, оценки качества распознавания
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Акустическая теория речеобразования.
  • Тема 2. Акустический анализ речевого сигнала.
  • Тема 3. История речевых технологий.
  • Тема 4. Направления синтеза речи.
  • Тема 5. Компилятивный синтез речи.
  • Тема 6. Автоматическая транскрипция и нормализация текста.
  • Тема 7. Общая информация о системах АРР.
  • Тема 8. Акустическое моделирование в системах АРР.
  • Тема 9. Языковое моделирование и словари в системах АРР.
  • Тема 10. Поиск правильного решения.
Элементы контроля

Элементы контроля

  • неблокирующий Практические задания
    среднее арифметическое оценок за практические задания (работа в PRAAT/scipy, работа по компилятивному синтезу, работа в системе Kaldi)
  • неблокирующий Аудиторная работа
    Среднее арифметическое оценок за краткие ответы на вопросы лектора в начале занятия, полученных в течение семестра
  • неблокирующий Экзамен
    Экзамен проводится в устной форме по билетам. В каждом билете два вопроса.
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 2 модуль
    0.3 * Экзамен + 0.5 * Практические задания + 0.2 * Аудиторная работа
Список литературы

Список литературы

Рекомендуемая основная литература

  • Малышева, Е. Г. Фонетика : учебное пособие / Е. Г. Малышева, О. С. Рогалева. — Москва : ФЛИНТА, 2012. — 64 с. — ISBN 978-5-9765-1249-8. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/13021 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Irina Rumyantseva. (2018). Фонетика и фонология как два аспекта единой науки о звучании человеческой речи. Психолінгвістика, (23(2)), 203. https://doi.org/10.5281/zenodo.1199220

Авторы

  • Цветкова Екатерина Андреевна