• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Проекты студентов ОП “Языковые технологии в бизнесе и образовании”

Рассказываем, какие задачи выполняют студенты в рамках магистерской программы

Синтаксис поэзии для детей: задача машинного обучения.

Институт русской литературы начинает разработку корпуса детской поэзии. Создание поэтического корпуса — нетривиальная задача, поскольку, наряду с другими особенностями, поэтический текст требует многослойной разметки.

Один из этапов, необходимых для будущей исследовательской работы с корпусом, — синтаксический парсинг.

Парсер, обученный на прозаической модели, не справляется со стихотворными текстами, в которых наблюдается множество особенностей, не характерных для прозы (высокая частотность инверсий, параллелизмы, рассогласование деепричастий и глаголов, графика и многое другое).

Цель первого этапа проекта — создание синтаксически размеченного датасета, который может быть использован в качестве тренировочных данных для обучения модели синтаксического парсинга.

Корпус советских песен

Основной целью проекта является создание обширного и максимально полного корпуса текстов российских и советских песен за период 1971 – 2021 (на русском языке) и последующий анализ полученного корпуса (социологический, культурологический, литературоведческий и т.д.).

Корпус будет включать тексты разных направлений (советская эстрада, бардовская песня, поп, рэп, рок, панк и т.д.), жанров и тематической направленности, что позволит провести многоаспектный сравнительный анализ в динамике.

Полученный корпус будет представлять огромный интерес для студентов и исследователей разных специальностей, интересующихся песней с литературоведческой и лингвистической точек зрения, а также песней как воплощением культурных и общественных тенденций.

Автоматическая оценка уровня сложности текста

Цель проекта — разработка онлайн-системы, которая будет анализировать лексические, морфологические, синтаксические и другие параметры текста, выдавать их значения, а затем оценивать, какому уровню владения языком соответствует значение того или иного параметра.

Opinion mining для отзывов на образовательные проекты

Довольно много пользователей образовательных платформ приходят и оставляют свой отзыв на практический проект, который они завершили в рамках обучения. Иногда пользователи пишут одно и то же, например: "освоил ООП" или "было сложно".

Hyperskill — это англоязычная платформа на базе Stepik для изучения языков программирования, data science и т.п.

Студенты ЯТБО работают над тем, чтобы в рамках этой платформы суммаризировать отзывы и выделить из них самые часто повторяющиеся.

Моделирование коммуникативного поведения жителей российского мегаполиса в социально-речевом и прагматическом аспектах с привлечением методов искусственного интеллекта

 

Материалом для работы станет звуковой корпус устной повседневной речи «Один речевой день». Перед исследователями стоят следующие задачи:

  • Прагматическое аннотирование по диалогическим (речевым) актам эпизодов Корпуса повседневной русской речи «Один речевой день», тематическая экспертная разметка материала. Необходимо прослушивать звукозаписи и приписывать вид речевого акта каждому высказыванию (напр., «Приветствие», «Вопрос», «Ответ», «Согласие», «Возражение», «Оценка» и т.п.). По результатам размеченных данных будет строиться чат-бот, имитирующий реальное речевое поведение человека.
  • Обобщение полученных данных, получение статистических данных, построение формальной модели повседневного разговора определенного типа.
  • Написаниепрограммы для чат-бота, поддерживающего коммуникацию по построенной формальной модели.