Проекты студентов ОП “Языковые технологии в бизнесе и образовании”
Рассказываем, какие задачи выполняют студенты в рамках магистерской программы
Синтаксис поэзии для детей: задача машинного обучения.
Институт русской литературы начинает разработку корпуса детской поэзии. Создание поэтического корпуса — нетривиальная задача, поскольку, наряду с другими особенностями, поэтический текст требует многослойной разметки.
Один из этапов, необходимых для будущей исследовательской работы с корпусом, — синтаксический парсинг.
Парсер, обученный на прозаической модели, не справляется со стихотворными текстами, в которых наблюдается множество особенностей, не характерных для прозы (высокая частотность инверсий, параллелизмы, рассогласование деепричастий и глаголов, графика и многое другое).
Цель первого этапа проекта — создание синтаксически размеченного датасета, который может быть использован в качестве тренировочных данных для обучения модели синтаксического парсинга.
Корпус советских песен
Основной целью проекта является создание обширного и максимально полного корпуса текстов российских и советских песен за период 1971 – 2021 (на русском языке) и последующий анализ полученного корпуса (социологический, культурологический, литературоведческий и т.д.).
Корпус будет включать тексты разных направлений (советская эстрада, бардовская песня, поп, рэп, рок, панк и т.д.), жанров и тематической направленности, что позволит провести многоаспектный сравнительный анализ в динамике.
Полученный корпус будет представлять огромный интерес для студентов и исследователей разных специальностей, интересующихся песней с литературоведческой и лингвистической точек зрения, а также песней как воплощением культурных и общественных тенденций.
Автоматическая оценка уровня сложности текста
Цель проекта — разработка онлайн-системы, которая будет анализировать лексические, морфологические, синтаксические и другие параметры текста, выдавать их значения, а затем оценивать, какому уровню владения языком соответствует значение того или иного параметра.
Opinion mining для отзывов на образовательные проекты
Довольно много пользователей образовательных платформ приходят и оставляют свой отзыв на практический проект, который они завершили в рамках обучения. Иногда пользователи пишут одно и то же, например: "освоил ООП" или "было сложно".
Hyperskill — это англоязычная платформа на базе Stepik для изучения языков программирования, data science и т.п.
Студенты ЯТБО работают над тем, чтобы в рамках этой платформы суммаризировать отзывы и выделить из них самые часто повторяющиеся.
Моделирование коммуникативного поведения жителей российского мегаполиса в социально-речевом и прагматическом аспектах с привлечением методов искусственного интеллекта
Материалом для работы станет звуковой корпус устной повседневной речи «Один речевой день». Перед исследователями стоят следующие задачи:
- Прагматическое аннотирование по диалогическим (речевым) актам эпизодов Корпуса повседневной русской речи «Один речевой день», тематическая экспертная разметка материала. Необходимо прослушивать звукозаписи и приписывать вид речевого акта каждому высказыванию (напр., «Приветствие», «Вопрос», «Ответ», «Согласие», «Возражение», «Оценка» и т.п.). По результатам размеченных данных будет строиться чат-бот, имитирующий реальное речевое поведение человека.
- Обобщение полученных данных, получение статистических данных, построение формальной модели повседневного разговора определенного типа.
- Написаниепрограммы для чат-бота, поддерживающего коммуникацию по построенной формальной модели.