• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Проекты Языковых технологий: Синтаксис поэзии для детей

Анастасия Ермакова рассказывает о своем магистерском проекте

Институт русской литературы начинает разработку корпуса детской поэзии. Создание поэтического корпуса — нетривиальная задача, поскольку, наряду с другими особенностями, поэтический текст требует многослойной разметки. Один из этапов, необходимых для будущей исследовательской работы с корпусом, — синтаксический парсинг.

*Корпус - это структурированный и размеченный набор данных, на основе которых можно проводить количественные исследования.
*Парсер - это программа или часть программы, которая собирает информацию по заданным критериям для её дальнейшего анализа. например, синтаксического.

Цель первого этапа нашего проекта — создание синтаксически размеченного датасета, который может быть использован в качестве тренировочных данных для обучения модели синтаксического парсинга.

Для такой работы необходимо умение анализировать синтаксическую структуру предложения и понимание основ Meta Language.

Этим проектом мы занимаемся со второго модуля первого курса в группах. Вместе мы работаем над различными проблемами, и каждый член команды выполняет свой пулл задач.

Мы делали синтаксическую разметку детских стихотворений начала XX века. В рамках работы над проектом мы поэкспериментировали с существующими предобученными моделями синтаксической разметки, чтобы разобраться, как они справляются с поэтическим синтаксисом. Мы заметили, что они не самым лучшим образом работают с поэзией.

Мы загружаем в парсер текст, а он выдает нам табличку, где каждому слову приписываются его морфологические и синтаксические признаки. Сперва идет само слово, как оно есть в тексте, затем его начальная форма,морфологические признаки, вершина слова в предложении и пр.

Парсер, обученный на прозаической модели, не справляется со стихотворными текстами, в которых наблюдается множество особенностей, не характерных для прозы (высокая частотность инверсий, параллелизмы, рассогласование деепричастий и глаголов, графика и многое другое).

Проблема была в том, что при работе с поэзией парсер выдавал очень много ошибок, а нам нужен был “золотой стандарт”, проверенный людьми. Результаты парсера мы доработали с помощью инструмента для визуализации и редактирования деревьев зависимостей. В итоге мы имеем синтаксически размеченный датасет, который мы подготовили в полуавтоматическом режиме

Стихотворение должно иметь специальную разметку, чтобы на ее основе можно было проводить теоретические и количественные исследования. Синтаксическая разметка - это только часть работы, потому что поэтические тексты также требуют стиховедческой разметки.

В итоге мы хотим получить набор данных,организованный таким образом, чтобы в нем хранилась и информация о синтаксической разметке, и о стиховедческой. Поскольку мы получаем эту информацию от разных источников, нужно было подумать, как все объединить в расширенном формате,чтобы можно было эффективно и без потери важных сведений о поэзии искать синтаксические и поэтические особенности, отслеживать, как эти особенности пересекаются и влияют друг на друга.

В будущих исследованиях мы планируем работать над тем, как сделать модель, которая будет лучше справляться именно с поэтическим синтаксисом, а также продолжить работу над форматом хранения данных, который объединил бы синтаксическую и стиховедческую разметку.

Мы всегда на связи с руководителем нашего проекта, он направляет нас и корректирует ход работы по мере необходимости. Также у нас есть Научно-исследовательский семинар, где мы встречались раз в две недели и каждая группа рассказывала про свой проект: как он идет, что сделано, что в планах. Это очень здорово, так как есть возможность послушать о работе других команд, над какими задачами они работают, с какими трудностями сталкиваются. Получилось такое пространство для нетворкинга, потому что в ходе обсуждений мы задаем друг другу вопросы и делимся своими идеями. Часто, когда ты зацикливаешься на своих задачах, глаз замыливается, а тут коллеги могут свежим взглядом посмотреть на твои проблемы и предложить какое-то нетривиальное решение.