• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

«Опыт создания размеченного датасета и дообучения большой языковой модели для задачи автоматической симплификации текстов для пациентов с афазией»

28-го апреля в рамках открытого семинара НУГ «Когнитивные исследования языка» с докладом «Опыт создания размеченного датасета и дообучения большой языковой модели для задачи автоматической симплификации текстов для пациентов с афазией» выступили Анастасия Владимировна Колмогорова, доктор филологических наук, профессор департамента филологии Школы гуманитарных наук и искусств НИУ ВШЭ СПб, руководитель НУГ «Когнитивные исследования языка», и Маргарита Соловьева, магистрантка НИУ ВШЭ СПб.

Доклад начала Анастасия Владимировна с постановки проблемы, на решение которой направлен проект. Афазия – обратимое нарушение речи, возникающее при органических поражениях мозга, для коррекции которого применяется речевая терапия. В комплекс речевых упражнений входит чтение специальных текстов, трудность которых соответствует уровню навыков чтения пациента. Тем не менее, существующий набор таких текстов ограничен по объему и тематике и не учитывает индивидуальные речевые особенности и литературные интересы пациентов, что негативно сказывается на эффективности речевой терапии. Сервис автоматического упрощения текстов для пациентов с афазией может стать одним из инструментов, решающих данную проблему.

После описания проблемы и вытекающей из нее цели исследования, был описан непосредственно процесс разработки сервиса. Первым этапом разработки стала подготовка датасета для обучения языковой модели. Главной частью данного этапа стал поиск критериев, затрудняющих восприятие текстов пациентами с афазией, иными словами, критериев, по которым тексты должны быть упрощены. Поиск данных критериев был произведен в сотрудничестве с логопедами-афазиологами из Центра неврологии и нейрореабилитации ФГБУ ФСНКЦ ФМБА (г. Красноярск). Впоследствии по отобранным критериями были размечены предварительно собранные для датасета тексты. Конечным итогом первого этапа работы стал параллельный корпус, где каждому входному предложения соответствуют три его упрощенных варианта разных уровней трудности. Вторым этапом работы стали дообучение на полученным датасете нескольких языковых моделей и выбор наилучшей. Об этом подробно рассказала Маргарита Соловьева. В результате были получены три варианта модели T5 (по одной для каждого уровня сложности), дообученных непосредственно для решения задачи упрощения предложений.

По завершении открытого семинара состоялась оживлённая дискуссия, в ходе которой слушатели и докладчики обсудили технологии упрощения предложений и целых текстов, помимо этого, слушатели предложили свои рекомендации по разработке сервиса по интерактивной работе с полученными моделями.

Благодарим всех за участие и за проявленный интерес! До новых встреч!