• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Параметризация текста: история успеха

5 марта в рамках открытого семинара НУГ «Когнитивные исследования языка» с докладом «Параметризация текста: истории успеха» выступила Марина Ивановна Солнышкина, доктор филологических наук, профессор кафедры теории и практики преподавания иностранных языков Казанского (Приволжского) Федерального Университета.

Марина Ивановна начала свой доклад с определения параметризации. Параметризация - это процесс выявления референтного диапазона метрик ограниченного количества параметров для классификации текстов определенного типа, жанра или сложности.
Исследования были вдохновлены работами Дугласа Байбера, который утверждал, что лингвистические параметры имеют определенную дистрибуцию в текстах различных типов. Поэтому была выдвинута гипотеза: тексты различных уровней сложности и тексты различных предметных областей могут быть описаны при помощи достаточного набора параметров, метрики которых являются стабильными величинами.
Материалом исследования послужили учебные тексты начальной, средней и старшей школы, включенные в Федеральный государственный образовательный стандарт (ФГОС).
Первый этап исследования включал сбор учебного корпуса русского языка, который составил более 11 миллионов словоформ.
В рамках эксперимента, проведенного в 2019 году, ученикам предлагался отрывок из учебника по обществознанию для прочтения, после чего они должны были воспроизвести прочитанное устно. Результатом стало создание корпуса звучащей речи "Рассказы об обществе", показавшего, что воспроизведение информации составило всего 22% при стандартном объеме 30%.
Кроме того адаптирована формула читабельности текста, включающая среднюю длину предложения и среднюю длину слова.
Еще одной частью исследования было сравнение сложности учебников по обществознанию Л. Н. Боголюбова и А. Ф. Никитина. Выявлены статистически значимые параметры сложности от класса к классу, такие как длина слова, номинализация, длина предложения, количество прилагательных, количество личные местоимения и частотность.
Результаты исследования показали, что тексты Боголюбова оказались сложнее, чем тексты Никитина.
Также проводилось изучение сложности учебников по английскому языку, результаты показали флуктуацию сложности текстов, что негативно влияет на мотивацию школьников.


Важным итогом работы ученых стало создание инструмента RuLingva, определяющего около 50 различных параметров текста.
Однако, параметризация художественных текстов оказалась сложной или даже невозможной из-за эмерджентности текста, то есть несводимости целого к элементам, таким как длина предложения и частотность лексики. В связи с этим сложность текста была разделена на две категории: аддитивная сложность, представляющая собой сумму элементов текста, влияющих на понимание, скорость чтения и уровень интереса, и неаддитивная сложность, представляющая собой оценку готовности языковой личности к восприятию и пониманию текста. На восприятие текста влияют объем словарного запаса, владение языком, знание темы, фоновые знания, объем оперативной памяти и мотивация. Для проверки валидности этих параметров была создана платформа RuLingva, оценивающая сложность текста и учитывающая вербальный интеллект, функциональную грамотность, оперативную память, мотивацию и тревожность читателя. Платформа используется для оценки сложности учебников начальной школы, а также для определения лексического разнообразия и когнитивной сложности текстов. Однако, хотя сложность текста можно оценить, остается нерешенным вопрос о том, как спрогнозировать восприятие текста. Это мотивирует к дальнейшему исследованию, направленному на разработку методов и моделей, способных предсказать, каким образом читатели будут воспринимать тексты в зависимости от их параметров и контекста.

Видеозапись семинара

В конце доклада состоялась оживленная дискуссия, в ходе которой участники обсудили сложность текстов на русском языке для иностранных студентов, разделение сложности текста на объективные и субъективные категории, оценки сложности текста на родном и иностранном языке, а также перспективы дальнейших исследований.


Благодарим всех за участие и проявленный интерес! До новых встреч!