Результаты проекта

Основными научными результатами проекта стали:

1) Описание наиболее успешных практик использования ИИ в филологических исследованиях и смежных дисциплинах, а также наиболее перспективных направлений для междисциплинарных филологических исследований с привлечением ИИ-методов (подготовлена серия презентаций, подготовлена к публикации коллективная научная статья).

На первом этапе осуществлялся поиск литературы на соответствующую тему; следующим этапом стало знакомство с кейсами применения методов ИИ к художественной литературе. Исследование показало, что количество современных методов искусственного интеллекта (ИИ), которые являются потенциально перспективными для применения в филологических исследованиях, достаточно велико. Было сделано несколько важных наблюдений: 1) по сравнению с текстами специальными, составляющими академический дискурс, а также дискурс соцсетей, художественные тексты становятся предметом цифровых исследований значительно реже. Наиболее популярным направлением оказалась визуализация отношений между героями произведений (сетевые графы персонажей); 2) результаты исследований не всегда подвергаются литературоведческой интерпретации / не оценивается их валидность для решения литературоведческих задач.

2) Основной акцент был сделан на изучение и апробацию широко распространенного для задач обработки естественного языка направления, связанного с автоматическим тематическим моделированием, потенциал которого для исследования художественной прозы в мировых и российских филологических исследованиях фактически не раскрыт.Тематическое моделирование (topic modelling) – это метод машинного обучения, использующийся для категоризации больших неструктурированных данных. Результатом тематической модели становится определение некоторого количества тем, представляющих собой содержательную характеристику текстов исследуемой коллекции.

Было проведено исследование тематических моделей малой русской прозы на репрезентативном материале корпуса русского рассказа начала XX века, который для проведения этого исследования был существенно расширен, а также проведены отдельные стилеметрические исследования малой прозы.

Работа, связанная с тематическим моделированием, производилась в несколько этапов. Во-первых, было проанализировано понятие «темы» в художественной литературе (М. Кирина). Сформулированные принципы свертывания и развертывания тем, сочетающие теоретические аспекты как литературоведения, так и когнитивной и корпусной лингвистик.

Во-вторых, на материале текстов о насилии, согласно экспертной разметке, было проведено сравнение особенностей выделения тем человеком и машиной (Е. Грязнова, М. Кирина).

В-третьих, на материале Корпуса-300 было проведено сравнение разных алгоритмов тематического моделирования применительно к художественным текстам (М. Кирина). Рассмотренные методы – латентное размещение Дирихле (LDA), неотрицательная матричная факторизация (NMF) и структурное тематическое моделирование (STM) – одни из популярных способов построения тематических моделей текстовых коллекций. Метод LDA позволил выявить общие темы. Перспективным и новым стало применение STM. Интерес представляет то, что модель позволяет включать в анализ метатекстовую разметку.
В-четвертых, разработана методика для моделирования тематических областей национальной литературы с учетом специфики русского языка (Т.Ю.Шерстинова, А.Д.Москвина, М.А.Кирина).

Наконец, на основе метода LDA было проведено тематическое моделирование на материале 9 выборок – разного объема (100-500-1000) и разных исторических периодов (начало 20 в., революционные годы и Гражданская война, «советский» период) (А. Карышева, Е. Колпащикова). При построении моделей варьировались способы частеречной фильтрации при лемматизации. В результате было получено 36 тематических моделей. На первом этапе они были проанализированы тремя экспертами, которые оценивали интерпретируемость полученных топиков (А. Карышева, Е. Колпащикова, И. Завьялова). Затем топики «лучшей» модели были подробно разобраны и проверены на содержательное соответствие рассказам экспертами-литературоведами (И. Делазари, А. Москаленко).

Что касается стилеметрического подхода, было проведено исследование динамики художественного текста (В. Зарембо). Результатом стали графики изменения средних длин предложений и абзацев как для отдельных текстов, так и для групп по 50 произведений. В дальнейшем среди них удалось найти наиболее частотные паттерны.

Стилеметрические методы также были задействованы для исследования морфологических закономерностей – для изучения распределения отдельных грамматических форм с течением времени (И. Завьялова). Исследование показало, что есть грамматические категории и формы, частота употребления которых фактически не меняется независимо от тематики литературных текстов и даты их написания.

В продолжение критического обзора методов ИИ и стилеметрических исследований художественной прозы было проведено исследование на материале Корпуса-300 (Е. Грязнова). Тексты были классифицированы по тональности, была проведена их категоризация с использованием иерархической кластеризации и метода k-средних, а также применен метод главных компонент. В результате были определены сюжеты войны, болезни, смерти в рассказах Корпуса. Кроме того, кластеризация позволила выявить рассказы юмористического жанра, а также определился кластер рассказов, речь героев которых стилизована под народную речь.

3) Осуществлено существенное расширение неаннотированной части Корпуса русского рассказа 1900-1930 гг., выполненное с помощью автоматических методов веб-скрейпинга, а также с их последующим автоматическим и экспертным аннотированием. Это позволило увеличить объем исследовательского материала с 1000 до 5000 рассказов, относящихся к исследовательскому периоду.

4) Разработано программное обеспечение для конвертации текстов из старой орфографии в новую, что также способствовало расширению исследовательского материала – 514 рассказов были конвертированы из старой орфографии и пополнили корпус. Разработка и тестирование программного обеспечения была осуществлена студентами ОП «Филология» НИУ ВШЭ СПб Александром Потехиным и Виолеттой Кругликовой при участии
Станиславы Яковлевой в рамках учебной практики (под руководством Т.Ю.Шерстиновой и А.Д.Москвиной).

5) По результатам проведенных исследований подготовлены 6 научных статей (одна опубликована, две находятся в печати, две на рецензировании, одна будет отправлена в январе 2022 на международную конференцию, материалы которой рецензируются в Scopus).

6) Важным результатом проекта является существенное повышение компетенций участников НУГ, абсолютное большинство которых – студенты, и всех слушателей регулярного семинара научной группы в области научного и практического использования методов ИИ.

7) Важным результатом также является популяризация перспективных цифровых технологий и междисциплинарных исследований в традиционной филологической среде. Все открытые семинары НУГ представлены на YouTube-канале ОП «Филология» НИУ ВШЭ СПб в открытом доступе.

Публикации по результатам проекта:

1. Sherstinova T., Moskvina A., and Kirina M. Towards Automatic Modelling of Thematic Domains of a National Literature: Technical Issues in the Case of Russian. Conference of Open Innovation Association, FRUCT. Vol. 29. IEEE. Pp. 313-323. PDF

Аннотация: Значительная часть современных технологий, связанных с разработкой систем искусственного интеллекта и цифровой аналитикой, опирается на методы автоматической обработки текста (NLP, речевые технологии). Однако эти методы применяются в первую очередь к специализированным текстам, таким как научная литература, техническая документация, новости и т.д., или для анализа дискурса социальных сетей. Художественные тексты реже оказываются предметом подобных исследований, поскольку художественный мир кажется менее значимым или менее «информационным» с точки зрения практического приложения результатов. К тому же, из-за поэтического и метафорического характера художественных текстов использование некоторых методов NLP (например, тематического моделирования) для анализа художественной литературы представляет более сложную задачу. В то же время нельзя нивелировать влияние литературы как на сознание индивидов, так и на формирование социальных ценностей. Понимание художественной литературы так же, как это делают люди, несомненно, является проблемой для искусственного интеллекта.
В статье выдвигается идея моделирования тематики литературы в национальном масштабе. Это позволит лучше понять культурные особенности данного исторического периода и будет способствовать как литературным исследованиям, так и практическим задачам. Рассматриваются методические подходы к определению и моделированию тематики литературных произведений, описываются возникающие при этом технические трудности и предлагаются пути их решения. Апробация осуществляется на материале Корпуса русского рассказа 1900-1930-х гг. Предлагаемая методология может применяться при разработке систем искусственного интеллекта, предполагающих обработку «больших данных» художественных текстов на любом языке.

2. Gryaznova E., Kirina M. Defining Kinds of Violence in Russian Short Stories of 1900–1930: A Case of Topic Modelling with LDA and PCA. 2021 International Conference "Internet and Modern Society", IMS 2021. CEUR Workshop Proceedings (в печати) PDF
Аннотация: В статье рассматриваются художественные произве- дения, объединенные темой насилия и включенные в Корпус русского рассказа первой трети XX века. Литературные тексты сравниваются между собой по степени выраженности в них насильственной лексики с применением метода главных компонент. Кроме того, обсуждаются ре- зультаты тематического моделирования, проведенного с целью выявле- ния различных видов насилия в анализируемых текстах.

3. Кирина М.А. Специфика выделения тем русского рассказа первой трети XX века // Материалы XXII и XXIII Открытой конференции студентов-филологов. Санкт-Петербург, 2021. СПб.: Издательство СПбГУ» (в печати) PDF

Аннотация: Статья посвящена теоретическим аспектам выделения тематики художественного произведения. Предлагаемый подход апробирован на материале Корпуса русского рассказа первой трети XX века. Его преимущество заключается в сочетании литературоведческих и квантитативных подходов к анализу текста, а также в учете влияния социально-исторического контекста на тему произведения.

4. Завьялова И.С., Шерстинова Т.Ю. О морфологических различиях в текстах русской малой прозы 1900-1930 г. // Человек: Образ и сущность. Гуманитарные аспекты. Москва: ИНИОН РАН, 2022. № 2 (50): Человек адаптирующийся: коммуникация, дискурс, речь и язык современного общества. С. 176-204. DOI: 10.31249/chel/2022.02.12 PDF
Аннотация: Значимые социальные изменения с неизбежностью находят свое отражение в речевых практиках. Не является исключением и язык художественной литературы, оперативно адаптирующийся к новым реалиям и условиям социальной жизни. Описанное в статье исследование выполнено на материале 15 рассказов 1900-1930 г. разных русских писателей и позволяет оценить морфологическую вариативность стиля авторов. В статье также обсуждаются некоторые общие закономерности, выявленные на морфологическом уровне (распределение частей речи и отдельных грамматических форм) для исследуемой выборки художественных текстов в диахронии.

5. T. Sherstinova et al., "Topic Modeling of Literary Texts Using LDA: on the Influence of Linguistic Preprocessing on Model Interpretability," 2022 31st Conference of Open Innovations Association (FRUCT), 2022, pp. 305-312, doi: 10.23919/FRUCT54823.2022.9770887 PDF

Аннотация: В статье представлены результаты исследования, целью которого было оценить влияние лингвистической предобработки на интерпретируемость тематических моделей для художественных текстов. Исследование было проведено в рамках большого проекта, направленного на создание тематических моделей для русских рассказов, написанных в первые три десятилетия 20 века и разделенных на три последовательных исторических периода: 1) период начала века перед Первой мировой войной (1900-1913), 2) период острых социальных катаклизмов, войн и революций (Первая мировая война, Февральская и Октябрьская революции, Гражданская война) (1914-1922) и 3) ранний советский период (1923-1930). Материалом исследования послужили 3 выборки разного размера для каждого периода, содержащие по 100, 500 и 1000 коротких рассказов каждая. Предварительная обработка включала лемматизацию с использованием библиотеки spaCy и четыре варианта POS-фильтрации: 1) только существительные, 2) существительные и глаголы, 3) существительные, прилагательные, наречия, глаголы и 4) без фильтрации. Используя скрытое распределение Дирихле (LDA), было построено 36 тематических моделей (по 9 моделей для каждого варианта предварительной обработки). Результаты показали, что в случае художественных текстов наиболее интерпретируемыми являются тематические модели, построенные без POS-фильтров. Исследование позволило получить информацию о тематическом разнообразии русских рассказов, оценить их экспертную интерпретируемость и предложить некоторые рекомендации по оптимизации тематического моделирования, которые могут использоваться при разработке систем искусственного интеллекта, обрабатывающих большие объемы художественных текстов.

6. Кирина М.А. Сравнение тематических моделей на основе LDA, STM и NMF для качественного анализа малой художественной прозы на русском языке // Вестник Новосибирского государственного университета. Серия: Лингвистика и Межкультурная коммуникация. Вып. 2, 2022. PDF

Аннотация: Описываются результаты тематического моделирования малой художественной прозы на основе трех методов – латентного размещения Дирихле (LDA), структурного тематического моделирования (STM) и неотрицательной матричной факторизации (NMF) – в сочетании с разными вариантами предобработки текстов (все части речи vs только существительные). Апробация экспериментального дизайна осуществляется на материале Корпуса русского рассказа 1900–1930 гг. Исследование позволило выявить особенности рассматриваемых алгоритмов и оценить эффективность их применения для качественного анализа художественной прозы.

7. Шерстинова Т. Ю., Москвина А. Д., Кирина М. А., Карышева А. С., Колпащикова Е. О. Тематическое моделирование русского рассказа 1900–1930: наиболее частотные темы и их динамика // В кн.: Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2022», выпуск 21 Вып. 21. Изд-во РГГУ, 2022. doi С. 512-526. PDF

Аннотация: В статье описаны результаты эксперимента по построению тематических моделей малой русской прозы (русского рассказа) трех последовательных исторических периодов начала XX века: 1) начала XX века до 1913 г. включительно, 2) военно-революционного периода (1914–1922) и 3) раннесоветского периода (1923– 1930). С помощью алгоритма латентного размещения Дирихле (LDA), построено 9 моделей (по 3 выборки разного размера для каждого из периодов – по 100, 500 и 1000 рассказов). Оказалось, что в каждой из моделей присутствуют весьма частотные «темы» (топики), характеризующие довольно существенную долю текстов каждой выборки с высокой вероятностью, а также наблюдается содержательная динамика этих частотных тем по разным временным периодам, что позволяет считать их тематико-стилистическим маркерами анализируемых коллекций текстов наряду с более традиционными квантитативными мерами анализа текстов. Разнообразие частотных топиков оказалось выше во втором и третьем периоде (для выборок в 500 и 1000 рассказов), что можно объяснить большим лексико-стилистическим разнообразием прозы «эпохи перемен».

8. Gryaznova E,, Kirina M., Mikhailova P., Zarembo V., Moskvina A., Machine Learning and Philology: An Overview of Methods and Applications // Artificial Intelligence & Information Society Technology (AI&IST-2022) / Eds.: Ravil I. Mukhamediev, Roberto Pereira, Sergey Mityagin (CEUR Workshop Proceedings. 2022. (in print)

9. Шерстинова Т.Ю., Колпащикова Е.О., Сейнова А.Р., Максименко П.И., Родионов Р.А. Русский рассказ 1900-1930 и его восприятие читателем: опыт квантитативного анализа оценки художественного текста // Человек: Образ и сущность. Гуманитарные аспекты (в печати)

10. Шерстинова Т.Ю. Динамика дистрибуции частеречных и грамматических категорий в русском рассказе 1900-1930 гг.

11. Шерстинова Т.Ю. Мир русского рассказа свозь призму современных цифровых технологий PDF

Аннотация
Описываются результаты тематического моделирования малой художественной прозына основе трехмето-
дов –латентного размещения Дирихле (LDA), структурного тематического моделирования (STM) и неотрица-
тельной матричной факторизации (NMF) –в сочетании с разными вариантами предобработкитекстов(все
части речи vsтолько существительные). Апробация экспериментального дизайна осуществляется на материа-ле Корпуса русского рассказа 1900–1930гг.Исследование позволило выявитьособенности рассматриваемых алгоритмов и оценитьэффективность их применениядля качественного анализа художественной прозы.

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

Научно-учебная группа междисциплинарных филологических исследований Санкт-Петербургского кампуса НИУ ВШЭ

Результаты проекта