• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Результаты проекта

Основными научными результатами проекта стали:

1) Описание наиболее успешных практик использования ИИ в филологических исследованиях и смежных дисциплинах, а также наиболее перспективных направлений для междисциплинарных филологических исследований с привлечением ИИ-методов (подготовлена серия презентаций, подготовлена к публикации коллективная научная статья).

На первом этапе осуществлялся поиск литературы на соответствующую тему; следующим этапом стало знакомство с кейсами применения методов ИИ к художественной литературе. Исследование показало, что количество современных методов искусственного интеллекта (ИИ), которые являются потенциально перспективными для применения в филологических исследованиях, достаточно велико. Было сделано несколько важных наблюдений: 1) по сравнению с текстами специальными, составляющими академический дискурс, а также дискурс соцсетей, художественные тексты становятся предметом цифровых исследований значительно реже. Наиболее популярным направлением оказалась визуализация отношений между героями произведений (сетевые графы персонажей); 2) результаты исследований не всегда подвергаются литературоведческой интерпретации / не оценивается их валидность для решения литературоведческих задач.

2) Основной акцент был сделан на изучение и апробацию широко распространенного для задач обработки естественного языка направления, связанного с автоматическим тематическим моделированием, потенциал которого для исследования художественной прозы в мировых и российских филологических исследованиях фактически не раскрыт.Тематическое моделирование (topic modelling) – это метод машинного обучения, использующийся для категоризации больших неструктурированных данных. Результатом тематической модели становится определение некоторого количества тем, представляющих собой содержательную характеристику текстов исследуемой коллекции.

Было проведено исследование тематических моделей малой русской прозы на репрезентативном материале корпуса русского рассказа начала XX века, который для проведения этого исследования был существенно расширен, а также проведены отдельные стилеметрические исследования малой прозы.

Работа, связанная с тематическим моделированием, производилась в несколько этапов. Во-первых, было проанализировано понятие «темы» в художественной литературе (М. Кирина). Сформулированные принципы свертывания и развертывания тем, сочетающие теоретические аспекты как литературоведения, так и когнитивной и корпусной лингвистик.

Во-вторых, на материале текстов о насилии, согласно экспертной разметке, было проведено сравнение особенностей выделения тем человеком и машиной (Е. Грязнова, М. Кирина).

В-третьих, на материале Корпуса-300 было проведено сравнение разных алгоритмов тематического моделирования применительно к художественным текстам (М. Кирина). Рассмотренные методы – латентное размещение Дирихле (LDA), неотрицательная матричная факторизация (NMF) и структурное тематическое моделирование (STM) – одни из популярных способов построения тематических моделей текстовых коллекций. Метод LDA позволил выявить общие темы. Перспективным и новым стало применение STM. Интерес представляет то, что модель позволяет включать в анализ метатекстовую разметку.
В-четвертых, разработана методика для моделирования тематических областей национальной литературы с учетом специфики русского языка (Т.Ю.Шерстинова, А.Д.Москвина, М.А.Кирина).

Наконец, на основе метода LDA было проведено тематическое моделирование на материале 9 выборок – разного объема (100-500-1000) и разных исторических периодов (начало 20 в., революционные годы и Гражданская война, «советский» период) (А. Карышева, Е. Колпащикова). При построении моделей варьировались способы частеречной фильтрации при лемматизации. В результате было получено 36 тематических моделей. На первом этапе они были проанализированы тремя экспертами, которые оценивали интерпретируемость полученных топиков (А. Карышева, Е. Колпащикова, И. Завьялова). Затем топики «лучшей» модели были подробно разобраны и проверены на содержательное соответствие рассказам экспертами-литературоведами (И. Делазари, А. Москаленко).

Что касается стилеметрического подхода, было проведено исследование динамики художественного текста (В. Зарембо). Результатом стали графики изменения средних длин предложений и абзацев как для отдельных текстов, так и для групп по 50 произведений. В дальнейшем среди них удалось найти наиболее частотные паттерны.

Стилеметрические методы также были задействованы для исследования морфологических закономерностей – для изучения распределения отдельных грамматических форм с течением времени (И. Завьялова). Исследование показало, что есть грамматические категории и формы, частота употребления которых фактически не меняется независимо от тематики литературных текстов и даты их написания.

В продолжение критического обзора методов ИИ и стилеметрических исследований художественной прозы было проведено исследование на материале Корпуса-300 (Е. Грязнова). Тексты были классифицированы по тональности, была проведена их категоризация с использованием иерархической кластеризации и метода k-средних, а также применен метод главных компонент. В результате были определены сюжеты войны, болезни, смерти в рассказах Корпуса. Кроме того, кластеризация позволила выявить рассказы юмористического жанра, а также определился кластер рассказов, речь героев которых стилизована под народную речь.

3) Осуществлено существенное расширение неаннотированной части Корпуса русского рассказа 1900-1930 гг., выполненное с помощью автоматических методов веб-скрейпинга, а также с их последующим автоматическим и экспертным аннотированием. Это позволило увеличить объем исследовательского материала с 1000 до 5000 рассказов, относящихся к исследовательскому периоду. 

4) Разработано программное обеспечение для конвертации текстов из старой орфографии в новую, что также способствовало расширению исследовательского материала – 514 рассказов были конвертированы из старой орфографии и пополнили корпус. Разработка и тестирование программного обеспечения была осуществлена студентами ОП «Филология» НИУ ВШЭ СПб Александром Потехиным и Виолеттой Кругликовой при участии Станиславы Яковлевой в рамках учебной практики (под руководством Т.Ю.Шерстиновой и А.Д.Москвиной).

5) По результатам проведенных исследований подготовлены 6 научных статей (одна опубликована, две находятся в печати, две на рецензировании, одна будет отправлена в январе 2022 на международную конференцию, материалы которой рецензируются в Scopus).

6) Важным результатом проекта является существенное повышение компетенций участников НУГ, абсолютное большинство которых – студенты, и всех слушателей регулярного семинара научной группы в области научного и практического использования методов ИИ.

7) Важным результатом также является популяризация перспективных цифровых технологий и междисциплинарных исследований в традиционной филологической среде. Все открытые семинары НУГ представлены на YouTube-канале ОП «Филология» НИУ ВШЭ СПб в открытом доступе.



Публикации по результатам проекта:


1. Sherstinova T., Moskvina A., and Kirina M. Towards Automatic Modelling of Thematic Domains of a National Literature: Technical Issues in the Case of Russian. Conference of Open Innovation Association, FRUCT. Vol. 29. IEEE. Pp. 313-323. PDF

Аннотация: Значительная часть современных технологий, связанных с разработкой систем искусственного интеллекта и цифровой аналитикой, опирается на методы автоматической обработки текста (NLP, речевые технологии). Однако эти методы применяются в первую очередь к специализированным текстам, таким как научная литература, техническая документация, новости и т.д., или для анализа дискурса социальных сетей. Художественные тексты реже оказываются предметом подобных исследований, поскольку художественный мир кажется менее значимым или менее «информационным» с точки зрения практического приложения результатов. К тому же, из-за поэтического и метафорического характера художественных текстов использование некоторых методов NLP (например, тематического моделирования) для анализа художественной литературы представляет более сложную задачу. В то же время нельзя нивелировать влияние литературы как на сознание индивидов, так и на формирование социальных ценностей. Понимание художественной литературы так же, как это делают люди, несомненно, является проблемой для искусственного интеллекта.

В статье выдвигается идея моделирования тематики литературы в национальном масштабе. Это позволит лучше понять культурные особенности данного исторического периода и будет способствовать как литературным исследованиям, так и практическим задачам. Рассматриваются методические подходы к определению и моделированию тематики литературных произведений, описываются возникающие при этом технические трудности и предлагаются пути их решения. Апробация осуществляется на материале Корпуса русского рассказа 1900-1930-х гг. Предлагаемая методология может применяться при разработке систем искусственного интеллекта, предполагающих обработку «больших данных» художественных текстов на любом языке. 

2. Gryaznova E., Kirina M. Defining Kinds of Violence in Russian Short Stories of 1900–1930: A Case of Topic Modelling with LDA and PCA. 2021 International Conference "Internet and Modern Society", IMS 2021. CEUR Workshop Proceedings (в печати) PDF

Аннотация: В статье рассматриваются художественные произве- дения, объединенные темой насилия и включенные в Корпус русского рассказа первой трети XX века. Литературные тексты сравниваются между собой по степени выраженности в них насильственной лексики с применением метода главных компонент. Кроме того, обсуждаются ре- зультаты тематического моделирования, проведенного с целью выявле- ния различных видов насилия в анализируемых текстах.

3. 
Кирина М.А. Специфика выделения тем русского рассказа первой трети XX века // Материалы XXII и XXIII Открытой конференции студентов-филологов. Санкт-Петербург, 2021. СПб.: Издательство СПбГУ» (в печати) PDF

Аннотация: Статья посвящена теоретическим аспектам выделения тематики художественного  произведения. Предлагаемый подход апробирован на материале Корпуса русского  рассказа первой трети XX века. Его преимущество заключается в сочетании литературоведческих и квантитативных подходов к анализу текста, а также в учете  влияния социально-исторического контекста на тему произведения.


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.