Итоги апреля и мая. От теории к практике: апробация результатов
О теме насилия в русском рассказе в эпоху революционных преобразований (экспериментальное исследование с применением методов тематического моделирования)
В конце апреля участники научно-учебной группы Екатерина Грязнова и Маргарита Кирина, студентки 4-го курса ОП «Филология» НИУ ВШЭ СПб, представили результаты пилотного эксперимента, посвященного исследованию темы насилия в русском рассказе 1900–1930 гг.
Насилие представляет собой часть человеческого опыта, лежащую в основе большинства социальных конфликтов. Несмотря на то, что значительную часть времени общество находится в состоянии мира, в истории неизбежны и периоды массового насилия, которыми характеризуются не только межгрупповые отношения, но и межличностные. И те, и другие находят отражение в художественных текстах.
В фокусе молодых исследователей начало XX века — время революционных преобразований и драматических изменений в российском обществе. На период с 1900 по 1930 гг., в который создавались исследуемые тексты, пришлись такие события, как русско-японская война, первая русская революция 1905 г., Первая мировая война, Октябрьская и Февральская революции, последовавшая за ними Гражданская война, а также формирование нового советского государства.
Корпус русского рассказа, имеющий экспертную тематическую разметку, представляет ценный материал для исследования. На основе разметки были отобраны рассказы, в которых выделяются темы насилия и смерти. Задачей исследования было определить, насколько возможно автоматическое выделение данных видов насилия, в частности насильственной смерти, с применением тематического моделирования (метод латентного размещения Дирихле, LDA) и различаются ли тексты между собой по уровню выраженности в них насильственной лексики с использованием метода главных компонент (PCA).
В каких рассказах тема насилия выражена сильнее других? Какие виды насилия в них описываются?
В результате исследования удалось выявить тексты, в которых насильственная тематика играет особенно важную роль. Таких рассказов в выборке оказалось два: «Рассказ о семи повешенных» Л. Андреева, где ярко выражена тема смерти, и «Два кровника» Л. Пасынкова, в котором представлена тема крови.
Стоит отметить, что как определение выраженности «насильственной» лексики, так и различение подтем стало возможным благодаря методу главных компонент. Тематическая модель, в свою очередь, скорее объединила рассказы со сходными сюжетами или героями (например, были включены в один топик произведения, в которых главным героем является женщина). Сложности, связанные с интерпретацией результатов тематического моделирования, во многом объясняются тем, что, во-первых, тема художественного произведения не всегда эксплицитно выражена в самой лексике, а во-вторых — на один рассказ может приходиться неограниченное число тем, в том числе и не связанных с насилием.
По завершении доклада состоялась дискуссия, на которой обсуждались как промежуточные итоги исследования, так и методологические особенности применения цифровых методов к литературным текстам в целом.
Работа Е. Грязновой и М. Кириной принята к участию в международной объединённой конференции «Интернет и современное общество» (IMS), где будет представлена в рамках семинара «Компьютерная лингвистика» (CompLing-2021), с последующей публикацией в издании, индексируемом в Scopus. Поздравляем и желаем дальнейших успехов!
Только вперед! II Международный Форум языков и культур в Красноярске
29 мая члены Научно-учебной группы приняли участие в Международном Форуме языков и культур при Институте филологии и языковой коммуникации Сибирского федерального университета (https://ifiyak.sfu-kras.ru/forum-2020/). На секции «Корпусные и компьютерные технологии в изучении языков и культур» прозвучало два доклада от нашей команды.
Татьяна Юрьевна Шерстинова, руководитель группы, выступила с презентацией «Корпус русского рассказа 1900-1930: черты к описанию проекта». Корпус русского рассказа разрабатывается с целью сохранения национального литературного наследия, построения модели литературно-художественной системы в рамках одного жанра и проведения различных пилотных экспериментов. В докладе были представлены статистические данные по текстам и авторам, включенным в Корпус на настоящий момент, а также подробнее рассмотрены виды разметок — на морфологическом, синтаксическом, ритмическом уровнях — аннотированного подкорпуса, содержащего 310 рассказов 300 авторов. Кроме того, были приведены результаты некоторых пилотных исследований.
Следующими выступили Маргарита Кирина и Екатерина Грязнова с докладом «Как описать тематику художественного текста? Экспериментальное исследование на материале Корпуса русского рассказа 1900-1930 гг.» В презентации был предложен обзор текущих исследований тематического разнообразия русского рассказа, проводящихся на базе Корпуса русского рассказа. На обсуждение были вынесены проблемы тематического моделирования художественной литературы, а также представлены результаты эксперимента Е. Грязновой и М. Кириной, ставшего следующим этапом разработки проблемы автоматического описания тематики текстов данного типа.
Post Scriptum
Спасибо всем за проявленный интерес к теме доклада и участие в дискуссии, в частности Ольге Александровне Митрофановой и Андрею Михайловичу Чеповскому за ценные рекомендации и советы по улучшению и расширению исследования.
Выражаем благодарность Анастасии Владимировне Колмогоровой за приглашение к участию в II Международном Форуме языков и культур.
До новых встреч!