Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Лаборатория языковой конвергенции на конференции «Корпусная лингвистика 2023» в СПбГУ

Сотрудники лаборатории языковой конвергенции приняли участие в работе секции «Корпусы художественных текстов» в рамках 11-й международной научной конференции «Корпусная лингвистика 2023» (SPb Corpora 2023), проводившейся кафедрой математической лингвистики 21-23 июня 2023 года в Санкт-Петербурге.

Лаборатория языковой конвергенции на конференции «Корпусная лингвистика 2023» в СПбГУ

ЛЯК НИУ ВШЭ СПб

«Несчастливы по-своему: как измерить тональность литературного текста?»


Татьяна Шерстинова и Ася Карышева, представляя коллектив авторов, принимавших участие в исследовании (Т.Ю. Шерстинова, А.Д. Москвина, М.А. Кирина, А.С. Карышева, Е.О. Колпащикова, П.И. Максименко, Р.А. Родионов, А.Р. Сейнова), рассказали об экспериментальном исследовании, проводимом на материале Корпуса русского рассказа начала XX в. В докладе были вынесены на обсуждение результаты сопоставительного анализа трех разных подходов к оценке тональности художественного текста: словарного, машинного обучения и на основе дистрибутивной семантики. Проведенное исследование показало, что корреляция между результатами сентимент-анализа, полученного тремя разными методами, в большинстве случаев статистически значима, но невелика по модулю.

«От любви до ненависти: распределение эмоциональной лексики в русском рассказе начала XX века»


Анна Москвина и Маргарита Кирина продемонстрировали результаты отдельной серии экспериментов, исследующих распределение эмоциональной лексики в русском рассказе первой трети XX века. Здесь более подробно были рассмотрены возможности методов дистрибутивной семантики для определения эмоциональности слов и текстов, преимуществом которых является отсутствие необходимости использовать словари или предварительно размечать данные для обучения модели и/или валидации результатов. Цель, которую исследовательницы поставили перед собой, состояла в том, чтобы с помощью методов дистрибутивной семантики проверить: 1) чем отличаются друг от друга словарные составы разных эмоций на материале русского рассказа; 2) влияет ли исторический контекст создания литературного произведения на его эмоциональность; 3) как соотносится "лексическая" эмоциональность с перцептивной, т. е. воспринимаемой читателем. В ходе сравнения распределений эмоциональной лексики — по эмоциям, годам и рассказам — были составлены своего рода «эмоциональные тезаурусы» российского общества эпохи социальных катаклизмов. В результате серии экспериментов были получены данные о распределениях эмоциональной лексики по рассказам, а также проведено сопоставление автоматически полученных данных с читательской оценкой. Наконец, было выявлено, что самым эмоционально насыщенным периодом оказалось первое десятилетие XX века, а превалирующей эмоцией на всем рассматриваемом периоде — злость (гнев).

«Стилометрический анализ русского рассказа начала XX века: выявление гендерного сигнала»

ЛЯК НИУ ВШЭ СПб

В докладе Руслана Родионова были изложены результаты контрастивного анализа, выполненного с использованием дзеты Крейга в составе библиотеки «stylo» для среды программирования R, целью которого стало выявления гендерного сигнала в русском рассказе 1900-1930 гг. Ввиду особенностей анализируемого материала, интерес представляет конкуренция двух факторов – гендерного и хронологического, последний из которых потенциально может нивелировать предполагаемые стилистические различия в текстах мужчин и женщин. Сравнение предпочитаемой женщинами и мужчинами лексики позволило выявить стилистические различия их текстов. Так, авторы-женщины чаще используют местоимения 1 и 2 лица, «семейную» лексику и избегают лексемы, связанные со звуком и масштабностью. Интересно, что в отношении влияния социально-исторического контекста на тексты рассматриваемого периода было сделано неожиданное наблюдение о том, что женщины больше пишут о войне или, по крайней мере, описывая военные события, прибегают к использованию концептуальной лексики, нежели предметной.

Общее фото с докладчиками и гостями секции «Корпусы художественных текстов» 11-й международной научной конференции «Корпусная лингвистика 2023» (SPb Corpora 2023), 21-23 июня 2023, СПбГУ
«Корпусная лингвистика 2023»

С программой конференции можно ознакомиться на официальном сайте.