• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Итоги месяца. "Тематический" февраль

Открытые семинары НУГ в течение февраля 2021 года были полностью посвящены методу тематического моделирования. Подробнее о «тематическом» феврале мы рассказываем в этом материале.

Февраль «тематический»

В рамках встреч НУГ Ольга Александровна Митрофанова — кандидат филологических наук, доцент кафедры математической лингвистики СПБГУ — выступила с двумя докладами, посвящёнными тематическому моделированию. Первый доклад носил популярный характер; на второй встрече Ольга Александровна поговорила о тематических моделях в более техническом ключе. После докладов Ольги Александровны Анна Денисовна Москвина — компьютерный лингвист, преподаватель департамента филологии НИУ ВШЭ СПб — провела мастер-класс, задачей которого стало практическое знакомство с тематическим моделированием.

Как это было? Первый "тематический" семинар

Первая встреча прошла 19 февраля.

В начале своего доклада Ольга Александровна рассказала об особенностях применения метода в исследованиях художественной литературы. Тематические модели универсальны и не ориентированы на художественный текст. Тем не менее, такую модель можно использовать для получения определённого «среза» — формализованного представления художественного текста. Говоря о симбиозе модели и литературного произведения, важно обратиться к одним из наиболее ранних опытов моделирования художественного текста. Среди них — «Морфология волшебной сказки» В. Я. Проппа, сюжетные грамматики В. Ленерт, компьютерные модели генерации сказочных сюжетов М. Г. Гаазе-Рапопорта, Д. А. Поспелова, Е. Т. Семёновой.

Значительная часть доклада была посвящена вероятностному тематическому моделированию. Ольга Александровна объяснила основной механизм работы LDA-модели (Latent Dirichlet Allocation). Обсуждалась интерпретация тематической модели; рассматривались примеры результатов, полученных в качестве её output’а. Ольга Александровна также поделилась результатами применения тематической модели к роману М. А. Булгакова «Мастер и Маргарита». Модель отразила не только основные сюжетные элементы произведения, но и стилистические особенности разных частей романа.

В конце выступления Ольги Александровны была проведена дискуссия. Обсуждались преимущества и недостатки метода тематического моделирования; поднимался вопрос об ограничениях в использовании тематической модели.

Доклад Ольги Александровны и обсуждение записывались; Вы можете перейти на страницу с записью встречи, нажав на изображение, расположенное прямо под этим текстом.

Что дальше? Второй "тематический" семинар

Второй семинар состоялся 26 февраля; как и первая встреча, он также проходил в Zoom.

Ольга Александровна рассказала о компонентах тематической модели и условиях тематического моделирования. Механизм работы модели был проиллюстрирован с помощью разных схем и примеров. Отдельное внимание было уделено разным типам тематических моделей текста, в том числе мультимодальным моделям. Ольга Александровна также поговорила об инструментарии, который можно использовать при работе с тематическим моделированием.

Часть доклада была посвящена оценке качества тематических моделей. Кроме того, Ольга Александровна рассказала об автоматическом назначении меток тем и представила сравнение Labels-Y и Labels-ESA. Также рассматривались возможности расширения тематической модели — например, включения в неё биграмм.

Во время дискуссии обсуждались не упомянутые ранее типы тематических моделей (например, иерархическая тематическая модель).

Запись второй встречи также велась; чтобы перейти к записи, кликните на изображение:

На следующий день. Мастер-класс

В субботу 27 февраля Анна Денисовна Москвина провела мастер-класс по тематическому моделированию на Python с использованием библиотеки gensim. На встречу приглашались все желающие познакомиться с методом на практике.

Тематическая модель применялась к публицистическим текстам. Она также была опробована на фрагменте Корпуса русского рассказа первой трети XX века. Полученные результаты оказались интерпретируемыми.

О планах

В планах НУГ — применение метода тематического моделирования в исследовании Корпуса русского рассказа 1900 – 1930. 

Мы будем держать Вас в курсе и делиться результатами нашей работы!

Post Scriptum

Мы ещё раз благодарим Ольгу Александровну Митрофанову и Анну Денисовну Москвину, а также всех, кто посетил встречи по тематическому моделированию и принял участие в дискуссии! Спасибо Вам за Ваше время и интерес!  

До новых встреч!