Итоги месяца. "Тематический" февраль
Открытые семинары НУГ в течение февраля 2021 года были полностью посвящены методу тематического моделирования. Подробнее о «тематическом» феврале мы рассказываем в этом материале.
Февраль «тематический»
В рамках встреч НУГ Ольга Александровна Митрофанова — кандидат филологических наук, доцент кафедры математической лингвистики СПБГУ — выступила с двумя докладами, посвящёнными тематическому моделированию. Первый доклад носил популярный характер; на второй встрече Ольга Александровна поговорила о тематических моделях в более техническом ключе. После докладов Ольги Александровны Анна Денисовна Москвина — компьютерный лингвист, преподаватель департамента филологии НИУ ВШЭ СПб — провела мастер-класс, задачей которого стало практическое знакомство с тематическим моделированием.
Как это было? Первый "тематический" семинар
Первая встреча прошла 19 февраля.
В начале своего доклада Ольга Александровна рассказала об особенностях применения метода в исследованиях художественной литературы. Тематические модели универсальны и не ориентированы на художественный текст. Тем не менее, такую модель можно использовать для получения определённого «среза» — формализованного представления художественного текста. Говоря о симбиозе модели и литературного произведения, важно обратиться к одним из наиболее ранних опытов моделирования художественного текста. Среди них — «Морфология волшебной сказки» В. Я. Проппа, сюжетные грамматики В. Ленерт, компьютерные модели генерации сказочных сюжетов М. Г. Гаазе-Рапопорта, Д. А. Поспелова, Е. Т. Семёновой.
Значительная часть доклада была посвящена вероятностному тематическому моделированию. Ольга Александровна объяснила основной механизм работы LDA-модели (Latent Dirichlet Allocation). Обсуждалась интерпретация тематической модели; рассматривались примеры результатов, полученных в качестве её output’а. Ольга Александровна также поделилась результатами применения тематической модели к роману М. А. Булгакова «Мастер и Маргарита». Модель отразила не только основные сюжетные элементы произведения, но и стилистические особенности разных частей романа.
В конце выступления Ольги Александровны была проведена дискуссия. Обсуждались преимущества и недостатки метода тематического моделирования; поднимался вопрос об ограничениях в использовании тематической модели.
Доклад Ольги Александровны и обсуждение записывались; Вы можете перейти на страницу с записью встречи, нажав на изображение, расположенное прямо под этим текстом.
Что дальше? Второй "тематический" семинар
Второй семинар состоялся 26 февраля; как и первая встреча, он также проходил в Zoom.
Ольга Александровна рассказала о компонентах тематической модели и условиях тематического моделирования. Механизм работы модели был проиллюстрирован с помощью разных схем и примеров. Отдельное внимание было уделено разным типам тематических моделей текста, в том числе мультимодальным моделям. Ольга Александровна также поговорила об инструментарии, который можно использовать при работе с тематическим моделированием.
Часть доклада была посвящена оценке качества тематических моделей. Кроме того, Ольга Александровна рассказала об автоматическом назначении меток тем и представила сравнение Labels-Y и Labels-ESA. Также рассматривались возможности расширения тематической модели — например, включения в неё биграмм.
Во время дискуссии обсуждались не упомянутые ранее типы тематических моделей (например, иерархическая тематическая модель).
Запись второй встречи также велась; чтобы перейти к записи, кликните на изображение:
На следующий день. Мастер-класс
В субботу 27 февраля Анна Денисовна Москвина провела мастер-класс по тематическому моделированию на Python с использованием библиотеки gensim. На встречу приглашались все желающие познакомиться с методом на практике.
Тематическая модель применялась к публицистическим текстам. Она также была опробована на фрагменте Корпуса русского рассказа первой трети XX века. Полученные результаты оказались интерпретируемыми.
О планах
В планах НУГ — применение метода тематического моделирования в исследовании Корпуса русского рассказа 1900 – 1930.
Мы будем держать Вас в курсе и делиться результатами нашей работы!
Post Scriptum
Мы ещё раз благодарим Ольгу Александровну Митрофанову и Анну Денисовну Москвину, а также всех, кто посетил встречи по тематическому моделированию и принял участие в дискуссии! Спасибо Вам за Ваше время и интерес!
До новых встреч!