We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Analysis and visualization of text data

2024/2025
Academic Year
RUS
Instruction in Russian
6
ECTS credits
Course type:
Compulsory course
When:
1 year, 3, 4 module

Instructor


Белоусов Константин Игоревич

Программа дисциплины

Аннотация

Курс «Анализ и визуализация текстовых данных» решает задачу систематизации знаний студентов о сферах применения лингвистических технологий для решения проблем общества, образования, медицины и других сфер. Представлен обзор основных лингвистических методов и подходов, базирующихся на автоматической обработке и визуализации текстовых данных, включая экспертный анализ текстов, методы компьютеризированного анализа, в том числе методы машинного обучения.
Цель освоения дисциплины

Цель освоения дисциплины

  • Формирование представления об экспертных и машинных способах анализа текстов разных типов
  • Ознакомление с методами визуализации результатов анализа, а также с методами визуализации для сбора гетерогенных поликодовых текстов
  • Развитие умения писать программы с использованием методов обработки текстов, методов статистического, кластерного и регрессионного анализа
Планируемые результаты обучения

Планируемые результаты обучения

  • Применять методы тематического моделирования: LDA, TextRank, LSA
  • Применять методы классификации текстов, в частности, логистическую регрессию, Word2Vec, наивный байесовский алгоритм
  • Создавать пуассоновскую регрессию, позволяющую предсказывать результаты показателя X на основе имеющихся данных показателя Y
  • Создавать метрики расстояний, k-means, иерархические кластеризации, визуализации деревьев
  • Осуществлять предобработку текста с помощью библиотеки NLTK. , извлекать именованные сущности (NER) с помощью библиотек NLTK и Slovnet(Natasha)
  • Анализировать данные цифровых ментальных карт страны, используя анализ последовательностей, анализ текстового слоя, координат и др. характеристик объектов
  • Производить вычисления, применяя знания по описательной статистике, корреляционному анализу
  • Применять имеющиеся словари для КА текста в двух реализациях: с помощью ИС "Семограф" и с помощью реализации собственного кода на языке Python
  • Применять платформу визуальной аналитики SciVi для анализа текстов с помощью методов ключевых слов и тематического анализа, использовать методы модулярности графов для кластеризации данных, сопоставлении результатов экспериментов
  • Демонстрировать навыки работы с информационной системой "Семограф" и платформой визуальной аналитики SciVi. Строить графосемантические модели предметных научных областей, связанных с темой магистерской диссертации
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Экспертный анализ выборок научных публикаций
  • Анализ и визуализация данных психолингвистики текста
  • Компьютеризированный контент-анализ текста
  • Анализ результатов компьютеризированного контент-анализа текста
  • Анализ гетерогенных поликодовых текстов
  • Предобработка текста и извлечение именованных сущностей (NER)
  • Регрессионный анализ
  • Методы классификации
  • Кластеризация
  • Методы тематического моделирования: LDA, TextRank, LSA
Элементы контроля

Элементы контроля

  • неблокирующий Самостоятельная работа
    В домашней работе студенту предлагается решить локальную исследовательскую задачу, использовав обсуждавшиеся в лекции методы и инструментарий.
  • неблокирующий Самостоятельная работа
    В домашней работе студенту предлагается решить локальную исследовательскую задачу, использовав обсуждавшиеся в лекции методы и инструментарий.
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 4th module
    Экзамен выставляется на основе выполненных самостоятельных работ (в количестве 7) по темам учебной дисциплины. В случае несогласия с оценкой студент выполняет одно из заданий, рассматриваемых в курсе.
Список литературы

Список литературы

Рекомендуемая основная литература

  • Прикладной анализ текстовых данных на Python : машинное обучение и создание приложений обработки естественного языка, Бенгфорт, Б., 2020

Рекомендуемая дополнительная литература

  • Обработка естественного языка Python и spaCy на практике, Васильев, Ю., 2021

Авторы

  • Кессель Ксения Витальевна