• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Analysis and visualization of text data

2023/2024
Academic Year
RUS
Instruction in Russian
6
ECTS credits
Course type:
Compulsory course
When:
1 year, 3, 4 module

Instructor


Белоусов Константин Игоревич

Программа дисциплины

Аннотация

Курс «Анализ и визуализация текстовых данных» решает задачу систематизации знаний студентов о сферах применения лингвистических технологий для решения проблем общества, образования, медицины и других сфер. Представлен обзор основных лингвистических методов и подходов, базирующихся на автоматической обработке и визуализации текстовых данных, включая экспертный анализ текстов, методы компьютеризированного анализа, в том числе методы машинного обучения.
Цель освоения дисциплины

Цель освоения дисциплины

  • Формирование представления об экспертных и машинных способах анализа текстов разных типов
  • Ознакомление с методами визуализации результатов анализа, а также с методами визуализации для сбора гетерогенных поликодовых текстов
  • Развитие умения писать программы с использованием методов обработки текстов, методов статистического, кластерного и регрессионного анализа
Планируемые результаты обучения

Планируемые результаты обучения

  • Применять методы тематического моделирования: LDA, TextRank, LSA
  • Применять методы классификации текстов, в частности, логистическую регрессию, Word2Vec, наивный байесовский алгоритм
  • Создавать пуассоновскую регрессию, позволяющую предсказывать результаты показателя X на основе имеющихся данных показателя Y
  • Создавать метрики расстояний, k-means, иерархические кластеризации, визуализации деревьев
  • Осуществлять предобработку текста с помощью библиотеки NLTK. , извлекать именованные сущности (NER) с помощью библиотек NLTK и Slovnet(Natasha)
  • Анализировать данные цифровых ментальных карт страны, используя анализ последовательностей, анализ текстового слоя, координат и др. характеристик объектов
  • Производить вычисления, применяя знания по описательной статистике, корреляционному анализу
  • Применять имеющиеся словари для КА текста в двух реализациях: с помощью ИС "Семограф" и с помощью реализации собственного кода на языке Python
  • Применять платформу визуальной аналитики SciVi для анализа текстов с помощью методов ключевых слов и тематического анализа, использовать методы модулярности графов для кластеризации данных, сопоставлении результатов экспериментов
  • Демонстрировать навыки работы с информационной системой "Семограф" и платформой визуальной аналитики SciVi. Строить графосемантические модели предметных научных областей, связанных с темой магистерской диссертации
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Экспертный анализ выборок научных публикаций
  • Анализ и визуализация данных психолингвистики текста
  • Компьютеризированный контент-анализ текста
  • Анализ результатов компьютеризированного контент-анализа текста
  • Анализ гетерогенных поликодовых текстов
  • Предобработка текста и извлечение именованных сущностей (NER)
  • Регрессионный анализ
  • Методы классификации
  • Кластеризация
  • Методы тематического моделирования: LDA, TextRank, LSA
Элементы контроля

Элементы контроля

  • неблокирующий Самостоятельная работа
    В домашней работе студенту предлагается решить локальную исследовательскую задачу, использовав обсуждавшиеся в лекции методы и инструментарий.
  • неблокирующий Самостоятельная работа
    В домашней работе студенту предлагается решить локальную исследовательскую задачу, использовав обсуждавшиеся в лекции методы и инструментарий.
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 4 модуль
    Экзамен выставляется на основе выполненных самостоятельных работ (в количестве 7) по темам учебной дисциплины. В случае несогласия с оценкой студент выполняет одно из заданий, рассматриваемых в курсе.
Список литературы

Список литературы

Рекомендуемая основная литература

  • Прикладной анализ текстовых данных на Python : машинное обучение и создание приложений обработки естественного языка, Бенгфорт, Б., 2020

Рекомендуемая дополнительная литература

  • Обработка естественного языка Python и spaCy на практике, Васильев, Ю., 2021

Авторы

  • Паничева Полина Вадимовна
  • Литвинова Татьяна Александровна.
  • Кессель Ксения Витальевна
  • Поздняков Иван Сергеевич