• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Анализ и визуализация текстовых данных

2025/2026
Учебный год
RUS
Обучение ведется на русском языке
6
Кредиты
Статус:
Курс обязательный
Когда читается:
1-й курс, 3, 4 модуль

Программа дисциплины

Аннотация

Дисциплина «Анализ и визуализация текстовых данных» направлена на формирование у студентов навыков анализа, интерпретации и визуального представления неструктурированных текстовых данных. Курс ориентирован на практическое применение методов обработки естественного языка (NLP), статистического анализа и визуализации данных с использованием Python и современных аналитических инструментов. Особое внимание уделяется интерпретации визуализаций, работе с эмбеддингами, кластеризацией, тематическим моделированием, а также визуальному анализу мультимодальных данных. В рамках курса студенты разрабатывают собственный проект по визуализации текстового датасета.
Цель освоения дисциплины

Цель освоения дисциплины

  • Сформировать у студентов системное понимание того, как извлекать смысл и закономерности из текстовых данных и представлять их в виде корректных, интерпретируемых и визуально выразительных графиков и дашбордов.
Планируемые результаты обучения

Планируемые результаты обучения

  • применяет библиотеки Python для визуализации данных (matplotlib, seaborn, plotly, pyvis)
  • анализирует текстовые данные с использованием базовых NLP-метрик и эмбеддингов
  • визуализирует высокоразмерные представления текстов
  • использует методы кластеризации и тематического моделирования
  • интерпретирует визуализации и выявляет ошибки и искажения
  • создает интерактивные визуализации и дашборды
  • аргументированно объясняет полученные визуальные результаты
  • реализует самостоятельный проект по анализу и визуализации текстового датасета
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в визуализацию данных и библиотеки Python
  • Ошибки визуализации и когнитивные искажения
  • Narrative visualization и data storytelling
  • Интерактивная визуализация текстовых данных
  • Дашборды и визуальная аналитика (DataLens)
  • Снижение размерности и кластеризация текстов
  • Визуализация тематических моделей
  • Анализ и визуализация лексического разнообразия
  • Explainability и интерпретация NLP-моделей
  • Мультимодальные эмбеддинги и их визуализация
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
    Базовая визуализация и интерпретация данных Описание: Студенту предлагается текстовый или табличный датасет (корпус текстов, метаданные, частотные списки). Необходимо построить не менее двух статических визуализаций с использованием matplotlib или seaborn и письменно интерпретировать полученные результаты. Требования: ● корректность визуализаций; ● читаемость и оформление графиков; ● обоснованная интерпретация.
  • неблокирующий Домашнее задание 2
    Визуальный анализ текстовых представлений Описание: Необходимо применить методы снижения размерности (UMAP или t-SNE) к векторным представлениям текстов и визуализировать результат. Студент должен проанализировать структуру полученного пространства и сделать выводы о сходстве и различии текстов. Требования: ● корректное применение метода; ● визуальная интерпретируемость; ● аналитический комментарий.
  • неблокирующий Домашнее задание 3
    Интерактивная или нарративная визуализация Описание: Студент разрабатывает интерактивную визуализацию или связную визуальную историю по текстовому датасету с использованием plotly, pyvis или Streamlit. Требования: ● наличие интерактивных элементов или нарративной структуры; ● логика визуального рассказа; ● соответствие цели анализа.
  • неблокирующий Проект и защита проекта
    Проект представляет собой самостоятельную работу по анализу и визуализации текстового или мультимодального датасета. Проект может выполняться индивидуально или в группе до 3 человек. Требования к проекту: ● использование не менее двух различных методов визуализации; ● применение хотя бы одного метода анализа текстовых данных; ● наличие аналитического вывода; ● воспроизводимость результатов. Формат защиты: ● презентация проекта (7–10 минут); ● ответы на вопросы преподавателя.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 4th module
    0.15 * Домашнее задание 1 + 0.15 * Домашнее задание 2 + 0.15 * Домашнее задание 3 + 0.55 * Проект и защита проекта

Авторы

  • Жиляева Виктория Артуровна
  • Поздняков Иван Сергеевич
  • Паничева Полина Вадимовна
  • Литвинова Татьяна Александровна.