We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Analysis and visualization of text data

2021/2022
Academic Year
RUS
Instruction in Russian
5
ECTS credits
Course type:
Elective course
When:
1 year, 3, 4 module

Instructors


Калакуцкий Аркадий Владимирович


Pozdniakov, Ivan

Программа дисциплины

Аннотация

Курс посвящен методам анализа особого типа данных – текстовых. В ходе обучения студенты освоят импорт, особенности обработки такого типа данных в зависимости от решаемых задач, познакомятся с основными методами статистического, кластерного и регрессионного анализа, освоят методы визуализации результатов анализа текстовых данных на языке R, изучение которого входит в программу курса.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины «Анализ и визуализация текстовых данных» являются: − освоение основ языка программирования R для анализа данных; − освоение методов предобработки текстовых данных в зависимости от типа решаемой задачи; − владение методами исследования текстовых данных с помощью описательной статистики; − ознакомление с основами методами многомерного анализа данных; − ознакомление с основными методами визуализации текстовых данных.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеет основами языка программирования R
  • Понимание дисперсионного анализа (ANOVA) и его разновидностей, умение провести тесты в R
  • Понимание корреляции и коэффициентов корреляции, умение рассчитать коэффициенты корреляции в R
  • Понимание линейной регрессии, ее связи с другими статистическими методами, оценка качества модели
  • Знает основные лингвистические пакеты на R
  • Владеет базовыми функциями plot(), hist(), boxplot() для быстрой визуализации данных
  • Владеет навыками работы с пакетом quanteda для продвинутой обработки текстовых данных
  • Использует пакет udpipe для токенизации и лемматизации данных в R
  • Понимает t-тест и его непараметрических аналогов, умение провести тесты в R
  • Понимание методов многомерного анализа текстовых данных и умение реализовать их с использованием возможностей языка R
  • Понимание методов визуализации многомерных данных
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в функционирование сети Интернет
  • Инструментарий совместной веб-разработки
  • Современный инструментарий верстки
  • Разработка бизнес-логики веб-приложений и контейнеризация
  • Фреймворки для разработки веб-приложений
  • Фоновая обработка задач
  • HTML5 and CSS Fundamentals
  • JavaScript Introduction
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
    Домашнее задания представляют собой небольшое практические задание, которое выполняется студентами вне аудитории. Оценка за домашнее задание выставляется по 10-балльной шкале. Сданные работы не пересдаются. Задания возможно получать и в дистанционном формате.
  • неблокирующий Экзамен
    Экзамен проводится в форме решения задач. Студент вытягивает билет с двумя вопросами. На подготовку у студента есть полчаса. Преподаватель имеет право во время экзамена задать вопросы по другим темам курса. Предусмотрен дистанционный формат сдачи элемента контроля.
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 4 модуль
    0.7 * Домашнее задание + 0.3 * Экзамен

Авторы

  • Паничева Полина Вадимовна
  • Поздняков Иван Сергеевич