• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Analysis and visualization of text data

2021/2022
Academic Year
RUS
Instruction in Russian
5
ECTS credits
Course type:
Elective course
When:
1 year, 3, 4 module

Instructors


Калакуцкий Аркадий Владимирович


Pozdniakov, Ivan

Программа дисциплины

Аннотация

Курс посвящен методам анализа особого типа данных – текстовых. В ходе обучения студенты освоят импорт, особенности обработки такого типа данных в зависимости от решаемых задач, познакомятся с основными методами статистического, кластерного и регрессионного анализа, освоят методы визуализации результатов анализа текстовых данных на языке R, изучение которого входит в программу курса.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины «Анализ и визуализация текстовых данных» являются: − освоение основ языка программирования R для анализа данных; − освоение методов предобработки текстовых данных в зависимости от типа решаемой задачи; − владение методами исследования текстовых данных с помощью описательной статистики; − ознакомление с основами методами многомерного анализа данных; − ознакомление с основными методами визуализации текстовых данных.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеет основами языка программирования R
  • Понимание дисперсионного анализа (ANOVA) и его разновидностей, умение провести тесты в R
  • Понимание корреляции и коэффициентов корреляции, умение рассчитать коэффициенты корреляции в R
  • Понимание линейной регрессии, ее связи с другими статистическими методами, оценка качества модели
  • Знает основные лингвистические пакеты на R
  • Владеет базовыми функциями plot(), hist(), boxplot() для быстрой визуализации данных
  • Владеет навыками работы с пакетом quanteda для продвинутой обработки текстовых данных
  • Использует пакет udpipe для токенизации и лемматизации данных в R
  • Понимает t-тест и его непараметрических аналогов, умение провести тесты в R
  • Понимание методов многомерного анализа текстовых данных и умение реализовать их с использованием возможностей языка R
  • Понимание методов визуализации многомерных данных
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в функционирование сети Интернет
  • Инструментарий совместной веб-разработки
  • Современный инструментарий верстки
  • Разработка бизнес-логики веб-приложений и контейнеризация
  • Фреймворки для разработки веб-приложений
  • Фоновая обработка задач
  • HTML5 and CSS Fundamentals
  • JavaScript Introduction
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
    Домашнее задания представляют собой небольшое практические задание, которое выполняется студентами вне аудитории. Оценка за домашнее задание выставляется по 10-балльной шкале. Сданные работы не пересдаются. Задания возможно получать и в дистанционном формате.
  • неблокирующий Экзамен
    Экзамен проводится в форме решения задач. Студент вытягивает билет с двумя вопросами. На подготовку у студента есть полчаса. Преподаватель имеет право во время экзамена задать вопросы по другим темам курса. Предусмотрен дистанционный формат сдачи элемента контроля.
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 4 модуль
    0.7 * Домашнее задание + 0.3 * Экзамен