• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Анализ и визуализация текстовых данных

2022/2023
Учебный год
RUS
Обучение ведется на русском языке
6
Кредиты
Статус:
Курс обязательный
Когда читается:
1-й курс, 3, 4 модуль

Преподаватель


Литвинова Татьяна Александровна

Программа дисциплины

Аннотация

Курс посвящен методам анализа особого типа данных – текстовых. В ходе обучения студенты освоят импорт, особенности обработки такого типа данных в зависимости от решаемых задач, познакомятся с основными методами статистического, кластерного и регрессионного анализа, освоят методы визуализации результатов анализа текстовых данных на языке R, изучение которого входит в программу курса.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины «Анализ и визуализация текстовых данных» являются: − освоение основ языка программирования R для анализа данных; − освоение методов предобработки текстовых данных в зависимости от типа решаемой задачи; − владение методами исследования текстовых данных с помощью описательной статистики; − ознакомление с основами методами многомерного анализа данных; − ознакомление с основными методами визуализации текстовых данных.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеет основами языка программирования R
  • Понимание дисперсионного анализа (ANOVA) и его разновидностей, умение провести тесты в R
  • Понимание корреляции и коэффициентов корреляции, умение рассчитать коэффициенты корреляции в R
  • Понимание линейной регрессии, ее связи с другими статистическими методами, оценка качества модели
  • Знает основные лингвистические пакеты на R
  • Владеет базовыми функциями plot(), hist(), boxplot() для быстрой визуализации данных
  • Владеет навыками работы с пакетом quanteda для продвинутой обработки текстовых данных
  • Использует пакет udpipe для токенизации и лемматизации данных в R
  • Понимает t-тест и его непараметрических аналогов, умение провести тесты в R
  • Понимание методов многомерного анализа текстовых данных и умение реализовать их с использованием возможностей языка R
  • Понимание методов визуализации многомерных данных
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Основы работы в R. Объекты R
  • Тема 2. Базовая описательная статистика в R. ANOVA. Линейная регрессия
  • Тема 3. Основные пакеты для работы с текстовыми данными. Токенизация и лемматизация
  • Тема 4. Анализ текстовых данных с использованием пакета quanteda
  • Тема 5. Кластерный анализ.
  • Тема 6. Базовые методы многомерного анализа данных и визуализации. Метод главных компонент (PCA)
  • Тема 7. Продвинутые методы многомерного анализа данных и их реализация на языке R
  • Тема 8. Идиолектные данные как многомерные данные. Методы анализа идиолектных данных на языке R
Элементы контроля

Элементы контроля

  • неблокирующий Проектное задание
    Проектное задание представляет собой серию объединенных общей задачей индивидуальных практических заданий, которые выполняются студентами вне аудитории. Выполняется письменно, индивидуально, внеаудиторно. Готовое проектное задание направляется преподавателю по электронной почте. Преподаватель оценивает самостоятельную работу студентов по выполнению проектного задания – при этом оценивается правильность выбора метода решения задачи в соответствии с заранее установленным критериями.
  • неблокирующий Экзамен
    Экзамен проводится в форме решения задач. Студент выбирает билет с двумя вопросами (называет номер билета). На подготовку у студента есть полчаса. Преподаватель имеет право во время экзамена задать вопросы по другим темам курса. Предусмотрен дистанционный формат сдачи элемента контроля
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 4 модуль
    0.6 * Проектное задание + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Levshina, N. (2015). How to Do Linguistics with R : Data Exploration and Statistical Analysis. Amsterdam: John Benjamins Publishing Company. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1093048

Рекомендуемая дополнительная литература

  • Silge, J., & Robinson, D. (2017). Text Mining with R : A Tidy Approach (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1533983