• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
07
Апрель

Цифровые методы для гуманитариев

2020/2021
Учебный год
RUS
Обучение ведется на русском языке
3
Кредиты
Статус:
Курс обязательный
Когда читается:
3-й курс, 1, 2 модуль

Преподаватели


Климов Александр Антонович

Программа дисциплины

Аннотация

Содержание курса охватывает основы статистики, визуализацию данных, основы количественного анализа текстов и основы программирования на R. Освоение курса поможет студентам освоить основные категории и инструменты, необходимые для выполнения количественного анализа данных в гуманитарных науках, а также заложит основу для дальнейшего обучения современным методам анализа и визуализации данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Получение студентами знания об основных методах и направлениях развития цифровых гуманитарных наук (digital humanities) и применения цифровых технологий для решения практических задач, связанных с автоматическим анализом текста.
  • Знакомство студентов с основными понятиями и методами статистического анализа, его применения в филологической работе.
  • Получение студентами практических навыков работы в программной среде R с инструментариями автоматической обработки текста, анализа и визуализации данных.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент имеет представление о наиболее общих программных инструментах, используемых в цифровой гуманиоре, знает основы языка регулярных выражений, умеет использовать их в программных скриптах и владеет основами пользования imagemagick и OCR-Tesseract для подготовки текстов к анализу.
  • Студент имеет представления о концепции tidy data и case-variable structure, представлении данных в форматах текста с разделителями, XML и JSON.
  • Студент знает основы прикладной статистики, умеет выполнять стандартные задания по визуализации данных и формальному анализу данных (получение дескриптивных статистик, расчет корреляций, линейной регрессии, сравнение двух и более выборок, анализ таблиц сопряженности в среде статистического программирования и анализа данных R) семинарах, экзамен.
  • Студент имеет представление о принципах креативной инфографики и умеет реализовывать свои идеи в области креативной инфографики средствами R.
  • Студент знает принцип распределения языковых единиц в текстах и понимает его следствия для теоретических и прикладных вопросов количественного анализа текста
  • Студент имеет представление о принципе решения задач классификации в машинном обучении, умеет применять наивный байесовкий классификатор
  • Студент знаком с содержанием дистрибутивной гипотезы и современными данными по этой проблеме, имеет представление о сфере применения дистрибутивных методов в задачах количественного анализа текста
  • Студент имеет представление о логике работы и сфере применения методов тематического моделирования
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение. Обзор инструментов.
    (1.1)Вступление: о важности визуализации паттернов. Квартет Энскомба. Задачи анализа данных: описание разнообразия и поиск взаимосвязей. (1.2) Обзор основных инструментов, изучаемых в рамках курса и их место в задачах анализа данных. Редакторы кода. Язык регулярных выражений. Среда статистического программирования и анализа данных R. Imagemagick. OCR-Tesseract. QGIS.
  • Данные.
    Данные и метаданные, концепция tidy data. Case-variable структура, агрегированные и дезагрегированные данные. Классификация переменных и шкал. Специфика цифрового представления данных. Кодировки текстовых файлов и обработка концов строк. Delimited text, XML, JSON.
  • Визуализация паттернов и формальные методы анализа.
    (3.1) Отображение разнообразия: гистограммы и столбчатые диаграммы. Графические образы моделей с двумя переменными: диаграмма рассеяния, диаграммы разброса (множественный boxplot), диаграмма рассеяния с добавленным шумом, структурированные столбчатые диаграммы. (3.2) Меры центральности и разброса, их особенности. Асимметрия и эксцесс. Основные представления о нормальном распределении. (3.3) Выборочный метод. Точечные и интервальные оценки параметров. Статистическая гипотеза и ее тестирование, p-value. (3.4) Связь двух количественных переменных. Корреляция. Основные представления о линейной регрессии. Сравнение двух и более групп между собой. Параметрические и непараметрические методы. Общее понятие об обобщенной линейной модели. Анализ таблиц сопряженности.
  • Элементы креативной инфографики.
    Использование инфографики в просопографических проектах, проектах по Distant reading, карты и социальные сети.
  • Лексическая статистика.
    Частотное распределение лексики в языке. Закон Ципфа. Доля hapax legomena. Скорость роста словаря. Меры лексического разнообразия и их применимость. Распределение лексики в текстах коллекции. Взвешенная частотность. TF-IDF. Прочие меры лексической дисперсии. Коллокации. Формальные определения и лингвистический смысл коллокаций. Меры ассоциации. Коэффициент взаимной информации (MI). Извлечение ключевых слов. Метод контрастного корпуса. Отношение правдоподобия. Диахронический анализ лексической частотности.
  • Классификация текстов.
    Задача классификаци в машинном обучении. Векторное представление текста для задач информационного поиска. Открытые и закрытые классы слов. Стоп-слова. Динамические списки стоп слов. Порог отсечения по частотности и DF. Классификация текстов. Теорема байеса. Популярные алгоритмы классификации: наивный байесовский метод, метод опорных векторов, деревья принятия решений.
  • Дистрибутивная семантика.
    Дистрибутивная семантика. Совместная встречаемость и семантическая близость. Пространственное моделирование семантических отношений (word space). Методы снижения размерности векторных пространств. Латентный семантический анализ. Векторные представления дистрибуции слова в пространствах низкой размерности (word embeddings).
  • Тематическое моделирование.
    Операционализация понятия «тема» как вероятностного распределения лексики. Латентное размещение Дирихле (LDA). Процедура тематического моделирования. Препроцессинг. Сегментация текстов. Сэмплирование Гиббса. Интерпретация тем. Оценка качества модели. Использование результатов тематического моделирования в задаче классификации текстов. Оченка качества классификации (продолжение). Таблица сопряженности. Точность, полнота, F- мера. Матрица неточностей. Каппа-статистика.
Элементы контроля

Элементы контроля

  • неблокирующий Экзамен (контрольная работа)
    Экзамен проводится письменно в аудитории. Все вопросы разработаны на основе пройденного материала. Студенты заранее могут ознакомится с вопросами. Экзамен проходит в компьютерном классе.
  • неблокирующий Домашнее задание
    Выполняется письменно и состоит из небольших упражнений, проверяющих усвоение материала семинаров. Направляется студентам по электронной почте. Студенты направляют ответ преподавателю также по электронной почте.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.6 * Домашнее задание + 0.4 * Экзамен (контрольная работа)
Список литературы

Список литературы

Рекомендуемая основная литература

  • Роберт И., Кабаков - R в действии. Анализ и визуализация данных в программе R - Издательство "ДМК Пресс" - 2014 - 588с. - ISBN: 978-5-97060-077-1 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/58703

Рекомендуемая дополнительная литература

  • Bamman, D., Eisenstein, J., & Schnoebelen, T. (2014). Gender identity and lexical variation in social media[The resear]. Journal of Sociolinguistics, 18(2), 135–160. https://doi.org/10.1111/josl.12080
  • Коршунов, А., & Гомзин, А. (2012). Тематическое Моделирование Текстов На Естественном Языке. Труды Института Системного Программирования РАН. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsclk&AN=edsclk.14037894