We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Digital Humanities

2020/2021
Academic Year
RUS
Instruction in Russian
3
ECTS credits
Course type:
Compulsory course
When:
3 year, 1, 2 module

Instructors

Программа дисциплины

Аннотация

Содержание курса охватывает основы статистики, визуализацию данных, основы количественного анализа текстов и основы программирования на R. Освоение курса поможет студентам освоить основные категории и инструменты, необходимые для выполнения количественного анализа данных в гуманитарных науках, а также заложит основу для дальнейшего обучения современным методам анализа и визуализации данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Получение студентами знания об основных методах и направлениях развития цифровых гуманитарных наук (digital humanities) и применения цифровых технологий для решения практических задач, связанных с автоматическим анализом текста.
  • Знакомство студентов с основными понятиями и методами статистического анализа, его применения в филологической работе.
  • Получение студентами практических навыков работы в программной среде R с инструментариями автоматической обработки текста, анализа и визуализации данных.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент имеет представление о наиболее общих программных инструментах, используемых в цифровой гуманиоре, знает основы языка регулярных выражений, умеет использовать их в программных скриптах и владеет основами пользования imagemagick и OCR-Tesseract для подготовки текстов к анализу.
  • Студент имеет представления о концепции tidy data и case-variable structure, представлении данных в форматах текста с разделителями, XML и JSON.
  • Студент знает основы прикладной статистики, умеет выполнять стандартные задания по визуализации данных и формальному анализу данных (получение дескриптивных статистик, расчет корреляций, линейной регрессии, сравнение двух и более выборок, анализ таблиц сопряженности в среде статистического программирования и анализа данных R) семинарах, экзамен.
  • Студент имеет представление о принципах креативной инфографики и умеет реализовывать свои идеи в области креативной инфографики средствами R.
  • Студент знает принцип распределения языковых единиц в текстах и понимает его следствия для теоретических и прикладных вопросов количественного анализа текста
  • Студент имеет представление о принципе решения задач классификации в машинном обучении, умеет применять наивный байесовкий классификатор
  • Студент знаком с содержанием дистрибутивной гипотезы и современными данными по этой проблеме, имеет представление о сфере применения дистрибутивных методов в задачах количественного анализа текста
  • Студент имеет представление о логике работы и сфере применения методов тематического моделирования
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение. Обзор инструментов.
    (1.1)Вступление: о важности визуализации паттернов. Квартет Энскомба. Задачи анализа данных: описание разнообразия и поиск взаимосвязей. (1.2) Обзор основных инструментов, изучаемых в рамках курса и их место в задачах анализа данных. Редакторы кода. Язык регулярных выражений. Среда статистического программирования и анализа данных R. Imagemagick. OCR-Tesseract. QGIS.
  • Данные.
    Данные и метаданные, концепция tidy data. Case-variable структура, агрегированные и дезагрегированные данные. Классификация переменных и шкал. Специфика цифрового представления данных. Кодировки текстовых файлов и обработка концов строк. Delimited text, XML, JSON.
  • Визуализация паттернов и формальные методы анализа.
    (3.1) Отображение разнообразия: гистограммы и столбчатые диаграммы. Графические образы моделей с двумя переменными: диаграмма рассеяния, диаграммы разброса (множественный boxplot), диаграмма рассеяния с добавленным шумом, структурированные столбчатые диаграммы. (3.2) Меры центральности и разброса, их особенности. Асимметрия и эксцесс. Основные представления о нормальном распределении. (3.3) Выборочный метод. Точечные и интервальные оценки параметров. Статистическая гипотеза и ее тестирование, p-value. (3.4) Связь двух количественных переменных. Корреляция. Основные представления о линейной регрессии. Сравнение двух и более групп между собой. Параметрические и непараметрические методы. Общее понятие об обобщенной линейной модели. Анализ таблиц сопряженности.
  • Элементы креативной инфографики.
    Использование инфографики в просопографических проектах, проектах по Distant reading, карты и социальные сети.
  • Лексическая статистика.
    Частотное распределение лексики в языке. Закон Ципфа. Доля hapax legomena. Скорость роста словаря. Меры лексического разнообразия и их применимость. Распределение лексики в текстах коллекции. Взвешенная частотность. TF-IDF. Прочие меры лексической дисперсии. Коллокации. Формальные определения и лингвистический смысл коллокаций. Меры ассоциации. Коэффициент взаимной информации (MI). Извлечение ключевых слов. Метод контрастного корпуса. Отношение правдоподобия. Диахронический анализ лексической частотности.
  • Классификация текстов.
    Задача классификаци в машинном обучении. Векторное представление текста для задач информационного поиска. Открытые и закрытые классы слов. Стоп-слова. Динамические списки стоп слов. Порог отсечения по частотности и DF. Классификация текстов. Теорема байеса. Популярные алгоритмы классификации: наивный байесовский метод, метод опорных векторов, деревья принятия решений.
  • Дистрибутивная семантика.
    Дистрибутивная семантика. Совместная встречаемость и семантическая близость. Пространственное моделирование семантических отношений (word space). Методы снижения размерности векторных пространств. Латентный семантический анализ. Векторные представления дистрибуции слова в пространствах низкой размерности (word embeddings).
  • Тематическое моделирование.
    Операционализация понятия «тема» как вероятностного распределения лексики. Латентное размещение Дирихле (LDA). Процедура тематического моделирования. Препроцессинг. Сегментация текстов. Сэмплирование Гиббса. Интерпретация тем. Оценка качества модели. Использование результатов тематического моделирования в задаче классификации текстов. Оченка качества классификации (продолжение). Таблица сопряженности. Точность, полнота, F- мера. Матрица неточностей. Каппа-статистика.
Элементы контроля

Элементы контроля

  • неблокирующий Экзамен (контрольная работа)
    Экзамен проводится письменно в аудитории. Все вопросы разработаны на основе пройденного материала. Студенты заранее могут ознакомится с вопросами. Экзамен проходит в компьютерном классе.
  • неблокирующий Домашнее задание
    Выполняется письменно и состоит из небольших упражнений, проверяющих усвоение материала семинаров. Направляется студентам по электронной почте. Студенты направляют ответ преподавателю также по электронной почте.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.6 * Домашнее задание + 0.4 * Экзамен (контрольная работа)
Список литературы

Список литературы

Рекомендуемая основная литература

  • Роберт И., Кабаков - R в действии. Анализ и визуализация данных в программе R - Издательство "ДМК Пресс" - 2014 - 588с. - ISBN: 978-5-97060-077-1 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/58703

Рекомендуемая дополнительная литература

  • Bamman, D., Eisenstein, J., & Schnoebelen, T. (2014). Gender identity and lexical variation in social media[The resear]. Journal of Sociolinguistics, 18(2), 135–160. https://doi.org/10.1111/josl.12080
  • Коршунов, А., & Гомзин, А. (2012). Тематическое Моделирование Текстов На Естественном Языке. Труды Института Системного Программирования РАН. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsclk&AN=edsclk.14037894