• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Бакалаврская программа «История»

07
Апрель

Количественные методы в гуманитарных науках

2019/2020
Учебный год
RUS
Обучение ведется на русском языке
3
Кредиты
Статус:
Курс по выбору
Когда читается:
2-й курс, 3 модуль

Преподаватель


Куприянов Алексей Валерьевич

Программа дисциплины

Аннотация

Курс включает несколько модулей, посвященных (1) анализу и визуализации данных, включая элементы анализа социальных сетей, компьютерной картографии и анализа текстов. (2) Пре-процессингу (предварительной подготовке) данных, включая автоматизированный сбор данных в Интернете, «очистку» сырых данных и подготовку их к работе в средах анализа данных и статистического программирования. Курс строится, с одной стороны, на анализе примеров исследовательских проектов в сфере Digital humanities (цифровой уманиоры), с другой – на приобретении специфических навыков. К концу курса от студентов ожидается понимание основных принципов анализа данных в гуманитарных дисциплинах и освоение умений и навыков достаточных для работы с инструментами предварительной обработки данных, анализа данных и визуализации (основы Python, R, Perl и Regular Expressions) в рамках выполнения собственных исследовательских проектов и медиации между представителями гуманитарных дисциплин и специалистами- «компьютерщиками» в коллективных проектах в области Digital humanities. Практическое освоение приемов анализа будет основано как на тренировочных, так и на «реальных» массивах данных (datasets). Приоритетное внимание уделяется развитию практических навыков.
Цель освоения дисциплины

Цель освоения дисциплины

  • научиться использовать Python и R для анализа данных, писать простые скрипты на Perl с использованием Regular Expressions для сбора и предварительной обработки данных, включая частично автоматизированный сбор информации в Интернете.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент имеет представление о наиболее общих программных инструментах, используемых в цифровой гуманиоре, знает основы языка регулярных выражений, умеет использовать их в программных скриптах и владеет основами пользования imagemagick и OCR-Tesseract для подготовки текстов к анализу.
  • Студент имеет представления о концепции tidy data и case-variable structure, представлении данных в форматах текста с разделителями, XML и JSON.
  • Студент знает основы прикладной статистики, умеет выполнять стандартные задания по визуализации данных и формальному анализу данных (получение дескриптивных статистик, расчет корреляций, линейной регрессии, сравнение двух и более выборок, анализ таблиц сопряженности в среде статистического программирования и анализа данных R)
  • Студент имеет представление о принципах креативной инфографики и умеет реализовывать свои идеи в области креативной инфографики средствами R.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение. Обзор инструментов
    (1.1) Вступление: о важности визуализации паттернов. Квартет Энскомба. Задачи анализа данных: описание разнообразия и поиск взаимосвязей. (1.2) Обзор основных инструментов, изучаемых в рамках курса и их место в задачах анализа данных. Редакторы кода. Язык регулярных выражений. Среда статистического программирования и анализа данных R. Imagemagick. OCR-Tesseract. QGIS.
  • Данные
    Данные и метаданные, концепция tidy data. Case-variable структра, агрегированные и дезагрегированные данные. Классификация переменных и шкал. Специфика цифрового представления данных. Кодировки текстовых файлов и обработка концов строк. Delimited text, XML, JSON.
  • Визуализация паттернов и формальные методы анализа
    (3.1) Отображение разнообразия: гистограммы и столбчатые диаграммы. Графические образы моделей с двумя переменными: диаграмма рассеяния, диаграммы разброса (множественный boxplot), диаграмма рассеяния с добавленным шумом, структурированные столбчатые диаграммы. (3.2) Меры центральности и разброса, их особенности. Асимметрия и эксцесс. Основные представления о нормальном распределении. (3.3) Выборочный метод. Точечные и интервальные оценки параметров. Статистическая гипотеза и ее тестирование, p-value. (3.4) Связь двух количественных переменных. Корреляция. Основные представления о линейной регрессии. Сравнение двух и более групп между собой. Параметрические и непараметрические методы. Общее понятие об обобщенной линейной модели. Анализ таблиц сопряженности.
  • Элементы креативной инфографики
    Использование инфографики в просопографических проектах, проектах по Distant reading, карты и социальные сети.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
  • неблокирующий Домашнее задание 2
  • неблокирующий Итоговая экзаменационная контрольная работа
    экзамен состоялся в марте 2020 года
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.3 * Домашнее задание 1 + 0.3 * Домашнее задание 2 + 0.4 * Итоговая экзаменационная контрольная работа
Список литературы

Список литературы

Рекомендуемая основная литература

  • Роберт И., Кабаков - R в действии. Анализ и визуализация данных в программе R - Издательство "ДМК Пресс" - 2014 - 588с. - ISBN: 978-5-97060-077-1 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/58703

Рекомендуемая дополнительная литература

  • Bivand, R., Pebesma, E. J., & Gómez-Rubio, V. (2013). Applied Spatial Data Analysis with R (Vol. 2nd ed). New York, NY: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=601853
  • Field, A. V. (DE-588)128714581, (DE-627)378310763, (DE-576)186310501, aut. (2012). Discovering statistics using R Andy Field, Jeremy Miles, Zoë Field. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edswao&AN=edswao.363067604
  • Hai-Jew, S. (2017). Data Analytics in Digital Humanities. Cham, Switzerland: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1514614
  • Schreibman, S., Siemens, R. G., & Unsworth, J. (2004). A Companion to Digital Humanities. Malden, MA: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=231516
  • Terras, M. (2013). Defining Digital Humanities : A Reader. Farnham: Ashgate. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=974585