We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Data Analysis

2024/2025
Academic Year
RUS
Instruction in Russian
6
ECTS credits
Course type:
Compulsory course
When:
1 year, 2, 3 module

Instructor

Программа дисциплины

Аннотация

В рамках курса будут обсуждаться методы подготовки и анализа данных. Студенты познакомятся с принципами критического анализа данных, ориентированного на изучение культурных, этических и социально-технических проблем на стыке социальных наук, информатики и общества. Дисциплина направлена на выработку у студентов критического подхода к таким темам, как большие данные, этика данных, конфиденциальность, алгоритмы решения социальных проблем при помощи систем данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Уметь проводить статистический анализ данных, а также решать исследовательские и практические задачи с помощью различных техник моделирования
Планируемые результаты обучения

Планируемые результаты обучения

  • Умение определять нужную парадигму анализа данных для конкретного исследования, ориентироваться в современных подходах к анализу данных, формулировать исследовательские гипотезы и задачи исследований и подбирать соответствующие методы анализа данных
  • Умение интерпретировать результаты моделирования для линейной регрессии, использовать линейную регрессию в релевантных задачах, производить моделирование в случаях нарушений предположений МНК при помощи ОМНК и пересчета стандартных ошибок коэффициентов. Умение использовать линейную регрессию с регуляризацией для задач машинного обучения.
  • Уметь применять методы классического машинного обучения для решения задач классификации и регрессии
  • Студент знает основные методы обработки текста и способы токенизации. Умеет работать с языковыми моделями и встраивать их в свои задачи.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в анализ данных
  • Разведовательный анализ
  • Линейная регрессия
  • Классические методы машинного обучения для классификации и регрессии
  • Введение в NLP
Элементы контроля

Элементы контроля

  • неблокирующий работа на семинарах
  • неблокирующий тест
  • блокирующий проект
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 3rd module
    0.6 * проект + 0.1 * работа на семинарах + 0.1 * работа на семинарах + 0.2 * тест
Список литературы

Список литературы

Рекомендуемая основная литература

  • Matt Wiley, & Joshua F. Wiley. (2019). Advanced R Statistical Programming and Data Models : Analysis, Machine Learning, and Visualization. Apress.
  • Yang, X.-S. (2019). Introduction to Algorithms for Data Mining and Machine Learning. Academic Press.

Рекомендуемая дополнительная литература

  • Field, A. V. (DE-588)128714581, (DE-627)378310763, (DE-576)186310501, aut. (2012). Discovering statistics using R Andy Field, Jeremy Miles, Zoë Field. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edswao&AN=edswao.363067604
  • Linear Regression Using R - An Introduction to Data Modeling - CCBY4_059 - David Lilja - 2022 - Open Educational Resources: libretexts.org - https://ibooks.ru/bookshelf/390845 - 390845 - iBOOKS

Авторы

  • Сурков Антон Юрьевич
  • Сорбалэ Алексей Борисович
  • Ильина Мария Ивановна