We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Modern Methods of Data Analysis

2022/2023
Academic Year
RUS
Instruction in Russian
5
ECTS credits
Delivered at:
Department of Informatics
Course type:
Compulsory course
When:
2 year, 1, 2 module

Instructor


Хорошев Артем Сергеевич

Программа дисциплины

Аннотация

Дисциплина направлена на формирование представлений об основных методах машинного обучения, соответствующих алгоритмах вывода, вероятностных основах машинного обучения и соответствующих моделях. Изучение дисциплины будет способствовать развитию вероятностной интуиции и разработке моделей и методов машинного обучения, а также их практическому применению.
Цель освоения дисциплины

Цель освоения дисциплины

  • Формирование у студентов представлений об основных аппаратах машинного обучения, эффективных алгоритмах обучения и применении обученных моделей.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеет понятием статистического обучения в бизнесе, социологии, экономике. Знает возможности применения статистического обучения в информационных системах. Знает классификационные и регрессионные деревья, линейную регрессию, квадратичную функцию потерь и предположение о нормальном распределении шума.
  • Знает главные методы, техники, темы и прикладные возможности. Владеет понятием анализа данных в различных прикладных областях. Знает этапы анализа данных. Знает инструменты R, RStudio, Python (пакеты scipy и numpy, сборка Anaconda, Pandas, Scikit-learn и др.).
  • Владеет понятиями визуализации и агрегации данных: фильтрация, объединение, сортировка данных. Работает с датами и текстовыми данными. Оценивает параметры распределений. Знает метод максимального правдоподобия.
  • Владеет понятиями: объединение моделей, усреднение, бутстрап, бэггинг, бустинг: AdaBoost. Знает алгоритм Random Forest.
  • Знает модели, допускающие интерпретацию. Владеет понятием интерпретации моделей “черного ящика”. Владеет понятием глобальной интерпретации (знает важность признаков, ICE графики).
  • Знает проблему выявления причинно-следственных связей. Владеет понятиями случайных экспериментов, выборки и смещения, мэтчинга. Знает оценки ATE, ATC.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Введение, основные понятия анализа данных
  • Тема 2. Выводы на основе данных: проверка гипотез и статистические тесты
  • Тема 3. Предсказания на основе данных. Классификация и регрессия
  • Тема 4. Ансамбли моделей
  • Тема 5. Интерпретация моделей
  • Тема 6. Причинно-следственные связи
Элементы контроля

Элементы контроля

  • неблокирующий Дневники работы над проектом
    Домашнее задание представляет собой проект по анализу данных и состоит из двух частей. Данные выбираются либо из списка, предоставленного преподавателем, либо предлагаются самостоятельно и согласовываются с преподавателем. На основе данных студентам необходимо построить предсказательную модель. Проект обязательно включает все методы, изученные на лекциях и практических занятиях: формулировку конкретных вопросов и проверку соответствующих гипотез; модель на основе дерева решений; модель на основе регрессии; модели, построенные каким-нибудь методом создания ансамблей; выбор итоговой модели; исследование того, какие переменные оказывают наибольшее влияние на модель (глобальная интерпретация); исследование предсказания на конкретном примере (локальная интерпретация); исследование причинно-следственных связей. Выбор инструментария для решения (R или Python) осуществляется студентом. Отчетность по проекту делится на два этапа. Первый этап - дневники работы над проектом, представляющие собой ответы на вопросы о выполненных на текущем шаге заданиях, вопросы посвящены тем методам, применение которых в проекте обязательно.
  • неблокирующий Итоговый отчет
    Домашнее задание представляет собой проект по анализу данных. Данные выбираются либо из списка, предоставленного преподавателем, либо предлагаются самостоятельно и согласовываются с преподавателем. На основе данных студентам необходимо построить предсказательную модель. Проект обязательно включает все методы, изученные на лекциях и практических занятиях: формулировку конкретных вопросов и проверку соответствующих гипотез; модель на основе дерева решений; модель на основе регрессии; модели, построенные каким-нибудь методом создания ансамблей; выбор итоговой модели; исследование того, какие переменные оказывают наибольшее влияние на модель (глобальная интерпретация); исследование предсказания на конкретном примере (локальная интерпретация); исследование причинно-следственных связей. Выбор инструментария для решения (R или Python) осуществляется студентом. Отчетность по проекту делится на два этапа. Второй этап - письменный итоговый отчет по проекту. Итоговый отчет должен включать только те результаты и методы, которые оказались полезными для ответа на поставленный вопрос, и должен быть написан с ориентацией на “заказчика”, то есть понятен потенциальному клиенту, содержать все необходимые пояснения и интерпретации. Итоговый отчет содержит следующие разделы: 1) описание данных, включая их источник, 2) постановка цели, 3) шаги, описывающие логику рассуждения, 4) итоговая модель, 5) интерпретация модели, 6) практические выводы (чем найденные результаты могут быть полезны гипотетическому владельцу / создателю).
  • неблокирующий Экзамен
    Итоговый экзамен представляет собой тест с закрытыми и открытыми вопросами (теоретическими и практическими). Тест может содержать от 15 до 25 вопросов, покрывающих рассмотренные на занятиях темы. На выполнение работы дается 90 минут.
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 2 модуль
    Накопленная оценка по дисциплине рассчитывается следующим образом: Онакопл = 0,2Oдз1-дневник + 0,8Oдз2-проект Результирующая оценка по дисциплине рассчитывается следующим образом: Орезульт = 0,6*Онакопл + 0,4*Оэкз.
Список литературы

Список литературы

Рекомендуемая основная литература

  • Вьюгин, В. В. Математические основы машинного обучения и прогнозирования : учебное пособие / В. В. Вьюгин. — Москва : МЦНМО, 2014. — 304 с. — ISBN 978-5-4439-2014-6. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/56397 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Ahmed, S. E. (2017). Big and Complex Data Analysis : Methodologies and Applications. Cham, Switzerland: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1383914
  • Siegel, E. (2016). Predictive Analytics : The Power to Predict Who Will Click, Buy, Lie, or Die (Vol. Revised and Updated edition). Hoboken: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1157317

Авторы

  • Спицина Кристина Станиславовна
  • Кузнецов Антон Михайлович