We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Modern Methods of Data Analysis

2020/2021
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Delivered at:
Department of Informatics
Course type:
Compulsory course
When:
1 year, 1, 2 module

Instructor

Программа дисциплины

Аннотация

Целью освоения дисциплины «Современные методы анализа данных» является изучение основных принципов машинного обучения, эффективных алгоритмов обучения и применения обученных моделей. В результате изучения дисциплины у студента будет сформировано представление об основных задачах, решаемых с помощью моделей машинного обучения, как в области анализа пользователей информационных систем, так и при построение сервисов и приложений, основанных на данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • изучение основных принципов машинного обучения и построение моделей для решения задач автоматизации и анализа пользователей
Планируемые результаты обучения

Планируемые результаты обучения

  • Применяет основные конструкции языка Python и библиотек для анализа данных
  • Интерпретирует результаты статистического анализа с учетом ограничений использованных методов
  • Обосновывает выбор методов и инструментария для проверки гипотез
  • Знает основные понятия машинного обучения
  • Строит предсказательные модели на языке Python
  • Интерпретирует результаты предсказания
  • Строит ансамблевые модели на языке Python
  • Выявляет смещения (bias) в моделях
  • Строит модели с применением методов интерпретируемого машинного обучения
  • Выделяет подгруппы пользователей с помощью инструментов анализа данных
  • Выделяет правила из данных методами машинного обучения
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение, основные понятия анализа данных, инструментарий
    Область науки о данных: главные методы, техники, темы и прикладные возможности. Анализ данных в различных прикладных областях. Основные определения. Этапы анализа данных. Воспроизводимые исследования: возможности и ключевые цели. Инструменты R, RStudio. Инструменты Python (пакеты scipy и numpy, сборка Anaconda, Pandas, Scikit-learn и др.). Математика для анализа данных
  • Выводы на основе данных: проверка гипотез и статистические тесты
    Визуализация и агрегация данных: фильтрация, объединение, сортировка данных. Математическая статистика и анализ данных. Оценивание параметров распределений. Метод максимального правдоподобия. Доверительные интервалы и бутстрэппинг. Тестирование статистических гипотез. Нахождение зависимостей в данных. A/B-тестирование
  • Сегментация данных
    Задачи обучения без учителя. Кластеризация, уменьшение размерности, автоматическое выделение правил. Выделение подгрупп пользователей информационных систем.
  • Предсказания на основе данных. Классификация и регрессия
    Возможности применения статистического обучения в информационных системах. Машинное обучение с учителем. Задачи классификации и регрессии. Деревья решений, модели регрессии. Клиентская аналитика, предсказание оттока пользователей, оценка LTV
  • Сложные модели и их применение.
    Сервисы, основанные на данных. Задачи предсказания и вывода. Ансамбли моделей. Модели, допускающие интерпретацию. Интерпретируемое машинное обучение (iML, xAI). Причинно-следственные связи
Элементы контроля

Элементы контроля

  • неблокирующий Дневники проекта
    За сдачу после дедлайна начисляется 5% штраф за каждый день просрочки
  • неблокирующий Проект
    За сдачу после дедлайна начисляется 5% штраф за каждый день просрочки
  • неблокирующий Экзамен
  • неблокирующий Эссе
    Домашнее задание представляет собой структурированное эссе по одной из статей, связанных с методологией или применением A/B тестирования. Статья выбирается из предложенного преподавателем списка или самостоятельно студентом по согласованию с преподавателем.
  • неблокирующий Упражнения
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.25 * Дневники проекта + 0.3 * Проект + 0.1 * Упражнения + 0.2 * Экзамен + 0.15 * Эссе
Список литературы

Список литературы

Рекомендуемая основная литература

  • James, G. et al. An introduction to statistical learning. – Springer, 2013. – 426 pp.
  • Вьюгин В.В. - Математические основы машинного обучения и прогнозирования - Московский центр непрерывного математического образования - 2014 - 304с. - ISBN: 978-5-4439-2014-6 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/56397

Рекомендуемая дополнительная литература

  • Molnar, C. (2018). iml: An R package for Interpretable Machine Learning. https://doi.org/10.5281/zenodo.1299058
  • Provost, F., & Fawcett, T. (2013). Data Science for Business : What You Need to Know About Data Mining and Data-Analytic Thinking (Vol. 1st ed). Beijing: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=619895