We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Data Analysis and Machine Learning

2024/2025
Academic Year
RUS
Instruction in Russian
9
ECTS credits
Delivered at:
Department of Informatics
Course type:
Compulsory course
When:
1 year, 1-3 module

Instructor

Программа дисциплины

Аннотация

Целью освоения дисциплины является изучение основных принципов машинного обучения, эффективных алгоритмов обучения и применения обученных моделей. В результате изучения дисциплины у студента будет сформировано представление об основных задачах, решаемых с помощью моделей машинного обучения, как в области анализа пользователей информационных систем, так и при построение сервисов и приложений, основанных на данных
Цель освоения дисциплины

Цель освоения дисциплины

  • изучение основных принципов машинного обучения и анализа данных
  • построение моделей для анализа пользователей и решения задач автоматизации
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеет понятиями визуализации и агрегации данных: фильтрация, объединение, сортировка данных. Работает с датами и текстовыми данными. Оценивает параметры распределений. Знает метод максимального правдоподобия.
  • Выделяет подгруппы пользователей с помощью инструментов анализа данных
  • Выделяет правила из данных методами машинного обучения
  • Выявляет смещения (bias) в моделях
  • Знает основные понятия машинного обучения
  • Интерпретирует результаты предсказания
  • Интерпретирует результаты статистического анализа с учетом ограничений использованных методов
  • Обосновывает выбор методов и инструментария для проверки гипотез
  • Применяет основные конструкции языка Python и библиотек для анализа данных
  • Строит ансамблевые модели на языке Python
  • Строит модели с применением методов интерпретируемого машинного обучения
  • Строит предсказательные модели на языке Python
  • Строит регрессионные модели, оценивает различные типы эффектов
  • Строит нейросетевые модели
  • Проектирует системы с использованием машинного обучения
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение, основные понятия анализа данных, анализ данных в HCI
  • Выводы на основе данных
  • Сегментация данных
  • Предсказания на основе данных. Классификация и регрессия
  • Сложные модели и их применение
  • Проектирование систем, использующих машинное обучение
Элементы контроля

Элементы контроля

  • неблокирующий Онлайн-курс
    Для закрепления навыков по работе с задачами по статистике студентам предлагается выполнить упражнения из онлайн-курса. Источник упражнений определяется преподавателем (по умолчанию -- курс "Основы статистики"), но может быть изменен студентом по согласованию с преподавателем (например, если содержание предложенного курса уже пройдено студентом).
  • неблокирующий Упражнения
    Для закрепления навыков по работе с инструментарием студентам предлагается выполнить упражнения по работе на языке Python. Источник упражнений определяется преподавателем (по умолчанию -- задания из скриптов лабораторных работ), но может быть изменен студентом по согласованию с преподавателем (например, если студент уже имеет опыт работы с инструментарием).
  • неблокирующий Дневники проекта
    Результаты выполнения заданий по темам курса на индивидуальных данных итогового проекта
  • неблокирующий Домашнее задание
    Проектирование информационной системы с моделями машинного обучения
  • неблокирующий Проект
    Проект по анализу данных на датасете по выбору студента. Задача зависит от выбранного датасета (например, предсказание показателя, выявление факторов, сегментация)
  • неблокирующий Экзамен 2
    Письменный экзамен с теоретическими и практическими вопросами по материалам курса
  • неблокирующий Экзамен 1
  • неблокирующий Эссе
    Структурированное эссе по одной из статей, связанных с методологией или применением A/B тестирования. Статья выбирается из предложенного преподавателем списка или самостоятельно студентом по согласованию с преподавателем.
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 1st module
    0.2 * Онлайн-курс + 0.3 * Упражнения + 0.25 * Экзамен 1 + 0.25 * Эссе
  • 2024/2025 3rd module
    0.35 * Дневники проекта + 0.15 * Домашнее задание + 0.25 * Проект + 0.1 * Упражнения + 0.15 * Экзамен 2
Список литературы

Список литературы

Рекомендуемая основная литература

  • Trevor Hastie, Robert Tibshirani , et al., The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd edition, 2017. Free from the publisher: https://web.stanford.edu/~hastie/ElemStatLearn/printings/ESLII_print12.pdf
  • Вьюгин, В. В. Математические основы машинного обучения и прогнозирования : учебное пособие / В. В. Вьюгин. — Москва : МЦНМО, 2014. — 304 с. — ISBN 978-5-4439-2014-6. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/56397 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Ahmed, S. E. (2017). Big and Complex Data Analysis : Methodologies and Applications. Cham, Switzerland: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1383914
  • Molnar, C. (2018). iml: An R package for Interpretable Machine Learning. https://doi.org/10.5281/zenodo.1299058
  • Provost, F., & Fawcett, T. (2013). Data Science for Business : What You Need to Know About Data Mining and Data-Analytic Thinking (Vol. 1st ed). Beijing: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=619895

Авторы

  • Суворова Алёна Владимировна