• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Data analysis and machine learning

2022/2023
Academic Year
RUS
Instruction in Russian
6
ECTS credits
Delivered at:
Department of Informatics
Course type:
Compulsory course
When:
1 year, 1, 2 module

Instructor

Программа дисциплины

Аннотация

Дисциплина направлена на изучение студентами основных принципов машинного обучения, эффективных алгоритмов обучения и применения обученных моделей. В результате изучения дисциплины у студента будет сформировано представление об основных задачах, решаемых с помощью моделей машинного обучения, как в области анализа пользователей информационных систем, так и при построение сервисов и приложений, основанных на данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • изучение основных принципов машинного обучения и построение моделей для решения задач автоматизации и анализа пользователей
Планируемые результаты обучения

Планируемые результаты обучения

  • Выделяет подгруппы пользователей с помощью инструментов анализа данных
  • Выделяет правила из данных методами машинного обучения
  • Выявляет смещения (bias) в моделях
  • Знает основные понятия машинного обучения
  • Интерпретирует результаты предсказания
  • Интерпретирует результаты статистического анализа с учетом ограничений использованных методов
  • Обосновывает выбор методов и инструментария для проверки гипотез
  • Применяет основные конструкции языка Python и библиотек для анализа данных
  • Строит ансамблевые модели на языке Python
  • Строит модели с применением методов интерпретируемого машинного обучения
  • Строит предсказательные модели на языке Python
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение, основные понятия анализа данных, инструментарий
  • Выводы на основе данных: проверка гипотез и статистические тесты
  • Сегментация данных
  • Предсказания на основе данных. Классификация и регрессия
  • Сложные модели и их применение.
Элементы контроля

Элементы контроля

  • неблокирующий Экзамен
  • неблокирующий Дневники проекта
    Результаты выполнения заданий по темам курса на индивидуальных данных итогового проекта
  • неблокирующий Проект
    Проект по анализу данных на датасете по выбору студента. Задача зависит от выбранного датасета (например, предсказание показателя, выявление факторов, сегментация)
  • неблокирующий Упражнения
    Для закрепления навыков по работе с инструментарием студентам предлагается выполнить упражнения по работе на языке Python. Источник упражнений определяется преподавателем (по умолчанию -- задания из скриптов лабораторных работ), но может быть изменен студентом по согласованию с преподавателем (например, если студент уже имеет опыт работы с инструментарием).
  • неблокирующий Эссе
    Структурированное эссе по одной из статей, связанных с методологией или применением A/B тестирования. Статья выбирается из предложенного преподавателем списка или самостоятельно студентом по согласованию с преподавателем.
  • неблокирующий Онлайн-курс
    Для закрепления навыков по работе с задачами по статистике студентам предлагается выполнить упражнения из онлайн-курса. Источник упражнений определяется преподавателем (по умолчанию -- курс "Основы статистики"), но может быть изменен студентом по согласованию с преподавателем (например, если содержание предложенного курса уже пройдено студентом).
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 2 модуль
    0.25 * Дневники проекта + 0.1 * Упражнения + 0.25 * Проект + 0.15 * Экзамен + 0.15 * Эссе + 0.1 * Онлайн-курс
Список литературы

Список литературы

Рекомендуемая основная литература

  • James, G. et al. An introduction to statistical learning. – Springer, 2013. – 426 pp.
  • Trevor Hastie, Robert Tibshirani , et al., The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd edition, 2017. Free from the publisher: https://web.stanford.edu/~hastie/ElemStatLearn/printings/ESLII_print12.pdf
  • Вьюгин В.В. - Математические основы машинного обучения и прогнозирования - Московский центр непрерывного математического образования - 2014 - ISBN: 978-5-4439-2014-6 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/56397

Рекомендуемая дополнительная литература

  • Ahmed, S. E. (2017). Big and Complex Data Analysis : Methodologies and Applications. Cham, Switzerland: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1383914
  • Explainable and interpretable models in computer vision and machine learning. (2018). https://doi.org/10.1007/978-3-319-98131-4
  • Molnar, C. (2018). iml: An R package for Interpretable Machine Learning. https://doi.org/10.5281/zenodo.1299058
  • Provost, F., & Fawcett, T. (2013). Data Science for Business : What You Need to Know About Data Mining and Data-Analytic Thinking (Vol. 1st ed). Beijing: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=619895