• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
01
Февраль

Современные методы анализа данных

2021/2022
Учебный год
RUS
Обучение ведется на русском языке
6
Кредиты
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный
Когда читается:
1-й курс, 1, 2, 4 модуль

Преподаватели


Зенкова Наталья Валентиновна


Картышева Елена Николаевна


Кузнецов Антон Михайлович


Омельченко Александр Владимирович

Программа дисциплины

Аннотация

Дисциплина направлена на формирование представлений об основных методах машинного обучения, соответствующих алгоритмах вывода, вероятностных основах машинного обучения и соответствующих моделях. Изучение дисциплины будет способствовать развитию вероятностной интуиции и разработке моделей и методов машинного обучения, а также их практическому применению.
Цель освоения дисциплины

Цель освоения дисциплины

  • Формирование у студентов представлений об основных аппаратах машинного обучения, эффективных алгоритмах обучения и применении обученных моделей.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеет понятием статистического обучения в бизнесе, социологии, экономике. Знает возможности применения статистического обучения в информационных системах. Знает классификационные и регрессионные деревья, линейную регрессию, квадратичную функцию потерь и предположение о нормальном распределении шума.
  • Знает главные методы, техники, темы и прикладные возможности. Владеет понятием анализа данных в различных прикладных областях. Знает этапы анализа данных. Знает инструменты R, RStudio, Python (пакеты scipy и numpy, сборка Anaconda, Pandas, Scikit-learn и др.).
  • Владеет понятиями визуализации и агрегации данных: фильтрация, объединение, сортировка данных. Работает с датами и текстовыми данными. Оценивает параметры распределений. Знает метод максимального правдоподобия.
  • Владеет понятиями: объединение моделей, усреднение, бутстрап, бэггинг, бустинг: AdaBoost. Знает алгоритм Random Forest.
  • Знает модели, допускающие интерпретацию. Владеет понятием интерпретации моделей “черного ящика”. Владеет понятием глобальной интерпретации (знает важность признаков, ICE графики).
  • Знает проблему выявления причинно-следственных связей. Владеет понятиями случайных экспериментов, выборки и смещения, мэтчинга. Знает оценки ATE, ATC.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение, основные понятия анализа данных
  • Выводы на основе данных: проверка гипотез и статистические тесты
  • Предсказания на основе данных. Классификация и регрессия
  • Ансамбли моделей
  • Интерпретация моделей
  • Причинно-следственные связи
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание №1
  • блокирующий Экзамен
  • неблокирующий Домашнее задание №2
  • блокирующий Экзамен
    Экзамен проводится на платформе Zoom. Экзамен проводится в устной форме (опрос по материалам курса). По просьбе преподавателя студент должен быть готов выполнить некоторые задания в письменном виде, после чего сфотографировать и выслать на почту преподавателю. К экзамену необходимо подключиться согласно расписанию, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка платформы Zoom. Для участия в экзамене студент обязан: выбрать себе имя в Zoom совпадающее с его именем и фамилией, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещается выключать камеру. Ипользование конспектов или других справочных материалов допускается только с разрешения преподавателя. Кратковременным нарушением связи во время экзамена считается нарушение связи менее 5 минут. Долговременным нарушением связи во время экзамена считается нарушение 5 минут и более. При долговременном нарушении связи возможность продолжения студентом участие в экзамене определяется преподавателем. Процедура пересдачи подразумевает использование усложненных заданий.
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 2 модуль
    0.5 * Домашнее задание №1 + 0.5 * Экзамен
  • 2021/2022 учебный год 4 модуль
    0.5 * Экзамен + 0.5 * Домашнее задание №1
Список литературы

Список литературы

Рекомендуемая основная литература

  • James, G. et al. An introduction to statistical learning. – Springer, 2013. – 426 pp.
  • Вьюгин, В. В. Математические основы машинного обучения и прогнозирования : учебное пособие / В. В. Вьюгин. — Москва : МЦНМО, 2014. — 304 с. — ISBN 978-5-4439-2014-6. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/56397 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Ahmed, S. E. (2017). Big and Complex Data Analysis : Methodologies and Applications. Cham, Switzerland: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1383914

Авторы

  • Шпильман Алексей Александрович