• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Современные методы анализа данных

2022/2023
Учебный год
RUS
Обучение ведется на русском языке
5
Кредиты
Статус:
Курс обязательный
Когда читается:
2-й курс, 1, 2 модуль

Преподаватель


Хорошев Артем Сергеевич

Программа дисциплины

Аннотация

Дисциплина направлена на формирование представлений об основных методах машинного обучения, соответствующих алгоритмах вывода, вероятностных основах машинного обучения и соответствующих моделях. Изучение дисциплины будет способствовать развитию вероятностной интуиции и разработке моделей и методов машинного обучения, а также их практическому применению.
Цель освоения дисциплины

Цель освоения дисциплины

  • Формирование у студентов представлений об основных аппаратах машинного обучения, эффективных алгоритмах обучения и применении обученных моделей.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеет понятием статистического обучения в бизнесе, социологии, экономике. Знает возможности применения статистического обучения в информационных системах. Знает классификационные и регрессионные деревья, линейную регрессию, квадратичную функцию потерь и предположение о нормальном распределении шума.
  • Знает главные методы, техники, темы и прикладные возможности. Владеет понятием анализа данных в различных прикладных областях. Знает этапы анализа данных. Знает инструменты R, RStudio, Python (пакеты scipy и numpy, сборка Anaconda, Pandas, Scikit-learn и др.).
  • Владеет понятиями визуализации и агрегации данных: фильтрация, объединение, сортировка данных. Работает с датами и текстовыми данными. Оценивает параметры распределений. Знает метод максимального правдоподобия.
  • Владеет понятиями: объединение моделей, усреднение, бутстрап, бэггинг, бустинг: AdaBoost. Знает алгоритм Random Forest.
  • Знает модели, допускающие интерпретацию. Владеет понятием интерпретации моделей “черного ящика”. Владеет понятием глобальной интерпретации (знает важность признаков, ICE графики).
  • Знает проблему выявления причинно-следственных связей. Владеет понятиями случайных экспериментов, выборки и смещения, мэтчинга. Знает оценки ATE, ATC.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Введение, основные понятия анализа данных
  • Тема 2. Выводы на основе данных: проверка гипотез и статистические тесты
  • Тема 3. Предсказания на основе данных. Классификация и регрессия
  • Тема 4. Ансамбли моделей
  • Тема 5. Интерпретация моделей
  • Тема 6. Причинно-следственные связи
Элементы контроля

Элементы контроля

  • неблокирующий Дневники работы над проектом
    Домашнее задание представляет собой проект по анализу данных и состоит из двух частей. Данные выбираются либо из списка, предоставленного преподавателем, либо предлагаются самостоятельно и согласовываются с преподавателем. На основе данных студентам необходимо построить предсказательную модель. Проект обязательно включает все методы, изученные на лекциях и практических занятиях: формулировку конкретных вопросов и проверку соответствующих гипотез; модель на основе дерева решений; модель на основе регрессии; модели, построенные каким-нибудь методом создания ансамблей; выбор итоговой модели; исследование того, какие переменные оказывают наибольшее влияние на модель (глобальная интерпретация); исследование предсказания на конкретном примере (локальная интерпретация); исследование причинно-следственных связей. Выбор инструментария для решения (R или Python) осуществляется студентом. Отчетность по проекту делится на два этапа. Первый этап - дневники работы над проектом, представляющие собой ответы на вопросы о выполненных на текущем шаге заданиях, вопросы посвящены тем методам, применение которых в проекте обязательно.
  • неблокирующий Итоговый отчет
    Домашнее задание представляет собой проект по анализу данных. Данные выбираются либо из списка, предоставленного преподавателем, либо предлагаются самостоятельно и согласовываются с преподавателем. На основе данных студентам необходимо построить предсказательную модель. Проект обязательно включает все методы, изученные на лекциях и практических занятиях: формулировку конкретных вопросов и проверку соответствующих гипотез; модель на основе дерева решений; модель на основе регрессии; модели, построенные каким-нибудь методом создания ансамблей; выбор итоговой модели; исследование того, какие переменные оказывают наибольшее влияние на модель (глобальная интерпретация); исследование предсказания на конкретном примере (локальная интерпретация); исследование причинно-следственных связей. Выбор инструментария для решения (R или Python) осуществляется студентом. Отчетность по проекту делится на два этапа. Второй этап - письменный итоговый отчет по проекту. Итоговый отчет должен включать только те результаты и методы, которые оказались полезными для ответа на поставленный вопрос, и должен быть написан с ориентацией на “заказчика”, то есть понятен потенциальному клиенту, содержать все необходимые пояснения и интерпретации. Итоговый отчет содержит следующие разделы: 1) описание данных, включая их источник, 2) постановка цели, 3) шаги, описывающие логику рассуждения, 4) итоговая модель, 5) интерпретация модели, 6) практические выводы (чем найденные результаты могут быть полезны гипотетическому владельцу / создателю).
  • неблокирующий Экзамен
    Итоговый экзамен представляет собой тест с закрытыми и открытыми вопросами (теоретическими и практическими). Тест может содержать от 15 до 25 вопросов, покрывающих рассмотренные на занятиях темы. На выполнение работы дается 90 минут.
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 2 модуль
    Накопленная оценка по дисциплине рассчитывается следующим образом: Онакопл = 0,2Oдз1-дневник + 0,8Oдз2-проект Результирующая оценка по дисциплине рассчитывается следующим образом: Орезульт = 0,6*Онакопл + 0,4*Оэкз.
Список литературы

Список литературы

Рекомендуемая основная литература

  • Вьюгин, В. В. Математические основы машинного обучения и прогнозирования : учебное пособие / В. В. Вьюгин. — Москва : МЦНМО, 2014. — 304 с. — ISBN 978-5-4439-2014-6. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/56397 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Ahmed, S. E. (2017). Big and Complex Data Analysis : Methodologies and Applications. Cham, Switzerland: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1383914
  • Siegel, E. (2016). Predictive Analytics : The Power to Predict Who Will Click, Buy, Lie, or Die (Vol. Revised and Updated edition). Hoboken: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1157317

Авторы

  • Спицина Кристина Станиславовна
  • Кузнецов Антон Михайлович