• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Modern Methods of Data Analysis

2019/2020
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Delivered at:
Department of Informatics
Course type:
Compulsory course
When:
1 year, 1, 2 module

Instructor

Программа дисциплины

Аннотация

Целью освоения дисциплины «Современные методы анализа данных» является основных аппаратов машинного обучения, эффективных алгоритмов обучения и применения обученных моделей. В результате изучения дисциплины у студента будет сформировано представление об основных методах машинного обучения, соответствующих алгоритмах вывода, вероятностных основах машинного обучения и соответствующих моделях. Изучение дисциплины будет способствовать как развитию вероятностной интуиции и разработке моделей и методов машинного обучения, так и практическому их применению.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью освоения дисциплины «Современные методы анализа данных» является основных аппаратов машинного обучения, эффективных алгоритмов обучения и применения обученных моделей.
Планируемые результаты обучения

Планируемые результаты обучения

  • Применяет основные конструкции языка Python и библиотек для анализа данных
  • Интерпретирует результаты статистического анализа с учетом ограничений использованных методов
  • Обосновывает выбор методов и инструментария для проверки гипотез
  • Знает основные понятия машинного обучения
  • Строит предсказательные модели на языке Python
  • Интерпретирует результаты предсказания
  • Строит ансамблевые модели на языке Python
  • Оценивает качество модели
  • Выявляет смещения (bias) в моделях
  • Формулирует рекомендации в предметной области по результатам анализа данных
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение, основные понятия анализа данных, инструментарий
    Область науки о данных: главные методы, техники, темы и прикладные возможности. Анализ данных в различных прикладных областях. Основные определения. Этапы анализа данных. Воспроизводимые исследования: возможности и ключевые цели. Инструменты R, RStudio. Инструменты Python (пакеты scipy и numpy, сборка Anaconda, Pandas, Scikit-learn и др.)
  • Выводы на основе данных: проверка гипотез и статистические тесты
    Визуализация и агрегация данных: фильтрация, объединение, сортировка данных. Работа с датами и текстовыми данными. Математическая статистика и анализ данных. Оценивание параметров распределений. Метод максимального правдоподобия. Пример использования: анализ текстов и наивный байесовский классификатор. Доверительные интервалы и бутстрэппинг. Тестирование статистических гипотез. Нахождение зависимостей в данных. Клиентская аналитика
  • Предсказания на основе данных. Классификация и регрессия
    Статистическое обучение в бизнесе, социологии, экономике. Возможности применения статистического обучения в информационных системах. Статистическое обучение с учителем и без учителя. Классификационные и регрессионные деревья. Линейная регрессия. Квадратичная функция потерь и предположение о нормальном распределении шума. Проблема переобучения. Регуляризация. Классификация и оценки принадлежности классам. Кредитный скоринг. Логистическая регрессия
  • Ансамбли моделей
    Объединение моделей. Усреднение, бутстрап, бэггинг. Бустинг: AdaBoost. Алгоритм Random Forest.
  • Интерпретация моделей
    Модели, допускающие интерпретацию. Примеры задач, требующих интерпретации. Интерпретация моделей “черного ящика”. Глобальная интерпретация: важность признаков, ICE графики. Локальная интерпретация: метод LIME
  • Причинно-следственные связи
    Проблема выявления причинно-следственных связей. Случайные эксперименты. Выборки и смещения. Мэтчинг, стратификация. Оценки ATE, ATC
Элементы контроля

Элементы контроля

  • неблокирующий Дневники проекта
  • неблокирующий Проект
  • неблокирующий Экзамен
  • неблокирующий Эссе
    Домашнее задание представляет собой структурированное эссе по одной из статей, связанных с методологией или применением A/B тестирования. Статья выбирается из предложенного преподавателем списка или самостоятельно студентом по согласованию с преподавателем.
  • неблокирующий Упражнения
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.25 * Дневники проекта + 0.3 * Проект + 0.1 * Упражнения + 0.2 * Экзамен + 0.15 * Эссе
Список литературы

Список литературы

Рекомендуемая основная литература

  • - Вьюгин В.В. — Математические основы машинного обучения и прогнозирования - Московский центр непрерывного математического образования - 2014 - ISBN: 978-5-4439-2014-6 - Текст электронный // ЭБС Лань - URL: https://e.lanbook.com/book/56397

Рекомендуемая дополнительная литература

  • Ahmed, S. E. (2017). Big and Complex Data Analysis : Methodologies and Applications. Cham, Switzerland: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1383914