Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
09
Апрель

Избранные темы науки о данных

2024/2025
Учебный год
RUS
Обучение ведется на русском языке
3
Кредиты
Статус:
Курс по выбору
Когда читается:
1-й курс, 4 модуль

Преподаватель

Программа дисциплины

Аннотация

В ходе курса будет представлен обзор альтернативных подходов к анализу данных, когда предпосылки линейной регрессии не выполняются. Курс начнется с обзора основных теоретических предположений, которые делаются в рамках линейной регрессии и ситуаций, когда эти предпосылки не выполняются: временные ряды, панельные и пространственные данные. Вторая часть курса вводит слушателей в основы машинного и глубокого обучения. Знание теории вероятности и статистики, линейной алгебры на базовом уровне необходимо для освоения курса. R, статистический язык с открытым исходным кодом, и язык программирования Python будут использоваться на протяжении всего курса.
Цель освоения дисциплины

Цель освоения дисциплины

  • Разбираться в продвинутых подходах к статистическому моделированию
  • Разбираться в применимости моделей с фиксированными и случайными эффектами
  • Использовать алгоритмы машинного обучения в задачах предсказания и классификации
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеет понятием машинного обучения. Знает задачи обучения с учителем и без учителя; задачи классификации и регрессии. Владеет понятием разложения bias- variance-noise. Владеет понятием тестовой и обучающей выборки; кросс-валидации.
  • Умеет применять глубинное обучение для решения характерных задач
  • Диагностировать нарушение предпосылок линейной регрессии.
  • Подбирать альтернативные подходы к данным, которые не соответствуют предпосылкам линейной регрессии.
  • Овладеть терминологией, используемой в анализе временных рядов
  • Тестировать автокорреляцию и применять модели распределенных лагов
  • Выбирать модели с фиксированными и случайными эффектами в зависимости от типа исследуемых данных
  • Использовать кластеризацию стандартных ошибок
  • Овладеть основными подходами к визуализации и моделированию пространственных данных.
  • Разбираться в основных подходах к причинно-следственному выводу
  • Уметь применять квази-экспериментальные подходы в собственных исследовательских проектах
  • Уметь применять метод инструментальных переменных
  • Применять градиентный спуск для оптимизации моделей, настраивать шаги обучения и анализировать процесс сходимости.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в эконометрику. Нарушение предпосылок линейной регрессии
  • Временные ряды: Введение
  • Многомерные модели временных рядов
  • Панельные данные. Модели с фиксированными и случайными эффектами.
  • Робастные стандартные ошибки. Кластеризация стандартных ошибок
  • Пространственные данные и GIS
  • Введение в Машинное обучение
  • Градиентный спуск и алгоритмы оптимизации
  • Основы глубокого обучения
Элементы контроля

Элементы контроля

  • неблокирующий Промежуточный тест
    Тест по первой части курса - тестированию предпосылок линейной регрессии, проверки временных моделей и моделей панельных данных.
  • неблокирующий Тест по теории машинного обучения
  • неблокирующий Активность на семинарах
  • неблокирующий Домашние задания
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 4th module
    0.2 * Активность на семинарах + 0.2 * Домашние задания + 0.3 * Промежуточный тест + 0.3 * Тест по теории машинного обучения
Список литературы

Список литературы

Рекомендуемая основная литература

  • A first course in machine learning, Rogers, S., 2012
  • A Tutorial on Machine Learning and Data Science Tools with Python. (2017). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.E5F82B62
  • Analysis of integrated and cointegrated time series with R, Pfaff, B., 2008
  • Applied econometric time series, Enders, W., 2010
  • Applied spatial data analysis with R, Bivand, R., 2008
  • Bivand, R., Pebesma, E. J., & Gómez-Rubio, V. (2013). Applied Spatial Data Analysis with R (Vol. 2nd ed). New York, NY: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=601853
  • Buitinck, L., Louppe, G., & Blondel, M. (2013). API design for machine learning software: experiences from the scikit-learn project.
  • Integrating deep learning algorithms to overcome challenges in big data analytics, , 2022
  • Kleiber, C., & Zeileis, A. (2008). Applied Econometrics with R. New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=275761
  • Machine learning : beginner's guide to machine learning, data mining, big data, artificial intelligence and neural networks, Trinity, L., 2019
  • Machine learning in action, Harrington, P., 2012
  • Marcellino, M. (2018). Applied Econometrics : An Introduction. Bocconi University Press.
  • Mostly harmless econometrics: an empiricist's companion, Angrist, J.D., 2009
  • Pattern recognition and machine learning, Bishop, C. M., 2006
  • Pro Deep Learning with TensorFlow 2.0 : a mathematical approach to advanced artificial intelligence in Python, Pattanayak, S., 2023
  • Rogers, S., & Girolami, M. (2016). A First Course in Machine Learning (Vol. 2nd ed). Milton: Chapman and Hall/CRC. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1399490
  • Time series algorithms recipes : implement machine learning and deep learning techniques with Python, , 2023

Рекомендуемая дополнительная литература

  • Aguirregabiria, V., & Carro, J. M. (2021). Identification of Average Marginal Effects in Fixed Effects Dynamic Discrete Choice Models.
  • Fixed effects regression models, Allison, P. D., 2009

Авторы

  • Снарский Ярослав Александрович