We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Selected Topics in Data Science

2024/2025
Academic Year
RUS
Instruction in Russian
3
ECTS credits
Course type:
Elective course
When:
1 year, 4 module

Instructor

Программа дисциплины

Аннотация

В ходе курса будет представлен обзор альтернативных подходов к анализу данных, когда предпосылки линейной регрессии не выполняются. Курс начнется с обзора основных теоретических предположений, которые делаются в рамках линейной регрессии и ситуаций, когда эти предпосылки не выполняются: временные ряды, панельные и пространственные данные. Вторая часть курса вводит слушателей в основы машинного и глубокого обучения. Знание теории вероятности и статистики, линейной алгебры на базовом уровне необходимо для освоения курса. R, статистический язык с открытым исходным кодом, и язык программирования Python будут использоваться на протяжении всего курса.
Цель освоения дисциплины

Цель освоения дисциплины

  • Разбираться в продвинутых подходах к статистическому моделированию
  • Разбираться в применимости моделей с фиксированными и случайными эффектами
  • Использовать алгоритмы машинного обучения в задачах предсказания и классификации
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеет понятием машинного обучения. Знает задачи обучения с учителем и без учителя; задачи классификации и регрессии. Владеет понятием разложения bias- variance-noise. Владеет понятием тестовой и обучающей выборки; кросс-валидации.
  • Умеет применять глубинное обучение для решения характерных задач
  • Диагностировать нарушение предпосылок линейной регрессии.
  • Подбирать альтернативные подходы к данным, которые не соответствуют предпосылкам линейной регрессии.
  • Овладеть терминологией, используемой в анализе временных рядов
  • Тестировать автокорреляцию и применять модели распределенных лагов
  • Выбирать модели с фиксированными и случайными эффектами в зависимости от типа исследуемых данных
  • Использовать кластеризацию стандартных ошибок
  • Овладеть основными подходами к визуализации и моделированию пространственных данных.
  • Разбираться в основных подходах к причинно-следственному выводу
  • Уметь применять квази-экспериментальные подходы в собственных исследовательских проектах
  • Уметь применять метод инструментальных переменных
  • Применять градиентный спуск для оптимизации моделей, настраивать шаги обучения и анализировать процесс сходимости.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в эконометрику. Нарушение предпосылок линейной регрессии
  • Временные ряды: Введение
  • Многомерные модели временных рядов
  • Панельные данные. Модели с фиксированными и случайными эффектами.
  • Робастные стандартные ошибки. Кластеризация стандартных ошибок
  • Пространственные данные и GIS
  • Введение в Машинное обучение
  • Градиентный спуск и алгоритмы оптимизации
  • Основы глубокого обучения
Элементы контроля

Элементы контроля

  • неблокирующий Промежуточный тест
    Тест по первой части курса - тестированию предпосылок линейной регрессии, проверки временных моделей и моделей панельных данных.
  • неблокирующий Тест по теории машинного обучения
  • неблокирующий Активность на семинарах
  • неблокирующий Домашние задания
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 4th module
    0.2 * Активность на семинарах + 0.2 * Домашние задания + 0.3 * Промежуточный тест + 0.3 * Тест по теории машинного обучения
Список литературы

Список литературы

Рекомендуемая основная литература

  • A first course in machine learning, Rogers, S., 2012
  • A Tutorial on Machine Learning and Data Science Tools with Python. (2017). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.E5F82B62
  • Analysis of integrated and cointegrated time series with R, Pfaff, B., 2008
  • Applied econometric time series, Enders, W., 2010
  • Applied spatial data analysis with R, Bivand, R., 2008
  • Bivand, R., Pebesma, E. J., & Gómez-Rubio, V. (2013). Applied Spatial Data Analysis with R (Vol. 2nd ed). New York, NY: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=601853
  • Buitinck, L., Louppe, G., & Blondel, M. (2013). API design for machine learning software: experiences from the scikit-learn project.
  • Integrating deep learning algorithms to overcome challenges in big data analytics, , 2022
  • Kleiber, C., & Zeileis, A. (2008). Applied Econometrics with R. New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=275761
  • Machine learning : beginner's guide to machine learning, data mining, big data, artificial intelligence and neural networks, Trinity, L., 2019
  • Machine learning in action, Harrington, P., 2012
  • Marcellino, M. (2018). Applied Econometrics : An Introduction. Bocconi University Press.
  • Mostly harmless econometrics: an empiricist's companion, Angrist, J.D., 2009
  • Pattern recognition and machine learning, Bishop, C. M., 2006
  • Pro Deep Learning with TensorFlow 2.0 : a mathematical approach to advanced artificial intelligence in Python, Pattanayak, S., 2023
  • Rogers, S., & Girolami, M. (2016). A First Course in Machine Learning (Vol. 2nd ed). Milton: Chapman and Hall/CRC. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1399490
  • Time series algorithms recipes : implement machine learning and deep learning techniques with Python, , 2023

Рекомендуемая дополнительная литература

  • Aguirregabiria, V., & Carro, J. M. (2021). Identification of Average Marginal Effects in Fixed Effects Dynamic Discrete Choice Models.
  • Fixed effects regression models, Allison, P. D., 2009

Авторы

  • Снарский Ярослав Александрович