• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Бакалаврская программа «Управление и аналитика в государственном секторе»

03
Июнь

Информационные системы и технологии в публичном управлении

2019/2020
Учебный год
RUS
Обучение ведется на русском языке
5
Кредиты
Статус:
Курс по выбору
Когда читается:
4-й курс, 2 модуль

Преподаватель

Программа дисциплины

Аннотация

В рамках дисциплины студент научится первичной обработке и организации данных, приобретет знания о применении стандартных моделей методов машинного обучения реализованных в различных библиотеках на языке python (кластерный анализа, классификация, тематическое моделирование, рекомендательные системы и нейронные сети), будет применять методы машинного обучения для разработки информационных систем в области государственного и муниципального управления.
Цель освоения дисциплины

Цель освоения дисциплины

  • Цели освоения дисциплины "Информационные системы и технологии в публичном управлении" связаны, с одной стороны с формированием у обучающихся знаний в области обработки больших данных, а с другой стороны, с навыками обучения разработке информационных систем. Поэтому в ходе курса обучающиеся, во-первых, осваивают первичную обработку и способы организации данных (препроцессинг данных, работу с пропущенными данными, умение выделить необходимые признаки), во-вторых, знакомятся с применением стандартных моделей методов машинного обучения, реализованных в различных библиотеках на языке Рython (кластерный анализ, классификация, тематическое моделирование, рекомендательные системы и нейронные сети), в-третьих, познакомятся с применением методов машинного обучения для разработки информационных систем в области государственного и муниципального управления, в четвертых, получат базовые навыки по аналитике данных.
Планируемые результаты обучения

Планируемые результаты обучения

  • Анализирует программные средства питона (Anaconda, Jupyter, Spyder, Visual Studio, PyCharm)
  • Использует основные библиотеки, используемые в области машинного обучения (NumPy, Panda, SciPy, scikit-learn , matplotlib).
  • Анализирует методы оценки моделей и тонкой настройки гипер-параметров в моделях классификации. Объединяет модели для методов ансамблевого обучения.
  • Применяет контент-ориентированная модель и модель коллаборативной фильтрации
  • Применяет разные способы оценки результатов моделей и настройки гипер – параметров. Реализует модели в библиотеках
  • Применяет экспоненциальное сглаживание, модель Хольта - Винтерса, модели ARIMA, Bayesian dynamic linear model
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Построение информационных систем на основе методов машинного обучения
    Тема 1. Построение информационных систем на основе методов машинного обучения. Лекция. Принципы построения информационных систем на основе методов машинного обучения. Интеллектуальный анализ данных, большие данные, машинное обучение. Методы и задачи интеллектуального анализа данных, машинного обучения и обработки больших данных. Области применения методов и технологий интеллектуального анализа данных, машинного обучения и обработки больших данных. Семинар – Введение в язык python. Работа с разными типами данных (integer, float, complex, строковые данные, логические данные). Работа со списками, словарями, кортежами. Работа с операторами ветвления, цикла. Работа с файлами (чтение данных, запись данных).
  • Тема 2. Введение в библиотеки NumPy, Panda, SciPy, scikit-learn, matplotlib.
    Тема 2. Введение в библиотеки NumPy, Panda, SciPy, scikit-learn, matplotlib. Лекция. Обзор возможностей библиотек NumPy, Panda, SciPy, scikit-learn, matplotlib для целей машинного обучения. Семинар – Работа с библиотеками в Jupiter notebook: NumPy, Panda, SciPy, matplotlib. Семинар – Реализация алгоритмов выделения признаков (Feature selection) в питоне: 1. Model Univariate Selection. 2. Recursive Feature Elimination. 3. Применение модели Random Forest для выделения признаков.
  • Тема 3. Обзор кластерных алгоритмов и классификаторов с использованием библиотеки scikit-learn
    Тема 3. Обзор алгоритмов кластеризации и классификаторов с использованием библиотеки scikit-learn. Лекция. Обсуждение принципов кластеризации и классификации многомерных данных при помощи библиотеки scikit-learn. Семинар – Реализация алгоритмов кластерного анализа (Kmeans, Cmeans, Hierarchical Clustering) на текстовых и табличных данных. Проблема выбора числа кластеров и ее способы решения (silhouette model, Jump theory, Gap statistic). Семинар – Реализация классификаторов SVM, KNN, Naive Bayes, random forest, LogisticRegression. Применение принципа K-fold cross-validation при реализации подбора гипер – параметров классификаторов.
  • Тема 4. Принципы построения рекомендательных систем
    Тема 4. Принципы построения рекомендательных систем Лекция. Обзор моделей рекомендательных систем: 1. Контент-ориентированная модель. 2. Модель коллаборативной фильтрации Семинар – Реализация рекомендательных систем в python на основе Контент-ориентированная модели и коллаборативной фильтрации.
  • Тема 5. Построение информационных систем на основе моделей тематического моделирования
    Тема 5. Построение информационных систем на основе моделей тематического моделирования. Лекция. Обзор основных тематических моделей: LDA (E-M algorithm). LDA (Gibbs sampling). Обзор реализаций тематических моделей в питоне (Scikit Learn, Gensim, BigARTM) Семинар – Реализация модели тематического моделирования в библиотеки Scikit Learn.
  • Тема 6. Математическая основа анализа временных рядов
    Тема 6. Анализ временных рядов с помощью python. Лекция. Математическая основа анализа временных рядов (Экспоненциальное сглаживание, модель Хольта-Винтерса, модели ARIMA, Bayesian dynamic linear model). Семинар –Анализ временных рядов с помощью библиотеки pandas. Использование модуля scikit-learn для прогнозирования временных рядов. Использование пакета PyDLM для анализа временных рядов.
Элементы контроля

Элементы контроля

  • неблокирующий Проект
    Макс. оценка в баллах-10 баллов: Полнота раскрытия вопроса - 5;Полнота ответов на вопросы- 3;Качество ответа, приведены и аргументированы примеры, в т.ч. с помощью презентации- 2 балла. При оценке ответов на вопросы учитываются логичность и последовательность ответа, аргументация выводов, владение терминологическим аппаратом и использование его при ответе, полнота и глубина ответа. Максимальное количество баллов - 10.
  • неблокирующий Контрольная работа
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.42 * Контрольная работа + 0.18 * Проект + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Коэльо Л.П., Ричарт В. - Построение систем машинного обучения на языке Python - Издательство "ДМК Пресс" - 2016 - 302с. - ISBN: 978-5-97060-330-7 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/82818