• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Бакалаврская программа «Управление и аналитика в государственном секторе»

07
Апрель

Анализ баз данных в публичном управлении (I)

2018/2019
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты
Статус:
Курс обязательный
Когда читается:
2-й курс, 1 модуль

Преподаватель

Программа дисциплины

Аннотация

Студенты получают представления об особенностях сбора, структурирования больших цифровых форматов данных, методах и средствах статистического, социально-сетевого анализа и машинного обучения для прогнозирования в государственном и муниципальном секторе, а также культуре работы с такими данными для целей профессиональной подготовки
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины «Анализ баз данных в публичном управлении» являются: Познакомить с основым содержанием анализа данных и обучить сбору, первичной обработке и организации таких данных в пуличном управлении. Дать студентам базовую ориентацию по формированию и ведение баз данных, включая сбор и обработку научной информации. Познакомить их с применением статистических, социологических, междисциплинарных методов машинного обучения к исследованиям. Предоставить им возможности для формирования навыков для проведения проектов исследований и обучить их применению в обосновании и мониторинге выполнения проектов, программ, различных направлений социально-экономической политики в области государственного и муниципального управления. Сформировать у них общее представление о навыках аналитики данных.
Планируемые результаты обучения

Планируемые результаты обучения

  • Различает программные средства
  • Визуализирует данные с помощью пакета Orange
  • Применяет кластерный анализ
  • Применяет principal component analysis
  • Применяет классификацию данных
  • Применяет вероятностные модели
  • Применяет тематического моделирование
  • Применяет сентимент-анализ
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в область машинного обучения и обзор программных средств
    Введение в область машинного обучения и обзор программных средств. Обзор областей применения методов машинного обучения в различных отраслях, включая государственное и муниципальное управление. Обсуждение того как как современные методы машинного обучения и искусственного интеллекта меняют подходы во многих научных областях, и по-чему владение основами этих методов становится частью общей научной культуры исследователя вне зависимости от конкретной предметной области. Обсуждения типов данных, метрик качества, методологию проведения экспериментов на данных различного типа.
  • Обзор математического формализма, не-обходимого для машинного обучения. Введение в пакет ‘Orange’, Препроцессинг данных, визуализация данных, общие принципы работы.
    Содержание темы для лекции: Обзор математического формализма, необходимого для машинного обучения. Обзор основных понятий из области линейной алгебры. Обзор эле-ментов математического анализа. Введение в пакет ‘Orange’, общие принципы работы пакета ‘Orange’. Понятие препроцессинга данных, визуализация данных.
  • Kластерный анализ. K-means, Hierarchical clustering. Проблема выбора числа кластеров.
    Цели и задачи кластерного анализа. Обзор направлений в кластерном анализе. Меры близости. Обсуждение алгоритма К means. Анализ достоинств и недостатков данного алгоритма. Обсуждение проблемы выбора числа кластеров. Анализ разных подходов к решению проблемы числа кластеров. Обсуждение алгоритма иерархической кластеризации данных. Анализ достоинств и недостатков данного алгоритма.
  • Principal Component Analysis (PCA)
    Обсуждение метода главных компонент. Анализ достоинств и недостатков данной модели. Обсуждение применимости данного алгоритма для различных задач.
  • Классификация данных. KNN, SVM Оценка качества моделей
    Введение в процедуру классификации. Обсуждение метрик качества работы классификаторов (Precision, Recall, F мера, ROC, confusion matrix). Обсуждение работы алгоритма KNN. Анализ достоинств и недостатков KNN. Проблема выбора числа соседей. Оценка способа подбора числа соседей. Обсуждение алгоритма SVM (Support Vector Machines). Анализ достоинств и недостатков данного алгоритма. Обсуждение параметров в линейной и полиномиальной моделях SVM.
  • Вероятностные модели. Наивный Байесовский классификатор
    Введение теорию вероятности. Классический и Байесовский вариант подсчета вероятности события. Правило Байеса. Априорные и апостериорные суждения. Применение наивного байесовского алгоритма для целей классификации на пример оценки надежности компании. Обсуждение достоинств и недостатков байесовского классификатора.
  • Тематическое моделирование. Проблема выбора числа тем, стабильность тематического моделирования
    Введение в тематическое моделирование (topic modeling). Вероятностная постановка задачи классификации. Обсуждение различных моделей в области тематического моделирования (E-M алгоритмы и процедуры сэмплирования Гиббса). Обсуждение проблемы выбора числа тем. Оценка сходства и различия между тематическими решениями. Обзор программных средств в области тематического моделирования.
  • Сентимент-анализ. Словарный подход, применение классификаторов для сентимент анализа
    Введение в сентимент анализ. Обзор моделей в данной области (словарный подход, подход на основе правил, применение классификаторов). Обсуждение достоинств и недостатков разных моделей в области сентимент анализа
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа
  • неблокирующий Экзамен
  • неблокирующий Аудиторная
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (1 модуль)
    0.18 * Аудиторная + 0.42 * Контрольная работа + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Provost, Foster, Fawcett, Tom. Data Science for Business: What you need to know about data mining and data-analytic thinking. – " O'Reilly Media, Inc.", 2013.

Рекомендуемая дополнительная литература

  • Rajaraman, A., & Ullman, J. D. (2012). Mining of Massive Datasets. New York, N.Y.: Cambridge University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=408850