• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Computer-Assisted Text Analysis in Public Administration

2019/2020
Academic Year
RUS
Instruction in Russian
6
ECTS credits
Course type:
Compulsory course
When:
3 year, 3 module

Instructor

Программа дисциплины

Аннотация

Информационные технологии для обработки документов в публичном управлении связаны, с одной стороны с обработкой больших данных, с другой стороны, связанны с навыками разработки информационных систем, поэтому целями освоения данной дисциплины является, во-первых, обучение первичной обработке и организации данных (препроцессингу данных, работа с пропущенными данными, выделение необходимых признаков), во-вторых, применение стандартных моделей методов машинного обучения реализованных в различных библиотеках на языке python (кластерный анализа, классификация, тематическое моделирование, рекомендательные системы и нейронные сети), в-третьих, применение методов машинного обучения для разработки информационных систем в области государственного и муниципального управления, в четвертых, формирование навыков аналитика данных. Настоящая дисциплина относится к циклу дисциплин «Дисциплины профессионального цикла» и блоку дисциплин, обеспечивающих бакалаврскую подготовку. Изучение данной дисциплины базируется на следующих дисциплинах: 2. Математика. 3. Количественные методы анализа данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Информационные технологии для обработки документов в публичном управлении связаны, с одной стороны с обработкой больших данных, с другой стороны, связанны с навыками разработки информационных систем, поэтому целями освоения данной дисциплины является, во-первых, обучение первичной обработке и организации данных (препроцессингу данных, работа с пропущенными данными, выделение необходимых признаков), во-вторых, применение стандартных моделей методов машинного обучения реализованных в различных библиотеках на языке python (кластерный анализа, классификация, тематическое моделирование, рекомендательные системы и нейронные сети), в-третьих, применение методов машинного обучения для разработки информационных систем в области государственного и муниципального управления, в четвертых, формирование навыков аналитика данных.
Планируемые результаты обучения

Планируемые результаты обучения

  • Выявляет программные средства питона (Anaconda, Jupyter, Spyder, Visual Studio, PyCharm)
  • Выявляет основные библиотеки, используемых в области машинного обучения
  • Сравнивает методы оценки моделей и тонкой настройки гипер-параметров в моделях классификации. Объединение моделей для методов ансамблевого обучения.
  • Применяет контент-ориентированную модель и модель коллаборативной фильтрации
  • Сравнивает способы оценки результатов моделей
  • Выявляет признаки из изображений для целей кластреризации и классификации
  • Применяет классификации изображений и текстов (нейронные сети)
  • Применяет анализ временных рядов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Построение информационных систем на основе методов машинного обучения
    Принципы построения систем компьютерного анализа документов публичного управления на основе методов машинного обучения. Интеллектуальный анализ данных, большие данные, машинное обучение. Методы и задачи интеллектуального анализа данных, машинного обучения и обработки больших данных. Области применения методов и технологий интеллектуального анализа данных, машинного обучения и обработки больших данных.
  • Тема 2. Введение в библиотеки NumPy, Panda, SciPy, scikit-learn, matplotlib
    Обзор возможностей библиотек NumPy, Panda, SciPy, scikit-learn, matplotlib для целей машинного обучения.
  • Тема 3. Обзор алгоритмов кластеризации и классификаторов с использованием библиотеки scikit-learn.
    Обсуждение принципов кластеризации и классификации многомерных данных при помощи библиотеки scikit-learn.
  • Тема 4. Принципы построения рекомендательных систем
    Обзор моделей рекомендательных систем: 1. Контент-ориентированная модель. 2. Модель коллаборативной фильтрации
  • Тема 5. Построение информационных систем на основе моделей тематического моделирования.
    Обзор основных тематических моделей: LDA (E-M algorithm). LDA (Gibbs sampling). Обзор реализаций тематических моделей в питоне (Scikit Learn, Gensim, BigARTM)
  • Тема 6. Обработка изображений в python.
    Принципы обработки изображений. Обзор питоновских библиотек для работы с изображениями. Обзор моделей выделения признаков из изображений.
  • Тема 7. Введение в нейронные сети.
    Математическая основа нейронных сетей. Алгоритмы препроцессинга текстовых данных и препроцессинга изображений. Обзор типов нейронных сетей. Обзор библиотек Keras и TensorFlow.
  • Тема 8. Анализ временных рядов с помощью python.
    Математическая основа анализа временных рядов (Экспоненциальное сглаживание, модель Хольта-Винтерса, модели ARIMA, Bayesian dynamic linear model).
Элементы контроля

Элементы контроля

  • неблокирующий Аудиторная
  • неблокирующий Контрольная работа
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.18 * Аудиторная + 0.42 * Контрольная работа + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Коэльо Л.П., Ричарт В. - Построение систем машинного обучения на языке Python - Издательство "ДМК Пресс" - 2016 - 302с. - ISBN: 978-5-97060-330-7 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/82818