• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Big Data analysis technologies

2020/2021
Academic Year
RUS
Instruction in Russian
5
ECTS credits
Course type:
Compulsory course
When:
2 year, 3 module

Instructor

Программа дисциплины

Аннотация

Настоящая дисциплина относится к профессиональному циклу дисциплин и блоку дисциплин, обеспечивающих базовую подготовку бакалавра для направления подготовки 38.03.04 «Государственное и муниципальное управление». Изучение данной дисциплины базируется на знаниях, полученных при изучении следующих дисциплин: • Математика • Количественные методы анализа данных Основные положения дисциплины должны быть использованы в дальнейшем при изучении следующих дисциплин: • Регулирование и анализ рынка труда • Экономическая и социальная статистика Изучение дисциплины проводится в ходе лекционных и семинарских занятий, а также самостоятельной работы с использованием онлайн-курса.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями курса «Технологии анализа больших данных» является формирование у студентов: - системных представлений о технологиях обработки больших данных; - практических навыков обработки и анализа больших массивов информации.
Планируемые результаты обучения

Планируемые результаты обучения

  • Применяет основные понятия и основные алгоритмические конструкции Python. Умеет работать со списками, словарями, функциями.
  • Применяет основные объекты Pandas. Умеет группировать, индексировать и извлекать данные по заданным условиям
  • Применяет возможности модулей NamPy и matplotlib. Умеет с их помощью анализировать и визуализировать данные.
  • Применяет основы моделирования с помощью библиотек Python. Умеет строить модели регрессии и выполнять классификацию объектов.
  • Умеет создавать web - запросы с помощью библиотеки requests
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Введение в анализ больших данных
    Понятие больших данных. Основы синтаксиса Python. Объекты Python. Типы данных. Манипуляции с типами. Бинарные операторы и операторы сравнения. Основные алгоритмические конструкции. Регулярные выражения. Добавление комментариев.
  • Тема 2. Работа с библиотекой Pandas
    Описание библиотеки Pandas. Основные объекты: Series, DataFrame, Panel. Доступ к данным в структурах Pandas. Чтение и запись данных из внешних источников в форматах (csv, xlsx, json). Работа со структурами: удаление, объединение, расширение, группировка. Анализ и визуализация данных в Pandas.
  • Тема 3 Анализ данных с NamPy и matplotlib
    Универсальные функции NumPy. Статистическая обработка данных в NumPy. Обработка отсутствующих значений. Написание скриптов. Визуализация данных в matplotlib. Сохранение графиков в файле. Визуализация географических данных.
  • Тема 4. Моделирование в Python
    Возможности библиотеки Scikit-Learn. Типы моделей. Модели классификации. Бинарная и многоклассовая классификация. Настройка параметров классификации. Парные и множественные регрессионные модели. Этапы построения. Интерпретация результатов. Логистическая регрессия.
  • Тема 5. Парсинг сайтов и обработка web - запросов.
    Формирование web - запросов. Получение информации с внешних сервисов. Библиотека requests.
Элементы контроля

Элементы контроля

  • неблокирующий Индивидуальные задания на семинаре
  • неблокирующий Домашние задания
  • неблокирующий Оценка за онлайн курс
  • неблокирующий Экзамен
    Экзамен проведён в 3 модуле 2020 г.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.3 * Домашние задания + 0.24 * Индивидуальные задания на семинаре + 0.06 * Оценка за онлайн курс + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая дополнительная литература

  • Коэльо Л.П., Ричарт В. - Построение систем машинного обучения на языке Python - Издательство "ДМК Пресс" - 2016 - 302с. - ISBN: 978-5-97060-330-7 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/82818