We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Big Data analysis technologies

2020/2021
Academic Year
RUS
Instruction in Russian
5
ECTS credits
Course type:
Compulsory course
When:
2 year, 3 module

Instructor

Программа дисциплины

Аннотация

Настоящая дисциплина относится к профессиональному циклу дисциплин и блоку дисциплин, обеспечивающих базовую подготовку бакалавра для направления подготовки 38.03.04 «Государственное и муниципальное управление». Изучение данной дисциплины базируется на знаниях, полученных при изучении следующих дисциплин: • Математика • Количественные методы анализа данных Основные положения дисциплины должны быть использованы в дальнейшем при изучении следующих дисциплин: • Регулирование и анализ рынка труда • Экономическая и социальная статистика Изучение дисциплины проводится в ходе лекционных и семинарских занятий, а также самостоятельной работы с использованием онлайн-курса.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями курса «Технологии анализа больших данных» является формирование у студентов: - системных представлений о технологиях обработки больших данных; - практических навыков обработки и анализа больших массивов информации.
Планируемые результаты обучения

Планируемые результаты обучения

  • Применяет основные понятия и основные алгоритмические конструкции Python. Умеет работать со списками, словарями, функциями.
  • Применяет основные объекты Pandas. Умеет группировать, индексировать и извлекать данные по заданным условиям
  • Применяет возможности модулей NamPy и matplotlib. Умеет с их помощью анализировать и визуализировать данные.
  • Применяет основы моделирования с помощью библиотек Python. Умеет строить модели регрессии и выполнять классификацию объектов.
  • Умеет создавать web - запросы с помощью библиотеки requests
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Введение в анализ больших данных
    Понятие больших данных. Основы синтаксиса Python. Объекты Python. Типы данных. Манипуляции с типами. Бинарные операторы и операторы сравнения. Основные алгоритмические конструкции. Регулярные выражения. Добавление комментариев.
  • Тема 2. Работа с библиотекой Pandas
    Описание библиотеки Pandas. Основные объекты: Series, DataFrame, Panel. Доступ к данным в структурах Pandas. Чтение и запись данных из внешних источников в форматах (csv, xlsx, json). Работа со структурами: удаление, объединение, расширение, группировка. Анализ и визуализация данных в Pandas.
  • Тема 3 Анализ данных с NamPy и matplotlib
    Универсальные функции NumPy. Статистическая обработка данных в NumPy. Обработка отсутствующих значений. Написание скриптов. Визуализация данных в matplotlib. Сохранение графиков в файле. Визуализация географических данных.
  • Тема 4. Моделирование в Python
    Возможности библиотеки Scikit-Learn. Типы моделей. Модели классификации. Бинарная и многоклассовая классификация. Настройка параметров классификации. Парные и множественные регрессионные модели. Этапы построения. Интерпретация результатов. Логистическая регрессия.
  • Тема 5. Парсинг сайтов и обработка web - запросов.
    Формирование web - запросов. Получение информации с внешних сервисов. Библиотека requests.
Элементы контроля

Элементы контроля

  • неблокирующий Индивидуальные задания на семинаре
  • неблокирующий Домашние задания
  • неблокирующий Оценка за онлайн курс
  • неблокирующий Экзамен
    Экзамен проведён в 3 модуле 2020 г.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.3 * Домашние задания + 0.24 * Индивидуальные задания на семинаре + 0.06 * Оценка за онлайн курс + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая дополнительная литература

  • Коэльо Л.П., Ричарт В. - Построение систем машинного обучения на языке Python - Издательство "ДМК Пресс" - 2016 - 302с. - ISBN: 978-5-97060-330-7 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/82818