We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Python for Data Extraction and Data Mining

2020/2021
Academic Year
RUS
Instruction in Russian
2
ECTS credits
Course type:
Compulsory course
When:
3 year, 3, 4 module

Instructors


Марченко Екатерина Юрьевна

Программа дисциплины

Аннотация

Язык программирования Python является одним из самых простых в освоении и популярных языков программирования. Данный язык является мощным инструментом анализа данных и может повысить эффективность практически любой деятельности в науке и индустрии. С помощью языка Python можно автоматизировать рутинные операции и обрабатывать объемы данных, на несколько порядков превышающие объемы, доступные для обработки вручную или с помощью электронных таблиц. Целевой аудиторией курса “Python для обработки и анализа данных” являются студенты не-математических специальностей (гуманитарные, социальные науки, международные отношения, менеджмент, журналистика и медиакоммуникации и т.д.), а также все желающие научиться программировать на языке Python “с нуля”, чтобы уметь решать задачи анализа и обработки данных, возникающие на практике в различных предметных областях.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью освоения данной дисциплины является приобретение учащимися следующих компетенций: ● Базовые знания языка программирования Python; ● Базовые навыки сбора данных и их первичной обработки; ● Визуализация и публикация результатов обработки данных. В результате прохождения курса, слушатели смогут решать задачи анализа данных, чаще всего возникающие на практике: - получать доступ к данным через API (например, обработка социальных сетей или открытые данные государственной статистики) - получать доступ к структурированным данным (например, обработка больших баз хорошо структурированных объявлений о продаже квартир, автомобилей, услуг) - получать доступ к плохо структурированным данным (например, обработка произвольных таблиц с сайтов, электронных таблиц) - проводить анализ текстов (например, выделение ключевых слов в статьях для понимания тенденций) - выполнять визуализацию данных (построение графиков и диаграмм по полученным данным без использования Excel) - публиковать актуальный анализ по быстро меняющимся данным в интернете (например, автоматическое обновление сайта) - работать с геоданными (получение географических данных и визуализация на картах)
Планируемые результаты обучения

Планируемые результаты обучения

  • Визуализирует графики с использованием pyplot, отображает картографическую информацию с помощью API leaflet
  • Знает основы HTML, получает ресурсы по URL-адресу, использует библиотеки для обработки HTML
  • Обрабатывает данные в формате json, работает с публичным интерфейсом API
  • Применяет логические выражения, условный оператор, оператор цикла while
  • Применяет списки, кортежи, множества, методы работы с отдельными элементами и всеми структурами
  • Применяет цикл for, функцию range, решает задачи с использованием локальных и глобальных переменных
  • Размечает данные с помощью XML, умеет получать геоданные
  • Решает задачи на ввод-вывод и целочисленную арифметику
  • Решает задачи на работу с вещественными числами, применяет функции работы со строками
  • Умеет работать с текстом, структурированными файлами (csv), xlsx-файлами и листами в них
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Ввод-вывод и целочисленная арифметика, логические выражения и условный оператор
  • Оператор цикла while, цикл for, функции и рекурсия
  • Списки и кортежи, структуры и сортировка структур
  • Множества, словари
  • Анализ текстовых данных
  • Получение структурированных данных
  • Получение и обработка неструктурированных данных
  • Получение данных через API
  • Визуализация и публикация данных
  • Работа с геоданными
Элементы контроля

Элементы контроля

  • неблокирующий Тест
  • неблокирующий Тест
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.5 * Тест + 0.5 * Тест
Список литературы

Список литературы

Рекомендуемая основная литература

  • Bhasin, H. (2019). Python Basics : A Self-Teaching Introduction. Dulles, Virginia: Mercury Learning & Information. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1991381
  • Nelli, F. (2018). Python Data Analytics : With Pandas, NumPy, and Matplotlib (Vol. Second edition). New York, NY: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1905344

Рекомендуемая дополнительная литература

  • Основы алгоритмизации и программирования на Python : учеб. пособие / С.Р. Гуриков. — М. : ФОРУМ : ИНФРА-М, 2018. — 343 с. — (Высшее образование: Бакалавриат). - Режим доступа: http://znanium.com/catalog/product/924699
  • Язык программирования Python: практикум : учеб. пособие / Р.А. Жуков. — М. : ИНФРА-М, 2019. — 216 с. + Доп. материалы [Электронный ресурс; Режим доступа: http://www.znanium.com]. — (Высшее образование: Бакалавриат). — www.dx.doi.org/10.12737/textbook_5cb5ca35aaa7f5.89424805.