• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Data Mining in Internet Research

2021/2022
Учебный год
ENG
Обучение ведется на английском языке
7
Кредиты
Статус:
Курс по выбору
Когда читается:
2-й курс, 1, 2 модуль

Преподаватель

Course Syllabus

Abstract

В рамках изучения курса, студенты знакомятся с базовыми функциями языка программирования python. Умеют писать базовые команды для парсинга информации с html-страниц, с использованием простых скреперов. Умеют классифицировать собранную информацию, записывать в csv и tsv форматах; проводить её базовый анализ.
Learning Objectives

Learning Objectives

  • Изучение основных функций языка программирования Python и получение знаний о том, как собирать данные в сети Интернет, их анализировать и представлять результаты анализа
Expected Learning Outcomes

Expected Learning Outcomes

  • Студент декомпозирует задачу автоматизации на ключевые этапы решения с использованием паттернов быстрой автоматизации
  • Студент понимает спектр задач, доступных для решения средствами визуального программирования, и умеет находить такие задачи в своей ежедневной профессиональной деятельности
  • Студент предоставляет доступ к собранному технологическому решению для внешних пользователей
  • Студент способен поставить задачу профильному IT-специалисту и интегрировать результат его работы в свой проект визуального программирования
  • Студент учится основам программирования на r или python
Course Contents

Course Contents

  • Основы Python
  • Jupyter Notebook
  • NumPy, Pandas
  • MatPlotLib
  • Основы HTML
  • BeautifulSoup
  • Основы SQL
  • Использование API веб-сайтов, которые его предоставляют
Assessment Elements

Assessment Elements

  • non-blocking Система микрозадач
    Микрозадачи, выполняемые во время занятия, либо дома (на случай просмотра лекций онлайн на телефоне или неполадок с интернетом во время занятия).
  • non-blocking Экзамен
    Студент скрапит веб-сайт по заранее подготовленному шаблону, восстанавливает записанную на сайте таблицу в Pandas DataFrame, сохраняет таблицу в CSV или SQL. Строит график числовых величин из таблицы, на дополнительный балл — частоты использования букв.
  • non-blocking Посещаемость
    Посещение лекций и семинаров
Interim Assessment

Interim Assessment

  • 2021/2022 2nd module
    0.2 * Посещаемость + 0.5 * Система микрозадач + 0.3 * Экзамен
Bibliography

Bibliography

Recommended Core Bibliography

  • Диков А.В. - Клиентские технологии веб-дизайна. HTML5 и CSS3: учебное пособие - Издательство "Лань" - 2019 - ISBN: 978-5-8114-3822-8 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/122174
  • Мультимедийная журналистика [Электронный ресурс] : учебник для вузов/ под общ. ред. А. Г. Качкаевой, С А. Шомовой; Нац. исслед. ун-т «Высшая школа экономики». — 2-е изд. (эл.). — Электрон, текстовые дан. (1 файл pdf: 418 с). — М.: Изд. дом Высшей школы экономики, 2018. — (Учебники Высшей школы экономики). — Систем, требования: Adobe Reader XI либо Adobe Digital Editions 4.5 ; экран 10'. - ISBN 978-5-7598-1663-8- Текст : электронный. - URL: https://new.znanium.com/catalog/product/1018934 - Текст : электронный. - URL: http://znanium.com/catalog/product/1018934
  • Немцова, Т. И. Компьютерная графика и web-дизайн : учеб. пособие / Т.И. Немцова, Т.В. Казанкова, А.В. Шнякин / под ред. Л.Г. Гагариной. — Москва : ИД «ФОРУМ» : ИНФРА-М, 2017. — 400 с. + Доп. материалы [Электронный ресурс; Режим доступа: https://znanium.com]. — (Профессиональное образование). - ISBN 978-5-16-101286-4. - Текст : электронный. - URL: https://znanium.com/catalog/product/894969

Recommended Additional Bibliography

  • Боно, Э. де. Гениально! Инструменты решения креативных задач [Электронный ресурс] / Э.де Боно; пер.с англ.; БД AlpinaDigital. – М.: Альпина Паблишер, 2015. – 382 с. – ISBN 978-5-9614-6714-7. – Режим доступа: http://lib.alpinadigital.ru/reader/book/3037. – Загл. с экрана.