• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Big Data

2018/2019
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Course type:
Elective course
When:
1 year, 3, 4 module

Instructor

Программа дисциплины

Аннотация

Целью освоения дисциплины «Большие данные» является формирование у студентов теоретических знаний и практических навыков работы с большими данными. Курс посвящен программному решению проблемы надежного масштабируемого хранения и обработки данных и знакомит с особенностями работы с большими данными. Студенты познакомятся с различными моделями представления и обработки данных, а также освоят работу с контейнерами.
Цель освоения дисциплины

Цель освоения дисциплины

  • формирование у студентов теоретических знаний и практических навыков работы с большими данными
Планируемые результаты обучения

Планируемые результаты обучения

  • Демонстрирует знание необходимости распределенных файловых систем, показывает знание партиционарования, шардирования, разбиения, сегментирования
  • Знает требования приложений к СУБД, строгую предопределенную схему и нормализацию, знает пути масштабирования и архитектуру разделяемой памяти
  • Демонстрирует знание понятий согласованности и линеаризуемости изменений, знает модели согласованности и алгоритмы консенсуса
  • Знает глобально распределенные БД, показывает знание пакетной и потоковой обработки
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Физическое хранение данных, эволюция данных
    Физическое хранение данных, распределённые файловые системы DFS. Необходимость распределенных файловых систем. Файловая система. Метаинформация. Локальные файловые системы. Шаблоны доступа. Журнально-структурированные файлы. Компоненты DFS. Репликация. Google File System. Hadoop File System. Collossus. Хранилища ключ-значение, партиционирование ключей, эволюция данных Партиционирование (partitioning), шардирование (sharding), разбиение, сегментирование. Партиции и узлы. Amazon Dynamo. Партиционирование в Amazon Dynamo. Файловая система GlusterFS.
  • Колоночные СУБД и репликация данных
    Колоночные СУБД: BigTable, Cassandra Требования приложений к СУБД. Cтрогая предопределённая схема и нормализация. Online transaction processing. Online analytical processing. Колоночные СУБД. Bigtable. Cassandra. Репликация данных Пути для масштабирования. Архитектура разделяемой памяти. Репликация. Репликация с лидером. Синхронная и асинхронная репликация. Обработка ошибок.
  • Распределенные системы, алгоритмы консенсуса
    Согласованность и транзакции в распределённых системах Согласованность и линериализуемость изменений. САР теорема. Модели согласованности. Слабая согласованность. Двухфазное подтверждение. Percolator Алгоритмы консенсуса Алгоритмы консенсуса. Репликация и отложенная согласованность. Задача консенсуса. Paxos. Алгоритмы консенсуса: Raft
  • Глобально распределенная БД. Пакетная обработка
    Google Spanner Google Spanner: глобально распределённая БД. Paxos. Двухфазное подтверждение. Внешняя согласованность. Spanner и SQL Пакетная обработка: Map-Reduce, Spark Пакетная и потоковая обработка. Map-Reduce. Мотивация. Apache Hadoop. Apache Spark. Унифицированная модель обработки.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
  • неблокирующий Домашнее задание 2
  • неблокирующий Домашнее задание 3
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.167 * Домашнее задание 1 + 0.166 * Домашнее задание 2 + 0.167 * Домашнее задание 3 + 0.5 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Hurwitz, J., Kaufman, M., Halper, F., & Nugent, A. (2013). Big Data For Dummies. Hoboken, N.J.: For Dummies. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=565511
  • Pedrycz, W., & Chen, S.-M. (2017). Data Science and Big Data: An Environment of Computational Intelligence. Cham: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1489226

Рекомендуемая дополнительная литература

  • Mahmood, Z. (2016). Data Science and Big Data Computing : Frameworks and Methodologies. Switzerland: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1203573