• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

194100, Санкт-Петербург,
ул. Кантемировская д. 3, корп. 1, лит. А, каб.331
Тел. (812) 644-59-11 доб. 61578

Руководство
Заместитель декана по учебной работе Кузнецов Антон Михайлович
Заместитель декана по научной работе Жуков Алексей Евгеньевич
Образовательные программы
Бакалаврская программа

Прикладная математика и информатика

4 года
Очная форма обучения
30/30/5
30 бюджетных мест
30 платных мест
5 платных мест для иностранцев
RUS+ENG
Обучение ведется на русском и частично на английском языке
Бакалаврская программа

Прикладной анализ данных и искусственный интеллект

4 года
Очная форма обучения
30/30/6
30 бюджетных мест
30 платных мест
6 платных мест для иностранцев
RUS+ENG
Обучение ведется на русском и частично на английском языке
Бакалаврская программа

Физика

4 года
Очная форма обучения
20/10
20 бюджетных мест
10 платных мест
RUS+ENG
Обучение ведется на русском и частично на английском языке
Магистерская программа

UX-аналитика и проектирование информационных систем

2 года
Очная форма обучения
15/15/1
15 бюджетных мест
15 платных мест
1 платное место для иностранцев
RUS+ENG
Обучение ведется на русском и частично на английском языке
Магистерская программа

Внедрение и оптимизация комплексных информационных систем

2 года
Очная форма обучения
Онлайн программа
20/1
20 платных мест
1 платное место для иностранцев
RUS+ENG
Обучение ведется на русском и частично на английском языке
Магистерская программа

Вычислительная биология и биоинформатика

2 года
Очная форма обучения
5/15
5 бюджетных мест
15 платных мест
RUS
Обучение ведётся полностью на русском языке
Магистерская программа

Машинное обучение и анализ данных

2 года
Очная форма обучения
15/15/1
15 бюджетных мест
15 платных мест
1 платное место для иностранцев
RUS+ENG
Обучение ведется на русском и частично на английском языке
Магистерская программа

Программирование и анализ данных

2 года
Очная форма обучения
15/15/1
15 бюджетных мест
15 платных мест
1 платное место для иностранцев
RUS+ENG
Обучение ведется на русском и частично на английском языке
Магистерская программа

Физика

2 года
Очная форма обучения
15/5
15 бюджетных мест
5 платных мест
RUS
Обучение ведётся полностью на русском языке
Глава в книге
Acceptor-Assisted Intraband Photoconductivity in GaAs/AlGaAs Quantum Wells

Makhov I., Vinnichenko M., Panevin V. et al.

In bk.: Optics and its applications. Springer, 2022. Ch. 7. P. 79-90.

Обучение с подкреплением в Super Mario Bros. Сравнение алгоритмов DQN и Dueling DQN

Этой весной Питерская Вышка и JetBrains впервые провели проектную смену для старшеклассников — Школу по практическому программированию и анализу данных. Первое место заняла команда проекта Deep Q-Mario — ребята создали нейронную сеть, которая использует reinforcement learning для обучения агента играть в Super Mario Bros. В блоге факультета на Хабре они рассказывают, какие алгоритмы использовали и с какими проблемами столкнулись (например, в какой-то момент Марио просто отказался прыгать).

Команда Deep Q-Mario

Команда Deep Q-Mario
© НИУ ВШЭ — Санкт-Петербург/ Тана Лисова

О нас

Мы — Владислав и Дмитрий Артюховы, Артём Брежнев, Арсений Хлытчиев и Егор Юхневич — учимся в 10-11 классах в разных школах Краснодара. С программированием каждый из нас знаком довольно давно, мы писали олимпиады на С++. Однако почти все члены команды раньше не работали на Python, а для написания проекта в короткий пятидневный срок он был необходим. Поэтому первым испытанием для нас стало преодоление слабой типизации Python и незнакомого синтаксиса. Но обо всем по порядку. 

Немного теории

На школе Питерской Вышки нам предстояло создать нейронную сеть, которая использует reinforcement learning для обучения агента играть в Super Mario Bros.

Reinforcement Learning

В основе RL алгоритмов лежит принцип взаимодействия агента и среды. Обучение происходит примерно так: агент совершает в среде действие и получает награду (в нашем случае Марио умеет прыгать и перемещаться вправо); среда переходит в следующее состояние; агент опять совершает действие и получает награду; подобное повторяется, пока агент не попадет в терминальное состояние (например, смерть в игре).

Основная цель агента заключается в максимизации суммы наград за весь эпизод — период от старта игры до терминального состояния. Особенностью обучения с подкреплением является отсутствие данных для тренировки, поэтому агент обучается на данных, которые получает, взаимодействуя со средой.

Q-learning

В основу нашей модели лег алгоритм Q-learning. Q-learning — это модель, которая обучает некоторую функцию полезности (Q-функцию). Эта функция на основании текущего состояния и конкретного действия агента вычисляет прогнозируемую награду за весь эпизод (Q-value).Агент совершает действия на основании некоторого свода правил — политики. Политика нашего агента называется Epsilon-Greedy: с некоторой вероятностью агент совершает случайное действие, иначе он совершает действие, которое соответствует максимальному значению Q-функции.

Читать дальше