«Анализ данных для государства и общества»: как подружить программистов с социальными исследователями
В этом году в Питерской Вышке открывается еще одна магистерская программа — «Анализ данных для государства и общества». На ней ждут абитуриентов, готовых решать сложные социально-политические задачи. Почему в качестве основного формата обучения была выбрана проектная работа, как будет организовано международное сотрудничество и где смогут работать выпускники, рассказал академический руководитель программы Даниил Александрович Александров.
Узнать подробнее о количестве мест и вступительных испытаниях можно на странице программы. Информация о поступлении находится в разделе для абитуриентов магистратуры.
— Даниил Александрович, сейчас на рынке образовательных услуг много программ по анализу данных, причем как уровня бакалавриата/магистратуры,так и программ дополнительного образования от IT-лидеров. Почему в Питерской Вышке решили открыть новую магистратуру по анализу данных со специализацией в социальных науках?
— Некоторое время назад — лет пять уже прошло — я понял, в чем основная проблема цифровизации и в России, и в мире. Люди, которые умеют программировать и разбираются в цифровых технологиях, не понимают, что от них хотят управленцы и политики. А управленцы и политики не знают, как разговаривать с теми, кто занимается программированием. Наша задача в Вышке в том, чтобы научить новое поколение менеджеров, экономистов, управленцев, политологов и социологов, которые заполнят этот разрыв. Получить специалистов, которые, может, и не станут крутыми программистами, но смогут разговаривать с технарями на понятном им языке, ставить задачи и понимать, какие вопросы и зачем они задают.
Я обсуждал эту идею с разными крупными людьми из больших компаний, она вызывала неподдельную заинтересованность и понимание в их глазах. Это их боль. Мы постепенно реализуем эту идею в майноре по анализу данных, в бакалавриате по социальной информатике.
И новая магистерская программа — еще один шаг в общем усилии Высшей школы экономики по формированию поколения людей, которые умеют решать разные междисциплинарные задачи.
Второй момент. Есть такой анекдот, что программирование — это 10 % времени и усилий на написание кода и 90 %, чтобы выяснить, почему этот код не работает. Последняя шутка, которую я увидел в «Твиттере», что машинное обучение и анализ данных — это 1 % времени, чтобы написать код, 9 % — сделать так, чтобы он работал, а 90 % — разобраться, что не так с данными. В ответ на этот прекрасный твит прилетели еще более остроумные замечания, что самое главное — это не просто разобраться с данными, а вообще понять, что от тебя хочет заказчик, или что важно понять, в чем вопрос, на который был получен ответ.
Данные, которые нужно анализировать, часто требуют не только чистки, но и достаточно глубокого понимания, что перед тобой. Сильным программистам, в общем, абсолютно наплевать, что у него за данные, им интересны алгоритмы. Какие дашь — они такие и обработают. Но в социальной аналитике все по-другому. Может выясниться, что данных недостаточно. Или что это вообще не те данные. И основная задача состоит в том, чтобы понять, какие вопросы надо задать и какие данные могут ответить на эти нужные нам вопросы. Это требует определенных знаний и в менеджменте, и в социальных науках, и в аналитике. Возвращаясь к тому, с чего я начал: все упирается в отсутствие общего языка между людьми, у которых есть желание что-то получить, и специалистами по машинному обучению, которые могут построить правильные алгоритмы.
— Кого вы ждете на программе?
Мы создаем эту программу и для технарей, которые хотят научиться задавать содержательные вопросы и участвовать в решении важных содержательных задач, и для гуманитариев — психологов, социологов, политологов, которые хотят научиться новым методам аналитики.
Сейчас во всем мире происходит рост того, что называется вычислительной социальной наукой. В 2009 году в журнале Science пятнадцать блестящих ученых опубликовали первый манифест о том, что такое вычислительная социальная наука и какие проблемы она умеет решать. В становлении этой науки и вообще в том, что программисты хоть как-то заговорили с социальными исследователями, огромную роль сыграли физики. Потому что физики — это такие люди, которые натренированы решать задачи. Математики натренированы доказывать теоремы, программисты натренированы писать код, а физики натренированы решать проектные задачи, связанные с окружающим миром. И оказалось, что самые сильные ученые, которые разбираются со сложными вопросами и анализируют комплексные системы, — это люди с базовым физическим образованием. Например, современные эпидемиологические модели, в том числе и ковида, делаются людьми с начальным физическим или инженерным образованием. И мы рассчитываем, что к нам придут такие абитуриенты и попробуют сделать что-то интересное в нашей области.
Ждем ли мы именно программистов? Безусловно, ждем, но их, наверно, не будет много. Боюсь, сильные программисты начинают работать довольно рано и не собираются менять специальность. Но на других программах у нас есть такой опыт, когда программисты приходили учиться. Так что если кто-то решит поступать на «Анализ данных для государства и общества», мы, безусловно, будем только за.
— Как, в таком случае, будет построено обучение? Будут ли какие-то выравнивающие курсы для ребят с разным бэкграундом?
В нашей стратегии два элемента. Во-первых, мы обязательно будем предлагать студентам дополнительные курсы, которые позволят заполнить пробелы. В связи с распространением онлайн-образования значительная часть этих курсов будет онлайн. Магистранты, которые совсем не знают языков программирования, смогут освоить Python или SQL. Те, кто не знаком ни с одним понятием из социальных и политических наук, смогут прослушать соответствующий онлайн-курс и поучаствовать в очных семинарах.
Другой элемент стратегии состоит в том, что мы вводим студентов в проектно-аналитическую и научно-исследовательскую работу с самого начала обучения. И в одной проектной группе будут ребята с разными компетенциями. Мы рассчитываем на такое peer-education, когда ты усваиваешь навыки и знания не только от своего преподавателя, но и от товарищей по курсу.
— Расскажите, пожалуйста, подробнее про проектную работу.
Начну с того, что мы не видим разницы между проектной и научно-исследовательской работой. Поскольку мы учим аналитиков, вся наша программа будет иметь аналитико-исследовательский уклон. Во-первых, мы предполагаем, что студенты будут писать статьи.
Магистранты должны научиться доводить работу до какого-то отчуждаемого результата. Не просто отдали компании отчет, а она поблагодарила и потом этот отчет выкинула. Должен быть результат, причем результат публичный, и лучший формат для этого — статья.
И еще очень важно сказать, что длительность хорошего проекта примерно год или больше. Исследователи образования показали, что короткие учебные проекты не вызывают такого роста, как длительные и масштабные.
Поясню на примере дисциплины, которая называется «Социальные и политические установки». Вместо того чтобы читать какой-то курс про политику, мы сразу формируем группы, которые после нескольких первых занятий вместе с преподавателями придумают и выберут себе интересные задачки из социально-политической сферы. Например, голосование за правых в Европе, доверие к правительству, модели брака, рождаемость и т. д. По всем этим темам есть наборы данных: European Social Survey, European Value Survey, World Value Survey, множество других опросов. Много данных есть в интернете, в соцсетях.
Каждая проектная группа, начиная с первого семестра, будет разбираться со своей конкретной задачей. Для этого мы планируем делать методические сессии и встречи со специалистами.
Вообще идея программы — в творческом объединении разных профессионалов. Кто-то занимается опросами, кто-то анализом интернет-данных, кто-то европейской политикой. Все они — и, конечно, студенты — встречаются на семинарах, чтобы обсудить содержательные проблемы.
Если возникают какие-то вопросы — например, на программе будут учиться иностранные студенты из Азии, которые не до конца понимают, как политически устроена Европа, — тогда специалисты по политическому устройству Европы им читают лекции. Но лекции эти будут по запросу, когда ясно, что необходимо что-то пояснить. Если достаточно прочитать одну статью или книгу, то они взрослые уже люди, прочитают эту статью или книгу и с нами все обсудят. Во втором семестре эта работа в группах продолжится уже в рамках проектной деятельности.
Благодаря такому подходу у наших магистрантов будут формироваться научные интересы. Часть этих групповых проектов, я надеюсь, превратятся в статьи и доклады на приличных конференциях. В этом заинтересованы сами ребята, в этом заинтересованы их руководители. Даже если студенты потом пойдут работать в журналистику или бизнес, там они тоже могут показать эти статьи. И дело даже не в том, что это работа на английском, сколько в том, что у них будут оформлены собственные результаты, о которых можно рассказать.
— Так будут преподаваться все дисциплины или только некоторые?
Есть дисциплины, которые не подразумевают проектной работы. Например, изучение языков программирования. Но большинство курсов позволяют внедрить такой подход. Например, у нас будут дисциплины, посвященные компьютерному анализу текстов. Вводные части курсов, безусловно, просто учебные. Вас учат делать простые вещи, объясняют, как эти вещи работают. Но дальше, поскольку мы готовим профессионалов с магистерской степенью, наша задача в том, чтобы люди достигли некоторого совершенства, того, что по английски называется mastery. Продвинутый курс подразумевает, что вы делаете какую-то работу на своих данных.
Это проект, направленный на важную цель: не просто усвоить какие-то трюки, а произвести результат.
И по качеству результата мы видим, усвоил студент техники и методы, которые мы преподаем, или нет. Преподаватель здесь выступает как тьютор, как куратор, как советник-консультант. Почти все курсы так могут быть устроены.
Так же будет устроен курс о построении теорий — Theory construction and model building. Задача состоит в том, чтобы учить построению теоретических моделей не на абстрактных примерах или моментах, которые интересны мне, а на примерах, которые интересны студентам и нужны им для работы. Я уже веду такой курс на другой магистерской программе. И все время объясняю, что работа по построению теоретических моделей — это такая же практическая работа, как, например, водить машину. Невозможно научить водить машину по сложным дорогам в аудитории. Нужно сперва поездить на полигоне, потом на дороге, а потом взять специальный курс вождения на льду и в других экстремальных условиях.
Поэтому вместо того чтобы обсуждать, какие разные теории бывают на свете, мы попробуем вместе научиться делать что-то в конкретной области.
Научить практически работать хоть с какими-то теориями важнее, чем познакомить людей с энциклопедией.
— Есть ли аналогичные программы в других университетах?
В мире на моих глазах и моими коллегами — большую часть которых я знаю лично — формируются магистерские программы такого же рода. Например, в университете Тренто в прошлом году открылась программа по анализу больших данных, в которой два трека: один для инженеров, а другой для социологов, психологов и политологов. Таких программ порядка десяти, мы с ними начинаем сотрудничать.
Востребованность этих программ очень высока, потому что в Европе те же проблемы, что и у нас. Стоит сказать, что и наша магистратура уже заинтересовала многих иностранных студентов. У меня есть письма из Китая, из Шотландии, из Австралии с вопросами о том, как устроена программа, как на нее поступить. Хотя информация о ней только недавно появилась на сайте и в рекламе кампуса.
— Удивительно! А планируете ли вы сотрудничать с другими университетами и программами?
Вместе с коллегами из Италии, Швеции, Швейцарии, Ирландии мы планируем создать консорциум европейских магистерских программ, в котором будет студенческий обмен, возможно, двойные степени. У нас есть предварительные договоренности по запуску трека двойного диплома с университетом Милана. Пандемия несколько усложнила этот процесс, но, надеюсь, мы скоро подпишем все документы.
— Что насчет практики и трудоустройства?
Специалистам с такими компетенциями предлагают места разные компании. Например, телеком — важный современный бизнес, заинтересованный в крепких аналитиках. IT-компании, которые проводят разного рода исследования. Вообще сейчас развивается большой сектор IT, который напрямую не сводится к тому, что люди пишут код. Есть PR, маркетинг, HR. Это огромная растущая — и не просевшая в ковидную эпоху — сфера бизнеса.
Также мы собираемся сотрудничать с разными госорганами, которые заинтересованы в такой работе. У нас в кампусе есть Центр прикладных исследований и разработок, который делает много интересного, например, выполняет заказы для Комитета по труду и занятости Правительства Санкт-Петербурга. Мы обсуждали с коллегами из Центра возможность практики для наших магистратов, и они уже ждут, когда у нас появятся студенты. Это опять же проектная работа, потому что студенты смогут участвовать в ней от начала сбора данных и до написания отчета. При этом, как участники заказной работы, они уже будут известны заказчику.
Мы предполагаем, что определенная часть студентов будет интересоваться чисто академическим направлением. Это не только двойной диплом и обмены, но и публикации, возможность поступить в аспирантуру в России или поехать куда-то на PhD.
Вообще мы надеемся, что наша программа, как англоязычная и международная, станет таким аэродромом подскока: приедет к нам студентка из Китая, а потом поступит в Европе в аспирантуру.
Это хорошая и важная задача — обеспечение международной студенческой мобильности. Санкт-Петербург — это же окно в Европу.
Еще я надеюсь, что у нас будут партнерства с какими-нибудь СМИ. Сначала на их страницах — или в сюжетах — ребята будут рассказывать о результатах своих проектов. Например, сейчас один мой студент пишет о безработице в России. Он участвует в хакатоне, где им дали пять миллионов анонимизированных данных о людях, которые недавно зарегистрировались на бирже труда. Многие из них потеряли работу раньше или вообще не работали, а теперь, когда предложили какое-то повышенное пособие из-за пандемии, они пришли и записались. Это огромный объем данных, и об этом можно очень интересно рассказать. Я уверен, что когда мы увидим, как по-разному ситуация складывается в разных регионах, мы не только научные статьи напишем, но и всегда найдем то или иное издание, которое захочет эту проблему подсветить. И я надеюсь: год-два такой жизни — и СМИ начнут брать наших выпускников на работу. Потому что это люди, которые будут уметь рассказывать, анализировать и визуализировать. Которые будут иметь очень широкий кругозор в том, какие социальные проблемы важно обсуждать и как они решаются с помощью анализа данных. Понятно, что это мечта, но почему бы и не помечтать?
Александров Даниил Александрович
Академический руководитель программы "Анализ данных для государства и общества"