• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Как попасть в Data Science

9 марта в Питерской Вышке прошла международная конференция Women in Data Science, объединяющая всех заинтересованных в науке о данных. В рамках конференции состоялась карьерная панель, на которой молодые специалисты из Сбербанка, Huawei, Veeam Software и Университета ИТМО поделились своими инсайдами о работе в отрасли.

На вопросы слушателей отвечали Александра Ширшова, лингвист-разработчик компании Huawei, Мария Тихонова, data scientist «Сбербанка» и аспирантка Факультета компьютерных наук НИУ ВШЭ, Наталья Ханжина, научный сотрудник Университета ИТМО и Нонна Шахова, data scientist из Veeam Software, а по совместительству организатор Open Data Science Meetup в Санкт-Петербурге.

Образование и начало работы в Data Science

Нонна: Когда data science пришел в мир, я уже была в нем. Я получила первое образование по computer science с уклоном в теорию управления, потом окончила магистратуру по математическому моделированию. Поэтому когда термин data science стал звучать широко, оказалось, что я уже давно этим занимаюсь.

Наталья: Я окончила Пермский государственный университет, училась на системного программиста. После бакалавриата приехала в Университет ИТМО, где сейчас и работаю в лаборатории машинного обучения. В лаборатории мы изучаем достаточно узкую область, и это не совсем data science. Более пяти лет я занимаюсь deep learning, а именно анализом изображений.

Помимо фундаментальных исследований в лаборатории и преподавания, достаточно большую часть моей работы составляют прикладные проекты, например, для Huawei и Сбербанка. Также у нас есть командный стартап в области обработки видео и изображений и еще один личный проект, с которым я выиграла конкурс «Умник» — анализ изображений для определения видов аллергенов. Получается, у меня достаточно много аффилиаций.

Мария: Я  пришла в data science незапланировано. На третьем курсе мех-мата МГУ я поступила в ШАД с мыслью, что это школа, где учат прежде всего алгоритмам. Там я узнала про машинное обучение, попробовала, и меня очень увлекло. После ШАД я стала задумываться о стажировках в области data science и на одном из дней карьеры в университете узнала о возможности пойти в «Сбербанк».

Александра: Я — живой пример, как попасть в data science не зная ни одной формулы. Я окончила кафедру арабской филологии восточного факультета СПбГУ. Я  не хотела идти работать переводчиком и понимала, что в реальной жизни нужны прикладные навыки. В этом смысле компьютерная лингвистика открывает очень большие перспективы.

Моей первой работой стал проект по синтезу арабской речи в «Центре речевых технологий». Тогда я ничего не понимала в программировании, и мне было очень сложно работать в IT среде. Я понимала, что нужно построить некий мост между собой и программистами и пошла на курсы по разработке средствами Python. Взяла это не из головы, а просмотрела все существующие вакансии, которые мне были интересны, и практически везде требовался Python.

После «Центра речевых технологий» я работала в компании Promt, которая занимается машинным переводом. И там постепенно, начиная с небольших скриптов, я начала писать код. Сейчас я работаю в компании Huawei на проекте по распознавания арабских символов. Своей историей хочу подчеркнуть что, во-первых, нет ничего невозможного, а во-вторых, умножение гуманитарного знания на техническое всегда дает невероятный карьерный бонус.

Чего не хватало в начале карьеры

Нонна: Мне, прежде всего, не хватало знаний в теории вероятности и математической статистики, эконометрики. Везде, где работают с данными, нужен здравый смысл. Если у вас все хорошо с теорией вероятности, вы будете сразу видеть, если что-то идет не так.

Наталья: Во время учебы в университете мне не хватало единомышленников, потому что даже мой научный руководитель в 2012 году совершенно случайно узнал, что существуют сверточные нейронные сети. Свою первую сверточную нейронку я написала сама на C#, не зная никаких фреймворков. Зато так я, что называется, познакомилась с нейронками изнутри.

Во-вторых, на тот момент существовал дефицит литературы, учебников или хотя бы полноценных статей на русском языке не было. Тогда мне не хватало знания английского языка. Сейчас я, конечно, английский знаю хорошо, преподаю на нем. Так что первый совет, который я дам: учите язык, это очень важно не только для чтения материалов, но и для общения с международным комьюнити.

Мария: У меня с математикой все было более чем хорошо. Но чего мне действительно не хватило, так это знаний в бизнес-анализе и понимания, как на самом деле происходит работа с данными в больших компаниях.

На курсах ты привыкаешь, что тебе дают подготовленный датасет, ты применяешь какой-то волшебный метод и получаешь крутое готовое решение. Но на самом деле работа data scientist совсем не об этом. Сначала нужно разобраться с данными. Сбербанк — огромная компания, которая работает и в России, и за рубежом. И даже если мы берем данные только по России, они всегда приходят разнородные. В разных регионах разная специфика, это надо учитывать. Перед применением «волшебного метода» нужно сначала поработать над качеством данных и всегда держать в голове, чего мы хотим добиться на выходе. Этого в самом начале и не хватало — понимания, как работать с настоящими данными, а не с игрушечными. Еще мне не хватало soft skills: продукт надо не просто сделать, но сделать красиво и красивого его презентовать.

Александра: На первых этапах мне не хватило правильного распределения времени. Когда открываешь для себя новую большую область, пытаешься изучать все сразу. На меня давил тот факт, что все коллеги вокруг знают предмет намного лучше меня. Но эта мысль, что нужно знать и уметь все, она немножко губительна. Если вы будете постоянно отходить в стороны и углубляться в другие аспекты, вы никогда не доведете до конца свою задачу. Наталья говорила, что ей не хватило каких-то материалов. А для меня этих материалов было слишком много. Правильно спланировать задачу и определить, на что направить свои усилия — это очень большая часть работы, не забывайте об этом. И не ругайте себя за то, что чего-то не знаете. Это нормально.

Чем data scientists занимаются на работе

Нонна: Veeam Software, в которой я работаю — это большая международная компания в b2b секторе. Чтобы наши продукты удовлетворяли требованиям клиентов, команда data engineers собирает данные и предлагает адекватную информационную систему, после чего data scientists типа меня строят прогнозные модели для продаж или скоринговые модели для маркетинга.

Вообще data scientist должен решать задачи бизнеса. До этого он должен показать бизнесу, что у него есть такая проблема, собрать данные, почистить их, потом окажется, что эти данные компания не собирает уже два года, поэтому надо что-то придумать и как-то эту задачу решить. Формализация задачи, о которой бизнес говорил, но совершенно другими словами — это тоже работа data scientist. Поэтому сейчас нужно применять все soft skills и быть немного бизнес-аналитиками, немного системными аналитиками, и при этом уметь объяснять всю сложную математику на пальцах.

Наталья: Наша лаборатория большую часть времени занимается прикладными проектами для разных компаний. Поэтому по шкале «продуктовая компания — аутсорсинговая компания» нас можно рассматривать скорее как аутсорсинговую.

Я — именно тот человек, который презентует наши возможности индустриальным партнерам, так что большую часть моего рабочего времени занимают всевозможные встречи и  переговоры. Хочу подтвердить слова коллег: очень важно не только разработать, но еще и упаковать, и хорошо представить ваши продукты.

Мария: У нас очень интересные и разнообразные проекты. Наш офис занимается задачами, которые приходят из других подразделений «Сбербанка». Фактически мы такая небольшая консалтинговая фирма по data science внутри огромной компании. Один из проектов, над которым я работала, был связан с прогнозированием снятия наличности в банкоматах. Анализируя большое количество сторонних факторов — дни выдачи зарплат и стипендий, предпраздничное время, когда люди покупают подарки близким и так далее — нам нужно было предсказать, сколько денег снимут в конкретном банкомате завтра, послезавтра или через месяц.

Недавно я работала над еще одним интересным проектом, на этот раз для HR департамента: по резюме кандидата нужно было предсказать вероятность, с которой он уйдет в ближайшие полгода. Это была крутая задача: с одной стороны, доступно много данных и разных признаков для анализа, с другой стороны, нужно было крепко подумать и учесть много личных факторов: что это за человек, что для него может оказаться значимым. Мы с коллегами присутствовали на собеседованиях, общались с рекрутерами и кандидатами, чтобы понять, что можно использовать при решении этой задачи.

Если рассматривать работу над проектом в целом, то само моделирование и обучение нейронное сети занимает лишь небольшую часть времени. Первостепенная задача — понять, чего именно от тебя хочет бизнес-заказчик. Дальше нужно получить доступ к данным, собрать их, проверить и очистить. В Сбербанке данные собираются — с этим проблем нет. У нас существует другая проблема: их собирается очень много и они все разные. Поэтому их нужно качественно отфильтровывать и проверять.

Где получать новые знания и прокачивать свои навыки

Нонна: Существует куча образовательных онлайн-платформ: Stepik, Coursera, Udacity, причем на большинстве из них есть возможность пройти бесплатные курсы. Если вы абсолютный новичок, начните с основ, но на платформах представлены программы для разного уровня подготовки. Если все хорошо с английским, смотрите тематические видео на YouTube. Вариант для продвинутых: платформа с задачами по анализу данных Kaggle.

Наталья: В разных университетах есть групповые очные занятия, например кружок Kaggle Club, который проводят мои коллеги в Университете ИТМО. Еще могу порекомендовать несколько книг из своей области. Во-первых, это супервходная книга на русском языке «Глубокое обучение, погружение в мир нейронных сетей» Сергея Николенко. Вторая хорошая книга, чуть более углубленная, написана Яном Гудфеллоу. Еще не забывайте о таком инструменте, как Google Scholar. Через него можно найти кучу релевантных научных статей.

Как быть в курсе последних новостей из мира Data Science

Нонна: Очень важно не вариться в собственном соку, а все время смотреть по сторонам и отмечать, кто что делает. Для этого существуют разнообразные митапы. Сейчас в Питере на регулярной основе проходят минимум три. Также некоторые лаборатории, например, в Huawei, проводят открытые семинары, это бесплатно, и в удобное время — не стесняйтесь ходить. Ходите на всевозможные конференции, где не только со сцены, но и у кофемашины люди рассказывают об очень полезных вещах. Есть большущий Data Fest, который пройдет в мае в Москве. А по четвергам в кафе Bonch проходят data science завтраки, куда можно просто прийти и послушать, что говорят. Это такая болталка.

Наталья: В Петербурге проходит много хороших научных конференций по разным направлениям. Если еще не готовы выходить на реальное общение, присоединяйтесь к виртуальным сообществам, например группа Deep Learning в Vk. Там выкладываются не только новости, но и актуальные статьи, тезисы с последних конференций. Думаю, про Хабр знают все.

Александра: Я, например, ежедневно получаю рассылку по интересующим меня тегам с Medium.com. Там есть статьи, которые простым языком объясняют сложные вещи. Вы не найдете на платформе глубокой информации, но это очень простая возможность быть в теме и заряжаться новыми идеями.

Как попасть на стажировку и получить работу в Data Science

Александра: У меня сработал путь наглости. Я нашла компании, которые занимаются в Петербурге тем, что мне интересно. Выбрала для себя «Центр речевых технологий». На тот момент у меня не было цели пойти на работу, я заваливала их письмами и звонками с просьбами взять меня на стажировку. И, видимо, я их так достала, что в какой-то момент меня пригласили на собеседование. Я попала на стажировку, где мне давали какие-то совершенно подсобные и дурацкие задачи, но было сделано самое главное: я попала внутрь компании и поняла, чем она занимается.

Моя стажировка длилась примерно месяц. Сейчас я осознаю, что это было очень странно, потому что тогда я совершенно ничего не могла им дать. И когда этот месяц закончился, мне сказали, что сейчас они не могут мне ничего предложить, нет ни одной подходящей вакансии. Я ушла расстроенная, но где-то через пару месяцев мне позвонили и пригласили работать в новый, только запускающийся проект с арабским языком. Это случилось только потому, что они знали, что есть человек, который горит желанием работать.

Поэтому мой совет: на первом этапе ни в коем случае не надо быть скромным. Нужно прям доставать людей, иначе как из большой массы выберут именно вас? Когда дойдет до этапа собеседования, будете разбираться, подходите вы или нет. Но до этого этапа еще надо дойти.

Нонна: Сейчас на митапы приходит много эйчаров, подыскивающих себе людей. Если где-то в разговоре вы услышали, что там вон стоит эйчар из «Яндекса», вы не стесняетесь, подходите и представляетесь: «Здравствуйте! Я такой-то такой-то, может у вас есть какие-то стажировки?» Она спрашивает: «А что ты умеешь?» И тут не надо рассказывать про пунктуальность и коммуникабельность, расскажите конкретные кейсы. Например, два месяца назад я защищал диплом на такую-то тему, я так-то его решил и теперь хочу заниматься этим всю жизнь. Понятно, зачем вам нужна эта компания. Вы должны в двух словах показать, зачем им нужны вы.


Мария: Еще не стесняйтесь ходить на университетские дни карьеры, на них можно найти и стажировки, и работу. Я попала в Сбербанк именно таким путем. Плюс дней карьеры в том, что компании приходят с информацией, которая наиболее релевантна для студентов. Если говорить о специализированных порталах, вы будете продираться через миллионы предложений для сеньоров и мидлов, а о каких-то стартовых позициях и стажировках будет гораздо сложнее найти информацию. А днях карьеры вся информация именно о том, как начать. Поэтому рекомендую активно ходить, смотреть, подаваться, ходить на интервью и собеседования. Любое собеседование — это отличная практика. Всегда нужно пройти несколько, чтобы методом проб и ошибок понять, как правильно себя подавать. Дерзайте!