Микс лингвистики и IT на программе «Языковые технологии в бизнесе и образовании»
Открытая в Питерской Вышке в 2021 году магистерская программа «Языковые технологии в бизнесе и образовании» сразу вызвала большой интерес и по итогам приемной кампании вошла в число самых востребованных программ кампуса. О том, как выстроено обучение компьютерной лингвистике и чем смогут заниматься выпускники программы, рассказывает ее академический руководитель Михаил Копотев.
Узнать подробнее о количестве мест и вступительных испытаниях можно на странице программы. Информация о поступлении находится в разделе для абитуриентов магистратуры.
Для кого предназначена программа?
Магистерская программа «Языковые технологии в бизнесе и образовании» готовит специалистов, которые будут заниматься компьютерной лингвистикой в IT-секторе или сфере преподавания. В своей работе выпускники смогут опираться, с одной стороны, на технические навыки в области программирования и инструментов Data science, а с другой — на лингвистические знания.
Студенты программы учатся обрабатывать большие массивы текстовых данных и использовать компьютерные программы и алгоритмы по обработке языка. Они смогут реализовать себя в проектах, связанных, например, с разработкой голосовых помощников, развитием искусственного интеллекта и созданием современных образовательных онлайн-курсов.
Руководит программой Михаил Вячеславович Копотев — доцент департамента филологии петербургского кампуса Вышки, кандидат филологических наук, PhD. Михаил Копотев стажировался в Гарвардском университете, занимает должность адъюнкт-профессора в Хельсинкском университете. Он является автором популярного учебного пособия «Введение в корпусную лингвистику» и создателем нескольких интернет-ресурсов: Хельсинкский аннотированный корпус HANCO, словарь сочетаемости слов CoCoCo, сервис проверки академических текстов CAT&kittens. В 2021 году под его редакцией вышла книга The Palgrave Handbook of Digital Russia Studies.
Программа прикладная и не нацелена на подготовку исследователей. Мы будем выпускать специалистов для работы в бизнесе и в образовании. Конечно, если кому-то из студентов интересна наука, они смогут получить полезные навыки и для академической карьеры в области лингвистики и Data science. Однако программа все же сфокусирована прежде всего на прикладных навыках и знаниях.
Кто может поступить на программу?
Программа будет интересна в первую очередь выпускникам информационных и языковых направлений. Это специалисты по IT или Data science, которым для работы нужны знания о языке, а также филологи и лингвисты, которые хотят научиться обработке языковых данных и освоить навыки программирования.
В магистратуру могут поступать и выпускники из других областей, где большое значение имеет работа с текстом, — например, социологи, историки, антропологи. Главное, чтобы у студента был интерес к языку и технологиям.
Нужны ли абитуриенту специальные знания из области программирования и лингвистики?
Для поступления не нужно обладать специальными знаниями. В течение первого года студенты проходят выравнивающие курсы для лингвистов и IT-специалистов. Выпускники технических направлений могут освоить базовые знания об устройстве языка и современной лингвистической теории, а лингвисты и филологи знакомятся с основами информационных технологий.
Если абитуриент никогда не писал код и не изучал лингвистику, он может пройти оба выравнивающих курса и даже научиться программировать с нуля. Конечно, в этом случае студенту потребуется больше сил и времени для освоения базовой части программы.
Как лингвистика связана с информационными технологиями?
За последние двадцать лет в лингвистике произошла революция больших данных, или революция чисел, которая изменила представление ученых о языке. Для обработки гигантских массивов данных, которые принято называть языковыми корпусами, ученым потребовалось освоить компьютерные программы и новые методы анализа. Лингвисты стали больше опираться не на собственную интуицию и заданные нормы, а на информацию, которую можно извлечь из данных.
Раньше язык понимался как система с определенными правилами, сегодня — это скорее сложно устроенная модель, в которой сосуществуют разные вероятностные закономерности: некоторые из них выполняются с вероятностью в 100 %, а другие зависят от конкретных условий употребления.
Приведу простой пример. В школе нас учат, что «кофе» — это слово мужского рода. Однако большие текстовые данные позволили проследить процесс адаптации слова «кофе» в разных социальных группах. Оказалось, что в СССР однозначно победил мужской род, но в эмигрантской среде он постепенно вытеснялся средним. Процесс вытеснения мы наблюдаем с некоторой задержкой в современной России. Так, благодаря данным жесткое школьное правило сменилось анализом реальных тенденций, происходящих с разной скоростью в разных социальных группах. Как результат, современные словари уже отражают двойную норму.
Копотев Михаил Вячеславович
Академический руководитель МП «Языковые технологии в бизнесе и образовании»
Зачем лингвистика IT-специалистам?
Программы, завязанные на работе с языком, требуют дополнительных знаний. Например, чтобы разработать качественную поисковую систему, нужно уметь составлять тезаурус, обращаться к словарю синонимов, прорабатывать семантическое поле. Выпускник IT-направления в большинстве случаев не обладает подобными навыками и не может построить систему поиска без учета особенностей языка и существующих языковых ресурсов.
В магистратуре «Языковые технологии в бизнесе и образовании» IT-специалист может получить все необходимые лингвистические знания и научиться самостоятельно выстраивать работу над проектами, связанными с языковыми технологиями.
Что можно создавать, используя компьютерную лингвистику?
Не так давно компания «Яндекс» выпустила на русском языке книгу экономиста Дэниела Сасскинда «Будущее без работы. Технологии, автоматизация и стоит ли их бояться». В этой книге обложка и значительная часть перевода сделаны автоматически. Это стало возможно благодаря применению нейросетевых моделей и появлению на рынке специалистов, которые умеют работать одновременно с языковыми данными и компьютерными технологиями.
С другой стороны, переход на дистанционную работу обозначил новую, пока не занятую нишу на рынке труда. Это специалист по созданию инструментов цифрового обучения, от которого требуется как понимание основ педагогики, так и знание технологий.
Копотев Михаил Вячеславович
Академический руководитель МП «Языковые технологии в бизнесе и образовании»
С помощью компьютерной лингвистики можно создавать продукты, которые облегчают взаимодействие бизнеса с клиентами. Многие компании получают огромное количество запросов о своих услугах и товарах. Самые популярные из них можно собрать в единый массив данных, упорядочить и создать чат-бота. Это программа автоматически распознает запрос клиента и предоставляет ему необходимый ответ. Чтобы чат-бот работал правильно и коммуницировал с клиентом как реальный оператор, разработчик должен учитывать языковые параметры общения.
Компьютерная лингвистика также помогает улучшить работу поисковых сервисов. Специалист анализирует тексты, составляет словарь профессиональных терминов и строит поисковую систему, «заточенную» под конкретную область. Компьютерный лингвист может улучшить документооборот в компании или создать поисковые системы для библиотек, так чтобы пользователь мог найти интересующий документ исходя из контекста, даже если он не помнит названия.
Специалист со знаниями лингвистики и IT может работать с продуктами для рынка корпоративного образования. Во многих компаниях сотрудники проходят курсы повышения квалификации и изучают, например, внутренние регламенты и правила. Это массивы текстовой информации, которые часто представлены в виде большого количества печатных материалов и документов. Компьютерный лингвист может сделать процесс внутреннего обучения более технологичным: он проанализирует материалы, выделит ключевую информацию для обучения и создаст компьютерные программы с короткими учебными курсами, квизами и системой оценки полученных знаний.
Как организовано деление на треки в программе?
На первом году обучения студенты проходят выравнивающие курсы по лингвистике и программированию, а также изучают базовые предметы, например, основы статистики, программирование и современные лингвистические теории. Магистранты получают навыки веб-дизайна и создания баз данных, учатся визуализировать текстовые данные и пользоваться программами по обработке языка. В серии вводных курсов студенты также получают общее представление о том, чем вообще можно заниматься в сфере компьютерной лингвистики.
На втором году студенты выбирают одно из направлений программы — бизнес или образование. Внутри каждого трека они пройдут специализированные курсы.
Образовательный трек будет интересен тем, кто не хочет сильно погружаться в создание IT-продуктов, но готов анализировать данные и учиться работать с готовыми программами и ресурсами. Трек будет готовить к работе в области преподавания языков в широком смысле — от онлайн-курсов иностранных языков до корпоративной системы переподготовки персонала.
Магистранты образовательного направления научатся создавать собственные онлайн-курсы, писать для них сценарии и программы, анализировать методологию и динамику обучения. Они также смогут заниматься компьютеризацией тестирования, например, такого как IELTS и TOEFFL. Кроме того, магистранты научатся разрабатывать приложения для изучения иностранных языков, вроде Duolingo, и упаковывать в онлайн-формат другие учебные предметы.
Бизнес-трек предназначен для тех, кто хочет погрузиться в программирование и технологии обработки языка. Магистранты пройдут продвинутый курс по программированию, изучат предметы, связанные с глубинным обучением, семантическими сетями, а также анализом и синтезом звучащей речи. Последнее необходимо, например, для работы над голосовыми помощниками.
В рамках этого направления организуются бизнес-мастерские с приглашенными экспертами из таких компаний, как «Сбер»,«Яндекс», Promt и JetBrains. Специалисты расскажут о текущих разработках компаний в области языковых технологий, о реальных бизнес-процессах в индустрии и о навыках, которых работодатели ожидают от выпускников.
Почему программа частично преподается на английском?
На сегодняшний день английский язык доминирует как в бизнесе, так и в академии. Большинство работ по лингвистике публикуется на английском и посвящено английскому языку. Чтобы в результате обучения выпускники получили актуальные знания о лингвистике и IT, программа включает курсы и на английском языке.
Часть таких курсов и студенческих проектов будут вести зарубежные партнеры магистратуры. Например, специалист по онлайн-тестированию Олеся Кисселев из Техасского университета в Сан-Антонио, специалист по созданию обучающих языковых платформ Роман Янгарбер из Хельсинкского университета и специалист в области корпусной лингвистики Ольга Улыбина из университета г. Тампере.
Будут ли студенты заниматься проектной деятельностью? Как организована практика?
Треть от общего объема кредитов студенты получают за проектную работу и учебную практику.
Цель проектного семинара — научить магистрантов создавать продукт в команде. Студенты в группах по два-три человека под руководством преподавателя кампуса, приглашенного специалиста или зарубежного исследователя в течение года занимаются разработкой придуманного ими пилотного проекта, который, возможно, станет основой нового бизнеса или образовательного сервиса.
Учебная практика подразумевает стажировку в партнерских компаниях программы или в других фирмах, с которыми студент договорится самостоятельно. Благодаря взаимодействию с рынком студент узнает, как устроена реальная работа в области языковых технологий, и сможет поучаствовать в процессе разработки конкретного продукта. У программы есть договоренности с такими крупными представителями рынка, как «Яндекс» и «Сбер», Мариинский театр и Баварская государственная библиотека, Хельсинкский и Берлинский, Стокгольмский и Тбилисский университеты.
Студенты, которых заинтересует академическая карьера, могут работать в исследовательских проектах базовых кафедр Института русской литературы (Пушкинский Дом) РАН и Института лингвистических исследований РАН Питерской Вышки.
В чем преимущество программы «Языковые технологии в бизнесе и образовании»?
Исходя из своего многолетнего опыта, могу сказать, что компьютерная лингвистика — это востребованная специальность. Рынок все больше нуждается не просто в специалистах по Data science широкого профиля, но в профессионалах, которые понимают, как устроены данные, с которыми они работают.
В этом смысле бизнес-трек не является чем-то новым, но рассчитан именно на этот расширяющийся рынок. А вот образовательное направление магистратуры действительно уникально. На данный момент в России не существует качественной университетской программы, которая бы готовила сильных специалистов, обладающих как методическими знаниями, так и IT-навыками, достаточными для разработки образовательных цифровых ресурсов для школы и университета или бизнеса.
Главная особенность программы — ее практическая ориентация. Мы готовим специалистов, которые не просто обладают теоретическими знаниями, но понимают, как использовать свои навыки для конкретных задач, в которых язык или языки являются центральным объектом.
Копотев Михаил Вячеславович
Академический руководитель МП «Языковые технологии в бизнесе и образовании»
Копотев Михаил Вячеславович
Департамент филологии: Доцент
Копотев Михаил Вячеславович
Академический руководитель МП «Языковые технологии в бизнесе и образовании»