«Душа просила нового»: Софья Шевцова о том, как востоковед становится компьютерным лингвистом
Магистрантка 1 курса программы «Языковые технологии в бизнесе и образовании» Софья Шевцова рассказывает о работе, проекте по транслитерации арабских топонимов и о том, почему решила сменить профиль востоковеда на компьютерную лингвистику.
Я окончила бакалаврскую программу «Востоковедение» в Питерской Вышке. Когда решила поступать в магистратуру, то, если честно, другие университеты почти не рассматривала. Вышка для меня стала родной.
В последний год учебы в бакалавриате я не могла определиться, чем хочу заниматься после выпуска. Тогда я понимала, что очень люблю языки — особенно восточные — и хочу с ними работать, но в то же время душа просила чего-то нового. Я перебрала много магистерских программ, и спустя долгое время поисков наткнулась на нашу — «Языковые технологии в бизнесе и образовании», и поняла, что именно сюда я хочу.
После участия в Зимней школе я начала готовиться к поступлению и собирать портфолио. С одной стороны, было довольно страшно менять профиль с востоковеда со специализацией «Политика и экономика стран Ближнего Востока» на компьютерную лингвистику. С другой стороны, мне было безумно интересно погружаться в абсолютно новую среду. Во время подготовки к поступлению я прошла несколько курсов по компьютерной лингвистике и языкам программирования Python и R. На мой взгляд, важно не бояться впускать в свою жизнь что-то новое и сильно отличающееся от бакалаврского бэкграунда. Если чувствуете, что вам интересно, значит, стоит обязательно попробовать!
В магистратуре и лингвистические, и технические дисциплины стали для меня новинкой, поэтому я с удовольствием и интересом посещала занятия по всем предметам. Но больше всего меня впечатлили несколько курсов, например, дисциплина «Функциональные модели в естественном языке» была одной из первых в магистратуре, и именно во время нее укрепился мой интерес к лингвистике. Важными стали и курсы «Введение в прикладную лингвистику», «Математические основания», а также «Основы программирования» и «Введение в машинное обучение». После каждой пары по этим предметам я возвращалась домой с осознанием, что сегодня узнала много нового. Несмотря на то, что занятия были сложными, я понимала, как важно продолжить в этом разбираться, потому что полученные знания и навыки очень пригодятся в будущем.
Мои исследовательские интересы строятся и на магистерском, и на бакалаврском образовании: мне всегда было любопытно, как устроены языки, особенно сложные и непривычные для нас — арабский и иврит. Теперь я хочу работать с NLP для них, и помогать машине лучше понимать эти языки. Этому посвящен и мой магистерский проект. Я занимаюсь автоматической транслитерацией и переводом арабских топонимов на английский и русский языки. Идея пришла из интереса к тому, как можно сделать автоматический процесс перевода топонимов более тщательным, сохранив при этом культурную и лингвистическую точность. С концептуальной точки зрения мне хотелось решить проблему, с которой я сама сталкивалась как арабист. Существующие инструменты переводят арабские топонимы непоследовательно: то полностью их транслитерируют, то дословно переводят; часто допускают ошибки, которые могут привести к искажению смысла географического названия. Особенно страдают те из них, которые являются редкими и составными.
Технически мой проект — пайплайн, который включает несколько этапов. Сначала система добавляет к арабскому названию огласовки — диакритические знаки, которые, как правило, опускаются на письме; затем отделяет родовое слово (например, «улица», «парк») от имени; переводит родовое слово, а имя транслитерирует с учетом огласовок. Еще я разработала правила обработки артиклей и ассимиляции в духе традиционного произношения. Сейчас у меня уже есть модель диакритизации на основе корпуса Tashkeela, которую мы дообучили на собранном мной датасете из 12 000 строк, содержащих арабские топонимы. Также я продолжаю улучшать точность системы, потому что в арабском языке есть особенности, которые сложно передать автоматически. Например, определенный артикль ال (Al) в некоторых случаях произносится иначе из-за ассимиляции — когда он сливается со следующей согласной (например, вместо Al Shams говорят Ash-Shams). Кроме того, я продолжаю работу над сбором расширенного корпуса данных, чтобы обучить специализированную модель, ориентированную исключительно на перевод географических названий.
Пришлось столкнуться и с трудностями. Арабский язык сам по себе сложен для автоматической обработки: отсутствие огласовок в исходных данных, вариативность написания, фонетическая неоднозначность. Самое трудное — это научить модель быть не просто точной с точки зрения букв, а «умной» с точки зрения смысла: распознавать структуру имени, учитывать контекст, не делать глупых ошибок на редких или составных топонимах. А еще добиться согласованности между машинным обучением и лингвистическими правилами, которые не всегда поддаются формализации.
Мой проект может быть полезен для картографических сервисов, а также везде, где важно корректно передавать названия с арабского языка на английский и русский, особенно в случаях, когда нужен единый и культурно адекватный стандарт передачи топонимов.
Параллельно с учебой я работаю региональным экспертом по Ближнему Востоку в Яндекс Картах. В мои обязанности входит работа с информацией на арабском и иврите, мониторинг источников, перевод, общение с пользователями в регионе и внесение изменений в карту. Также в качестве проектной работы я являюсь региональным экспертом в компании, которая занимается разработкой искусственного интеллекта для медицинских компаний.
Еще на протяжении первого курса магистратуры я принимала участие в организации и проведении городских и международных мероприятий. Например, в ноябре и декабре прошлого года я была атташе делегации Сирии на международном чемпионате «Профессионалы»: сопровождала делегацию, переводила переговоры, экскурсии и другие мероприятия. А в марте этого года я уже смогла применить знания, полученные в магистратуре, и разработала чат-бота — виртуального помощника для Петербургского международного образовательного форума.
Этим летом я планирую сосредоточиться на углублении своих знаний в программировании и машинном обучении. Также я прошла отбор на стажировку в AI-департамент крупного кадрового и образовательного агентства для арабистов. Так что надеюсь и там заниматься задачами, связанными и с арабским, и с NLP.
Тем, кто хочет все успевать, я рекомендую учиться здраво оценивать силы и быть готовыми к тому, что даже у многозадачного человека есть предел возможностей. Буквально каждый день я открываю для себя что-то новое и учусь тому, что еще недавно казалось совершенно непонятным и непостижимым. Иногда бывает очень сложно: чтобы разобраться с некоторыми задачами уходит несколько часов или даже дней. Но когда удается найти решение, появляется ощущение прогресса и радости.