• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

«Мне всегда нравилось больше слушать, чем говорить»: Ирина Петрова о Корпусе устной речи, лингвистике и обучении

Магистрантка первого курса программы «Языковые технологии в бизнесе и образовании» Ирина Петрова рассказывает о работе в Лаборатории языковой конвергенции, возвращении в Вышку и любви к корпусной и компьютерной лингвистике. О том, как один день вашей жизни, проведённый с включённым диктофоном, может помочь науке, — читайте в материале.

«Мне всегда нравилось больше слушать, чем говорить»: Ирина Петрова о Корпусе устной речи, лингвистике и обучении

Фото из архива Ирины Петровой

После школы я сдавала иностранный язык и литературу, поэтому выбирала между разными направлениями, связанными с филологией и лингвистикой. В итоге решила пойти в Питерскую Вышку и окончила программу «Филология». Я рада, что в бакалавриате можно было выбирать курсы: я почти сразу поняла, что классическая филология — это совсем не моё. Мне нравились все предметы, которые связаны с компьютерами — начиная с корпусной лингвистики на втором курсе и заканчивая компьютерной на последнем году обучения. Всё, что касается сбора, обработки и разметки языковых данных, а также исследований на основе корпуса текстов, находится в поле моих интересов. 

Больше всего за время учёбы в бакалавриате мне запомнились очень приятные, хорошие люди — преподаватели, сотрудники и студенты программы, а также общая атмосфера адекватности и человеческое отношение друг к другу.

Мне всегда нравилось больше слушать, чем говорить, поэтому меня интересует всё, что связано с исследованиями устной речи. Коммуникация — основа нашей жизни: всё происходит благодаря тому, что мы разговариваем. У каждого человека есть какие-то черты, особенности речи, отражающие индивидуальность. Корпусные исследования помогают всё это запечатлеть и изучить на разных лингвистических уровнях — от фонетики до прагматики. 

После моего выпуска прошло два года. За это время я не смогла определиться с карьерной траекторией и решила вернуться в Вышку. Сейчас я примерно понимаю, чем хотела бы заниматься в будущем, и для этого мне пригодятся те знания и навыки, которые даёт программа «Языковые технологии в бизнесе и образовании». 

Корпусная лингвистика неразрывно связана с компьютерной. Особенно сейчас, когда дело касается обработки больших объёмов информации. Благодаря методам корпусной лингвистики можно сравнивать и изучать звучащую речь людей в различных ситуациях. На втором курсе бакалавриата я писала работу, где анализировала речь спортивных комментаторов: вручную расшифровала несколько трансляций, разметила каждую фразу по типам речевых актов и провела количественный анализ на основании этой разметки. На практике у Татьяны Юрьевны Шерстиновой я познакомилась с корпусом устной речи «Один речевой день» — занималась расшифровкой речи в ELAN (прим. ред. — это бесплатный инструмент для (полу)автоматического создания текстовых расшифровок видео- и аудиоданных), делала прагматическую разметку эпизодов.

На четвёртом курсе мы решили, что было бы хорошо продолжить запись звукового корпуса, так как «Один речевой день» был собран около 10–15-ти лет назад. Используя ту же методологию, мы начали записывать Корпус устной речи молодёжи и студентов (КУРС). Этим проектом я занимаюсь и сейчас — в рамках работы в Лаборатории языковой конвергенции. Основная идея корпуса устной речи в том, что мы предлагаем добровольцам прожить свой один обычный день со включённым диктофоном, чтобы получить запись речи в естественной среде, в повседневных ситуациях. Это основа проекта, а далее следуют различные этапы обработки собранных материалов, в том числе с помощью больших языковых моделей и машинного обучения. 

Благодаря работе в проекте и в Лаборатории я постоянно совершенствую свои организаторские и исследовательские навыки. Все промежуточные и итоговые результаты как по проекту, так и по проведённым во время обучения исследованиям отражаются в научных публикациях. 

В рамках обучения в магистратуре я выбрала образовательный трек, потому что уже сталкивалась с тем, как выглядит NLP в индустрии, и поняла, что мне это направление не подходит. К тому же мне нравится преподавать и работать со студентами. Первые месяцы учёбы были адаптационными — меня такой ритм устраивает. Трудностей пока нет, но я их уже предвижу. Например, не так давно мы выбирали проекты, над которыми будем работать в течение обучения. Я планирую делать автоматическую морфологическую разметку для Корпуса устной речи. Работа предполагает несколько этапов: отбор материала, тестовая разметка, сравнение существующих парсеров, дообучение языковой модели на данных устной речи. Всё это довольно трудоёмко. Но не думаю, что есть другие способы справиться, кроме как начать делать, а начинать всегда непросто.

Из курсов больше всего рассчитываю на программирование и машинное обучение. В бакалавриате мы только знакомились с этими дисциплинами — сейчас я надеюсь закрепить навыки и стать более уверенной в этих областях. 

Моё поступление в магистратуру в этом году было третьим по счёту: я поступала на разные программы в разные вузы, поэтому особых эмоций этот процесс не вызывал. Я была рада, что удалось поступить — всегда стремилась сделать это по конкурсу портфолио. Мне кажется, это самый комфортный способ, потому что формат экзаменов и собеседований не очень меня привлекает, и я даже стараюсь этого избегать. Немного переживала: в моём портфолио довольно хорошо отражена академическая сторона, есть опыт работы, но нет дополнительных достижений — олимпиад и сертификатов о знании языков. На мой взгляд, это минус, поскольку для поступления на «Языковые технологии в бизнесе и образовании» такие достижения важны.

Тем, кому только предстоит поступать в магистратуру, я рекомендую не отказываться от предложений написать статью или поучаствовать в конференции, а также прислушиваться к советам своих научных руководителей и преподавателей. И, конечно, обязательно изучайте критерии поступления и готовьтесь заранее.

Вы можете стать информантом и помочь в сборе данных для Корпуса повседневной устной речи. Подробнее об этом читайте здесь