«Вдохновение заниматься наукой пришло с поступлением в магистратуру»
В конце апреля Лаборатория языковой конвергенции Питерской Вышки организовала круглый стол, посвященный современным подходам автоматической обработки естественного языка. В нем приняла участие Елизавета Куликова — студентка второго курса магистратуры «Языковые технологии в бизнесе и образовании» и стажер-исследователь лаборатории. В интервью студентка рассказывает, как собирает датасет эмоциональной речи и для чего это нужно, как магистратура повлияла на ее интерес к науке и каким видит свое идеальное будущее.
Как возник мой интерес к науке
Вдохновение заниматься наукой пришло с поступлением в магистратуру «Языковые технологии в бизнесе и образовании». В первую очередь на это повлияла среда, в которой я оказалась: атмосфера самой программы и коллектив однокурсников. Мы все дружны между собой и постоянно обмениваемся результатами исследований. Все очень мотивированы: кто-то на исследования, кто-то на работу в индустрии. Такая разнонаправленность, но при этом сплоченность вдохновляет двигаться вперед.
Конечно, большой вклад в мои исследовательские интересы внесла Анастасия Владимировна Колмогорова — мой научный руководитель и академический руководитель программы. У нее очень широкий научный опыт, которым она делится со студентами. Анастасия Владимировна много рассказывала, какими темами занималась раньше и занимается сейчас, и вдохновила этим и меня. Вместе мы работаем над исследованиями по двум направлениям — компьютерная и когнитивная лингвистика.
Мне интересно анализировать устную и письменную речь компьютерными методами по двум причинам. Во-первых, это позволяет нам охватить больший объем материала, чем ручной классический анализ. Во-вторых, меня привлекает, что эти методы пока находятся в стадии развития. Очень интересно выявлять стороны, которые можно улучшить. Это хорошая возможность для исследовательского творчества: какие-то теоретические выводы можно тут же проверить на практике. Когнитивной лингвистикой я заинтересовалась еще в бакалавриате, когда училась на преподавателя иностранных языков. Мне хотелось погрузиться в то, как люди изучают иностранные языки, не с точки зрения преподавательских методик, а когнитивных механизмов.
Как я оказалась в Лаборатории языковой конвергенции и что изучаю
В Лабораторию языковой конвергенции меня пригласила Анастасия Владимировна в прошлом году. Лаборатория только открывалась, но предполагаемые направления исследований хорошо совпадали с моими интересами. Сперва мне поручали небольшие задачи, на которых я училась проводить полноценные исследования. Впоследствии это помогло мне при поступлении в аспирантуру.
В 2023 году в Питерской Вышке появилась Лаборатория языковой конвергенции. Ее открытию способствовала победа филологов кампуса и московских коллег из Международной лаборатории языковой конвергенции в Конкурсе проектов на выполнение фундаментальных научных исследований распределенными межкампусными научными подразделениями НИУ ВШЭ. Лаборатория занимается исследованиями художественных текстов и устной повседневной речи методами компьютерной обработки естественного языка (NLP) и понимания естественного языка (NLU).
Со временем я приступила к собственному исследованию, посвященному автоматическому распознаванию эмоций в текстах. Расскажу, как все начиналось. Моя коллега еще в бакалавриате собрала коллекцию интервью для своего проекта. Когда мы отсматривали собранный материал — заметили, что речь респондентов очень эмоциональна. Нам было интересно, а справится ли машина с такой задачей — распознать оттенки эмоций в речи. Это ведь и человеку не всегда под силу.
Пока я готовилась к исследованию, изучила много литературы, в том числе по психологии. Оказалось, что есть более ста подходов к тому, что считать эмоциями и чем они отличаются. Так что с технической точки зрения тема сложная: как объяснить машине тонкую грань между разными эмоциями, если ее не всегда улавливают даже психологи? Но ведь ИИ уже научился формулировать довольно логичные и грамматически верные предложения. Думаю, что эмоциональность тоже станет ему однажды доступна — и тогда наше взаимодействие с компьютером станет еще более комфортным.
Главная цель нашего проекта — собрать и разметить датасет естественной эмоциональной речи. Поскольку мы хотели, чтобы эмоции в нашем корпусе были максимально естественными, мы просили участников вспомнить и рассказать о ситуации из их жизни, в которых они испытывали радость или грусть, злились или испугались. Погружаясь в воспоминания, человек снова так или иначе переживает эту эмоцию. Именно такие эмоциональные рассказы мы и записали.
В конце апреля Лаборатория языковой конвергенции организовала круглый стол «Языковые технологии для моделирования данных в междисциплинарных проектах: опыт молодых ученых». В нем участвовали стажеры-исследователи лаборатории, а также студенты бакалаврской программы «Филология» и магистерской «Языковые технологии в бизнесе и образовании». Молодые ученые поделились, как работали над междисциплинарными исследованиями — на стыке лингвистики больших данных, когнитивных наук и речевых технологий.
Понимать эмоции машина учится на основе данных, которые размечают люди. В подобных проектах эту задачу выполняют, как правило, не сами исследователи, а люди со стороны — разметчики. Потому что для объективности нужен свежий взгляд — от этого зависит качество будущей компьютерной модели. На круглом столе мы представили исследование, где изучили, как создать правильные условия для такой работы. Мы посмотрели, в каких условиях разметчик более точен — когда он знаком с целым интервью или только его отрывком. Оказалось, что знание полного контекста скорее мешает.
Что для меня особенно ценно в работе в лаборатории
На размышления о контексте нас натолкнул Александр Калинин — он работает в IT-компании ISS Art и является нашим консультантом из индустрии, а еще ведет курс глубинного обучения на программе. Комментарии от коллег — для меня одна из ценностей работы в лаборатории. Более опытные и старшие коллеги задают полезные и интересные вопросы, которые подталкивают к новым исследованиям. Коллеги-студенты тоже подают новые идеи: в нашем коллективе есть и литературоведы, и лингвисты. И часто в обсуждениях рождается что-то такое, до чего я точно не могу дойти сама.
Сразу несколько проектов, прозвучавших на круглом столе, фокусировались на особенностях речи — молодежи, персонажей русского рассказа, российских чиновников и торговых представителей. Последней темой занимается стажер-исследователь лаборатории Полина Колмогорова. Опираясь на сентимент-анализ, она изучает, как эмоции в речи продавцов-консультантов влияют на желание покупателей приобрести товар. Для лингвистических задач оказались полезны и нейросети: стажер-исследователь Полина Максименко рассказала, насколько эффективно нейросеть может определить жанр фанфика и можно ли адаптировать такую модель для других художественных текстов.
Во время круглого стола я снова испытала это чувство. Мы наконец увиделись с коллегами офлайн — все прошло как всегда в дружеской атмосфере. Такие мероприятия, где можно обменяться опытом друг с другом, для нас не редкость. Мы проводим их раз в пару месяцев как минимум. Но лаборатория растет, и уже на следующий учебный год мы готовим первую большую конференцию.
На круглом столе ребята рассказали о своих проектах по самым разным темам. Трудно выделить какую-то одну работу — все исследования очень интересные и глубокие. Наверное, скорее хочется отметить объем проделанной работы. Например, Ира Петрова и Карина Азаревич занимаются проектом «Один речевой день»: собирают корпус речи молодежи и исследуют, как молодые люди общаются в обычной жизни. Коллега Полина Колмогорова анализирует эмоции в устной маркетинговой коммуникации. Это десятки часов записей речи респондентов, которые нужно еще и обработать и классифицировать. Такой объем работы вызывает уважение!
Студентки магистратуры «Языковые технологии в бизнесе и образовании» Мария Сергеева и Полина Налобина подробно рассказали, как создавали чат-бот для Эрмитажа. Он приходит на помощь любителям искусства: по текстовому описанию находит произведения живописи из цифровой коллекции музея. Студентки поделились, как создали языковую функцию, которой под силу такая задача, и какие модели компьютерного зрения и NLP им в этом помогли. Всего на круглом столе обсудили семь докладов.
Планы на будущее
Еще пару лет назад я не подозревала, что буду заниматься наукой профессионально. Но благодаря той среде, в которую я попала, поняла, что это получается у меня лучше всего. В этом году я задала себе вопрос: «А что будет, когда закончится магистратура, а вместе с ней и мои исследовательские проекты?» Я поняла, что так быть не должно, — и поступила в аспирантуру в московской Вышке.
В аспирантуре я буду писать кандидатскую диссертацию по когнитивным механизмам билингвизма вместе с Анастасией Владимировной. Мы изучим, как билингвы русско-тюркского профиля считывают эмоции в русскоязычных текстах, и есть ли разница в восприятии с монолингвами. Тема нашего исследования была поддержана грантом Центра междисциплинарных исследований «Идея».
Когда мы думаем о билингвизме, в первую очередь на ум приходит образ человека, который переехал в детстве в другую страну и хорошо выучил местный язык. Но мы часто забываем про богатый языковой материал, который есть у нас в стране. Важно сохранять эту ценность: собирать языковой материал, общаться с носителями, накапливать как можно больше знаний о малых языках.
В аспирантуру я иду и для того, чтобы в будущем преподавать — этот интерес связан с моим первым образованием и уже имеющимся опытом работы в этой сфере. А вообще я иногда думаю в шутку: «Как бы выглядела моя идеальная работа?» Ответ звучит так: «Я целыми днями читаю книжки, пишу статьи и передаю свой опыт студентам».