• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Лингвисты Питерской Вышки создали уникальный «эмоциональный словарь» для обучения искусственного интеллекта

Исследователи Лаборатории языковой конвергенции Анастасия Колмогорова и Елизавета Куликова одними из первых в России создали эмоциональный словарь для обучения искусственного интеллекта. Работа показывает, как должна трансформироваться лингвистика в эпоху ИИ.

Лингвисты Питерской Вышки создали уникальный «эмоциональный словарь» для обучения искусственного интеллекта

Фото предоставлено Анастасией Колмогоровой

Еще несколько лет назад создание словаря было основным способом систематизации языковых знаний, а сегодня нейросети нуждаются в принципиально иной форме подачи информации. Исследование лингвистов НИУ ВШЭ — Санкт-Петербург под руководством Анастасии Колмогоровой показывает, как датасет становится новой формой лингвистического справочника, адаптированного для цифровой эпохи.

«Большие языковые модели могут улавливать скрытые паттерны, которые мы, может быть, чувствуем на подсознательном уровне, но не можем формализовать. Наш датасет — это грамотно организованные, хорошо размеченные данные, приспособленные для работы с нейросетями. То, что раньше делал лингвист на основе словаря, теперь делают вычислительные модели, только их словарь должен быть организован по-другому. Вместо пары «слово — толкование» используется пара «текстовый фрагмент — эмоциональная метка», — объясняет заведующая Лабораторией языковой конвергенции НИУ ВШЭ — Санкт-Петербург Анастасия Колмогорова.

Подобный подход кардинально меняет профессиональную задачу лингвиста: от создания абстрактных определений к систематизации живых примеров языкового поведения.

Фото предоставлено Анастасией Колмогоровой

Мультимодальный эмоциональный датасет, созданный петербургскими учеными, включает 909 фрагментов видеозаписей общей продолжительностью 173 минуты. Каждый отрывок разметчики оценили по шести базовым эмоциям. При этом использовались четыре различных формата: полный видеофрагмент (как основа), только аудио, только текст и только видеоряд без звука.

«Для начала мы определили, каким образом люди лучше всего считывают эмоции во время беседы. Выборка создавалась для формирования источника данных об эмоциональной речи, который позволил бы обучать большие языковые модели детектированию эмоций на основе признаков, извлеченных как из одной модальности (канала коммуникации), так и из нескольких», — рассказывает Анастасия Колмогорова.

Затем исследователи сравнили, насколько участники эксперимента были согласны друг с другом при оценке одних и тех же эмоциональных фрагментов. Оказалось, что чаще всего люди сходились во мнениях при чтении обычного письменного текста. Когда же респонденты слушали только речь, их мнения расходились сильнее. Худший результат — у немого видео. То есть, вопреки распространенному мнению, интонация не помогает лучше понимать эмоции.

«Оказывается, когда мы читаем стенограмму разговора, мы достаточно хорошо и согласованно узнаем одни и те же эмоции. А когда слушаем — у каждого возникают свои интерпретации», — комментирует результат руководитель исследования.

Фото предоставлено Анастасией Колмогоровой

Детальный анализ показал, что разные эмоции по-разному проявляются в различных модальностях. Радость и удивление лучше всего распознаются через звучащую речь — здесь интонация действительно играет ключевую роль. Злость, напротив, точнее всего идентифицируется именно по тексту: в 72,9 % случаев по сравнению с 67,4 % для аудио.

Страх оказался наиболее вербальной эмоцией — он распознается по тексту и аудио в 87 % случаев, что указывает на важность словесных маркеров. А вот по мимике страх практически не читается — всего 3,5 % успешных распознаваний.

«Когда участники рассказывали о радостных событиях, они заново переживали эти эмоции, и это ярко отражалось в мимике и голосе. А негативные эмоции высокого возбуждения, такие как злость или страх, переживались не с такой же силой при пересказе и больше отражались в выборе слов. Как показал пример из исследования, текст «Мне 25 лет. Уже год живу с молодым человеком раздельно...» не содержит ни одного слова с семантикой грусти на лексическом уровне, но разметчики уверенно определяют его как грустный. Эмоциональная тональность создается через синтагматику форм: повторы отрицаний, параллельные конструкции, контекст», — объясняет исследователь наблюдаемые закономерности.

Фото предоставлено Анастасией Колмогоровой

На основе эксперимента был создан датасет, который уже применяется на практике. Исследовательская группа использует его для обучения больших языковых моделей: ИИ показывают несколько образцов из «современного словаря» в качестве примеров, а затем просят анализировать новые данные.

«Недавно мы завершили проект для Владимиро-Суздальского музейного заповедника, где анализировали отзывы посетителей со всех платформ с помощью большой языковой модели. Раньше для такого анализа нужны были огромные размеченные выборки и мощные вычислительные ресурсы для обучения модели с нуля. Сейчас достаточно показать нейросети несколько десятков качественных образцов из нашего датасета», — рассказывает Анастасия Колмогорова.

Другой проект с использованием датасета — создание эмпатичного чат-бота для Эрмитажа. «Мы стремимся к такому виртуальному помощнику, который сможет определять эмоции в сообщениях пользователя. Если человек радуется — бот разделит его радость, если переживает — проявит сочувствие», — описывает перспективы применения заведующая лабораторией.

Из архивов разработчиков чат-бота

Датасет также стал инструментом для оценки качества существующих систем автоматического распознавания эмоций. Исследователи протестировали восемь популярных моделей — текстовых, аудиальных, видео и мультимодальных.

Результаты подтвердили выводы эксперимента: текстовые модели показали лучшую точность (50–58 % совпадений с оценками людей), аудиальные — среднюю (около 40 %), а модель анализа мимики — самую низкую (25,6 %). При этом мультимодальная модель, объединяющая текст и аудио, показала неожиданно низкий результат — всего 17 % точности.

«Это говорит о том, что простое объединение разных модальностей не гарантирует лучшего результата. Нужны более продуманные подходы к интеграции различных каналов информации», — отмечает исследователь. Для русского языка подобных мультимодальных эмоциональных ресурсов крайне мало, подчеркивает она.

Созданный датасет решает сразу несколько задач: служит источником для обучения новых моделей, инструментом оценки существующих систем и «золотым стандартом» для исследований эмоциональной речи на русском языке. «Я технооптимист», — признается Анастасия Колмогорова. Она считает, что созданный инструментарий поможет сделать искусственный интеллект более эмпатичным и точным в понимании человеческих эмоций.

Датасет уже доступен исследовательскому сообществу и продолжает развиваться. Команда планирует расширять коллекцию, тестировать новые подходы к обучению моделей и изучать работу со смешанными эмоциями. Исследование опубликовано в журнале «Вопросы лексикографии».