Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Ученые НИУ ВШЭ — Санкт-Петербург начнут обучать искусственный интеллект эмоциям

Искусственный интеллект стремительно проникает во все сферы нашей жизни: тексты, видео, изображения, поисковые выдачи… Следующий этап — комплексное восприятие человеческой коммуникации и работа с эмоциями.  Новый руководитель Лаборатории естественного языка НИУ ВШЭ — Санкт-Петербург Дмитрий Рюмин рассказывает о перспективных исследованиях, которые изменят наше взаимодействие с ИИ.

Ученые НИУ ВШЭ — Санкт-Петербург начнут обучать искусственный интеллект эмоциям

В 2025 году Лаборатория естественного языка НИУ ВШЭ — Санкт-Петербург под руководством кандидата технических наук Дмитрия Рюмина займется развитием  технологий, которые позволят ИИ не только понимать слова, но и распознавать эмоции, жесты, личностные особенности человека. Изначально подразделение фокусировалось исключительно на анализе текстовых данных. Однако, по мнению Дмитрия Рюмина, сейчас одна модальность мало кому интересна. «Посмотрите на текущие разработки — все хотят и голосом что-то записать, и картинку закинуть, и видео проанализировать, и с текстом поработать», — комментирует ученый.

Дмитрий Рюмин пришел в Питерскую Вышку из СПб ФИЦ РАН, где он занимает должность старшего научного сотрудника Лаборатории речевых и многомодальных интерфейсов. «Меня позвали под проект СП4 (стратегические проекты), а затем предложили возглавить Лабораторию естественного языка. Сегодня в лаборатории работает десять человек — от студентов-бакалавров до кандидатов наук. Хотелось бы расширить команду до 20–30 человек, чтобы можно было разделить лабораторию на связанные группы. Например, одна группа занимается аватарами, другая — эмоциями, а потом их можно объединить для создания эмоциональных аватаров», — делится планами руководитель.

Для чего нейросети нужны эмоции?

Под руководством Дмитрия Рюмина лаборатория НИУ ВШЭ — Санкт-Петербург сосредоточится на нескольких перспективных направлениях, связанных с многомодальными технологиями.

«Представьте систему, которая одновременно анализирует голос человека, его мимику и жесты. Оценка персональных качеств личности и распознавание эмоций может пригодиться, например, при приеме на работу», — объясняет ученый. Технология позволяет определять, насколько соискатель соответствует должности. «Записываем интервью с кандидатом и анализируем не только содержание ответов, но и то, как он говорит, какие эмоции проявляет, как жестикулирует. Это дает более полную картину о человеке. Например, для менеджера важна открытость, коммуникабельность, устойчивость к стрессу. Система может проанализировать, дрожит ли голос кандидата, насколько четко он излагает мысли, и дать характеристику для помощи HR в подборе персонала», — комментирует Дмитрий Рюмин.

Другая перспективная область — персонализированная реклама. Нейросеть сможет оценивать эмоциональное состояние пользователя и подстроить под него контекстные объявления. Если он грустный — покажет один тип контента, если веселый — другой.

Технологии эмоциональных аватаров найдут применение в виртуальных пространствах и на конференциях. «В прошлом году крупные международные конференции создавали виртуальные пространства, где участники, которые не могли приехать физически, заходили в виртуальные комнаты через своих аватаров. Если сделать этих аватаров более эмоциональными, с реалистичной мимикой и жестами, опыт взаимодействия станет намного лучше», — отмечает ученый. Есть и развлекательное направление — перенос движений. «Представьте: я загружаю короткий видеоролик, в котором я просто нахожусь в комнате и совершаю обычные движения. Система анализирует и создает мою цифровую модель. Затем я загружаю другое видео, где, например, профессиональный танцор исполняет брейк-данс. Технология заменяет танцора на меня, и в результате получается реалистичное видео, где я виртуозно танцую брейк-данс. Подобные технологии активно развиваются по всему миру. Крупные исследовательские центры и компании предлагают различные подходы к решению этой задачи», — объясняет Дмитрий Рюмин.

Есть потенциал для применения многомодального искусственного интеллекта в сфере психологической поддержки. «Можно пытаться распознавать не только кратковременные эмоции, но и долгосрочные состояния, например тревожные расстройства, эмоциональное выгорание или нарушение когнитивных функций. Здесь, конечно, возникают этические вопросы и проблемы с получением данных для обучения систем, но направление очень перспективное», — считает Дмитрий Рюмин.

Еще одно направление развития — голосовые помощники для умного дома. По словам ученого, в этом случае наиболее актуально бимодальное распознавание, поскольку многие люди предпочтут сохранить приватность своего жилого пространства и не захотят подключать камеры. «Анализ будет осуществляться преимущественно на основе речи, которую мы можем конвертировать в текст. Такой подход позволяет реализовать работу с двумя модальностями одновременно. У меня дома установлено несколько голосовых помощников. И я регулярно сталкиваюсь с проблемой: система не всегда корректно интерпретирует речевые команды. Иногда за одну минуту помощник может несколько раз изменить «настроение» или манеру ответа, что, откровенно говоря, вызывает раздражение», — резюмирует руководитель лаборатории.

Задача исследователей, которые обучают большие языковые и генеративные модели, — сделать прозрачным процесс принятия решений нейросетью. По словам руководителя лаборатории, объяснимый искусственный интеллект — направление, которое активно развивается в последние годы.

Рюмин Дмитрий Александрович

Дмитрий Рюмин

заведующий Лабораторией естественного языка

Если раньше нейронные сети воспринимались как черный ящик — вводим данные на входе, получаем результат на выходе, не понимая механизма работы, — то сегодня мы стремимся к прозрачности этих процессов. Для применения ИИ в медицине или психологии недостаточно, чтобы модель просто диагностировала депрессию или определяла эмоциональное состояние человека. Важно, чтобы система объясняла, почему она пришла к такому выводу — на какие именно шаблоны в тексте, видео или аудио она обратила внимание.

Получая расшифровку «хода мыслей» модели, любой профессионал может критически оценить полученный результат: с чем-то согласиться, что-то поставить под сомнение. Это создает возможность для обратной связи и объективности при принятии решений.

Как научить нейросеть распознавать эмоции?

Для современных исследований многомодальных моделей требуется мощная техника, кросс-дисциплинарные специалисты и большие объемы данных.

Вычислительная база.  Дмитрий Рюмин работает с нейросетями больше восьми лет. По его словам, раньше основной акцент делался на оперативную память и процессор, а сегодня центральную роль играют графические ускорители (GPU). Мощность и количество доступных видеокарт напрямую определяют скорость обучения нейросетевых моделей, количество возможных экспериментов и объем обрабатываемых данных.

«Поэтому важно не только проводить исследования, но и развивать вычислительную базу. На примере суперкомпьютера Высшей школы экономики мы видим, как эти ресурсы влияют на качество научных экспериментов. Особенно ценно привлекать к работе с такими системами студентов, начиная с бакалавриата, — обучать их взаимодействию с высокопроизводительными вычислительными кластерами, давать возможность тренировать модели различной сложности. Это создает непрерывную образовательную цепочку: студенты, освоившие работу с продвинутым оборудованием, впоследствии могут привлекаться к исследовательской работе в лабораториях».

Работа с базами данных. Обучение больших языковых моделей распознаванию и воспроизведению эмоций — сложный многоэтапный процесс. И в нем теперь принимают участие нейросети. К примеру, сбор и аннотацию данных помогают автоматизировать открытые ИИ: они быстро собирают тексты с заданной эмоциональной окраской. «Это радикально снижает трудозатраты по сравнению с традиционной ручной разметкой, когда приходилось нанимать людей для кропотливой работы. Заметен общий тренд: многие исследовательские команды пытаются адаптировать модели для работы с эмоциями. Несмотря на то что подобные попытки пока не идеальны и модели продолжают ошибаться, направление активно развивается», — говорит Дмитрий Рюмин.

Кросс-дисциплинарные исследования. Современные исследования в области многомодальных моделей предполагают междисциплинарность. Так, сейчас Дмитрий Рюмин запускает совместный проект в рамках «Программы фундаментальных исследований» с Лабораторией социальной и когнитивной информатики по моделированию когнитивных и аффективных процессов и состояний человека. «Объединив наши факультеты и лаборатории, мы создаем прочную междисциплинарную платформу для развития аффективных технологий. Такое сотрудничество чрезвычайно ценно: наши коллеги-социологи, хотя и не специализируются непосредственно на обучении нейросетевых моделей, включая большие языковые и генеративные модели, привносят глубокую теоретическую экспертизу. Их знания становятся фундаментальной базой для обучения наших моделей», — говорит руководитель Лаборатории естественного языка.

В Лаборатории естественного языка ждут студентов и аспирантов, которые разбираются в программировании, лингвистике, психологии и социологии.

Рюмин Дмитрий Александрович

Дмитрий Рюмин

заведующий Лабораторией естественного языка

Невозможно создать качественную разработку, если вы только хорошо программируете, но плохо разбираетесь в лингвистических аспектах своей тематики. А когда мы говорим об аффективных состояниях, необходимы еще и знания психологии. Именно поэтому я стремлюсь привлекать аспирантов с разносторонней подготовкой — например, тех, кто получил бакалаврское образование в лингвистике, а затем продолжил развиваться в ИТ-направлении. Такие специалисты обладают глубоким пониманием лингвистических аспектов, и при этом их можно обучить программированию и работе с нейросетевыми моделями. Развитие такой междисциплинарности — одна из ключевых задач нашей лаборатории.

Лаборатория естественного языка занимается междисциплинарными исследованиями в области машинного обучения и обработки естественного языка. Специалисты изучаются фундаментальные свойства языка, вычислений и обучения, которые могут способствовать лучшему пониманию языка в целом.