Компьютерные лингвисты Питерской Вышки представили Эрмитажу чат-бота для поиска картин
В Государственном Эрмитаже состоялась встреча дирекции музея со студентами программы «Языковые технологии в бизнесе и образовании» и сотрудниками Лаборатории языковой конвергенции. Исследователи представили готового чат-бота для поиска картин. Как прошла презентация и кто такой Эрсик — рассказываем в материале.
Чат-бот компьютерных лингвистов Питерской Вышки — интерактивный инструмент для поиска шедевров живописи из Цифровой коллекции Эрмитажа. С его помощью можно найти картину по одному описанию, не зная ее названия, автора и времени создания, а также узнать ее местоположение в музее.
На презентации присутствовал Алексей Богданов, заместитель генерального директора Государственного Эрмитажа по эксплуатации, и его коллеги. Авторы проекта подробно рассказали об этапах создания чат-бота.
«Далеко не каждый посетитель сайта Эрмитажа может справиться с поиском по Цифровой коллекции. Мы решили упростить процесс и прежде всего перейти во всем понятный Telegram. Активная работа началась с подготовки сценариев взаимодействия пользователя с чат-ботом и подготовки базы данных», — рассказывает студентка и стажер Лаборатории языковой конвергенции Мария Сергеева.
«Внутри» бота хранятся около 1000 произведений живописи из Цифровой коллекции Эрмитажа. Каждое из них получило несколько описаний: от искусственного интеллекта и от волонтеров, принимавших участие в проекте. Тексты описаний картин и запроса пользователя векторизуются — переводятся в числовой формат — и автоматически сравниваются. Если попросить чат-бота найти «девушку в голубом платье», он предложит десять произведений, наиболее подходящих к этому описанию.
Чтобы сделать общение с ботом более комфортным, ему придали облик, понятный широкой аудитории. «Я рассматривала издания на витрине магазинчика Эрмитажа и наткнулась на кота Эрсика — собирательный образ «эрмитажных котов», который придумал автор логотипа музея Аскольд Кузьминский. Мы решили сделать Эрсика «гидом» по Цифровой коллекции», — делится студентка и стажер лаборатории Полина Налобина. Сегодня Эрсик имеет продуманный внешний вид и разговаривает с пользователями простым, но вежливым языком.
На презентации присутствовала Марина Кошелева, руководитель направления образовательных и культурных проектов в Yandex Cloud — технологического партнера команды. Платформа предоставляет мощности для разработки и функционирования бота, модели для генерации описаний по картинкам и сервис YandexGPT. Марина Кошелева отметила важность поддержки инициатив молодых исследователей, а также дальнейшую заинтересованность Яндекса в сотрудничестве с проектной командой.
Анастасия Колмогорова
Академический руководитель магистерской программы «Языковые технологии в бизнесе и образовании», руководитель Лаборатории языковой конвергенции
Работа над проектом началась год назад, когда Ксения Пушницкая, ведущий менеджер Цифровой коллекции Государственного Эрмитажа, рассказала о потребности сделать поиск картин доступнее для посетителей. Для молодых исследователей Лаборатории языковой конвергенции и студентов нашей магистерской программы такая задача стала вызовом — это первый продукт, который мы сделали для музея, тем более — такого известного. Сейчас к нам в лабораторию обращаются и другие музейные площадки.
Сейчас студенты активно работают над обновлением проекта: тестируют его, увеличивают базу картин, собирают данные для анализа. Исследователи планируют расширить функционал бота: можно будет не только попросить Эрсика найти нужную картину и показать информацию о ней, но и задать Эрсику вопрос об Эрмитаже — например, о покупке билетов или доступных экскурсиях.
По итогам презентации проекта стороны решили подписать договор о научном сотрудничестве между Лабораторией языковой конвергенции Питерской Вышки и Государственным Эрмитажем. Скоро чат-бот будет опубликован в Telegram-канале музея и на других его официальных площадках в социальных сетях.
Лаборатория языковой конвергенции — научное подразделение Школы гуманитарных наук и искусств, которое появилось в 2023 году. Сотрудники лаборатории анализируют текстовые коллекции с помощью методов обработки естественного языка (NLP) и на основе результатов разрабатывают цифровые продукты в этой области.