Магистрант Александр Мигаль представил проект на конференции INLGC в Токио
Студент второго курса «Языковых технологий в бизнесе и образовании» совместно с партнером программы NTRLab выступил с докладом на 17-й конференции INLGC в Японии. О контрастах Токио, первом выступлении на английском языке и проекте по организации международного соревнования Long Story Generation Challenge Александр Мигаль рассказал в своем тексте.
Если вы откроете статью о Японии в Википедии, то увидите такой текст: «Государство Япония (яп. 日本国 «Нихон коку», «Ниппон коку»), — островное государство в Восточной Азии. Находится в Тихом океане к востоку от Японского моря, Китая, Северной и Южной Кореи, России. Занимает территорию от Охотского моря на севере до Восточно-Китайского моря и Тайваня на юге». На момент поездки, мои познания про Страну восходящего солнца были немногим шире: я читал от силы двух японских писателей, смотрел два аниме и как-то участвовал в добровольно-принудительных курсах приготовления суши со своей девушкой. Мой друг водит, кажется, японскую машину. На этом все.
Как вы можете догадаться, мой образ Японии был крайне мифологизированным. Я слышал, конечно, сказки про чистые улицы, бесшумные поезда на монорельсе и вендинговые автоматы с непристойными, по нашим меркам, сувенирами, но подсознательно готовился столкнуться с совершенно иной реальностью. Тем удивительнее, что подлинная Япония, оказалась для меня ровно тем мифом, который живет в голове у европейца, однажды посмотревшего случайный мультфильм Хаяо Миядзаки: прогрессивной, жизнерадостной, дружелюбной и, главное, гармоничной. Огромные зеркальные бизнес-центры здесь соседствуют с зелеными парками и скверами, а недалеко от традиционного сионистского храма легко может возвышаться статуя боевого робота из франшизы «Гандам». Уже в аэропорту вы можете увидеть надпись вроде «Where Tradition Meets Innovation» с танцующей под ней Хацунэ Мику. В этом контрасте весь Токио.
Правда, времени на изучение окрестностей у меня было немного — все-таки я приехал работать. Я прилетел в Токио на конференцию INLGС (International Natural Language Generation Conference), которая посвящена генерации текста и всему, что связано с обработкой естественного языка. INLGC состоялась уже в 17-й раз. За это время конференция успела сплотить вокруг себя большое сообщество ученых, исследователей, студентов, фрилансеров, сотрудников больших технологических компаний — множество идейных людей и профессионалов своего дела. Для меня не было большим удивлением встретить там двух выпускниц НИУ ВШЭ, Аню и Надю, которые сейчас учатся и работают во Франции. Многие участники приезжают на конференцию не в первый раз, так что атмосфера напоминала скорее встречу старых друзей, а не научное мероприятие в привычном для меня формате.
Впрочем, это никак не отменяет научной содержательности работ, представленных на INLGC. Все доклады, которые мне пришлось услышать — это настоящий авангард и передовая современной компьютерно-лингвистической мысли. Тут вам и мультимодальная генерация, и новые подходы к Text Style Transfer, и инсайты по проектированию сложных RAG-систем. Иными словами, за несколько дней я исписал не один блокнот — теперь остается только как следует разобраться в собственных рукописях.
Наш же доклад был посвящен соревнованию по генерации длинных художественных текстов, LSGC (Long Story Generation Challenge), где наша команда и разные другие энтузиасты в области компьютерной лингвистики должны были написать программу, которая на основе зачина в 1000 слов генерирует целое произведение — большой фанфик по книге «Гарри Поттер». Мы создавали проект вместе с моими одногруппниками — Дарьей Серединой, Люсей Тельниной и Никитой Назаровым. Руководили работой Николай Эрнестович Михайловский, генеральный директор компании NTRLab, и Анастасия Владимировна Колмогорова, глава магистерской программы «Языковые технологии в бизнесе и образовании». Мы оценивали результаты с помощью специально разработанных автоматических метрик, а также волонтеров, которые вдумчиво рецензировали десятки страниц, созданных искусственным интеллектом. Лингвисты-добровольцы анализировали тексты с точки зрения языка и категорий: когезии, когерентности, общего смысла. Чтобы их запутать, мы дали для рецензирования несколько реальных фанфиков, написанных людьми, чтобы было труднее понять, кто автор — человек или машина. Работая над этим проектом, мы пытаемся разобраться есть ли что-то общее и в чем заключаются отличия между продуктом LLM и творчеством человека.
Для меня это был первый серьезный опыт выступления на английском языке. Обычно я не готовлюсь к выступлениям долго — на русском мне проще импровизировать. Однако в этот раз пришлось потрудиться: мы с Николаем Эрнестовичем многократно репетировали презентацию, а ключевые моменты я вовсе заучивал наизусть. Кажется, усилия оправдались — участники активно задавали вопросы, а в перерыве многие подходили, чтобы поблагодарить нас за доклад и обменяться контактами.
Эта поездка была уникальным опытом, и я надеюсь, что она не станет последней — ни в Японию, в которую я теперь влюблен, ни на INLGC. Уверен, что нам будет что рассказать и на следующих конференциях.
Текст: Александр Мигаль, магистрант программы «Языковые технологии в бизнесе и образовании»