• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Открытый семинар «"Состояния вещества" в генерируемых большими языковыми моделями текстах и фазовые переходы между ними»

В пятницу, 1 ноября, прошел открытый семинар Лаборатории языковой конвергенции. С докладом на тему «"Состояния вещества" в генерируемых большими языковыми моделями текстах и фазовые переходы между ними»выступил Николай Эрнестович Михайловский, директор компании NTRlab. 

К семинару присоединилось более 25 участников: это были не только студенты и сотрудники НИУ ВШЭ, но и коллеги из ТГУ, НГУ, СПбПУ, МФТИ и других университетов.

Презентация доклада

Презентация доклада
ЛЯК НИУ ВШЭ–СПб

Доклад Николая Эрнестовича был посвящен вопросу качества генерации большими языковыми моделями длинных текстов, а именно схожести этих текстов с написанными человеком. Он провел интересную аналогию между состоянием текста и таким физическим понятием, как агрегатное состояние вещества: для каждого агрегатного состояния существует свой закон убывания корреляций. С помощью дистрибутивной семантики автокорреляции можно подсчитать и для любого текста. Автокорреляции в написанных людьми текстах убывают по степенному закону: это Николай Эрнестович сравнил с критическим состоянием вещества. А вот в текстах, сгенерированных моделями, так происходит не всегда. В экспериментах по генерации длинных текстов с помощью разных LLM было показано, что при низкой «температуре» модели генерируемый текст быстро приобретает циклическую структуру, а изменения автокорреляций в нем не соответствуют закону этих изменений в человеческом тексте (это сравнимо с кристаллическим состоянием вещества). При «высокой» температуре модели зачастую генеририуют бессмысленный текст с неясной структурой, это похоже на газообразное состояние. То есть для получения уровня генерации текста, приближенного по характеристикам к человеческому, необходимо найти оптимальное значение гиперпараметра (температуры) для фазового перехода. 

В докладе были сделаны следующие выводы: 

  • В генерируемых LLM текстах можно выделить три агрегатных состояния.
  • Фазовый переход из кристаллического состояния происходит при температурах около 0.8 (однако пока не ясно, применимо ли это число ко всем моделям). 
  • В газообразном состоянии дальний порядок отсутствует независимо от температуры и LLM.
  • При температурах между 0.7 и 1 автокорреляции подчиняются степенному закону на средних расстояниях, и, видимо, там есть очаги критического состояния. 


Благодарим нашего докладчика за выступление, а всех участников за проявленный интерес и дискуссию! Будем ждать вас на следующих семинарах Лаборатории языковой конвергенции.  

Видеозапись встречи: