Семинар НУГ "Зависимость роста словаря от объема текста"
3 сентября 2024 года прошел двадцать шестой семинар научно-учебной группы по изучению частотных характеристик языка
Участники отдохнули за лето, и с самого начала учебного года берутся за работу. Лариса Мажинская и Максим Думанов, студенты Школы экономики и менеджмента, рассказали о работе над статьей,которая готовится к публикации в ближайшее время.
В статье рассматриваются некоторые аспекты ранговых распределений, к которым относится и человеческий язык. Рассмотрены особенности роста словаря по мере роста объема текста и экспериментальная зависимость Хипса, его описывающая. Мы также обсудили результаты по выявлению такого объема текста, в котором теоретически вычисляемые и реально наблюдаемые частоты совпадают с минимальной погрешностью. Особое внимание уделили истории изучения ранговых распределений. В частности, отдали должное Закону Ципфа, предложенному американским лингвистом Джорджем Ципфом, который впервые обнаружил гиперболическую зависимость между частотой слова и его рангом в выборке текстов. Согласно этому закону, если упорядочить все слова в языке по их частоте использования, то частота слова, занимающего определенный ранг, обратно пропорциональна его рангу. Важность распределений такого типа обусловлена тем, что Закон Ципфа имеет применение не только в лингвистике, но и в других областях, таких как социология и биология, и его наблюдают во многих природных и социальных явлениях, что подтверждает его универсальность.
В исследовании также рассматриваются модификации Закона Ципфа, предложенные французско-американским математиком Бенуа Мандельбротом. Ученый разрабатывал устойчивые модели и фрактальные представления, которые значительно обогатили понимание распределения частот слов в языке. Проведенное авторами исследование включает анализ текстов на английском языке и сравнение теоретических и наблюдаемых данных с использованием формулы Мандельброта и закона Хипса.
В продолжение семинара Максим и Лариса ответили на вопросы слушателей, что позволило расширить горизонт понимания темы и выявить разделы и вопросы, которые нуждаются в доработке и уточнении в статье. После обсуждения статьи между участниками завязалась дискуссия, которая была вызвана следующим вопросом Ольги Григорьевны Гориной: «Как вы считаете, с какой скоростью искусственный интеллект наращивает объем так называемых «уникальных слов» в тексте: быстрее или медленнее, чем человек?» Иными словами, вопрос касался сопоставления скорости «наращивания лексической плотности текста», созданного человеком и ИИ. Напомним, что объем уникальных слов в тексте называется "types". В лингвистике и корпусной лингвистике "types" (типы) обозначает количество уникальных слов (без учета их частоты), тогда как "tokens" (токены) обозначает общее количество слов, включая повторяющиеся. Таким образом, именно "types" помогают оценить разнообразие словарного запаса текста. Нам же интересно понять, как растет словарь в нейротекстах.
Мнения участников разделились, и у каждого были аргументы в пользу своей позиции. Пока «правильного» ответа на этот вопрос не существует, но участники НУГ загорелись идеей проверить свои гипотезы. Несмотря на то, что подобное исследование потребует немалых вычислительных мощностей, оно осуществимо и может внести вклад в изучение атрибуции авторства текстов.
Ссылка на презентацию: https://disk.yandex.com/i/nNOZwVib4kBFtg