Семинар НУГ "Методология расчета числовых параметров сравниваемых текстов"
23 сентября 2024 года состоялся двадцать седьмой семинар научно-учебной группы по исследованию частотных характеристик языка на тему «Методология расчета числовых параметров сравниваемых текстов». С докладами выступили руководитель НУГ Горина Ольга Григорьевна и участник НУГ Лариса Мажинская.
Семинар посвящен изучению и улучшению алгоритма расчета и сравнения наблюдаемых и теоретических частот при изучении скорости роста словаря. Эксперимент проводится на лингвистическом материале. Участникам были представлены все этапы вычислений и их возможная реализация в какой-либо среде программирования. Исходными данными для работы алгоритма является текст, написанный на английском языке в формате .TXT. Алгоритм на данном этапе, в качестве примера, реализован на языке Visual Basic в среде программирования EXCEL. Выбор среды программирования на данный момент обусловлен хорошо реализованными в EXCEL алгоритмами поиска и сортировки на больших массивах данных, а также удобством хранения частотных словарей большого количества текстов.
Выделяются следующие этапы работы алгоритма:
1. Посимвольная предобработка текста (при обработке есть погрешности, но они незначительны, например, неправильная интерпретация сокращений типа «I’ll»).
2. Формирование частотного словаря текста: при этом новое слово увеличивает размер текста (N) и размер словаря (V)
3. Разбиение текста «по карманам» фиксированного объема, условно по 1000 слов.
4. Анализ частот: Результатом будет таблица с уникальными словами и их частотами в каждом кармане. Таблица упорядочивается по убыванию суммарной частоты.
5. Расчет параметров: Алгоритм анализирует частоты во всех карманах и вычисляет:
· Размер словаря в текущем кармане
· Удельное соотношение TTRi
· Абсолютную и относительную частоту самого частотного слова
· Накопительное значение словаря от начала текста до данного кармана
· Расчет параметров K, B, α, β в распределениях Хипса и Мандельброта), а также параметр, показывающий долю текста, покрываемую 20% самых частотных слов, т.е. доля покрытия текста двадцатью процентами самых частотных слов для проверки известной гипотезы 20/80.
В задачи пост семинарского осмысления также входит обсуждение альтернативной среды для реализации алгоритма.
Спасибо всем участникам, присоединившимся к семинару!
Ссылка на презентацию: https://disk.yandex.ru/i/FW2dskAIKAC5Vw