• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Семинар НУГ "Методология расчета числовых параметров сравниваемых текстов"

23 сентября 2024 года состоялся двадцать седьмой семинар научно-учебной группы по исследованию частотных характеристик языка на тему «Методология расчета числовых параметров сравниваемых текстов». С докладами выступили руководитель НУГ Горина Ольга Григорьевна и участник НУГ Лариса Мажинская.

Семинар посвящен изучению и улучшению алгоритма расчета и сравнения наблюдаемых и теоретических частот при изучении скорости роста словаря. Эксперимент проводится на лингвистическом материале. Участникам были представлены все этапы вычислений и их возможная реализация в какой-либо среде программирования. Исходными данными для работы алгоритма является текст, написанный на английском языке в формате .TXT. Алгоритм на данном этапе, в качестве примера, реализован на языке Visual Basic в среде программирования EXCEL. Выбор среды программирования на данный момент обусловлен хорошо реализованными в EXCEL алгоритмами поиска и сортировки на больших массивах данных, а также удобством хранения частотных словарей большого количества текстов. 

Выделяются следующие этапы работы алгоритма:

1. Посимвольная предобработка текста (при обработке есть погрешности, но они незначительны, например, неправильная интерпретация сокращений типа «I’ll»).  

2. Формирование частотного словаря текста: при этом новое слово увеличивает размер текста (N) и размер словаря (V)

3.  Разбиение текста «по карманам» фиксированного объема, условно по 1000 слов.  

4. Анализ частот: Результатом будет таблица с уникальными словами и их частотами в каждом кармане. Таблица упорядочивается по убыванию суммарной частоты.

5. Расчет параметров: Алгоритм анализирует частоты во всех карманах и вычисляет:

·    Размер словаря в текущем кармане

·    Удельное соотношение TTRi

·    Абсолютную и относительную частоту самого частотного слова

·    Накопительное значение словаря от начала текста до данного кармана

·    Расчет параметров K, B, α, β  в распределениях Хипса и Мандельброта), а также параметр, показывающий долю текста, покрываемую 20% самых частотных слов, т.е.  доля покрытия текста двадцатью процентами самых частотных слов для проверки известной гипотезы 20/80.

В задачи пост семинарского осмысления также входит обсуждение альтернативной среды для реализации алгоритма.

Спасибо всем участникам, присоединившимся к семинару!

Ссылка на презентацию: https://disk.yandex.ru/i/FW2dskAIKAC5Vw