Семинар НУГ "Методология расчета числовых параметров сравниваемых текстов"

23 сентября 2024 года состоялся двадцать седьмой семинар научно-учебной группы по исследованию частотных характеристик языка на тему «Методология расчета числовых параметров сравниваемых текстов». С докладами выступили руководитель НУГ Горина Ольга Григорьевна и участник НУГ Лариса Мажинская.

Семинар посвящен изучению и улучшению алгоритма расчета и сравнения наблюдаемых и теоретических частот при изучении скорости роста словаря. Эксперимент проводится на лингвистическом материале. Участникам были представлены все этапы вычислений и их возможная реализация в какой-либо среде программирования. Исходными данными для работы алгоритма является текст, написанный на английском языке в формате .TXT. Алгоритм на данном этапе, в качестве примера, реализован на языке Visual Basic в среде программирования EXCEL. Выбор среды программирования на данный момент обусловлен хорошо реализованными в EXCEL алгоритмами поиска и сортировки на больших массивах данных, а также удобством хранения частотных словарей большого количества текстов.

Выделяются следующие этапы работы алгоритма:

1. Посимвольная предобработка текста (при обработке есть погрешности, но они незначительны, например, неправильная интерпретация сокращений типа «I’ll»).

2. Формирование частотного словаря текста: при этом новое слово увеличивает размер текста (N) и размер словаря (V)

3. Разбиение текста «по карманам» фиксированного объема, условно по 1000 слов.

4. Анализ частот: Результатом будет таблица с уникальными словами и их частотами в каждом кармане. Таблица упорядочивается по убыванию суммарной частоты.

5. Расчет параметров: Алгоритм анализирует частоты во всех карманах и вычисляет:

· Размер словаря в текущем кармане

· Удельное соотношение TTRi

· Абсолютную и относительную частоту самого частотного слова

· Накопительное значение словаря от начала текста до данного кармана

· Расчет параметров K, B, α, β в распределениях Хипса и Мандельброта), а также параметр, показывающий долю текста, покрываемую 20% самых частотных слов, т.е. доля покрытия текста двадцатью процентами самых частотных слов для проверки известной гипотезы 20/80.

В задачи пост семинарского осмысления также входит обсуждение альтернативной среды для реализации алгоритма.

Спасибо всем участникам, присоединившимся к семинару!

Ссылка на презентацию: https://disk.yandex.ru/i/FW2dskAIKAC5Vw

Дата

30 сентября 2024

Рубрики

Наука

Темы

идеи и опыт дискуссии исследования и аналитика репортаж о событии автоматическое формирование словаря закон распределения обработка текста

В статье упомянуты

Научно-учебная группа по исследованию частотных характеристик языка