• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Семинар НУГ «Оптимальный текст, частотные характеристики деформированных и авторских текстов»

24.03.2023 состоялся шестой семинар НУГ на тему «Оптимальный текст, частотные характеристики деформированных и авторских текстов». С докладом выступила руководитель НУГ, доцент Ольга Горина.

I. Введение 

          Становление соответствующей области лингвистических исследований связано с именем Джорджа Ципфа и одноименным законом, который предложил формулу для закономерности частотных распределений естественного языка (Zipf, 1949). Статистическая часть исследования сначала выполнялась с помощью корпусных инструментов, предлагаемых программным продуктом WordSmith 6,0; методология эксперимента также опирается на собственные программные модули. Производится автоматическое сравнение наблюдаемых и теоретических частот, корреляций между наблюдаемыми частотами и целостностью текста.  

В выводах, сделанных на основании более чем 10000 экспериментальных вычислений, обсуждаем причины рассогласованности вычисляемых (теоретических) и реально наблюдаемых частот. 

II. Методы, материалы, инструменты 

Для проверки гипотезы о частотных характеристиках деформированных текстов, проиллюстрированных в таблицах статьи,  использовались несколько текстовых ресурсов, в частности: роман Джека Лондона "Мартин Иден"  и набор коротких рассказов О. Генри, роман Джоан Роуз "Гарри Поттер и философский камень" и книга Кейт Фокс "Наблюдая за англичанами" и целый ряд других произведений, написанных на английском языке.  

Тексты разбивались на некоторое количество равных частей. Далее генерировался частотный словарь, и вычислялись частотные параметры для первого фрагмента текста, затем для первого и второго фрагментов, и т.д. 

Часть исследования частотных характеристик была посвящена неполным текстам, поэтому была разработана процедура деформации текстового материала. 

III. Исследование 

В качестве меры различия теоретической частоты и наблюдаемой для слова с рангом i из частотного словаря использовалась величина, которую мы ввели следующим выражением, основанном на вычисляемой площади между кривыми — будем в дальнейшем называть «ошибкой». Определено, что минимальное значение ошибка Е принимает при определенном размере текста, который есть оптимальный текст.  Иными словами, как показывает текущий эксперимент, объем текста имеет принципиальное значение при оценке рассогласованности между теоретическими и эмпирическими данными не только в полных текстах, но и в сокращенных и деформированных. Обсуждается авторская константа или удельная частотность самого частотного слова. Намечены дальнейшие шаги по исследованию этой величины. 

              Подготовлен текст статьи, который отправлен в редакцию Вестника Томского Университета. 

Участники семинара отметили актуальность обсуждаемых тем, а также преимущества формата совместной работы преподавателей и студентов над проектом. После представления доклада состоялась оживленная дискуссия участников. Возникли актуальные расширения в рамках изучаемых тем частотных характеристик текстов в русле корпусных исследований. Надеемся, что идеи, возникшие у участников проекта в ходе рассмотрения темы, будут в скором времени реализованы и представлены в докладах и статьях. 

Литература 

Zipf George Kingsley. Human Behavior and the Principle of Least Effort // Science 110, no. 2868 (16 декабря 1949 г.). P. 669.

Арапов М.В., Ефимова Е.Н., Шрейдер Ю.А. О смысле ранговых распределений // НТИ. Сер. 2. 1975. -№ 1. - С. 9-20.

Bowen Cai, Zhenfeng Shao, Shenghui Fang, Xiao Huang, Yun Tang, Muchen Zheng & Hao Zhang (2022) The Evolution of urban agglomerations in Chinaand how it deviates from Zipf’s law, Geo-spatial Information Science, DOI: 10.1080/10095020.2022.2083527 Арапов М.В., Ефимова Е.Н., Шрейдер Ю.А. О смысле ранговых распределений // НТИ. Сер. 2. 1975. -№ 1. - С. 9-20.

 Zanette, D., Montemurro, M. Dynamics of Text Generation with Realistic Zipf's Distribution// Journal of Quantitative Linguistics, 2005, 12:1, 29-40, DOI: 10.1080/09296170500055293

Merton R.K. The Matthew Effect in Science // Science, January 1968b, v.5, no.159 (3810). Reprinted in: Merton, 1973.

Петров В.М., Яблонский А.И. Математика и социальные процессы: гиперболические распределения и их применение. М.: Знание, 1980. – 64 с.

Estoup J.B.Gammes st´enographiques : m´ethode et exercices pour l’acquisition de la vitesse, 4e ´edition rev. et aug., 151p., 20 rue Gassendi, Par´ıs (Francia) 1916

Zipf, George Kingsley Relative frequency as a determinant of phonetic change // Harvard studies in classical philology. — 1929. — № 40.

O’Keeffe, A., McCarthy, M., & Carter, R. (2007). From corpus to classroom: Language use and language teaching. Cambridge: Cambridge University Press.

Scott M., Tribble C. Textual Patterns: key words and corpus analysis in language education: Studies in Corpus Linguistics. — Amsterdam/Philadelphia: John Benjamins, 2006. — 200 p. 

Gorina, O. G.,  Tsarakova, N.S., Tsarakov, S.K. Study of Optimal Text Size Phenomenon in Zipf–Mandelbrot’s Distribution on the Bases of Full and Distorted Texts. Author’s Frequency Characteristics and derivation of Hapax Legomena, Journal of Quantitative Linguistics, 2020, 27:2, 134-158, DOI: 10.1080/09296174.2018.1559460

Горина О. Г., Царакова Н. С. Корпусные инструменты, маршруты и эксперименты в современной лингводидактике // Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2021. Т. 19, № 2. С. 36–53. DOI 10.25205/1818-7935-2021-19-2-36-53

 Mandelbrot, B.B.  The Fractal Geometry of Nature (Freeman, New York, 1983).

Scott M. Wordsmith Tools: Software. — Oxford: Oxford University Press, 2012. 

Орлов Ю. К. Невидимая гармония // Число и мысль. Вып. 3. М. : Знание, 1980. С. 70-106. 

Ссылка на запись семинара: https://disk.yandex.ru/d/XoWNsVVtDMFqtg