• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Описание научного проекта

Проект: Исследование частотных характеристик языка для решения прикладных задач в области отбора и предъявления профессионально – значимой лексики

Направление исследования: лингвистика

Целью нашего проекта является изучение частотных и статистических закономерностей человеческого языка и выполнение прикладных задач по определению оптимальных качественных и количественных характеристик словарного запаса профессионала на иностранном языке (в нашем случае в английском).


Задачами исследования являются:


  1. Теоретическое обоснование и осмысление применимости или неприменимости существующих математических моделей и инструментов в исследовании частотности слов и границы применения понятия вероятность встречаемости слова в тексте;
  2. Распределение служебных и знаменательных слов в корпусе текстов; сбор доказательств и результатов исследований, указывающих на принципиально разный характер распределений по частотности в указанных группах словарного состава;
  3. Закон Ципфа: заблуждения, доказательства и направления современных исследований в рамках распределений Ципфа/Мандельброта/Паретто, в частности:
  • распределения частотности в деформированных текстах; существование авторской константы и верификация факта на достаточной выборке авторов (в предварительных исследованиях было установлено, что существует некое соотношение частот, которое уникально для определенного автора, однако верификация константы на большом количестве авторов не проводилась);
  • понятие «оптимального текста», его изучение, объяснительный потенциал по факту самого существования феномена оптимального текста («оптимальный текст», предсказанный еще Джорджем Ципфом текстовый объем, в котором расхождение между теоретически вычисляемыми по формуле частотами и наблюдаемыми на аутентичных текстах частотами минимально);
  • эмпирика и теория в отношении гапаксов (hapax legomena), или слов с единичной частотностью; в рамках изучения гапаксов аналитическая часть исследования касается вывода формулы для нечастотной части корпуса тестов, т.к. эмпирически доказано, что 50% слов любого корпуса текстов составляют единицы, входящие в корпус лишь единожды, то есть гапаксы. Таким образом, стоит теоретический вопрос:
а) существуют ли аналитические доказательства тому, что 50% любого текста есть гапаксы; и практический вопрос о том, 
б) какие последствия таких частотных характеристик английской лексики следует рассматривать в плане отбора значимого и оптимального словарного запаса на иностранном языке; например, в соотношении с такими характеристиками как покрываемость теста, а как следствие понимание профессиональных текстов на иностранном языке.
      4. Корпусные процедуры анализа частотности лексики; инструмент WordSmith; критический анализ процедуры отбора ключевых слов, способы совершенствования процедур оценки частотности лексики для отбора ключевых профессионально –релевантных слов.
     5. Отбор профессионально - ориентированного вокабуляра с опорой на корпусные процедуры; оптимальные способы, с учетом когнитивных стилей обучаемых, предъявления вокабуляра будущим профессионалам в области экономики.

Планируемые научные результаты исследования, их новизна и практическая значимость.

  1. Проверка выполнимости закона Ципфа на деформированных текстах с помощью корпусных инструментов.
  2. Верификация факта существования авторской константы и ее изучение с практических позиций.
  3. Осмысление заимосвязи между законом Ципфа для лингвистического материала, и проявлений подобной закономерности в других видах данных. Так, исторически, эмпирический анализ гиперболических распределений ранговым методом был впервые предложен Дж. Ципфом. С математической точки зрения распределения Ципфа и Парето являются гиперболическими распределениями в ранговой (Ципфа) и частотной (Парето) формулировке, которые вступают в противоречия с более традиционным распределением Гаусса, к которому применимо понятие вероятности. На наш взгляд, осознание этих фактов как с теоретической, так и с практической сторон составляет так необходимую специалисту гибкость в плане владения научным материалом.
  4. Аналитический вывод формул для слов с единичной частотностью (в любом корпусе текстов), который, по нашим сведениям, еще не проводился, что является теоретической новизной исследования.
  5. Практическая значимость также лежит в области совершенствования корпусного отбора лексических единиц, релевантных для определенной группы специалистов /профессионалов.
  6. Практическим значимым видится и осмысление способов предъявления отобранного лексического материала в плане соотнесения с когнитивными стилями обучаемых.

Планируемые публикации

Планируются публикации в журналах из списка D и C и при отсутствии противодействия  в списке  A, возможно open access.

Второй год работы научно-учебной группы

Планируемые результаты исследования:

1) Изучение возможности проверки ИИ авторства с помощью изученных метрик, в частности метрики, основанной на величине угла между векторами, соответствующим текстам и адаптированной метрики Минковского с показателем степени меньше 1. Работа над статьей список А.
2) Реализация и сравнение различных  алгоритмов кластеризации,  визуализация стилометрической близости текстов

3) Доработка тематик, связанных с гапаксами, т.е.  аналитическая часть исследования, касающаяся вывода формулы для нечастотной части корпуса тестов, и вида распределения в высокочастотном грамматическом ядре. Идея вывода гапаксов разработана, стоит задача оформления статьи с соответствующей теоретической частью. Список D.

4) Оформление результатов отбора ключевых слов по тематикам курса «Tangible and Intangible Assets» в удобный лингводидактический формат.

5) Методическое осмысление использования ИИ в изучении иностранных языков. Работа над статьей в списке B.




 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.