Описание научного проекта
Направление исследования: лингвистика
Целью нашего проекта является изучение частотных и статистических закономерностей человеческого языка и выполнение прикладных задач по определению оптимальных качественных и количественных характеристик словарного запаса профессионала на иностранном языке (в нашем случае в английском).
Задачами исследования являются:
- Теоретическое обоснование и осмысление применимости или неприменимости существующих математических моделей и инструментов в исследовании частотности слов и границы применения понятия вероятность встречаемости слова в тексте;
- Распределение служебных и знаменательных слов в корпусе текстов; сбор доказательств и результатов исследований, указывающих на принципиально разный характер распределений по частотности в указанных группах словарного состава;
- Закон Ципфа: заблуждения, доказательства и направления современных исследований в рамках распределений Ципфа/Мандельброта/Паретто, в частности:
- распределения частотности в деформированных текстах; существование авторской константы и верификация факта на достаточной выборке авторов (в предварительных исследованиях было установлено, что существует некое соотношение частот, которое уникально для определенного автора, однако верификация константы на большом количестве авторов не проводилась);
- понятие «оптимального текста», его изучение, объяснительный потенциал по факту самого существования феномена оптимального текста («оптимальный текст», предсказанный еще Джорджем Ципфом текстовый объем, в котором расхождение между теоретически вычисляемыми по формуле частотами и наблюдаемыми на аутентичных текстах частотами минимально);
- эмпирика и теория в отношении гапаксов (hapax legomena), или слов с единичной частотностью; в рамках изучения гапаксов аналитическая часть исследования касается вывода формулы для нечастотной части корпуса тестов, т.к. эмпирически доказано, что 50% слов любого корпуса текстов составляют единицы, входящие в корпус лишь единожды, то есть гапаксы. Таким образом, стоит теоретический вопрос:
б) какие последствия таких частотных характеристик английской лексики следует рассматривать в плане отбора значимого и оптимального словарного запаса на иностранном языке; например, в соотношении с такими характеристиками как покрываемость теста, а как следствие понимание профессиональных текстов на иностранном языке.
4. Корпусные процедуры анализа частотности лексики; инструмент WordSmith; критический анализ процедуры отбора ключевых слов, способы совершенствования процедур оценки частотности лексики для отбора ключевых профессионально –релевантных слов.
5. Отбор профессионально - ориентированного вокабуляра с опорой на корпусные процедуры; оптимальные способы, с учетом когнитивных стилей обучаемых, предъявления вокабуляра будущим профессионалам в области экономики.
Планируемые научные результаты исследования, их новизна и практическая значимость.
- Проверка выполнимости закона Ципфа на деформированных текстах с помощью корпусных инструментов.
- Верификация факта существования авторской константы и ее изучение с практических позиций.
- Осмысление заимосвязи между законом Ципфа для лингвистического материала, и проявлений подобной закономерности в других видах данных. Так, исторически, эмпирический анализ гиперболических распределений ранговым методом был впервые предложен Дж. Ципфом. С математической точки зрения распределения Ципфа и Парето являются гиперболическими распределениями в ранговой (Ципфа) и частотной (Парето) формулировке, которые вступают в противоречия с более традиционным распределением Гаусса, к которому применимо понятие вероятности. На наш взгляд, осознание этих фактов как с теоретической, так и с практической сторон составляет так необходимую специалисту гибкость в плане владения научным материалом.
- Аналитический вывод формул для слов с единичной частотностью (в любом корпусе текстов), который, по нашим сведениям, еще не проводился, что является теоретической новизной исследования.
- Практическая значимость также лежит в области совершенствования корпусного отбора лексических единиц, релевантных для определенной группы специалистов /профессионалов.
- Практическим значимым видится и осмысление способов предъявления отобранного лексического материала в плане соотнесения с когнитивными стилями обучаемых.
Планируемые публикации
Планируются публикации в журналах из списка D и C и при отсутствии противодействия в списке A, возможно open access.
Второй год работы научно-учебной группы
Планируемые результаты исследования:
1) Изучение возможности проверки ИИ авторства с помощью изученных метрик, в частности метрики, основанной на величине угла между векторами, соответствующим текстам и адаптированной метрики Минковского с показателем степени меньше 1. Работа над статьей список А.
2) Реализация и сравнение различных алгоритмов кластеризации, визуализация стилометрической близости текстов
3) Доработка тематик, связанных с гапаксами, т.е. аналитическая часть исследования, касающаяся вывода формулы для нечастотной части корпуса тестов, и вида распределения в высокочастотном грамматическом ядре. Идея вывода гапаксов разработана, стоит задача оформления статьи с соответствующей теоретической частью. Список D.
4) Оформление результатов отбора ключевых слов по тематикам курса «Tangible and Intangible Assets» в удобный лингводидактический формат.
5) Методическое осмысление использования ИИ в изучении иностранных языков. Работа над статьей в списке B.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.