• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Один речевой… твит? Сравнение лексических и грамматических особенностей Твиттер-дискурса и устной повседневной речи

27 июня в рамках открытого семинара с докладом «Лексические и грамматические особенности русскоязычных твитов в сравнении с русской устной повседневной речью» выступила Ася Карышева, студентка 4-го курса ОП «Филология» и стажёр-исследователь Лаборатории языковой конвергенции.

Один речевой… твит? Сравнение лексических и грамматических особенностей Твиттер-дискурса и устной повседневной речи

ЛЯК НИУ ВШЭ СПб

В начале доклада был кратко представлен вопрос о модусе компьютерно-опосредованного дискурса — коммуникации, которая возникает, когда люди взаимодействуют друг с другом через любое цифровое устройство — и твитов в частности. Хотя компьютерно-опосредованный дискурс сложно однозначно отнести к письменному или устному модусу, исследователи отмечают, что твиты близки к устной речи. Чтобы сравнить русскоязычный дискурс в Твиттере с русской устной повседневной речью, Ася исследовала лексические и грамматические особенности твитов и речевых эпизодов из корпуса «Один речевой день».

Согласно результатам лексического анализа, Твиттер-дискурс можно считать похожим на Корпус ОРД. Ася выяснила, что значительное количество лемм встречается и в твитах, и в речевых эпизодах. При этом леммы, общие для обеих выборок, составляют не менее 0,79 лексического состава твитов. Также были исследованы частоты дискурсивных и прагматических маркеров в Твиттер-дискурсе и русской устной повседневной речи. Оказалось, что ранговые корреляции между относительными частотами встречающихся в обеих выборках лемм, дискурсивных маркеров и прагматических маркеров статистически значимы, положительны и велики по абсолютному значению.

При этом твиты проявляют грамматические особенности, характерные для письменного модуса. В ходе многомерного анализа 22 особенности кластеризовались в 5 групп-факторов. Речевым эпизодам оказались свойственны факторы, маркирующие высокоинтерактивный дискурс, который имеет сокращенную форму и выражает личные чувства; а твитам — выражающие нарративный фокус в дискурсе. Также Ася установила, что предлоги и существительные встречаются в твитах чаще, чем в Корпусе ОРД. В литературе эти части речи считаются типичными для письма: исследователи связывают их с детальным представлением информации и высокой информационной плотностью.

В докладе также были представлены результаты эксперимента с использованием модели BERT. Его цель — выяснить, похожи ли твиты на письменные тексты, не углубляясь в лингвистические особенности последних. Оказалось, что твиты действительно напоминают письменную речь, если сравнивать их с набором новостных статей: средняя косинусная близость между твитами и письменными текстами всего на 0,05 меньше, чем среднее значение этой же меры сходства между твитами и речевыми эпизодами.

В завершение семинара состоялась дискуссия. Обсуждался процесс загрузки твитов, а также возможность более детального исследования собранных данных.

Post Scriptum

Мы благодарим Асю Карышеву за увлекательный доклад, а всех наших слушателей — за проявленный интерес к проекту и оживленную дискуссию!

До новых встреч!