• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Выступление Анастасии Колмогоровой на XV конгрессе МАПРЯЛ «Русский язык и литература в меняющемся мире»

14 сентября в Санкт-Петербурге на XV конгрессе Международной ассоциации преподавателей русского языка и литературы (МАПРЯЛ) «Русский язык и литература в меняющемся мире» с докладом «Токсичность как коммуникативная категория русской речевой практики через призму корпуса, технологий NLP и психолингвистического эксперимента» выступила Анастасия Колмогорова, заместитель заведующего Лабораторией языковой конвергенции.

Выступление Анастасии Колмогоровой на XV конгрессе МАПРЯЛ «Русский язык и литература в меняющемся мире»

XV КОНГРЕСС МАПРЯЛ «РУССКИЙ ЯЗЫК И ЛИТЕРАТУРА В МЕНЯЮЩЕМСЯ МИРЕ» (https://ru.mapryal.org/congresses/xv-kongress-mapryal-russkij-yazik-i-literatura-v-menyayushemsya-mire)

Мотивом для исследования послужила общетеоретическая проблема, связанная с работой моделей-парафразеров. Одна из задач, которая решается с помощью таких парафразеров, – это «детоксификация» текстов. C помощью глубинного обучения модель учат делать текст нетоксичным.

Из-за отсутствия точного определения «токсичности» исследователи предлагают информантам либо положиться на собственную интуицию, либо считать токсичным текст, содержащий оскорбления. В результате по причине предвзятой разметки модели работают некорректно. Иногда это приводит к тому, что речевая специфика некоторых субкультур воспринимается автоматическими инструментами как «токсичная».

Анастасия Колмогорова использовала методологию психосемантического эксперимента, разработанную В. Ф. Петренко, в компьютерном приложении Creative Map Studio. Информантам предлагалось расположить на карте 30 существительных русского языка в именительном падеже вокруг находящегося в центре понятия «Токсичность». 

В результате статистического анализа полученных карт были выявлены самые частотные ближайшие и дальние «соседи» токсичности в семантическом пространстве носителей русского языка. Итогом работы стала дефиниция токсичности и инструкция для аннотаторов «токсичных» датасетов.

ЛЯК НИУ ВШЭ