Выступление Анастасии Колмогоровой на XV конгрессе МАПРЯЛ «Русский язык и литература в меняющемся мире»
14 сентября в Санкт-Петербурге на XV конгрессе Международной ассоциации преподавателей русского языка и литературы (МАПРЯЛ) «Русский язык и литература в меняющемся мире» с докладом «Токсичность как коммуникативная категория русской речевой практики через призму корпуса, технологий NLP и психолингвистического эксперимента» выступила Анастасия Колмогорова, заместитель заведующего Лабораторией языковой конвергенции.
Мотивом для исследования послужила общетеоретическая проблема, связанная с работой моделей-парафразеров. Одна из задач, которая решается с помощью таких парафразеров, – это «детоксификация» текстов. C помощью глубинного обучения модель учат делать текст нетоксичным.
Из-за отсутствия точного определения «токсичности» исследователи предлагают информантам либо положиться на собственную интуицию, либо считать токсичным текст, содержащий оскорбления. В результате по причине предвзятой разметки модели работают некорректно. Иногда это приводит к тому, что речевая специфика некоторых субкультур воспринимается автоматическими инструментами как «токсичная».
Анастасия Колмогорова использовала методологию психосемантического эксперимента, разработанную В. Ф. Петренко, в компьютерном приложении Creative Map Studio. Информантам предлагалось расположить на карте 30 существительных русского языка в именительном падеже вокруг находящегося в центре понятия «Токсичность».
В результате статистического анализа полученных карт были выявлены самые частотные ближайшие и дальние «соседи» токсичности в семантическом пространстве носителей русского языка. Итогом работы стала дефиниция токсичности и инструкция для аннотаторов «токсичных» датасетов.
Колмогорова Анастасия Владимировна
Лаборатория языковой конвергенции: Заместитель заведующего