Круглый стол «Языковые технологии для моделирования данных в междисциплинарных проектах: опыт молодых ученых»
Лаборатория языковой конвергенции Санкт-Петербургской школы гуманитарных наук и искусств приглашает принять участие в круглом столе «Языковые технологии для моделирования данных в междисциплинарных проектах: опыт молодых ученых». Мероприятие состоится в пятницу, 26 апреля 2024 г., в 16.00 по МСК в гибридном формате.
В рамках круглого предлагается рассмотрение вопросов, связанных с использованием современных подходов автоматической обработки естественного языка в контексте решения различных научно-исследовательских задач. Какие особенности речи отличают современную молодежь, торговых представителей, российских чиновников и персонажей русского рассказа? Насколько эффективно нейросеть может определить жанр фанфика? А сгенерировать текст по картине из Эрмитажа? Молодые ученые лаборатории поделятся своим опытом участия в междисциплинарных проектах — на стыке лингвистики больших данных, когнитивных наук и речевых технологий — и познакомят слушателей с концепциями и результатами проводимых исследований.
В качестве докладчиков в работе круглого стола примут участие стажеры-исследователи Лаборатории языковой конвергенции и их коллеги:
Ирина Петрова, Карина Азаревич, Елизавета Куликова, Полина Колмогорова, София Чеповецкая, Полина Максименко, Алиса Лукьянчикова, Мария Сергеева, Полина Налобина.
Подробнее с программой мероприятия можно ознакомиться ниже.
Для посещения мероприятия — как очно, так и онлайн — требуется заполнить регистрационную форму на странице Лаборатории. Если Вы планируете посетить мероприятие очно и не являетесь сотрудником или студентом НИУ ВШЭ СПб, то, пожалуйста, зарегистрируйтесь не позднее 14 апреля, 21:00.
Приглашаем к участию всех филологов (как литературоведов, так и лингвистов), а также представителей любых других гуманитарных и социальных дисциплин — всех, кто использует (или планирует использовать) компьютерные средства для анализа текстовых данных.
Будем рады Вас видеть!
******************************************************************
Программа круглого стола «Языковые технологии для моделирования данных в междисциплинарных проектах: опыт молодых ученых»
26.04.2024
Санкт-Петербург, наб. канала Грибоедова, д.123, лит. А., ауд. 201
- Ирина Петрова, Карина Азаревич, стажеры-исследователи Лаборатории языковой конвергенции НИУ ВШЭ СПб: «Один речевой день 2: Корпус устной речи молодёжи»
Корпус устной речи молодёжи — проект, нацеленный на создание мультимедийного языкового ресурса, собрания звуковых записей неподготовленной устной речи. Его прототипом является корпус «Один речевой день», записанный в СПбГУ в начале 2010-х годов. Основной задачей Корпуса устной речи является получение «свежих» звукозаписей повседневной коммуникации молодёжи и студентов — социальных групп, наиболее восприимчивых ко всему новому, что находит свое отражение на языковом уровне. Создание корпуса позволяет не только получить обобщенные статистические данные о языке современной молодёжи, но и дает возможность построения формальных моделей, отражающих изменения языковых характеристик в динамике.
- Полина Колмогорова, стажер-исследователь Лаборатории языковой конвергенции НИУ ВШЭ СПб: «Эмоциональный анализ устной маркетинговой коммуникации»
Связана ли успешность продаж с эмоциями торговых представителей, когда они разговаривают со своими клиентами? В докладе представлены результаты сентимент-анализа и автоматического распознавания эмоций в рамках работы с корпусом устной маркетинговой коммуникации.
- Елизавета Куликова, стажер-исследователь Лаборатории языковой конвергенции НИУ ВШЭ СПб: «Исследование значимости контекста в эмоциональной разметке устных нарративов»
Открытым вопросом в процедуре разметки данных для задач автоматического распознавания эмоций является влияние на работу разметчиков знания о контексте аннотируемого фрагмента. В докладе будут представлены результаты эмоциональной разметки фрагментов устных нарративов в двух условиях: в первом случае разметчикам была доступна информация о полном содержании нарратива, во втором — аннотируемый фрагмент предъявлялся без контекста.
- София Чеповецкая, лаборант-исследователь филол. факультета СПбГУ, стажер-исследователь Лаборатории языковой конвергенции НИУ ВШЭ СПб: «Черты официально-делового стиля в русской устной речи чиновников (по корпусным данным)»
Исследование посвящено выявлению лексических, морфологических и синтаксических характеристик официально-делового стиля в русской устной речи чиновников. Согласно исследованиям в области функциональной стилистики, официально-деловой стиль характеризуется набором языковых признаков, среди которых выделяют номинализации, конструкции с субъектным независимым инфинитивом, именные группы с ветвящимся генитивом — на морфосинтаксическом уровне, а также устойчивые неоднословные выражения: сложные отыменные предлоги (в соответствии с, в течение) и составные наименования, представляющие собой термины, фигурирующие в текстах правовой сферы (кадастровый учет, федеральный закон) — на лексическом. Работа проведена на материале корпуса, состоящего из 90 расшифровок интервью с чиновниками, проведенных с 2004 по 2021 год, и аннотированного при помощи анализаторов MyStem и UDPipe. В качестве референтного корпуса была использована офлайн-версия основного корпуса НКРЯ со снятой омонимией объёмом в 1 млн. словоупотреблений. В работе также рассматривались характеристики устной речи чиновников в зависимости от их статуса в иерархии должностных лиц, в результате чего было сформировано четыре подкорпуса в пределах целевого. Результат исследования позволил установить, что устная речь государственных служащих имеет имперсональный характер, о чём свидетельствует частотность пассивных конструкций с нулевым агенсом, однако доля личных местоимений первого лица в речи высших федеральных чиновников составляет не менее 65% от общего числа личных местоимений, в то время как в других трёх подкорпусах их доля не превышает 25%. К чертам официально-делового стиля, преобладающим в интервью, относятся именные группы с генитивными аргументами, номинализации и композиты.
- Алиса Лукьянчикова, студент 3-го курса ОП «Филология» НИУ ВШЭ СПб: «Речевой портрет XX века: устная речь персонажей русского рассказа в динамике»
Исследование описывает тематические и лингвистические особенности прямой речи персонажей русского рассказа XX века. Очевидно, что переломные события XX века в культурно-исторической ситуации не могли не отразиться на творчестве авторов в России, а затем и Советском союзе, поэтому прямая речь рассматривается в динамике. Языковые особенности «устной речи» персонажей рассматриваются с помощью методов корпусного анализа и выделения ключевых слов. Исследование проведено на материале выборки из Корпуса русского рассказа, сбалансированной по годам. В результате были получены количественные данные, в том числе частотные списки и ключевые слова по десятилетиям. Получены визуализации результатов исследования с применением нейросети «ruDALL-E».
- Полина Максименко, стажер-исследователь Лаборатории языковой конвергенции НИУ ВШЭ СПб: «Фанфикшн как Big Data: классификация фан-текстов по тематике»
Доклад посвящен применению методов автоматической классификации к русскоязычным фанфикшн-текстам. Разработанная фан-сообществами многоуровневая система метаданных делает фанфикшн удобным материалом для обучения моделей обработки естественного языка. В исследовании рассматривается эксперимент — дообучение нейросетевой модели, основанной на архитектуре BERT, для классификации фанфиков по тематическим меткам. В качестве текстовых классов были выбраны наиболее частотные и вместе с тем близкие жанрам массовой литературы метки: драма, мистика, фэнтези, экшн, фантастика, ужасы, детектив, приключения. Насколько эффективно нейросеть может определить жанр фанфика? Можно ли адаптировать такую модель для других художественных текстов?
- Мария Сергеева, стажер-исследователь Лаборатории языковой конвергенции НИУ ВШЭ СПб, и Полина Налобина, студент 1-го курса МП «Языковые технологии в бизнесе и образовании»: «Создание познавательно-справочного Telegram-бота Эрмитажа и внедрение технологии поиска картин из цифровой музейной коллекции по пользовательскому описанию»
Стремясь к популяризации культуры в современных реалиях, музеи мира все активнее осваиваются в digital-пространстве. Простые в эксплуатации, Telegram-боты становятся одним из самых популярных и эффективных способов информирования и просвещения аудитории в российском интернете. Пользователи самого разного возраста, уровня образования и местонахождения могут с помощью просто сформулированного запроса получить от бота музея информацию об искомом экспонате. Данная работа посвящена созданию Telegram-бота для упрощения поиска предметов искусства, представленных в цифровой коллекции Эрмитажа. На сайте Эрмитажа взаимодействие с цифровой коллекцией осуществляется по ключевым словам, что затрудняет поиск. Разработанная нами функция ищет картины по свободному текстовому пользовательскому запросу и выдает три наиболее подходящие картины. Поиск происходит путем векторизации текста пользовательского запроса и сопоставления его с векторами хранящихся в базе данных описаний картин, которые, в свою очередь, были сгенерированы моделью image-to-text, основанной на компьютерном зрении. В настоящий момент база данных хранит векторные описания более ста предметов живописи, представленных в цифровой коллекции Эрмитажа. Чат-бот выдает пользователю следующую информацию о найденных картинах: автор, название, место создания, дата создания, раздел собрания, коллекция, здание и зал Эрмитажа, в котором она находится, и описание, составленное сотрудниками эрмитажа, если такая информация представлена в цифровой коллекции.