В старых версиях браузеров сайт может отображаться некорректно. Для оптимальной работы с сайтом рекомендуем воспользоваться современным браузером.
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Создание лингвистических и филологических ресурсов
Важным направлением работы Лаборатории является разработка методологии и создание новых лингво-филологических ресурсов и интерфейсов для решения актуальных задач теоретической лингвистики и в целом гуманитарных наук, работающих с текстами.
О направлении
Список ресурсов, работу над которыми ведется работа, включает:
1) корпус русского рассказа 1930-2000 гг.;
2) корпус русских фанфикшн-текстов;
3) устный корпус современной повседневной речи молодежи;
4) устный корпус профессиональной речи торговых представителей;
5) мультимодальный корпус эмоциональной речи;
6) корпус советской песни.
Разработка новых и усовершенствование существующих методов анализа эмоций в текстовых данных
В настоящее время результаты изучения эмоционального поведения с точки зрения психологии, социологии, лингвистики находят применение в прикладных областях, в частности в области человеко–компьютерного взаимодействия. Способность к автоматическому распознаванию человеческих эмоций и к эмоциональной интеракции с пользователем рассматривается как важная, но пока нерешенная задача развития электронных систем: насколько естественной является эмоциональность в коммуникации людей, настолько сложен перенос этой характеристики на общение с компьютером. Эмоция представляется непростым для изучения и моделирования феноменом, о чем можно утверждать хотя бы на основании многообразия подходов к самому определению понятия.
О направлении
Работа по данному направлению включает в себя:
1) сбор и разметку мультимодального датасета естественной эмоциональной речи в соответствии с разработанной нами процедурой;
2) апробацию предобученных моделей распознавания эмоций на собранных данных;
3) аффективное моделирование нарратива о страшном;
4) использование метода «Байесовская сыворотка правды» в экспериментах по разметке эмоциональных текстовых данных.
Апробация современных компьютерных методов обработки больших данных, включая методы машинного и глубокого обучения, на материале созданных лингвистических ресурсов
Созданные в лаборатории лингвистические и филологические ресурсы являются ярким примером больших данных, ручной экспертный анализ которых затруднен их объемом. В связи с этим актуальным становится применение современных статистических и нейросетевых методов их исследования.
О направлении
Объектом исследования с использованием компьютерных методов становятся все собранные в лаборатории корпуса и датасеты. В лаборатории осуществялется:
1) анализ русской малой прозы (ее лексических особенностей, особенностей прямой речи, стихотворных фрагментов, эмоциональной лексики) методами автоматической обработки текста и машинного обучения;
2) применение методов искусственного интеллекта для исследования фанфикшн прозы;
3) выявление с помощью нейросетевых методов речевых предикторов успешности профессионального коммуникативного взаимодействия торговых представителей (на основе транскриптов корпуса устной речи торговых представителей);
4) применение методов глубинного обучения для задачи диалоговой саммаризации на русском языке (на материале родительских чатов);
7) исследование редуцированных форм спонтанной русской речи;
8) исследование нецензурной лексики в русской повседневной речи;
9) использование больших языковых моделей для прагматического аннотирования речевого корпуса.
Исследование категории естественности устной и письменной речи в контексте задачи автоматической генерации
Задача генерации письменного текста, а также создания диалоговых ассистентов, текстовая продукция которых соответствует категории естественности, является актуальной на текущем этапе развития больших языковых моделей, которые уже "научились" создавать грамматически корректные и семантически непротиворечивые тексты.
О направлении
В рамках данного направления ведется работа по:
1) созданию чат-бота на основе функции векторного поиска по Цифровой коллекции Государственного Эрмитажа: задача состоит в том, чтобы применить методы генерации описаний картин из Цифровой коллекции Эрмитажа, разработать функцию векторного поиска картин по коллекции и интегрировать ее с чат-ботом в Телеграме. Конечная цель проекта – с помощью векторного поиска позволять посетителям сайта Эрмитажа по слабоструктурированному запросу;
2) генерации комических поэтических текстов с использованием больших языковых моделей;
3) извлечению информации из литературных текстов для генерации иллюстраций: осуществляется попытка создания алгоритма, позволяющего осуществить частичную автоматизацию составления иллюстративных промптов.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.