Результаты работы в 2024 году

Лингвистические и филологические ресурсы

Дополнен и частично подготовлен к публикации Корпус русского рассказа 1900-2000 гг.: сформирована представительная выборка из 1000 текстов 1000 писателей (по 1 рассказу от каждого автора) 1900-2000 гг., предназначенная для проведения исследований; осуществлено аннотирование этой выборки, разработан и применен дизайн эмоциональной и тематической разметки, а также нового типа разметки − разметка диегетического звука, оптимизирован сайт Корпуса.
Дополнен Корпус устной речи молодежи: в отчетном году получено 687 часов записей от более, чем 60 информантов; расшифровано и размечено (метатекстовая разметка, прагматическая разметка) более 200 часов записей; разработана структура хранения данных, а также структура сайта, на котором будет размещен корпус; для размещения подготовлены размеченные данные для 48 часов записей.
Дополнен корпус советских песенных текстов, проведены исследования представленных в нем текстов с помощью методов NER, геовизуализации, дискурс-анализа, тематического моделирования и сентимент-анализа, показавшие, что работа с данным корпусом позволяет моделировать картину мира советского человека в разные десятилетия существования СССР.

Апробация компьютерных методов обработки больших данных на материале созданных ресурсов

Проведена автоматическая классификация фанфикшн-текстов по жанрам.
На материале корпуса устной речи торговых представителей выявлены речевые и речежанровые предикторы успешности маркетинговой коммуникации.
Дообучены модели для задачи диалоговой суммаризации на русском языке.
Разработан инструментарий и методология автоматизации процессов расшифровки и многоуровневой разметки устной спонтанной речи на русском языке.

Эмоциональный анализ текстовых коллекций

Собран и размечен мультимодальный датасет эмоциональной речи (на русском языке), объем – 173 минуты.
Спроектирован эмоциональный словарь для автоматического эмоционального анализа художественных текстов.
Путем использования концепции Байесовской сыворотки правды усовершенствована процедура эмоциональной разметки текстов.

Текстовая генерация

Предложен и реализован оригинальный фреймворк для векторного поиска картин в Цифровой коллекции Эрмитажа.
Созданы бэкенд и фронтенд для векторного поиска картин в Цифровой коллекции Эрмитажа, интегрированные в чат-бот.
Создан датасет эталонных естественных и искусственных (сгенерированных) описаний 900 картин из коллекции Эрмитажа.
Разработаны пилотные фреймворки для генерации художественных текстов или изображений на основе художественных текстов.

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

Лаборатория языковой конвергенции

Результаты работы в 2024 году

Лингвистические и филологические ресурсы

Апробация компьютерных методов обработки больших данных на материале созданных ресурсов

Эмоциональный анализ текстовых коллекций

Текстовая генерация