Результаты работы в 2024 году
Лингвистические и филологические ресурсы
- Дополнен и частично подготовлен к публикации Корпус русского рассказа 1900-2000 гг.: сформирована представительная выборка из 1000 текстов 1000 писателей (по 1 рассказу от каждого автора) 1900-2000 гг., предназначенная для проведения исследований; осуществлено аннотирование этой выборки, разработан и применен дизайн эмоциональной и тематической разметки, а также нового типа разметки − разметка диегетического звука, оптимизирован сайт Корпуса.
- Дополнен Корпус устной речи молодежи: в отчетном году получено 687 часов записей от более, чем 60 информантов; расшифровано и размечено (метатекстовая разметка, прагматическая разметка) более 200 часов записей; разработана структура хранения данных, а также структура сайта, на котором будет размещен корпус; для размещения подготовлены размеченные данные для 48 часов записей.
- Дополнен корпус советских песенных текстов, проведены исследования представленных в нем текстов с помощью методов NER, геовизуализации, дискурс-анализа, тематического моделирования и сентимент-анализа, показавшие, что работа с данным корпусом позволяет моделировать картину мира советского человека в разные десятилетия существования СССР.
Апробация компьютерных методов обработки больших данных на материале созданных ресурсов
- Проведена автоматическая классификация фанфикшн-текстов по жанрам.
- На материале корпуса устной речи торговых представителей выявлены речевые и речежанровые предикторы успешности маркетинговой коммуникации.
- Дообучены модели для задачи диалоговой суммаризации на русском языке.
- Разработан инструментарий и методология автоматизации процессов расшифровки и многоуровневой разметки устной спонтанной речи на русском языке.
Эмоциональный анализ текстовых коллекций
- Собран и размечен мультимодальный датасет эмоциональной речи (на русском языке), объем – 173 минуты.
- Спроектирован эмоциональный словарь для автоматического эмоционального анализа художественных текстов.
- Путем использования концепции Байесовской сыворотки правды усовершенствована процедура эмоциональной разметки текстов.
Текстовая генерация
- Предложен и реализован оригинальный фреймворк для векторного поиска картин в Цифровой коллекции Эрмитажа.
- Созданы бэкенд и фронтенд для векторного поиска картин в Цифровой коллекции Эрмитажа, интегрированные в чат-бот.
- Создан датасет эталонных естественных и искусственных (сгенерированных) описаний 900 картин из коллекции Эрмитажа.
- Разработаны пилотные фреймворки для генерации художественных текстов или изображений на основе художественных текстов.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.