Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Результаты работы в 2024 году

Лингвистические и филологические ресурсы

  • Дополнен и частично подготовлен к публикации Корпус русского рассказа 1900-2000 гг.: сформирована представительная выборка из 1000 текстов 1000 писателей (по 1 рассказу от каждого автора) 1900-2000 гг., предназначенная для проведения исследований; осуществлено аннотирование этой выборки, разработан и применен дизайн эмоциональной и тематической разметки, а также нового типа разметки − разметка диегетического звука, оптимизирован сайт Корпуса.
  • Дополнен Корпус устной речи молодежи: в отчетном году получено 687 часов записей от более, чем 60 информантов; расшифровано и размечено (метатекстовая разметка, прагматическая разметка) более 200 часов записей; разработана структура хранения данных, а также структура сайта, на котором будет размещен корпус; для размещения подготовлены размеченные данные для 48 часов записей.
  • Дополнен корпус советских песенных текстов, проведены исследования представленных в нем текстов с помощью методов NER, геовизуализации, дискурс-анализа, тематического моделирования и сентимент-анализа, показавшие, что работа с данным корпусом позволяет моделировать картину мира советского человека в разные десятилетия существования СССР. 

Апробация компьютерных методов обработки больших данных на материале созданных ресурсов

  • Проведена автоматическая классификация фанфикшн-текстов по жанрам.  
  • На материале корпуса устной речи торговых представителей выявлены речевые и речежанровые предикторы успешности маркетинговой коммуникации.  
  • Дообучены модели для задачи диалоговой суммаризации на русском языке. 
  • Разработан инструментарий и методология автоматизации процессов расшифровки и многоуровневой разметки устной спонтанной речи на русском языке.

Эмоциональный анализ текстовых коллекций

  • Собран и размечен мультимодальный датасет эмоциональной речи (на русском языке), объем – 173 минуты.
  • Спроектирован эмоциональный словарь для автоматического эмоционального анализа художественных текстов. 
  • Путем использования концепции Байесовской сыворотки правды усовершенствована процедура эмоциональной разметки текстов.

Текстовая генерация

  • Предложен и реализован оригинальный фреймворк для векторного поиска картин в Цифровой коллекции Эрмитажа.  
  • Созданы бэкенд и фронтенд для векторного поиска картин в Цифровой коллекции Эрмитажа, интегрированные в чат-бот.
  • Создан датасет эталонных естественных и искусственных (сгенерированных) описаний 900 картин из коллекции Эрмитажа.
  • Разработаны пилотные фреймворки для генерации художественных текстов или изображений на основе художественных текстов.

 


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.