Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Текст как большие данные

0+
Мероприятие завершено

Дорогие коллеги,

Приглашаем Вас на первый научный семинар в рамках нового проекта «Текст как Big Data: моделирование конвергентных процессов в языке и речи цифровыми методами».

В пятницу, 3 февраля, в 17:00 по МСК с докладом “Текст как большие данные” выступит математик, генеральный директор ООО «НТР», занимающейся в том числе вопросами NLP, руководитель научной программы в области машинного обучения Томского государственного университета — Николай Михайловский.

Пожалуй, наиболее известным статистическим свойством текста является закон Ципфа. Однако, интересные статистические свойства текста им не ограничиваются. Для статистических метрик длинных текстов характерно степеннОе убывание с расстоянием. Это говорит о том, что тексты на самом деле находятся за границами применимости большинства традиционно применяемых в NLP подходов, от n-грамных языковых моделей до трансформеров. Поэтому для качественной обработки длинных текстов нужны новые подходы.
Приглашаем к участию и дискуссии всех филологов (как литературоведов, так и лингвистов), а также представителей любых других гуманитарных и социальных дисциплин – всех, кто использует (или планирует использовать) компьютерные средства для анализа текстовых данных.

Семинар состоится онлайн в zoom-формате.

Будем рады Вас видеть!