Текст как большие данные

Мероприятие завершено

Дорогие коллеги,

Приглашаем Вас на первый научный семинар в рамках нового проекта «Текст как Big Data: моделирование конвергентных процессов в языке и речи цифровыми методами».

В пятницу, 3 февраля, в 17:00 по МСК с докладом “Текст как большие данные” выступит математик, генеральный директор ООО «НТР», занимающейся в том числе вопросами NLP, руководитель научной программы в области машинного обучения Томского государственного университета — Николай Михайловский.

Пожалуй, наиболее известным статистическим свойством текста является закон Ципфа. Однако, интересные статистические свойства текста им не ограничиваются. Для статистических метрик длинных текстов характерно степеннОе убывание с расстоянием. Это говорит о том, что тексты на самом деле находятся за границами применимости большинства традиционно применяемых в NLP подходов, от n-грамных языковых моделей до трансформеров. Поэтому для качественной обработки длинных текстов нужны новые подходы.
Приглашаем к участию и дискуссии всех филологов (как литературоведов, так и лингвистов), а также представителей любых других гуманитарных и социальных дисциплин – всех, кто использует (или планирует использовать) компьютерные средства для анализа текстовых данных.

Семинар состоится онлайн в zoom-формате.

Будем рады Вас видеть!

Дата

3 февраля 17:00

Адрес

Онлайн

В статье упомянуты

Лаборатория языковой конвергенции