Текст как большие данные
Дорогие коллеги,
Приглашаем Вас на первый научный семинар в рамках нового проекта «Текст как Big Data: моделирование конвергентных процессов в языке и речи цифровыми методами».
В пятницу, 3 февраля, в 17:00 по МСК с докладом “Текст как большие данные” выступит математик, генеральный директор ООО «НТР», занимающейся в том числе вопросами NLP, руководитель научной программы в области машинного обучения Томского государственного университета — Николай Михайловский.
Пожалуй, наиболее известным статистическим свойством текста является закон Ципфа. Однако, интересные статистические свойства текста им не ограничиваются. Для статистических метрик длинных текстов характерно степеннОе убывание с расстоянием. Это говорит о том, что тексты на самом деле находятся за границами применимости большинства традиционно применяемых в NLP подходов, от n-грамных языковых моделей до трансформеров. Поэтому для качественной обработки длинных текстов нужны новые подходы.
Приглашаем к участию и дискуссии всех филологов (как литературоведов, так и лингвистов), а также представителей любых других гуманитарных и социальных дисциплин – всех, кто использует (или планирует использовать) компьютерные средства для анализа текстовых данных.
Семинар состоится онлайн в zoom-формате.
Будем рады Вас видеть!