В НИУ ВШЭ — Санкт-Петербург разработали лучшую модель машинного обучения для определения тематики текстов
Тематические модели — алгоритмы машинного обучения, способные сортировать большие объёмы текстов по темам. Учёные из Питерской Вышки сравнили пять тематических моделей и определили, какие из них работают лучше. Наименьшее число ошибок показали две модели, одна из которых, GLDAW, — разработка Лаборатории социальной и когнитивной информатики НИУ ВШЭ — Санкт-Петербург. Статья опубликована в журнале PeerJ Computer Science.
Человеческому мозгу обычно нетрудно определить тему публикации. К примеру, для этой статьи любой редактор с легкостью поставит теги «наука», «искусственный интеллект» и «машинное обучение», однако процесс сортировки информации человеком занимает много времени, что становится критичным при большом её объёме. Современный компьютер может сделать это гораздо быстрее, но для этого нужно решить сложную задачу — выявить смысл документов по их содержимому и классифицировать их.
Этим занимается тематическое моделирование — область алгоритмов машинного обучения, которая направлена на сортировку текстов по темам. Оно используется для облегчения поиска информации, анализа масс-медиа, определения тематики сообществ в социальных сетях, выявления трендов в научных публикациях и решения других задач. К примеру, с помощью анализа финансовых новостей можно точнее предсказывать объём торгов на бирже, на который значительно влияют высказывания политиков, события в экономической сфере.
Работа с тематическими моделями выглядит так: алгоритм получает на входе коллекцию текстовых документов. На выходе каждому документу выдается оценка степени принадлежности какой-то теме. Эти оценки основываются на частоте употребления слов и связях между словами и предложениями. Так, встречающиеся в этом тексте слова «учёные», «лаборатория», «анализ», «исследовали», «алгоритмы» позволяют отнести его к теме «наука».
Однако многие слова встречаются в текстах на разные темы, например, слово «работа» часто употребляют в текстах про промышленное производство или рынок труда. Употребление этого слова в сочетании «научная работа» позволяет отнести текст к категории «наука». Такие взаимосвязи, выраженные математически с помощью матриц вероятностей, лежат в основе работы алгоритмов.
Улучшить качество работы тематических моделей можно за счет эмбеддингов — векторов чисел фиксированной длины, которые описывают некую сущность по ряду параметров. Они выступают в качестве дополнительной информации, полученной при обучении модели на миллионах текстов.
Любую фразу или текст, например, эту новость можно представить в виде последовательности чисел — вектора или векторного пространства. В машинном обучении их называют эмбеддингами. Суть в том, что пространства легко соизмерить и обнаружить сходство, а значит взаимно сопоставить два и больше любых тестов. Если сходство между описывающими их эмбеддингами велико, то, вероятно, они относятся к одной категории или кластеру — определённой теме.
Учёные из Лаборатории социальной и когнитивной информатики НИУ ВШЭ — Санкт-Петербург исследовали пять тематических моделей: ETM, GLDAW, GSM, WTM-GMM и W-LDA, которые основаны на разных математических принципах:
ETM — модель авторитетного математика Дэвида Блея, одного из родоначальников направления тематического моделирования в машинном обучении. Его модель базируется на методе латентного размещения Дирихле и вариационном принципе расчёта матриц вероятностей в сочетании с эмбедингами.
Две модели — GSM, WTM-GMM — нейросетевые тематические модели.
W-LDA реализована на основе процедуры сэмплирования Гиббса с учетом эмбеддингов, но, как и в модели Блея, там используется распределение Дирихле.
GLDAW в процессе определения принадлежности слов к темам опирается на большую коллекцию эмбеддингов.
Для эффективной работы любой тематической модели необходимо определить, на сколько категорий, или кластеров, нужно разбить информационный поток. Это дополнительная сложная задача при настройке алгоритмов.
Человеку обычно заранее не известно, сколько тем присутствует в информационном потоке, поэтому задачу определения числа тем надо переложить на машину. Для этого мы предложили измерять определённую величину информации как противоположную от хаоса. Если хаоса много, то информации мало, и наоборот. Это позволяет оценивать число кластеров, или в данном случае тем, присущих датасету. Эти принципы мы применили в модели GLDAW.
Исследователи протестировали модели по показателям стабильности (количеству ошибок), когерентности (определению связности) и энтропии Реньи (определению уровня хаоса). Качество работы алгоритмов испытывали на трёх датасетах: материалах русскоязычного новостного ресурса Lenta.ru и двух англоязычных датасетах — 20 Newsgroups и WoS. Такой выбор был связан с тем, что в этих источниках всем текстам изначально были присвоены теги, что позволяло оценить работу алгоритмов по выявлению тем.
Эксперимент показал, что модель ETM — лучшая по когерентности для датасетов Lenta.ru и 20 Newsgroups, в то время как модель GLDAW заняла первое место для датасета WoS. Кроме того, GLDAW наиболее стабильна среди всех протестированных моделей, хорошо определяет оптимальное количество тем и эффективно работает с небольшими текстами, типичными для социальных сетей.
Мы улучшили работу алгоритма GLDAW за счет использования большой коллекции внешних эмбеддингов, собранной на основе миллионов документов. Это позволило точнее определять семантическую связность между словами и, соответственно, точнее группировать тексты.
Сергей Кольцов
Первый автор статьи, ведущий научный сотрудник Лаборатории социальной и когнитивной информатики НИУ ВШЭ в Санкт-Петербурге
Модели GSM, WTM-GMM и W-LDA продемонстрировали более низкие результаты, чем модели ETM и GLDAW, по всем трём показателям. Для исследователей это стало неожиданностью, поскольку считается, что модели на основе нейронных сетей во многом превосходят другие виды моделей в машинном обучении. Причины их неэффективности в тематическом моделировании ученым ещё предстоит выяснить.
IQ
Кольцов Сергей Николаевич
Лаборатория социальной и когнитивной информатики: Ведущий научный сотрудник
Сергей Кольцов
Первый автор статьи, ведущий научный сотрудник Лаборатории социальной и когнитивной информатики НИУ ВШЭ в Санкт-Петербурге