• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Байесовские сети в исследовании сообществ

Участники НУГ, Виктория Захарова и Александр Попов, поделились результатами применения байесовских сетей в различных предметных областях на примере данных GitHub и Stack Overflow

Обе работы посвящены изучению формирования сообществ, групп пользователей и/или объектов, обладающими схожими и/или идентичными характеристиками, в цифровой среде. Выявление групп было реализовано за счет построения байесовских сетей, вероятностный анализ которых позволил выявить закономерности для создания соответствующего профайлинга пользователей-участников сообществ.

Так, курсовая работа Александра Попова была сфокусирована на поиске ответа на вопрос, как на основе данных о пользователях, их вопросах и участии в обсуждаемых на платформе тематиках понять, какие сообщества (или стеки технологий) формируются на Stack Overflow. В качестве метода решения была построена байесовская сеть на данных о показателях пользовательской экспертизы, превалирующей тематике, оценке релевантности вопросов и обсуждаемых технологиях. Сеть, построенная на совместной встречаемости тегов (как показатель используемых технологий) с учетом пользователей с разным уровнем репутации, показала, что при рассмотрении вопросов по Python пользователи с низкой репутацией на платформе, как правило, отвечают на вопросы из «плотных» сообществ тегов (тегов, тесно связанных между собой), а пользователи с высокой репутацией отвечают на вопросы с более редкими связями тегов. На практике это показывает, что опытные разработчики Python могут ответить на более сложные вопросы, аккумулирующих в себе экспертизу из нескольких технологий, в то время как новички проходят примерно по одному набору инструментов, связанных между собой.

Целью курсовой работы Виктории Захаровой являлось применение байесовских сетей для решения проблемы профайлинга онлайн-сообществ на примере данных о платформе GitHub. В рамках изучения ряда исследований было выявлено отсутствие современной теоретической базы и универсальных подходов для изучения сообществ в Интернет-пространстве, преимущественно в отношении сообществ с открытым исходным кодом. Несмотря на это, основываясь на выводах и результатах проведенных исследований по самой платформе GitHub и её пользователях, которые зачастую носили эксплораторный характер, построение байесовской сети было реализовано. Принимая во внимание тот факт, что используемый язык программирования является первостепенным фактором дифференциации пользователей, одним из выводов работы стало то, что для пользователей с преимущественным использованием языка R характерна низкая пользовательская активность на платформе. Это понимание, связанное с сообществом R на GitHub, можно рассматривать с точки зрения различных подходов к командной работе и рабочему процессу в целом. Иным результатом работы также стало определение наиболее сопутствующего языка программирования для пользователей R – им стал Ruby, а не Python, который был выдвинут в качестве одной из гипотез.

Что же касается основных результатов, полученных участниками НУГ, следует отметить определение перспективности использования байесовских сетей, их преимуществ и недостатков. Исходя из проделанной работы, изученный метод можно назвать многообещающим в рамках установления взаимосвязей между концепциями, включенных в разработку теоретических моделей анализа. Практическая значимость подхода позволяет создать правдоподобное сочетание данных и теории. Иными словами, байесовские сети могут быть крайне полезны в раскрытии углубленной информации для исследований, в том числе и ориентированных на пользователя.