• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Семинар НУГ "Метрики пространств и методы кластеризации в науке о данных"

Во вторник 17 декабря состоялся 31-й семинар научно-учебной группы по исследованию частотных характеристик языка. В продолжение предыдущего семинара с докладом выступил Константин Сергеевич Сорокин, преподаватель Санкт-Петербургской школы экономики и менеджмента.

Взаимосвязь между кривизной и вероятностными мерами стала центральной темой семинара. Понимание этой взаимосвязи открывает новые направления для исследований в области геометрического анализа. Взаимодействие между кривизной и кластерными явлениями предполагает, что геометрические свойства могут влиять на поведение вероятностных распределений на Римановых многообразиях, прокладывая путь для будущих исследований этих связей.

Римановы многообразия оснащены метрикой, позволяющей измерять расстояния и углы. Кривизна, являющаяся фундаментальным свойством этих многообразий, может быть охарактеризована различными способами, включая гауссову кривизну, которая ассоциирует скалярное значение с каждой двумерной подсистемой. В ходе семинара было исследовано, как положительная кривизна влияет на геометрию многообразия, приводя к уменьшению диаметров и более плотным конфигурациям. Это геометрическое поведение может быть интерпретировано как кластеризация в контексте дискретных множеств, связанных с многообразием через тензоры кривизны.

Помимо римановой кривизны, было представлено понятие Риччи-кривизны. Риччи-кривизна дает представление о изменениях объема при перемещении по многообразию. В обсуждении подчеркивалось значение понимания того, как Риччи-кривизна соотносится с геометрическими конфигурациями и их последствиями для кластеризации. Семинар также затронул расстояние Вассерштейна и использование вероятностных мер для описания изменений объема, предполагая потенциальные приложения, аналогичные уравнениям теплопроводности на метрике многообразия.

В разделе, посвященном методам кластеризации в науке о данных, особое внимание было уделено алгоритму BIRCH. Этот алгоритм предназначен для кластеризации больших наборов данных путем создания поверхностного представления, которое сохраняет как можно больше информации. Алгоритм принимает на вход набор из N точек данных и желаемое количество кластеров K и делится на четыре фазы.

 

1. Первая фаза: строится CF-дерево (сжатое дерево), представляющее собой высокосбалансированную структуру.

2. Вторая фаза: проводится анализ всех листьев в начальном CF-дереве для построения меньшего CF-дерева путем удаления выбросов и группировки переполненных подмножеств в более крупные.

3. Третья фаза: применяется существующий алгоритм кластеризации для объединения всех листьев, используя агломеративный иерархический алгоритм кластеризации непосредственно на подмножествах.

4. Четвертая фаза: центры тяжести кластеров, полученных на третьем этапе, используются в качестве начальных точек для перераспределения точек данных с целью получения нового набора кластеров, аналогично алгоритму Mean-Shift.

 

В заключение семинара Константин Сергеевич предоставил ценные идеи о сложном взаимодействии между кривизной, кластерами и изменениями объема в Римановых многообразиях. Обсуждения заложили основу для дальнейшего изучения того, как кривизна влияет на геометрические свойства многообразий и намекнули на потенциальные приложения в таких областях, как аналоги уравнений теплопроводности и вероятностные меры. Представленные на семинаре результаты способствуют более глубокому пониманию богатых взаимодействий между геометрией и вероятностью в этом контексте.

Презентация
Запись семинара