Семинар НУГ "Метрики пространств и методы кластеризации в науке о данных"
Во вторник 17 декабря состоялся 31-й семинар научно-учебной группы по исследованию частотных характеристик языка. В продолжение предыдущего семинара с докладом выступил Константин Сергеевич Сорокин, преподаватель Санкт-Петербургской школы экономики и менеджмента.
Взаимосвязь между кривизной и вероятностными мерами стала центральной темой семинара. Понимание этой взаимосвязи открывает новые направления для исследований в области геометрического анализа. Взаимодействие между кривизной и кластерными явлениями предполагает, что геометрические свойства могут влиять на поведение вероятностных распределений на Римановых многообразиях, прокладывая путь для будущих исследований этих связей.
Римановы многообразия оснащены метрикой, позволяющей измерять расстояния и углы. Кривизна, являющаяся фундаментальным свойством этих многообразий, может быть охарактеризована различными способами, включая гауссову кривизну, которая ассоциирует скалярное значение с каждой двумерной подсистемой. В ходе семинара было исследовано, как положительная кривизна влияет на геометрию многообразия, приводя к уменьшению диаметров и более плотным конфигурациям. Это геометрическое поведение может быть интерпретировано как кластеризация в контексте дискретных множеств, связанных с многообразием через тензоры кривизны.
Помимо римановой кривизны, было представлено понятие Риччи-кривизны. Риччи-кривизна дает представление о изменениях объема при перемещении по многообразию. В обсуждении подчеркивалось значение понимания того, как Риччи-кривизна соотносится с геометрическими конфигурациями и их последствиями для кластеризации. Семинар также затронул расстояние Вассерштейна и использование вероятностных мер для описания изменений объема, предполагая потенциальные приложения, аналогичные уравнениям теплопроводности на метрике многообразия.
В разделе, посвященном методам кластеризации в науке о данных, особое внимание было уделено алгоритму BIRCH. Этот алгоритм предназначен для кластеризации больших наборов данных путем создания поверхностного представления, которое сохраняет как можно больше информации. Алгоритм принимает на вход набор из N точек данных и желаемое количество кластеров K и делится на четыре фазы.
1. Первая фаза: строится CF-дерево (сжатое дерево), представляющее собой высокосбалансированную структуру.
2. Вторая фаза: проводится анализ всех листьев в начальном CF-дереве для построения меньшего CF-дерева путем удаления выбросов и группировки переполненных подмножеств в более крупные.
3. Третья фаза: применяется существующий алгоритм кластеризации для объединения всех листьев, используя агломеративный иерархический алгоритм кластеризации непосредственно на подмножествах.
4. Четвертая фаза: центры тяжести кластеров, полученных на третьем этапе, используются в качестве начальных точек для перераспределения точек данных с целью получения нового набора кластеров, аналогично алгоритму Mean-Shift.
В заключение семинара Константин Сергеевич предоставил ценные идеи о сложном взаимодействии между кривизной, кластерами и изменениями объема в Римановых многообразиях. Обсуждения заложили основу для дальнейшего изучения того, как кривизна влияет на геометрические свойства многообразий и намекнули на потенциальные приложения в таких областях, как аналоги уравнений теплопроводности и вероятностные меры. Представленные на семинаре результаты способствуют более глубокому пониманию богатых взаимодействий между геометрией и вероятностью в этом контексте.
Презентация
Запись семинара