Глава 1.Метод кластеризации
Равно как и многочисленные другие концепции в науке, кластеризация обладает большое количеств разных определений и интерпретаций. Многие эксперты выделяют следующее
Кластер - группа однородных элементов, характеризуемых общим свойством. Однородность кластеров означает, что объекты, отнесенные к одному кластеру, должны быть схожи (близки) относительно выбранной метрики. Объекты из разных кластеров должны существенно отличаться. Данная задача называется задачей кластеризации данных.
Общее использования кластерного анализа ограничивается соответствующими шагами:
- выбор подборки объектов для кластеризации;
-определение набора переменных, согласно которым оцениваются объекты подборки. При надобности нормализовать значения переменных;
- вычисление значений сходства между объектами;
- использование метода кластерного анализа для формирования кластеров однотипных объектов;
- предоставление результатов анализа.
Необходимо выделить, то что применяя различные методы кластерного анализа, можно получить кластеры различной формы. К примеру, вероятны кластеры вида «цепочка», в случае когда кластеры разбиты на длинные «цепочки», вытянутые кластеры и так далее, а определенные методы могут создавать кластеры любой формы.
Разнообразные методы имеют все шансы быть нацелены на формирование кластеров конкретного размера или могут подразумевать кластеры различных размеров в наборе данных.
Из-за использования разных методов кластеризации могут быть получены различные результаты, что представляют собой обычным явлением и также характерной чертой работы этого алгоритма. Подобные характеристики следует учитывать при выборе метода кластеризации.
Имеется ряд методов кластеризации для решения этой проблемы. трудность состоит в том, что в начале анализа не имелось практически никакой дополнительной информации о данных. В данном отношении потенциальный набор решений сопоставим с входным набором по производительности, что на практике способен побудить трудности.
Решения задач через методы кластеризации широко распространено, по этой причине в наше время имеется более ста разных алгоритмов кластеризации, однако в данной работе зачастую применяются два метода — иерархический кластерный анализ и k-кластеризация.
Весь текст будет доступен после покупки