Índice de Densidade da Clusterização: Uma Nova Métrica para Validação Interna de Agrupamentos

Authors

  • Dirceu Scaldelai
  • Solange R. dos Santos
  • Luiz C. Matioli

DOI:

https://doi.org/10.5540/03.2022.009.01.0328

Keywords:

Métrica de validação interna, Clusterização, Comparação.

Abstract

Neste trabalho propomos uma nova métrica de validação interna de clusterização, o índice de Densidade da Clusterização (índice CD), baseado na máxima razão entre a dispersão interna dos clusters e a separação entre centroides. Visando facilitar a compreensão da nova métrica de validação, a qual foi implementada no Software R, descrevemos detalhadamente sua metodologia e procedimentos, exemplificando cada um dos seus passos por meio de um problema simples, bidimensional, com um número reduzido de observações e uma estrutura bem definida. Na sequência, realizamos experimentos numéricos comparando o índice CD com outras duas métricas de validação já consagradas na literatura, o índice DB e o coeficiente de silhueta. Resultados  preliminares revelaram que o índice CD é eficiente para avaliar clusterização de dados multidimensionais, uma vez que apresentou uma concordância substancial com o índice DB, a um custo de execução similar, e uma concordância significativa com o coeficiente de silhueta, a um custo execução consideravelmente menor. Sendo assim, os resultados evidenciam a boa qualidade do índice CD como métrica de validação interna para clusterização de dados multidimensionais.

Downloads

Download data is not yet available.

Author Biographies

Dirceu Scaldelai

Unespar, Campo Mourão, PR

 

Solange R. dos Santos

Unespar, Campo Mourão, PR

 

Luiz C. Matioli

DAMAT/UFPR, Curitiba, PR

References

Jacob Cohen. “A coefficient of agreement for nominal scales”. Em: Educational and psychological measurement 20.1 (1960), pp. 37–46. doi: 10.1177/001316446002000104.

David L Davies e Donald W Bouldin. “A cluster separation measure”. Em: IEEE transactions on pattern analysis and machine intelligence 2 (1979), pp. 224–227. doi: 10.1109/TPAMI.1979.4766909.

Joseph L Fleiss. “Measuring nominal scale agreement among many raters.” Em: Psychological bulletin 76.5 (1971), p. 378. doi: 10.1037/h0031619.

Matthias Gamer, Jim Lemon e Ian Fellows Puspendra. irr: Various Coefficients of Interrater Reliability and Agreement. R package version 0.84.1. 2019. url: https://CRAN.Rproject.org/package=irr.

Alboukadel Kassambara. Practical guide to cluster analysis in R: unsupervised machine learning. Vol. 1. STHDA, 2017. isbn: 978-1542462709.

J Richard Landis e Gary G Koch. “The measurement of observer agreement for categorical data”. Em: biometrics (1977), pp. 159–174. doi: 10.2307/2529310.

John Mount e Nina Zumel. Practical data science with R. Simon e Schuster, 2019. isbn: 978-1-617-29587-4.

Quynh H Nguyen e Victor J Rayward-Smith. “Internal quality measures for clustering in metric spaces”. Em: International Journal of Business Intelligence and Data Mining 3.1 (2008), pp. 4–29. doi: 10.1504/IJBIDM.2008.017973.

Peter J Rousseeuw. “Silhouettes: a graphical aid to the interpretation and validation of cluster analysis”. Em: Journal of computational and applied mathematics 20 (1987), pp. 53– 65. doi: 10.1016/0377-0427(87)90125-7.

Alan Said e Vicenç Torra. Data Science in Practice. Springer, 2019. isbn: 978-3-319- 97555-9.

Published

2022-12-08

Issue

Section

Trabalhos Completos