Índice de Densidade da Clusterização: Uma Nova Métrica para Validação Interna de Agrupamentos
DOI:
https://doi.org/10.5540/03.2022.009.01.0328Palabras clave:
Métrica de validação interna, Clusterização, Comparação.Resumen
Neste trabalho propomos uma nova métrica de validação interna de clusterização, o índice de Densidade da Clusterização (índice CD), baseado na máxima razão entre a dispersão interna dos clusters e a separação entre centroides. Visando facilitar a compreensão da nova métrica de validação, a qual foi implementada no Software R, descrevemos detalhadamente sua metodologia e procedimentos, exemplificando cada um dos seus passos por meio de um problema simples, bidimensional, com um número reduzido de observações e uma estrutura bem definida. Na sequência, realizamos experimentos numéricos comparando o índice CD com outras duas métricas de validação já consagradas na literatura, o índice DB e o coeficiente de silhueta. Resultados preliminares revelaram que o índice CD é eficiente para avaliar clusterização de dados multidimensionais, uma vez que apresentou uma concordância substancial com o índice DB, a um custo de execução similar, e uma concordância significativa com o coeficiente de silhueta, a um custo execução consideravelmente menor. Sendo assim, os resultados evidenciam a boa qualidade do índice CD como métrica de validação interna para clusterização de dados multidimensionais.
Descargas
Citas
Jacob Cohen. “A coefficient of agreement for nominal scales”. Em: Educational and psychological measurement 20.1 (1960), pp. 37–46. doi: 10.1177/001316446002000104.
David L Davies e Donald W Bouldin. “A cluster separation measure”. Em: IEEE transactions on pattern analysis and machine intelligence 2 (1979), pp. 224–227. doi: 10.1109/TPAMI.1979.4766909.
Joseph L Fleiss. “Measuring nominal scale agreement among many raters.” Em: Psychological bulletin 76.5 (1971), p. 378. doi: 10.1037/h0031619.
Matthias Gamer, Jim Lemon e Ian Fellows Puspendra. irr: Various Coefficients of Interrater Reliability and Agreement. R package version 0.84.1. 2019. url: https://CRAN.Rproject.org/package=irr.
Alboukadel Kassambara. Practical guide to cluster analysis in R: unsupervised machine learning. Vol. 1. STHDA, 2017. isbn: 978-1542462709.
J Richard Landis e Gary G Koch. “The measurement of observer agreement for categorical data”. Em: biometrics (1977), pp. 159–174. doi: 10.2307/2529310.
John Mount e Nina Zumel. Practical data science with R. Simon e Schuster, 2019. isbn: 978-1-617-29587-4.
Quynh H Nguyen e Victor J Rayward-Smith. “Internal quality measures for clustering in metric spaces”. Em: International Journal of Business Intelligence and Data Mining 3.1 (2008), pp. 4–29. doi: 10.1504/IJBIDM.2008.017973.
Peter J Rousseeuw. “Silhouettes: a graphical aid to the interpretation and validation of cluster analysis”. Em: Journal of computational and applied mathematics 20 (1987), pp. 53– 65. doi: 10.1016/0377-0427(87)90125-7.
Alan Said e Vicenç Torra. Data Science in Practice. Springer, 2019. isbn: 978-3-319- 97555-9.