Aprendizado de Máquina na Detecção de Doença de Alzheimer
utilizando Espectroscopia de Plasma
Resumen
As doenças neurodegenerativas representam um grupo de distúrbios progressivos do sistema nervoso e incluem a Doença de Parkinson (DP), a Doença de Alzheimer (DA) e a Esclerose Lateral Amiotrófica (ELA) [2]. Apesar das diferenças na patofisiologia, essas condições incluem características como o acúmulo de proteínas mal dobradas e agregadas no cérebro, contribuindo para a degeneração neuronal. Conforme destacado por Feng [1], essas doenças estão intimamente ligadas ao envelhecimento populacional, tornando-se um desafio crescente para a saúde pública. Dessa forma, compreender os mecanismos moleculares e celulares envolvidos é essencial para o desenvolvimento de novas estratégias terapêuticas e métodos de diagnostico precoce. Assim, o presente estudo busca comparar três abordagens de aprendizado de máquina: Random Forest (RF), Gradient Boosting e Multilayer Perceptron (MLP), buscando o melhor método para investigar distúrbios neurodegenerativos em um nível mais profundo utilizando o espectro de plasma sanguíneo. O Random Forest utiliza um conjunto de árvores de decisão para reduzir o sobreajuste (overfitting) e aumentar a robustez. O Gradient Boosting constrói árvores de forma sequencial, otimizando gradualmente os erros do modelo. E, por fim, o MLP, focado em redes neurais artificiais, utiliza de padrões mais complexos através de múltiplas camadas ocultas [3]. Deste modo, ao comparar estes três modelos pode-se avaliar a eficiência do estudo em um conjunto de dados específico. Os dados utilizados nos experimentos computacionais estão disponíveis em Paraskevaidi et al. [4]. Observa-se que o estudo em questão utilizou analises espectroscópicas de amostras de plasma sanguíneo, com o escopo contando com o total de 549 indivíduos, dos quais 164 pacientes com Alzheimer (AD) e 202 indivíduos saudáveis como grupo controle (HC). Portanto, a metodologia adotada envolve o pré-processamento dos dados, seguido da divisão destes dados em 70% para treino/validação e 30% para teste. Os modelos foram ajustados por meio de busca em grade (grid search) no conjunto de treinamento, buscando otimizar hiperparâmetros como, neste caso, n-estimators, max_depth e learning_rate para o Gradient Boosting e Random Forest, e diferentemente para o MLP, que foi ajustado com arquiteturas de camadas ocultas e funções de ativação. Com isso, a avaliação de desempenho foi realizada utilizando as seguintes métricas: acurácia (ACC), precisão (Pre), sensibilidade (Se), especificidade (Esp), F1-Score e AUC, conforme a base metodológica descrita por Müller e Guido [3] em sua abordagem comparativa de diferentes algoritmos de aprendizado de máquina. Os resultados são apresentados na Tabela 1. Além disso, foi gerada a curva ROC (Figura 1), permitindo uma análise detalhada dos erros de classificação. Assim, a partir dos resultados obtidos, foi possível comparar a eficácia de cada modelo, podendo ser observado abaixo a comparação entre esses valores nos diferentes modelos descritos. [...]
Descargas
Citas
T. Feng. “Applications of Artificial Intelligence to Diagnosis of Neurodegenerative Diseases”. Em: Studies in Health Technology and Informatics 308 (2023), pp. 648–655. doi: 10. 3233/SHTI230896.
S. Gonçalves e T. F. Outeiro. “A disfunção cognitiva nas doenças neurodegenerativas”. Em: Revista Brasileira de Ciências do Envelhecimento Humano 12.3 (2015). doi: 10 . 5335/rbceh.v12i3.6007.
A.C. Müller e S. Guido. Introduction to Machine Learning with Python: A Guide for Data Scientists. O’Reilly Media, Incorporated, 2018. isbn: 9789352134571.
M. Paraskevaidi et al. “Differential diagnosis of Alzheimer’s disease using spectrochemical analysis of blood”. Em: Proceedings of the National Academy of Sciences 114.38 (2017), E7929–E7938. doi: 10.1073/pnas.1701517114.