Classificação de áudio musical a partir dos coeficientes da transformada wavelet utilizando redes neurais convolucionais

Autores

  • Milton dos Santos Instituto Tecnológico de Aeronáutica
  • Camilo Rodrigues Neto Universidade de São Paulo

DOI:

https://doi.org/10.5540/03.2026.012.01.0260

Palavras-chave:

Processamento de Sinais, MIR, Transformada Wavelet, Coeficientes Wavelet, Rede Neural Convolucional

Resumo

A identificação do estilo musical a qual pertence uma música é uma tarefa relativamente simples para um humano, mesmo com pouco treinamento musical. Entretanto, é uma tarefa difícil a ser realizada de forma automatizada. Neste trabalho, utilizamos a transformada Wavelet, que representa uma música em suas componentes de frequência em função do tempo, gerando uma imagem denominada espectrograma. A partir dos espectrogramas, a Rede Neural Convolucional foi treinada com o objetivo de classificar os sinais de áudio de acordo com os seus estilos musicais. Foi utilizada apenas metade de cada sinal de áudio para gerar os espectrogramas, resultando em um total de 6.075 músicas para treinamento e 2.025 para teste provenientes de 10 estilos musicais – Blues, Clássico, Country, Disco, Hip Hop, Jazz, Metal, Pop, Reggae e Rock. Os dados para treinamento e também para previsão foram escolhidos aleatoriamente em cada estilo musical para que fossem executadas 1000 épocas de treinamento, a medição foi repetida 10 vezes para cada estilo musical, deste modo garantindo o processo estocástico. A acurácia de treinamento obteve o melhor resultado com 90% das imagens (8100) de aproximadamente 82%. Os estilos Reggae, Jazz, Hiphop, Country, Classical e Blues obtiveram os seguintes melhores valores médios de previsões certas respectivamente: 94%, 88%, 82%, 90%, 91% e 83%.

Downloads

Não há dados estatísticos.

Referências

P. A. Addison. The illustrated wavelet transform handbook: introductory theory and applications in science, engineering, medicine, and finance. 1st ed. Taylor & Francis, 2002. ISBN: 978-0750306928.

S. L. Brunton e J. N. Kutz. Data-driven science and engineering: Machine learning, dynamical systems, and control. Cambridge University Press, 2022. ISBN: 978-1108422093.

S. Dodge e L. Karam. “Understanding how image quality affects deep neural networks”. Em: Eighth International Conference on Quality of Multimedia Experience (QoMEX) (2016), pp. 1–6. DOI: 10.1109/QoMEX.2016.7498955.

M. O. Domingues, O. Mendes, M. K. Kaibara, V. E. Menconi e E. Bernardes. “Explorando a transformada wavelet contínua”. Em: Revista Brasileira de Ensino de Física 38 (2016). DOI: 10.1590/1806-9126-RBEF-2016-0019.

F. Germain. The Wavelet Transform Applications in Music Information Retrieval. 1a ed. CRC Press, 2009, pp. 3–4. ISBN: 9780750306928.

A. Ghildiyal, K. Singh e S. Sharma. “Music genre classification using machine learning”. Em: 4th International Conference on Electronics, Communication and Aerospace Technology (ICECA). IEEE (2020), pp. 1368–1372.

I. Goodfellow, Y. Bengio e A. Courville. Deep Learning. MIT Press, 2016. ISBN: 9780262035613.

A. Haar. “Zur theorie der orthogonalen funktionensysteme”. Em: Mathematische Annalen, 69(3):331–371 (1910).

S. Ioffe e C. Szegedy. “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift”. Em: abs/1502.03167 (2015). arXiv: 1502.03167. URL: http://arxiv.org/abs/1502.03167.

G. James, D. Witten, T. Hastie e R. Tibshirani. An Introduction to Statistical Learning with Applications in Python. Springer Texts in Statistics. Springer, 2013. ISBN: 978-3-031-38747-0.

D. P. Kingma e J. Ba. Adam: A Method for Stochastic Optimization. 2017. arXiv: 1412.6980 [cs.LG]. URL: https://arxiv.org/abs/1412.6980.

Y. LeCun. “Generalization and network design strategies”. Em: Connectionism in perspective 19.143-155 (1989), p. 18.

Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard e L. D. Jackel. “Backpropagation Applied to Handwritten Zip Code Recognition”. Em: Neural Computation 4 (1989), pp. 541–551. DOI: 10.1162/neco.1989.1.4.541.

D. Li, T. F. Bissyande, J. Klein e Y. L. Traon. “Time series classification with discrete wavelet transformed data: Insights from an empirical study”. Em: The 28th International Conference on Software Engineering and Knowledge Engineering (SEKE 2016). 2016. DOI: 10.1142/S0218194016400088.

J. Lilly e S. Olhede. “Generalized Morse Wavelets as a Superfamily of Analytic Wavelets”. Em: IEEE Transactions on Signal Processing 60 (2012), pp. 2661–2670. DOI: 10.1109/TSP.2012.2210890.

S. Mallat. A Wavelet Tour of Signal Processing: The Sparse Way. Academic Press, 2008. ISBN: 9780123743701.

D. E. Rumelhart, G. E. Hinton e R. J. Williams. “Learning representations by back-propagating errors”. Em: Nature 323(6088) (1986), pp. 533–536. DOI: 10.1038/323533a0.

N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever e R. Salakhutdinov. “Dropout: A Simple Way to Prevent Neural Networks from Overfitting”. Em: Journal of Machine Learning Research 15.56 (2014), pp. 1929–1958. URL: http://jmlr.org/papers/v15/srivastava14a.html.

B. L. Sturm. “The GTZAN dataset: Its contents, its faults, their effects on evaluation, and its future use”. Em: CoRR abs/1306.1461 (2013). DOI: 10.1080/09298215.2014.894533.

G. Tzanetakis e P. Cook. “Musical genre classification of audio signals”. Em: IEEE Transactions on Audio and Speech Processing 10.5 (2002). DOI: 10.1109/TSA.2002.800560.

C. Weihs, D. Jannach, I. Vatolkina e G. Rudolph. Music Data Analysis: Foundations and Applications. Chapman e Hall/CRC, 2019. ISBN: 9780367872816.

I. H. Witten, E. Frank, M. A. Hall e C. J. Pal. Data Mining: Practical Machine Learning Tools and Techniques. 4th ed. Morgan Kaufmann, 2016. ISBN: 9780128042915.

Downloads

Publicado

2026-02-13

Edição

Seção

Trabalhos Completos