Avaliação de abordagens para classificação automática de documentos jurídicos: um estudo comparativo aplicado a petições do Tribunal de Justiça do Estado de Alagoas

José Augusto Silva, Valério Nogueira Jr, Hugo Oliveira, Adriano Barbosa, Thales Vieira, Krerley Oliveira

Resumo


Classificação de documentos é um problema estudado na literatura há vários anos com diversas soluções robustas já disponíveis. Porém, devido a peculiaridades de cada língua e da natureza dos documentos, faz-se necessário investigar a abordagem que melhor se adeque a um problema específico. Neste trabalho, realizamos um estudo comparativo de diversas metodologias usadas para classificação de documentos, com foco no problema de classificar diversos tipos de documentos jurídicos escritos em língua portuguesa. Mais especificamente, analisamos o desempenho de cinco abordagens para realizar a tarefa de reconhecer 11 tipos de petições intermediárias de uma vara de execução fiscal do Tribunal de Justiça do Estado de Alagoas. Em nossos experimentos, a abordagem baseada em representação vetorial TF-IDF com classificador SVM (TFIDF-SVM) destacou-se pela alta acurácia e baixo tempo de treinamento, além de gerar modelos caixa-branca.  


Palavras-chave


processamento de linguagem natural; classificação de documentos; justiça

Texto completo:

PDF

Referências


Aggarwal, C. C. and Zhai, C. (2012). A survey of text classification algorithms. In Mining text data, pages 163-222. Springer.

Da Silva, N. C., Braz, F., de Campos, T., Gusmão, D., Chaves, F., Mendes, D., Bezerra, D., Ziegler, G., Horinouchi, L., Ferreira, M., et al. (2018). Document type classification for braziPs supreme court using a convolutional neural network. In The tenth intemational conference on forensic computer science and cyber law-ICoFCS, pages 7-11.

Ferreira, A. C. and dos Santos Maculan, B. C. M. (2019). Metodologia para a análise de assunto de acórdãos no contexto do controle externo: proposta de um modelo de leitura técnica. Em Questão, 25(3):99-131.

Kibriya, A. M., Frank, E., Pfahringer, B., and Holmes, G. (2004). Multinomial naive bayes for text categorization revisited. In Australasian Joint Conf on Artificial Intelligence, pages 488-499. Springer.

Kingma, D. P. and Ba, J. (2014). Adam: A method for stochastic optimization. arXiv: 1412-6980.

Kumar, M. A. and Gopal, M. (2010). An investigation on linear svm and its variants for text categorization. In 2010 2nd Int Conf on Machine Learning and Computing, pages 27-31. IEEE.

Lai, S., Xu, L., Liu, K., and Zhao, J. (2015). Recurrent convolutional neural networks for text classification. In Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence, AAAI’15, page 2267-2273. AAAI Press.

Le, Q. and Mikolov, T. (2014). Distributed representations of sentences and documents. In Intemational conference on machine learning, pages 1188-1196.

Liu, Y. and Zheng, Y. F. (2005). One-against-all multi-class svm classification using reliability measures. In 2005 IEEE Int Joint Conference on Neural Networks, 2005., volume 2, pages 849-854. IEEE.

Maaten, L. v. d. and Hinton, G. (2008). Visualizing data using t-sne. Journal of machine learning research, 9(Nov):2579-2605.

Marulli, F., Pota, M., and Esposito, M. (2018). A comparison of character and word embeddings in bidirectional lstms for pos tagging in italian. In Intemational Conference on Intelligent Interactive Multimedia Systems and Services, pages 14-23. Springer.

Rajaraman, A. and Ullman, J. D. (2011). Data Mining, page 1-17. Cambridge University Press.

Salton, G. and Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information processing & management, 24(5):513-523. [14] Schõlkopf, B., Smola, A. J., Bach, F., et al. (2002). Learning with kemels: support vector machines, regularization, optimization, and beyond. MIT press.

Schuster, M. and Paliwal, K. K. (1997). Bidirectional recurrent neural networks. IEEE transactions on Signal Processing, 45(11):2673-2681.

Smith, R. (2007). An overview of the tesseract OCR engine. In TVmt/i Intemational Conference on Document Analysis and Recognition (ICDAR 2007), pages 629-633, Parana.

Sousa, R. and Lopes, H. (2019). Portuguese pos tagging using blstm without handcrafted features. In Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications, pages 120-130.




DOI: https://doi.org/10.5540/03.2021.008.01.0376

Apontamentos

  • Não há apontamentos.


SBMAC - Sociedade de Matemática Aplicada e Computacional
Edifício Medical Center - Rua Maestro João Seppe, nº. 900, 16º. andar - Sala 163 | São Carlos/SP - CEP: 13561-120
 


Normas para publicação | Contato