Atividade em grupos de 2 ou 3 integrantes: Empregar algum método de classificação de texto para categorizar textos da base Reuters-21578. Base de dados: http://www.daviddlewis.com/resources/testcollections/reuters21578/ Informações sobre os dados nos slides da aula “Classificação de Texto e Naive Bayes - Parte 2”. Mais detalhes arquivo README.txt disponibilizado com a base de dados. Considerar apenas as documentos pertencentes as 10 categorias com maior quantidade de documentos e desprezar os documentos das demais categorias: 1 - Earn (2877, 1087) 2 - Acquisitions (1650, 179) 3 - Money-fx (538, 179) 4 - Grain (433, 149) 5 - Crude (389, 189) 6 - Trade (369,119) 7 - Interest (347, 131) 8 - Ship (197, 89) 9 - Wheat (212, 71) 10 - Corn (182, 56) A divisão entre treinamento e teste deve ser a mesma utilizada por Lewiss, indicada através do campo LEWISSPLIT na tag . Calcular as métricas Precisão, Recall, F1 e Acurácia. Os alunos devem enviar um relatório descrevendo os testes realizados ajustes e melhorias para obter os resultados. Enviar também o código fonte dos programas em Python ou Java. A avaliação levará em conta: - Descrição e implementação das técnicas de processamento básico de texto; - Descrição e implementação do método de classificação de texto; - Qualidade dos resultados obtidos (deve ser possível reproduzir os resultados apresentados). Nota: 1,5pts extra na nota da parte prática. Data de entrega: 24/10/2017 Penalização: 0.5pts por semana de atraso