Atividade em grupos de 2 ou 3 integrantes:

Empregar algum método de classificação de texto para categorizar textos da base Reuters-21578.

Base de dados: http://www.daviddlewis.com/resources/testcollections/reuters21578/
Informações sobre os dados nos slides da aula “Classificação de Texto e Naive Bayes - Parte 2”. Mais detalhes arquivo README.txt disponibilizado com a base de dados.

Considerar apenas as documentos pertencentes as 10 categorias com maior quantidade de documentos e desprezar os documentos das demais categorias:
1 - Earn (2877, 1087) 
2 - Acquisitions (1650, 179)
3 - Money-fx (538, 179)
4 - Grain (433, 149)
5 - Crude (389, 189)
6 - Trade (369,119)
7 - Interest (347, 131)
8 - Ship (197, 89)
9 - Wheat (212, 71)
10 - Corn (182, 56)

A divisão entre treinamento e teste deve ser a mesma utilizada por Lewiss, indicada através do campo LEWISSPLIT na tag <REUTERS>.

Calcular as métricas Precisão, Recall, F1 e Acurácia.
Os alunos devem enviar um relatório descrevendo os testes realizados ajustes e melhorias para obter os resultados. Enviar também o código fonte dos programas em Python ou Java.

A avaliação levará em conta:

- Descrição e implementação das técnicas de processamento básico de texto;
- Descrição e implementação do método de classificação de texto;
- Qualidade dos resultados obtidos (deve ser possível reproduzir os resultados apresentados).

Nota: 1,5pts extra na nota da parte prática.
Data de entrega: 24/10/2017
Penalização: 0.5pts por semana de atraso