Atividade em grupos de 2 ou 3 integrantes: Construir uma PCFG para português e avaliar o desempenho do CKY com sua PCFG no corpus de dado Floresta do NLTK. A atividade consiste em duas etapas: a) (1pt) - Construir uma PCFG a partir de 75% das sentenças do Treebank Floresta disponibilizado na NLTK. b) (1pt) - Utilizar o CKY da NLTK para fazer o parsing dos outros 25% das sentenças e calcular a qualidade dos resultados obtidos. === Descrição da etapa (a): A NLTK disponibiliza um fragmento do Penn Treebank corpus. Alguns links com exemplos úteis: Construindo PCFGs no NLTK: http://www.nltk.org/howto/parse.html Como colocar na forma normal de chomsky e outras transformações: http://www.nltk.org/book/ch08-extras.html (item 2.23) Ver os exemplos com o treebank Floresta: http://www.nltk.org/howto/portuguese_en.html === Descrição da etapa (b): Nesta etapa, você deve avaliar o método de parsing CKY da NLTK com sua PCFG. Para isso, você deve fazer o parsing das sentenças (25%) que não foram utilizadas para construir a PCFG, e mensurar a qualidade do parsing realizado utilizando as árvores do Treebank Floresta como ground truth, utilizando as métricas: - Labled Precision - Labled Recal - LP/LR F1 - Tagging Accuracy === Deve ser preparado um relatório descrevendo o que foi feito em cada etapa, as dificuldades encontradas, os resultados obtidos e uma análise dos resultados. A avaliação levará em conta: - Descrição e implementação da PCFG - Qualidade dos resultados obtidos (deve ser possível reproduzir os resultados apresentados). Nota total: 2pts extra na nota da parte prática. Data de entrega: 24/11/2017 Penalização: 1pts por semana de atraso