O projeto Natura
A equipa de investigação em PLN da UMinho nasceu nos anos 1990 no campus de Gualtar, em Braga, e pertence ao grupo de Processamento e Especificação de Linguagens do Departamento de Informática da Escola de Engenharia da UMinho. Foi fundada por José João Almeida e deve o acrónimo Natura ao docente José Nuno Oliveira. A equipa desenvolveu ferramentas informáticas como o jSpell e respetivos dicionários em português, o NATools e vários módulos em linguagem Perl. Entre investigadores, professores, bolseiros e alunos de (pós-)graduação ligados ao projeto estiveram/estão também Ulisses Pinto, Paulo Rocha, António Dias, Alexandre Carvalho, Rui Vilela, Nuno Carvalho, Rúben Fonseca e André Santos. A unidade curricular de PLN tem igualmente presença na licenciatura em Ciências da Computação e no mestrado integrado de Engenharia Informática.
Tal como noutras áreas tecnológicas, o PLN tem sofrido alterações. Passou de um lado mais algébrico e simbólico das coisas para o lado do machine learning no tratamento algorítmico de dados, segundo Alberto Simões. "Esta área está a ser muito procurada pelas empresas para análise de opinião em redes sociais. Por exemplo, há técnicas de linguagem natural para catalogar textos de acordo com uma análise de sentimento – quão favorável ou desfavorável um comentário é", complementa José João Almeida.
Nos projetos recentes do núcleo, ressalta o Per-Fide, apoiado pela Fundação para a Ciência e a Tecnologia (FCT) e coordenado por Sílvia Araújo, do ILCH. A intenção foi construir textos de português em paralelo com seis línguas (espanhol, russo, francês, italiano, alemão, inglês). Houve conteúdos de 30 parceiros de referência, como UNICEF, Vaticano, Banco Central Europeu, Parlamento Europeu, Turismo de Portugal e PressEurope. O Natura fez suporte tecnológico, extração de terminologia bilingue e as ferramentas de pesquisa online para repositórios de corpora.
Esteve ainda no projeto P-PAL, financiado pela FCT e liderado por Ana Paula Soares, da Escola de Psicologia. Criou uma base de dados lexical para avaliar como as pessoas reagiam a certas palavras e associavam emoções ou contextos. "Nem sempre o cérebro reage como pensávamos", alude José João Almeida. Os investigadores procuraram também analisar o impacto de palavras usadas em manuais escolares até aos 12 anos, as palavras ligadas a um período etário próprio de aquisição ou como a pessoa disléxica pode lidar pior com sequências do que com árvores de conceitos, entre outros aspetos.
A equipa de PLN disponibiliza também online um Dicionário aberto de calão e expressões idiomáticas. Este "hobby com bastantes anos" tem sido atualizado com regularidade, acolhendo muitas sugestões de cidadãos. "'Levas um biqueiro no céu-da-boca que ficas com a tosse nos calcanhares' é uma frase pitoresca que faz parte do nosso kit de sobrevivência e do nosso património", enfatiza José João Almeida. "Quase todos os dicionários, incluindo o da Academia das Ciências, prezam as expressões idiomáticas, até mesmo as de um calão carroceiro. Há uma zona que roça o clandestino, o tabu e que se mistura com o familiar e o coloquial", continua.
|