UMinho cria suporte do novo Dicionário da Academia das Ciências

27-11-2018 | Nuno Passos | Fotos/Pictures: Nuno Gonçalves

Alberto Simões e José João Almeida numa sala do Departamento de Informática da UMinho, no campus de Gualtar, em Braga

Alberto Simões é professor convidado no Departamento de Informática da UMinho e do Instituto Politécnico do Cávado e Ave; investiga no Centro Algoritmi, no Centro de Estudos Humanísticos (CEHUM) e no Applied Artificial Intelligence Laboratory (2AI)

José João Almeida é professor auxiliar do Departamento de Informática da Escola de Engenharia da UMinho e também investigador do Centro Algoritmi

Álvaro Iriarte Sanromán é professor associado do Departamento de Estudos Portugueses e Lusófonos do Instituto de Letras e Ciências Humanas e investigador do Centro de Estudos Humanísticos da UMinho (foto: academiagalega.org)

Ana Salgado é coordenadora do novo dicionário da Academia das Ciências de Lisboa, membro do Instituto de Lexicologia e Lexicografia da Língua Portuguesa da ACL e investigadora do Centro de Linguística da Universidade Nova de Lisboa

Panorâmica da Academia das Ciências de Lisboa (foto: ACL)

A consulta de acervos lexicográficos cresce no meio digital, mas o encanto das obras físicas persiste (foto: ACL)

1 / 7

O objetivo é disponibilizá-lo online para o mundo, com pesquisa direta e gratuita, atualizado continuamente. O projeto aguarda por financiamento para a fase de revisão.




A equipa de Processamento de Linguagem Natural (PLN) do Departamento de Informática da Universidade do Minho está a desenvolver o suporte tecnológico do novo dicionário da Academia das Ciências de Lisboa (ACL). O projeto surgiu no fim de 2015 e aguarda por financiamento para a fase de revisão. A edição já tem mais de 70 mil entradas, mas o valor pode duplicar se juntarmos os termos multipalavra. O projeto foi aprovado pelo Instituto de Lexicologia e Lexicografia da Língua Portuguesa (ILLLP) da ACL e é coordenado por Ana de Castro Salgado, do Centro de Linguística da Universidade Nova de Lisboa (CLUNL). O trabalho conta com a colaboração dos académicos da ACL e de algumas individualidades externas e com a UMinho, nomeadamente a equipa de PLN liderada por José João Almeida e Alberto Simões, experientes em gestão de dicionários, e a consultoria de Álvaro Iriarte Sanromán, professor do Instituto de Letras e Ciências Humanas (ILCH).

O projeto tem como base o Dicionário da Língua Portuguesa Contemporânea, publicado pela ACL em 2001, com apoio da Fundação Calouste Gulbenkian e comercializado pela Editorial Verbo. Até ao momento, o projeto ainda não foi financiado, pelo que a revisão do dicionário vai seguindo muito lentamente, contando apenas com a generosidade dos intervenientes, uma vez que a ACL não tem fundos para tal nem têm surgido outros apoios ou bolsas. "É complicado definir quando o trabalho ficará online, porque vai evoluindo aos poucos e depende, obviamente, de uma decisão da instituição. Poderá, por exemplo, optar-se por disponibilizar o dicionário de forma parcial, sem a revisão estar totalmente terminada, decisão que depende obviamente da ACL", anui Alberto Simões.
 
"O dicionário da Academia é uma obra de suma importância e deve constituir um acervo lexicográfico que expresse o português atual. É crucial a sua disponibilização em linha para permitir um uso mais generalizado e com maior alcance", afirma Ana Salgado. A edição de 2001 encontra-se esgotada no mercado e, por outro lado, importa atualizar o conteúdo do dicionário e ampliá-lo. A coordenadora da obra pretende, sobretudo, romper definitivamente com o paradigma do dicionário impresso e adaptar a base de dados lexicais a princípios lexicográficos mais atuais e a tendências mais avançadas: "Vivemos na era da revolução digital e temos necessariamente de tirar partido das novas tecnologias".

Para atingir este objetivo, e apesar de a ACL ainda não ter obtido financiamento para o projeto, está bastante motivada pelos últimos avanços enquanto investigadora do CLUNL. O facto de ter usufruído de uma bolsa promovida pela ELEXIS permitiu uma estadia no Centro de Estudios da Real Academia Española com o objetivo de conhecer as infraestruturas linguísticas e o trabalho lexicógrafico da academia congénere. Em dezembro vai também participar na LexMC18, em Berlim, o que representa outro passo significativo, dado que terá a oportunidade de "aprofundar o conhecimento em torno do manuseamento de dados digitais, além de melhorar as competências em editores XML, testando a TEI Lex-0 e, quiçá, atualizar a codificação atual".
 
A parceria com a UMinho deve-se a Ana Salgado, por ter tido projetos conjuntos com a equipa de PNL. O facto de o dicionário de 2001 apenas existir em versão papel representava um grande desafio para o transformar em formato editável. A dupla de informáticos da UMinho tinha tido essa experiência ao converter os dois volumes do Nôvo Diccionário da Língua Portuguêsa, de Cândido de Figueiredo (1913) – previamente digitalizado pela Biblioteca Nacional Digital, transcrito no contexto do Projeto Gutenberg e atualmente disponível como Dicionário Aberto –, bem como na reconversão do Dicionário de Sinónimos do Galego, de Xosé Maria Gómez Clemente, republicado como dicionário eletrónico.
 
Alberto Simões e José João Almeida já converteram entretanto o dicionário da Academia das Ciências do formato PDF para XML, seguindo as guias de codificação eletrónica de dicionários descritas na Text Encoding Initiative (TEI). A nova base de dados permite editar cada entrada sem alterar o restante conteúdo, homogeneizar agilmente estilos como itálicos e abreviaturas e, em especial, garantir a reutilização e longevidade do documento eletrónico. "Em Word era impensável, seria um ficheiro enorme, pesado e difícil de trabalhar por várias pessoas em simultâneo", referem os autores.
 
expertise e eficácia daquela conversão técnica resultou num artigo para a conferência internacional SLATE’2016, na Eslovénia, que foi publicado por uma editora científica alemã. "O processo não é muito avançado e inclui algum trabalho manual [detetar carateres e cruzar informação], mas permite alcançar o objetivo com o mínimo de erros possível", concretizam. "No caso do dicionário académico, foi preciso refinar os modelos de extração. Por exemplo, descobrimos que a lista de abreviaturas estava bastante incompleta e que, dessa lista, algumas abreviaturas nunca foram usadas", elucidam.


Há muitas palavras novas

Ana Salgado, na medida do possível, continua a editar, a rever e a acrescentar conteúdos. Já foram acrescentadas mais de mil entradas novas face à versão de 2001, sobretudo neologismos, vocabulário de diferentes procedências e palavras que estavam em falta na anterior nomenclatura, como, por exemplo, iazidismolegionela, marafar, nanociência, robalo, veganismovideoárbitrovoucher yakisoba. Todos os dias surgem novos conceitos, vocábulos e significados. O cidadão também pode enviar sugestões, que serão avaliadas e analisadas pela equipa com posterior apresentação a uma comissão de académicos.
 
Se a ACL trata da parte linguística, a UMinho assegura a parte informática. O processo de revisão será o mais longo, incidindo na macroestrutura da obra, especialmente sobre a nomenclatura, bem como da microestrutura, ou seja, o conjunto ordenado das informações de natureza diversa no interior do verbete. Aí serão aplicadas ferramentas da UMinho como o analisador morfológico. "A edição inicial preocupou-se muito com a apresentação física. Agora, interessa-nos ter uma edição conceptualmente marcante; isto é, não tanto letras de certos tamanhos e itálicos, mas saber que é uma categoria morfológica, um exemplo de uso, o conceito por detrás em cada entrada", assinala José João Almeida.
 
A versão transata do dicionário da Academia das Ciências tem 3400 páginas e dois volumes. A ambição atual não é criar o dicionário campeão no número de entradas, mas sim na riqueza de cada artigo. "Por vezes, a nossa tarefa é tirar palavras, não é pô-las", confessa José João Almeida. Aliás, as entradas são contadas de muitas maneiras. Para os nórdicos, aviso como substantivo e verbo vale duas entradas, por ter categorias gramaticais distintas. E há termos multipalavra que não são a soma das partes, tendo significado diferente. Por exemplo, abaixo da entrada fato há desdobramentos como fato de treino, fato de banho e fato de máscara. Certas editoras admitem que cada desdobramento é uma entrada própria.

 

O projeto Natura
 
A equipa de investigação em PLN da UMinho nasceu nos anos 1990 no campus de Gualtar, em Braga, e pertence ao grupo de Processamento e Especificação de Linguagens do Departamento de Informática da Escola de Engenharia  da UMinho. Foi fundada por José João Almeida e deve o acrónimo Natura ao docente José Nuno Oliveira. A equipa desenvolveu ferramentas informáticas como o jSpell e respetivos dicionários em português, o NATools e vários módulos em linguagem Perl. Entre investigadores, professores, bolseiros e alunos de (pós-)graduação ligados ao projeto estiveram/estão também Ulisses Pinto, Paulo Rocha, António Dias, Alexandre Carvalho, Rui Vilela, Nuno Carvalho, Rúben Fonseca e André Santos. A unidade curricular de PLN tem igualmente presença na licenciatura em Ciências da Computação e no mestrado integrado de Engenharia Informática.
 
Tal como noutras áreas tecnológicas, o PLN tem sofrido alterações. Passou de um lado mais algébrico e simbólico das coisas para o lado do machine learning no tratamento algorítmico de dados, segundo Alberto Simões. "Esta área está a ser muito procurada pelas empresas para análise de opinião em redes sociais. Por exemplo, há técnicas de linguagem natural para catalogar textos de acordo com uma análise de sentimento – quão favorável ou desfavorável um comentário é", complementa José João Almeida.
 
Nos projetos recentes do núcleo, ressalta o Per-Fide, apoiado pela Fundação para a Ciência e a Tecnologia (FCT) e coordenado por Sílvia Araújo, do ILCH. A intenção foi construir textos de português em paralelo com seis línguas (espanhol, russo, francês, italiano, alemão, inglês). Houve conteúdos de 30 parceiros de referência, como UNICEF, Vaticano, Banco Central Europeu, Parlamento Europeu, Turismo de Portugal e PressEurope. O Natura fez suporte tecnológico, extração de terminologia bilingue e as ferramentas de pesquisa online para repositórios de corpora.
 
Esteve ainda no projeto P-PAL, financiado pela FCT e liderado por Ana Paula Soares, da Escola de Psicologia. Criou uma base de dados lexical para avaliar como as pessoas reagiam a certas palavras e associavam emoções ou contextos. "Nem sempre o cérebro reage como pensávamos", alude José João Almeida. Os investigadores procuraram também analisar o impacto de palavras usadas em manuais escolares até aos 12 anos, as palavras ligadas a um período etário próprio de aquisição ou como a pessoa disléxica pode lidar pior com sequências do que com árvores de conceitos, entre outros aspetos.
 
A equipa de PLN disponibiliza também online um Dicionário aberto de calão e expressões idiomáticas. Este "hobby com bastantes anos" tem sido atualizado com regularidade, acolhendo muitas sugestões de cidadãos. "'Levas um biqueiro no céu-da-boca que ficas com a tosse nos calcanhares' é uma frase pitoresca que faz parte do nosso kit de sobrevivência e do nosso património", enfatiza José João Almeida. "Quase todos os dicionários, incluindo o da Academia das Ciências, prezam as expressões idiomáticas, até mesmo as de um calão carroceiro. Há uma zona que roça o clandestino, o tabu e que se mistura com o familiar e o coloquial", continua.
 

 
Informáticos apaixonados por línguas
 
Boa parte do trabalho realizado no Natura é voluntário. "É preciso ser apaixonado por estas coisas. Eu diria mesmo que, a certa altura, o pessoal das ciências gosta mais de palavras do que de números, pois as palavras têm um encanto especial e o conhecimento da língua é absolutamente emocionante, dá gosto", desfia José João Almeida, acrescentando com um sorriso que Álvaro Iriarte considera-o "anarcolinguista". Alberto Simões valoriza o prazer em construir algo útil para a sociedade e o espírito open source, que usa ferramentas de acesso livre, em que um modo de “pagar” é contribuir com novos conteúdos online e melhorias dessas ferramentas.
 
"O Natura fez isso com o analisador morfológico iSpell, bastou ‘mexer uns cordelinhos’ para criar o jSpell, que é hoje disponibilizado para a humanidade", sustenta, para acrescentar: "Pretendemos que aquilo que realizamos na investigação seja disponibilizado gratuitamente para todos. O que nos vale neste mundo é o que aprendemos e partilhamos". José João Almeida conclui a ideia: "Isso faz com que as coisas evoluam, há um efeito multiplicativo. Muita gente passa a enviar contribuições, levando a que certos projetos sejam versáteis, sejam viáveis e façam sentido".