Submit to FacebookSubmit to Google PlusSubmit to TwitterSubmit to LinkedIn
Linguística e computação são duas áreas que, aparentemente, andam completamente separadas. Mas, na verdade, o encontro entre as duas nos rende ferramentas muito úteis ao dia-a-dia. Por exemplo, os revisores ortográficos e gramaticais e os sistemas de busca na internet. O ponto de interseção entre a linguística e a computação é chamado Processamento de Línguas Naturais. A língua natural – no nosso caso, o português – é modelada computacionalmente para a construção de sistemas que, de alguma forma, processam o uso do idioma.
Entre esses sistemas estão os revisores de texto e os sistemas de busca na internet, bem como sistemas de reconhecimento e geração de fala, tradutores automáticos, sumarizadores automáticos que geram resumos de textos e classificadores de textos.

Esse é o objeto de trabalho do Núcleo Interinstitucional de Linguística Computacional (NILC), que reúne pesquisadores do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP em São Carlos, bem como da Universidade Federal de São Carlos (UFSCar) e da Universidade Estadual Paulista (Unesp).

“O NILC foi criado em 1993, quando a empresa Itautec precisou desenvolver um sistema de revisão gramatical do português para ser executado com o editor de textos Word da Microsoft”, conta a professora Maria das Graças Volpe Nunes, coordenadora do núcleo no ICMC.

O revisor gramatical do português brasileiro, que hoje é distribuído no pacote Office, da Microsoft, foi desenvolvido no NILC. “A primeira versão, anterior à licença cedida pela Itautec à Microsoft, foi lançada no mercado em 1994. Várias outras a sucederam, sempre sofisticando e aperfeiçoando o produto. Até 2008, o NILC forneceu assistência à Microsoft por meio de um convênio entre a USP e a Itautec que vigorou por 15 anos”, conta Maria das Graças.

Segundo a professora, vários outros sistemas desenvolvidos no NILC são de aplicação prática, mas acabam não sendo transformados em produto. “Para um cientista, o produto final parece sempre estar longe, já que sempre queremos melhorar, aperfeiçoar, pesquisar.”

No momento, o núcleo está pleiteando o registro de um sistema terminológico chamado "e-termos", via USP Inovação, Embrapa e UFSCar.

Conhecimento multidisciplinar
O Núcleo Interinstitucional de Linguística Computacional combina o conhecimento do linguista e o do cientista ou engenheiro de computação. “O pesquisador em Processamento de Línguas Naturais precisa ter o conhecimento linguístico, para saber como se comporta a língua e seu falante. É necessário saber como representar esse conhecimento no computador e fazer com que produza o que se deseja”, explica a coordenadora Maria das Graças Volpe Nunes.

Para que os aplicativos sejam desenvolvidos, é necessário muito conhecimento linguístico básico, em geral representado na forma de dicionários ou léxicos, gramáticas e bancos de textos (corpora). A representação desse conhecimento no computador requer modelos e formalismos computacionais sofisticados. E não é só: não se trata de uma ciência exata. “Como tudo o que se refere à língua natural carrega ambiguidade e imprecisão, é sempre necessário avaliar muito bem os sistemas e esclarecer a margem de erro com que trabalham”, conta Maria das Graças.

Atualmente, o Núcleo Interinstitucional de Linguística Computacional tem mais de 30 membros, sendo 14 professores universitários das três instituições, dois pós-doutores, e mais de 20 alunos de graduação e pós-graduação em ciências da computação e linguística.

Segundo a professora, o núcleo tem atraído vários estudantes desde sua criação para programas tradicionais de iniciação científica, mestrado e doutorado. Os alunos também participam de projetos financiados, nos quais os bolsistas desenvolvem pesquisa ou programam sistemas computacionais.

Assessoria de Imprensa da USP