UFSCar - Projeto Read The Web foi divulgado recentemente no The New York Times

Seria possível um computador aprender de forma autônoma e utilizar seus conhecimentos já adquiridos para evoluir seu próprio aprendizado? Com a intenção de desenvolver essas capacidades no computador, foi criado o projeto de pesquisa Read The Web, traduzido como Leitura da Web. O projeto é coordenado pelos pesquisadores Tom M. Mitchell e William Cohen, ambos da Carnegie Mellon University, e pelo professor Estevam Rafael Hruschka Júnior, do Departamento de Computação (DC) da Universidade Federal de São Carlos (UFSCar), além de contar com a participação de um programador e alunos de pós-graduação estrangeiros.

O projeto foi reconhecido recentemente pelo jornal norte-americano The New York Times. O projeto está revolucionando a maneira como os computadores aprendem e tem patrocínio da Defense Advanced Research Projects Agency (DARPA) e do Google. O objetivo do trabalho é mostrar que é possível um programa de computador aprender a partir da "leitura" de páginas da web e melhorar sua capacidade de aprendizado de forma contínua. O objetivo do projeto é definir e comprovar que a técnica inovadora "aprendizado sem fim" é eficiente e viável também em aplicações reais. De acordo com o professor Estevam Júnior, pretende-se mostrar que um computador, chamado NELL (Never-Ending Language Learner), pode adquirir conhecimento continuamente e ter autonomia suficiente para revisar e ampliar seu conhecimento a partir de novas descobertas.

O pesquisador da UFSCar conta que esse tipo de aprendizado contínuo é inspirado na forma como os seres humanos aprendem, pois quando a pessoa nasce, ela inicia a construção de sua base de conhecimento a partir de pequenas dicas e da exploração do ambiente. Assim, quanto mais o ser humano aprende, mais independente e capaz ele se torna para continuar aprendendo, como também acontece com o NELL. "Um dos princípios mais relevantes considerados no "Leitura da Web" é que os computadores, assim como os seres humanos, não devem buscar aprender tudo de uma única vez, mas aprender por etapas", explica Júnior.

Apesar de todos os avanços na ciência da computação, ainda não existe um computador que possa aprender como os humanos, ou seja, acumulativamente em um longo período. Esse aprendizado irá ajudar NELL a encontrar fatos na web de maneira mais exata e eficiente com o tempo. A ideia do "Leitura da Web" é utilizar uma aplicação real para mostrar a viabilidade do NELL. Para isso, inicialmente, o computador recebeu algumas informações de temas sobre os quais ele deveria aprender, como localidades, empresas, livros e pessoas, e a partir daí começou a "ler" a web para extrair conhecimento dos temas definidos.

Para entender como o aprendizado contínuo funciona, o pesquisador brasileiro conta como o NELL aprende os nomes das cidades do mundo.

"Inicialmente fornecemos ao computador algumas dicas de leitura que o auxiliarão na identificação de cidades em textos disponíveis na web. Podemos dizer a ele que sempre que encontrar a sentença "X é uma cidade localizada..." o termo X se refere a uma cidade", explica o professor. Assim, o sistema passa a ler a web em busca dessas cidades. Após a leitura e a identificação de algumas cidades, o NELL tem condições de definir autonomamente novas formas de identificação de cidades, utilizando a sentença "a prefeitura municipal de X", por exemplo. Para Estevam Júnior um ponto muito importante no aprendizado contínuo é que haja uma forma de validação interna que evite o aprendizado e a propagação de erros.

Para exemplificar esses problemas, o professor conta que se o NELL detectar o padrão textual "moro em X" como adequado para se identificar cidades, ele pode considerar Portugal como uma cidade caso encontre a frase "moro em Portugal". "Para evitar tais equívocos, o NELL tem um conjunto de componentes de aprendizado e um conjunto de temas a aprender. Dessa forma, um dado conhecimento só será considerado verdadeiro ou aprendido caso haja evidência suficiente da veracidade de tal conhecimento", conclui o pesquisador.

O professor Estevam Júnior explica que o DC tem uma extensão do grupo em que atua com os americanos chamada "Leitura da Web em Português", com patrocínio do CNPq e que está sediada no Laboratório de Aprendizado de Máquina da UFSCar. Esse grupo desenvolve um componente do NELL que deve adquirir conhecimento a partir de páginas web em Português e integrá-lo com a base em Inglês.

A matéria sobre o projeto de pesquisa Read The Web no jornal norte-americano The New York Times pode ser consultada no endereço http://www.nytimes.com/ 2010/10/05/ science/05 compute.html?_r=2&src=twt&twt=nytimesscience. Além disso, a base de conhecimento do NELL, bem como informações mais técnicas sobre os algoritmos computacionais utilizados podem ser encontradas no endereço eletrônico http://rtw.ml.cmu.edu.

Coordenadoria de Comunicação Social da Universidade Federal de São Carlos