Encontrar a informação que nos interessa na Internet pode ser como procurar agulha em palheiro: uma tarefa complicada, demorada e, muitas vezes, frustrante nos resultados. Ao longo dos anos, e à medida que a Internet foi crescendo, foram sendo criados vários mecanismos e ferramentas para auxiliar a localização e acesso aos imensos recursos informativos da Rede.
Existem dezenas de ferramentas de pesquisa na World Wide Web. Esses índices, catálogos e bases de dados são constituídos de duas formas básicas:
Os termos a utilizar nas pesquisas devem ter em conta estes dois tipos de instrumentos. Assim, tendencialmente, na pesquisa de bases de dados geradas a partir de robots (especialmente se indexam o texto integral dos documentos) podem utilizar-se termos mais específicos e em diferentes línguas (de acordo com as utilizadas nos documentos que procuramos), enquanto na pesquisa de directórios e catálogos gerados por intervenção humana devem usar-se termos mais genéricos, que correspondam aos temas e sub-temas da classificação utilizada e/ou a palavras dos títulos dos documentos.
Podem ainda ser utilizadas algumas ferramentas que interrogam simultanemente diversos índices e bases de dados. As óbvias vantagens de facilidade de utilização e rapidez, não podem fazer esquecer que também existem algumas desvantagens.
É necessário saber o que se procura para poder escolher adequadamente qual a ferramenta de pesquisa que se deve utilizar. Antes de seleccionar a ferramenta de pesquisa deve tentar-se responder a questões como: que tipo de informação/serviço pretendemos (endereço de correio electrónico, software, documentos da Web, etc), a localização e a língua dos recursos são irrelevantes (queremos uma pesquisa "universal" ou limitada a determinada região e/ou língua), damos prioridade à relevância ou à exaustividade dos resultados.
Numa biblioteca não irá certamente procurar a tradução de uma palavra numa enciclopédia, nem uma definição detalhada de um conceito num dicionário. Cada tipo de obra de referência serve determinados objectivos. Na Internet passa-se a mesma coisa. Por isso, é fundamental a escolha da(s) ferramenta(s) adequadas para cada tipo de pesquisa.
Devemos, também, escolher que tipo de abordagem queremos utilizar: percorrer recursos (browsing) ou pesquisá-los directamente (find, search). Em termos genéricos e simplistas:
A utilização de directórios ou listas organizadas de recursos para browsing é aconselhável quando se pretende informação de carácter mais genérico, quando se sabe onde se encontrará alguma informação (por exemplo, percorrer o BUBL pode ser uma boa solução quando se procura informação de biblioteconomia), quando se privilegia a relevância e a qualidade sobre a exaustividade.
A utilização da pesquisa directa é aconselhável quando não se sabe muito bem por onde começar, quando se pretende informação muito específica, quando se privilegia a exaustividade sobre a relevância, quando se tem pouco tempo para navegar através da informação.
A forma e a sintaxe das expressões de pesquisa variam de serviço para serviço. Geralmente, devem utilizar-se palavras-chave separadas ou por operadores booleanos (and, or, not), ou simplesmente por espaço. Algumas ferramentas permitem ainda pesquisar palavras adjacentes ou frases e utilizar truncatura.
Outro aspecto a considerar é a selecção dos termos de pesquisa. De uma forma geral e simplificando o problema, devem utilizar-se termos específicos quando se interrogam bases de dados que indexam o texto integral dos documentos, e termos mais genéricos quando se interrogam os directórios mantidos por intervenção humana (porque, neste último caso, a pesquisa irá ser realizada apenas nos títulos e nas descrições dos documentos e/ou nas categorias temáticas em que esses directórios estão organizados).
Na nossa pesquisa utilizámos, entre outros, o Altavista e o Yahoo!, o Hotbot e o Webcrawler, o Sapo e o Cusco, a DialogWeb.
Os dois primeiros são dois motores de busca generalistas internacionais. Foram eles que criaram os modelos que influenciaram todos os outros. No Yahoo!, que começou por ser uma simples lista de sites organizada por temas, a catalogação dos sites é feita manualmente o que significa que há um filtro humano no processo. Bom, por um lado, já que é difícil que um site incluido numa lista não seja relevante para o tema que se pretende e mau, por outro, pois a intervenção humana torna o processo muito lento, pelo que um site demora vários meses a aparecer nas listas. Recorrer ao Yahoo! é como recorrer a uma lista telefónica de há dois anos.
O Altavista, por sua vez, tem como defeito a possibilidade de qualquer pessoa poder criar e submeter páginas para registo. Isto implica um crescimento exponencial, o que faz com que uma pesquisa dê como resultado milhares de páginas, algumas centenas sem qualquer interesse e, muitas delas, citando-se umas às outras e outras completamente irrelevantes.
Existem outros motores, que não utilizámos nesta pesquisa, que utilizam pesquisas em vários outros motores de busca: é o caso do Mamma que utiliza uma apresentação de resultados combinados, extraindo as páginas mais relevantes apresentadas por cada sistema.
Em Portugal, o SAPO (Serviço de Apontadores Português), o primeiro a existir, é profundamente desorganizado e sofre do mesmo defeito do Yahoo!: não indexa todas as páginas do site e não aceita mais do que uma inscrição por cada conjunto de páginas. O Cusco, o melhor motor de busca nacional, tem alguma semelhança com o Altavista e possui, para além da lista das páginas, de um catálogo de sites.
Em língua portuguesa, também poderíamos destacar o Achei e o Prokura, dois motores de busca brasileiros, talvez as melhores portas de entradas na Net em português.
De salientar que o Altavista, para além de todos os defeitos, será o melhor motor internacional, até porque permite traduções automáticas em várias línguas e ver páginas apenas numa língua determinada.
O Hotbot, que se intitula o mais completo index Web online, permite fazer pesquisas por todas ou quaisquer palavras, por uma frase ou nome. O WebCrawler, com a mais relativamente pequena base de dados, só permite pesquisas totais e só nos permite obter uma lista de títulos.
Finalmente, temos a DialogWeb, que nos permite aceder a bluesheets, substituindo os ficheiros impressos e que contém muita informação distribuida por dezenas de bases de dados. Contudo, apresenta alguns problemas: para ou desliga frequentemente; quando estamos ligados, regressa regularmente ao ecran inicial obrigando-nos a fazer novo login; as páginas "expiram" quando se utiliza o botão back; estrutra de preços elevada.
Ao utilizar estas ferramentas, um dos pontos a não esquecer é que a pesquisa está baseada simplesmente em técnicas de indexação automática, devolvendo, muitas vezes , resultados errados. Por outro lado, a pesquisa é excessivamente lenta, dada a reduzida velocidade de acesso à Internet.