O Google anunciou, há alguns dias, o novo sistema de índice de pesquisa da empresa, chamado Caffeine. Em comparação com o sistema de pesquisa anterior, o Caffeine consegue oferecer resultados 70% mais atualizados para as pesquisas na web.
Atualmente, quando se faz uma pesquisa no Google Search, ela não é feita em tempo real. Os resultados exibidos fazem parte, na verdade, do sistema de índice da web do Google. Fazendo uma rápida analogia, o índice do Google funciona como o de uma revista: ele auxilia o usuário a encontrar o que quer, da maneira mais rápida e fácil possível.
Em um vídeo, que pode ser visto abaixo, Matt Cutts, engenheiro chefe do time de webspam do Google, explica como funciona o sistema de indexação da empresa. O vídeo está disponível somente em inglês.
Com o crescimento do número de imagens e vídeos, e com atualizações de páginas e divulgação de notícias em tempo real, o conteúdo da web está cada vez maior, com páginas mais ricas e complexas. A essência do Caffeine é acompanhar a gigantesca evolução pela qual a internet passa a cada segundo. Afinal, quem pesquisa, quer um resultado relevante e o mais atualizado possível. E, quem publica, quer que seu conteúdo seja encontrado o mais rapidamente possível.
Para que vocês consigam compreender a real diferença entre o sistema antigo de indexação e o Caffeine, vou tentar explicar o modo com que cada um indexa a web.
O sistema antigo era composto por várias camadas. A atualização de umas era mais frequente que a de outras. A camada principal era atualizada a cada duas semanas. Para a atualização de cada camada, era necessário analisar toda a web, fazendo com que houvesse um delay significativo entre a indexação e a disponibilização nos resultados de buscas.
Já no caso do Caffeine, a análise da web é dividida em pequenas partes, que são atualizadas continuamente e no mundo todo. Assim, sempre que uma nova página é encontrada, ou uma atualização em uma página já indexada, ela é adicionada diretamente ao índice, fazendo com que os usuários encontrem os resultados mais atuais, independente de quando e de onde foram publicados.