Como funcionam os motores de busca?

Artigo atualizado por Joel Lee em 10/10/2017
Para muitos, o Google é a internet. É o ponto de partida para encontrar novos sites, e é indiscutivelmente a invenção mais importante desde a própria internet. Sem motores de busca, o novo conteúdo da web seria inacessível para as massas.
Mas você sabe como funcionam os motores de busca? Todo mecanismo de pesquisa possui três funções principais: rastreamento (para descobrir conteúdo), indexação (para rastrear e armazenar conteúdo) e recuperação (para buscar conteúdo relevante quando os usuários consultam o mecanismo de pesquisa).

Rastejar

Crawling é onde tudo começa: a aquisição de dados sobre um site.
Isso envolve a digitalização de sites e a coleta de detalhes sobre cada página: títulos, imagens, palavras-chave, outras páginas vinculadas, etc. Diferentes rastreadores também podem procurar detalhes diferentes, como layouts de página, onde os anúncios são colocados, se os links estão abarrotados, etc.
Mas como um site é rastreado? Um bot automatizado (chamado de "aranha") visita página após página o mais rápido possível, usando links de páginas para descobrir onde ir em seguida. Mesmo nos primeiros dias, as aranhas do Google podiam ler várias centenas de páginas por segundo. Hoje em dia, está nos milhares.
Como funcionam os motores de busca?  diagrama de rastreador da web
Quando um rastreador da web visita uma página, ele coleta todos os links na página e os adiciona à sua lista das próximas páginas para visitar. Ele vai para a próxima página em sua lista, coleciona os links nessa página e repete. Os rastreadores da Web também revisitam páginas passadas de vez em quando para ver se alguma mudança aconteceu.
Isso significa que qualquer site vinculado a partir de um site indexado será rastreado. Alguns sites são rastreados com mais freqüência, e alguns são rastreados para maiores profundidades, mas às vezes um rastreador pode desistir se a hierarquia de uma página do site for muito complexa.
Uma maneira de entender como um rastreador da web funciona é construir um você mesmo. Nós escrevemos um tutorial sobre como criar um rastreador web básico em PHP , então verifique se você possui alguma experiência de programação.
Como funcionam os motores de busca?  pesquisa do google no tablet
Observe que as páginas podem ser marcadas como "noindex", que é como pedir aos motores de busca que ignorem sua indexação. As partes não indexadas da internet são conhecidas como "web profunda" , e alguns sites, como os hospedados na rede TOR, não podem ser indexados pelos motores de busca. O que é TOR e roteamento de cebola? )O que é a Deep Web?É mais importante do que pensar oque é a Web profunda?É mais importante do que você pensa.A web profunda e a web escura são assustadoras e nefasta, mas os perigos foram exagerados.Aqui está o que eles realmente e como você pode acessá-los você mesmo!consulte Mais informação 

Indexação

A indexação é quando os dados de um rastreamento são processados ​​e colocados em um banco de dados.
Imagine fazer uma lista de todos os livros que você possui, seus editores, seus autores, seus gêneros, suas contagens de páginas, etc. O rastreamento é quando você penteia cada livro enquanto a indexação é quando você os logar na sua lista.
Agora imagine que não é apenas uma sala cheia de livros, mas todas as bibliotecas do mundo.Essa é uma versão em pequena escala do que o Google faz, que armazena todos esses dados em vastos centros de dados com milhares de petabytes de unidades .Tamanhos de memória explicados - Gigabytes, Terabytes e Petabytes em termos de LaymanTamanhos de memória explicados - Gigabytes, Terabytes e Petabytes em termos de LaymanÉ fácil ver que 500GB é mais de 100GB.Mas como os diferentes tamanhos se comparam?O que é um gigabyte para um terabyte?Onde um petabyte se encaixa?Vamos esclarecer isso!consulte Mais informação 
Aqui está uma espiada dentro de um dos centros de dados de busca do Google:
Como funcionam os motores de busca?  centros de dados de pesquisa do google
Crédito de imagem: Google

Recuperação e classificação

Recuperação é quando o mecanismo de pesquisa processa sua consulta de pesquisa e retorna as páginas mais relevantes que correspondem à sua consulta.
A maioria dos mecanismos de pesquisa se diferenciam através de seus métodos de recuperação: eles usam critérios diferentes para escolher quais páginas se encaixam melhor com o que você deseja encontrar. É por isso que os resultados da pesquisa variam entre o Google e o Bing, e por que o Wolfram Alpha é tão útil .10 Usos legais de Wolfram Alpha Se você leu e escreve na língua inglesa10 Usos legais de Wolfram Alpha Se você leu e escreveu na língua inglesaMe levou algum tempo envolver minha cabeça em torno de Wolfram Alpha e as consultas que usa para explodir esses resultados.Você precisa mergulhar profundamente no Wolfram Alpha para realmente explorá-lo para ...Leia mais 
Os algoritmos de classificação conferem sua consulta de pesquisa em bilhões de páginas para determinar a relevância de cada um. As empresas protegem seus algoritmos de classificação como segredos patenteados da indústria devido à sua complexidade. Um algoritmo melhor se traduz em uma melhor experiência de pesquisa.
Eles também não querem que os criadores da web usem o sistema e subam injustamente até o topo dos resultados da pesquisa. Se a metodologia interna de um motor de busca já acabou, todos os tipos de pessoas certamente explorariam esse conhecimento em detrimento de pesquisadores como você e eu.
Como funcionam os motores de busca?  mecanismo de pesquisa do html da caneta meta
Crédito de imagem: photovibes via Shutterstock
A exploração do mecanismo de pesquisa é possível, é claro, mas não é tão fácil.
Originalmente, os motores de busca classificavam os sites pela frequência com que as palavras-chave apareceram em uma página, o que levou a "preenchimento de palavras-chave" - ​​preenchendo páginas com absurdo de palavras-chave pesadas.
Em seguida, veio o conceito de importância do link: os sites de motores de busca valiosos com muitos links recebidos porque eles interpretaram a popularidade do site como relevância. Mas isso levou a vincular spam em toda a web. Hoje em dia, os links de links dos motores de busca dependem da "autoridade" do site de ligação. Os mecanismos de pesquisa colocam mais valor em links de uma agência governamental do que links de um diretório de links.
Hoje, os algoritmos de classificação estão envoltos em mais mistérios do que nunca, e "otimização do mecanismo de pesquisa" não é tão importante. Os bons rankings dos mecanismos de pesquisa agora provêm de conteúdo de alta qualidade e excelentes experiências de usuários.Demystify SEO: 5 guias de busca de otimização de motor que o ajudam a começarDemystify SEO: 5 guias de busca de otimização de motor que o ajudam a começar Odomínio do mecanismo de pesquisa leva conhecimento, experiência e muitos testes e erros.Você pode começar a aprender os fundamentos e evitar erros de SEO comuns facilmente com a ajuda de muitos guias de SEO disponíveis na Web.consulte Mais informação 

Qual é o próximo para os motores de busca?

Ah, agora há uma pergunta interessante. A resposta é "semântica": o significado do conteúdo da página. Você pode ler mais sobre a nossa visão geral da marcação semântica e seu impacto futuro.
Mas aqui está a essência disso.
Agora, você pode procurar "cookies sem glúten", mas os resultados podem retornar receitas para cookies sem glúten. Em vez disso, você pode encontrar receitas de cookies regulares que dizem "Esta receita não é sem glúten". Ele tem as palavras-chave corretas, mas o significado errado.
Com a semântica, você pode procurar receitas de cookies e, em seguida, remover certos ingredientes: farinha, nozes, etc. Você também pode reduzir os resultados para apenas receitas com tempos de preparação inferiores a 30 minutos e pontuações de 4/5 ou maiores. Isso seria legal, certo? É aí que estamos indo!
Ainda confuso sobre o funcionamento dos motores de busca? Veja como o Google explica o processo:
Se você achou isso interessante, você também gostaria de aprender sobre como os mecanismos de pesquisa de imagens funcionam .
Crédito da imagem: wwwebmeister / Depositphot