Parceiro: Camisetas Hacker

Camisetas para Nerds & Hackers

terça-feira, 18 de janeiro de 2011

Conceitos básicos do Google: como o Google rastreia, indexa e publica na web.

Conceitos básicos do Google: como o Google rastreia, indexa e publica na web.

Ao sentar em frente ao seu computador e fazer uma pesquisa no Google, você visualiza quase que instantaneamente uma lista de resultados de toda a web. Como o Google encontra páginas que correspondem à sua consulta e determina a ordem dos resultados de pesquisa? Em termos mais simples, a pesquisa na web é como procurar em um livro muito grande com um índice impressionante que diz exatamente onde tudo está localizado. Quando você faz uma pesquisa no Google, os programas verificam o índice para determinar os resultados de pesquisa mais relevantes que devem ser retornados ("publicados") para você.
Os três principais processos de retorno de resultados de pesquisa são:

Rastreamento
                                                            
O rastreamento é o processo pelo qual o Googlebot descobre páginas novas e atualizadas para serem incluídas no índice do Google.
Nós usamos um grande conjunto de computadores para buscar (ou "rastrear") bilhões de páginas na web. O programa que faz a busca é chamado Googlebot (também conhecido como robô, bot ou spider). O Googlebot usa um processo de algoritmos: programas de computador que determinam quais sites devem ser indexados, com que frequência e quantas páginas devem ser buscadas em cada site.
O processo de rastreamento do Google começa com uma lista de URLs de páginas web, gerada a partir de processos anteriores de rastreamento e aumentada com dados dos Sitemaps fornecidos por webmasters. Conforme o Googlebot visita cada um desses sites, ele detecta os links de cada página e os inclui na sua lista de páginas a serem rastreadas. Novos sites, alterações em sites existentes e links inativos serão detectados e usados para atualizar o índice do Google.
O Google não aceita pagamento para rastrear um site com mais frequência, o mantem a área de pesquisa de  negócios separada dos serviços geradores de receita do AdWords.
Indexação
                                                              
O Googlebot processa cada uma das páginas que ele rastreia para compilar um imenso índice com todas as palavras encontradas e sua localização em cada página. Além disso, processamos informações incluídas nos principais atributos e tags de conteúdo, como tags Title e atributos ALT. O Googlebot pode processar muitos tipos de conteúdo, mas não todos. Por exemplo, não podemos processar o conteúdo de alguns arquivos de mídia elaborada ou páginas dinâmicas.
Publicação de resultados
                                                            
Quando um usuário insere uma consulta, nossas máquinas pesquisam o índice de páginas correspondentes e retornam os resultados que acreditamos ser os mais relevantes para os usuários. A relevância é determinada por mais de 200 fatores, entre eles o PageRank para uma determinada página. O PageRank é a medida da importância de uma página com base nos links de entrada de outras páginas. Em termos mais simples, cada link para uma página em seu site a partir de outro site adiciona um PageRank ao seu site. Nem todos os links são iguais: o Google trabalha com afinco para melhorar a experiência do usuário, identificando links de spam e outras práticas que afetam negativamente os resultados de pesquisa. Os melhores tipos de links são aqueles retornados com base na qualidade do seu conteúdo.
Para que o seu site seja bem classificado nas páginas de resultados de pesquisa, é importante verificar se o Google pode rastrear e indexar o seu site corretamente. As Diretrizes para webmasters destacam algumas das melhores práticas que podem ajudar você a evitar as armadilhas comuns e melhorar a classificação do seu site.
Os recursos do Google Pesquisas relacionadas, Sugestões de ortografia e Google Suggest foram desenvolvidos para ajudar os usuários a economizar tempo exibindo termos relacionados, erros de digitação comuns e consultas populares. Como os  resultados de pesquisa do google.com.br, as palavras-chave usadas por esses recursos são geradas automaticamente rastreadores da web e algoritmos de pesquisa. Exibem essas sugestões apenas quando acham que podem economizar o tempo do usuário. Se um site estiver bem classificado para uma palavra-chave, é porque o google determinal com base em algoritmos que seu conteúdo é mais relevante para a consulta do usuário.


Fonte:http://www.google.com/support/websearch/bin/answer.py?answer=106230

Um comentário:

  1. muito bom!
    mais pq outros buscadores não tem esse poder de pesquisa usando operadores!

    ResponderExcluir

............