lundi, septembre 27, 2010

Les éléments qui composent l'algorythme de Google

De nombreuses rumeurs courent sur l'algorythme de Google et son fonctionnement, et en 2003, on estime que cette technologie a intégré les trois éléments suivants :
  • Le PageRank
  • Le Hiltop
  • Le Topic Sensitive PageRank
  • Le Latent Semantic Indexing
  • Le Temporal Analysis
Le PageRank - Tout le monde connait cette technologie basée sur les liens entrants et leur popularité. En fait, certains l'utilisent uniquement dans des buts marketings en prétendant qu'avoir un bon PageRank est suffisant. C'est un terme générique pour désigner les technologies des moteurs de recherche, mais cela ne signifie pas que le PageRank est meilleur que les technologies utilisées par Bing ou Yahoo.

Hiltop - C'est un algorythme qui classe les résultats selon une échelle experte de notation. Il utilise des documents experts pour calculer la pertinence. Ce document contient des liens vers des milliers de ressources. Par exemple, si la page A est liée à la page B qui est elle-même connectée à la page C, alors une liaison est possible entre les pages A et C. Hiltop considére également que le titre et les en-têtes de la page sont si importants qu'ils valent plus que les liens dans le texte. Il vérifie également vos liens entrants et sortants pour évaluer cette page. Le principal atout d'Hiltop est qu'il vérifie la thématique des liens, aussi il est impossible de fausser les résultats en achetant aléatoirement des liens. Le problème de Hiltop est qu'il ne possède pas assez de documents experts pour englober tout le Web. Le moteur de recherche Teoma utilise principalement l'algorythme de Hiltop.

Le Topic Sensitive PageRank (TSPR)- Cette technologie calcule les résultats selon le contexte de la requête. Ce contexte peut être l'historique Web de l'utilisateur, ou l'endroit où on effectue la recherche (par exemple, une recherche provenant d'un site d'infographie affichera prioritairement des résultats de cette thématique). Connaitre profondément le Hiltop et le Topic Sensitive PageRank ne sont pas nécessaires dans le SEO, mais cela sert à prévoir des échecs possibles dans son référencement.

Le Latent Semantic Indexing (LSI) - Cet algorythme permet à une machine de comprendre le langage humain par des formules mathématiques. Le LSI ne regarde pas uniquement des mots-clés ou des liens, mais il peut comprendre la totalité de la page en la comparant avec des pages similaires. Si un document possède de mots similaires, alors le Latent Semantic Indexing lui donne un score sémantique favorable et vice versa. Attention, la sémantique n'est pas un synonyme des mots, mais bien la cohérence de plusieurs mots sur la thématique. Par exemple, les mots Tour Eiffel, Louvre, PSG, Matignon désignent sémantiquement la ville de paris, mais ils ne sont aucun cas synonymes. On ignore l'importance du Latent Semantic Indexing pour Google, mais c'est un excellent moyen de combattre des pages spam donc... Un bémol est que le LSI nécessite beaucoup de temps de calcul, et le succès de Google vient de la rapidité du traitement de ses requêtes.

Le Temporal Analysis - Cette technologie vérifie l'entourage de la page tels que la fréquence de sa mise à jour, le contenu de cette mise à jour, depuis quand cette page est publiée, etc. Il contrôle également le nombre de liens entrants sur une période donnée, l'évolution du PageRank, et le contexte de tous les liens sur la page (Est-ce qu'ils sont pertinents ou non).

La première tactique pour un nouveau site est d'avoir quelques dizaines de liens entrants, mais Google peut le sanctionner si ce nombre est trop important. C'est même l'une des théories pour expliquer l'effet Sandbox (votre site n'apparait pas dans les résultats alors que vous l'avez parfaitement indexé, j'expliquerais cet effet en détail dans un prochain article). On recommande d'avoir des liens progressivement et non d'un seul coup, car Google le détectera instantanément. Le Temporal Analysis vérifie aussi combien de fois votre site est marqué dans les favoris, quels sont vos annonceurs et d'autres informations qu'il peut collecter avec la Google Toolbar.

On n'a aucune idée de l'importance de tous ces technologies dans le traitement final de Google, mais on sait qu'il les prend en compte.