samedi, novembre 19, 2011

Google Panda et le contenu dupliqué

Mots clés Technorati : ,,

Google Panda pénalise principalement les contenus dupliqués et ceux qui sont produits à la chaine dans un objectif purement commercial. Cependant, on doit distinguer différents types de contenus dupliqués et on peut les classer en trois catégories :

  • Le contenu dupliqué à 100%
  • Le contenu partiellement dupliqué
  • Le contenu dupliqué de manière involontaire

Le contenu dupliqué à 100% est simplement deux pages qui sont totalement identiques. Cela peut-être sur le même domaine, mais Google pénalise aussi ceux qui sont sur des domaines croisés. De même, on doit vraiment comprendre le concept de page selon Google et ce n’est pas une page individuelle sur votre site, mais une URL. Pour Google, toutes les URL sont des pages individuelles et c’est pourquoi, il est fréquent de rencontrer du contenu dupliqué même si on n’a rien à se reprocher.

Le contenu partiellement dupliqué se produit quand on copie certaines parties du texte à différents endroits du site parce que les sujets sont similaires. Ce problème se produit principalement quand on crée des fiches de produit, car les informations sont quasiment identiques.

Enfin, le contenu dupliqué de manière involontaire se rapproche plus de l’analyse sémantique plus que de la comparaison littérale. L’analyse sémantique permet de comprendre le texte et Google peut sanctionner s’il trouve que deux textes présentent des similarités même si l’un d’eux a bénéficié d’une réécriture.

Le problème avec Google Panda est qu’il pénalise tout le site plutôt que la page qui est coupable. Maintenant, on ignore si Google Panda prend en compte tous les types de contenus dupliqués, mais on ne doit jamais oublier que c’est l’un des principaux critères.

Certains prétendent qu’ils n’ont jamais de contenus dupliqués à 100%, mais ils oublient la pagination. Cette dernière est le fait de créer des liens de navigation dans la page (pour le sommaire de l’article par exemple). Et Paf ! voilà votre contenu dupliqué, car n’oubliez pas que Googlebot analyse l’URL et non la page. Si cette dernière contient 4 liens de sommaire, alors Google estimera que vous avez 4 contenu dupliqué. L’une des solutions pour éviter ce problème est de mettre l’attribut no follow dans la pagination, mais cela reste difficile dans les CMS qui génèrent ces liens à la volée.

Comment détecter du contenu dupliqué sur son site

Il existe deux façons de détecter du contenu dupliqué et la première est d’utiliser les outils de webmestre de Google. Ce dernier possède des options pour détecter des balises title et meta en double et cela signifie généralement que vous avez du contenu dupliqué. La seconde méthode est d’utiliser la syntaxe suivante dans Google :

Titre de votre page site:votresite.com

Vous devez simplement copier le titre exact de votre page et le rechercher en limitant avec votre nom de domaine. Théoriquement, un bon site ne doit afficher qu’un seul résultat sinon cela devient du contenu dupliqué.

Cependant, on ne peut pas être clean à 100 %, mais on doit limiter les dégâts les plus importants pour éviter de se faire pénaliser inutilement par Google Panda.