Gestion SEO d’un Spider trap, les
fausses bonnes idées !

Lorsque nous sommes rentrĂ©s en comitĂ© de rĂ©daction et que le sujet des spider traps a Ă©tĂ© proposĂ©, certains ont […]

Maxime Gimaud

Lorsque nous sommes rentrĂ©s en comitĂ© de rĂ©daction et que le sujet des spider traps a Ă©tĂ© proposĂ©, certains ont dit « c’est so 2015 comme sujet Â» ! Et pourtant, dans les 12 derniers mois, plusieurs consultants Search Foresight ont Ă©tĂ© confrontĂ©s Ă  ce problème SEO. L’idĂ©e ici, est de comprendre ce qui a Ă©tĂ© bien ou mal mis en place et de faire la chasse aux idĂ©es et mĂ©thodes qui, de prime abord, vous semblent pertinentes, mais qui de toute Ă©vidence ne fonctionnent pas.

Spider Trap : définition

Un spider trap (piège à robots dans la langue de Molière) est un disfonctionnement du maillage interne d’un site web qui va générer une suite infinie de liens. Les spiders ou robots d’exploration comme Google Bot, Bing bot se servent des liens internes pour découvrir les pages d’un site web, les crawler et les indexer. Ce crawl a un début et une fin. Or un spider trap empêche que l’exploration d’un site web ne se termine, car les robots s’engouffrent dans le piège.

Si vous utilisez un crawler SEO, comme Botify ou Screaming Frog, et qu’un crawl est anormalement long et bloque une fois la barre des 99% atteinte, vous pouvez alors stopper le crawl et regarder ce qu’il se passe. Pour Google, c’est diffĂ©rent. Il n’a pas le temps, car il doit crawler d’autres sites, beaucoup d’autres sites ! Un autre inconvĂ©nient est que pendant qu’il explore ces URLs, en gĂ©nĂ©ral peu qualitatives, il loupe probablement votre super dernier contenu optimisĂ©.

La plupart du temps, c’est du moins ce que nous observons chez Search Foresight, le spider trap provient :

  • d’une navigation Ă  facettes accessible au crawl (en HTML) crĂ©ant des milliers de combinaison possibles ;
  • de la pagination sur ces URLs de facettes indexables ;
  • d’une mauvaise gestion du moteur de recherche interne crĂ©ant une nouvelle URL Ă  chaque recherche en crĂ©ant un lien hypertexte HTML ;
  • de la crĂ©ation d’URL Ă  paramètres Ă  chaque nouvelle session.

Si le spider trap est dĂ©tectĂ© suffisamment tĂ´t, c’est gĂ©rable ! On change de techno et c’est rĂ©glĂ© ! Si en revanche il est actif sur un domaine depuis plusieurs mois ou plusieurs annĂ©es, vous pouvez vous retrouver avec des milliers d’URLs dupliquĂ©es et indexĂ©es.

Cela pose notamment les problèmes suivants :

  • dilution du page rank interne ;
  • duplication ou quasi-duplication d’URL ;
  • gĂ©nĂ©ration de pages vides ;
  • gaspillage de budget de crawl (uniquement valable pour les très gros sites Ă  plusieurs centaines de milliers ou millions de pages).

S’en suis alors un long chemin de pĂ©nitence pour dĂ©sindexer toutes vos URLs et cela peut prendre longtemps, voire très longtemps ! Vous devrez ensuite gĂ©rer les (très probables) impacts SEO comme la baisse de nombre de mots clĂ©s positionnĂ©s, une baisse du trafic SEO, et quel mauvais signal envoyĂ© aux moteurs de recherche !

Ok, nous sommes peut-être un peu durs avec les robots, car des les faits Google s’engouffre beaucoup moins qu’avant dans ce type de piège et les impacts sont à présent modérés.

Éviter un Spider Trap : les fausses bonnes idĂ©es

Nous avons Ă©tĂ© et sommes encore confrontĂ©s Ă  des mĂ©thodes « old school Â» misent en place il y a quelques annĂ©es en pensant bien faire, mais qui de toute Ă©vidence montrent tĂ´t ou tard leurs limites, oĂą sont voir mĂŞme tout Ă  fait inefficaces !

Gérer les facettes avec le robots.txt

C’est une très, très mauvaise idĂ©e pour les raisons suivantes :

  1. cela n’empĂŞche pas l’indexation (le rapport « URLs indexĂ©es malgrĂ© le blocage au robots.txt Â» de la Google Search Console en est la preuve) ;
  2. cela n’aura pas d’incidence sur la dilution de la popularitĂ© interne ;
  3. c’est souvent source d’erreur humaine et donc de problème par la suite, en crĂ©ant par exemple des règles qui vont se contredire et donc rendre une directive inefficace !

Le robots.txt (et Google nous le redit) doit ĂŞtre utilisĂ© pour bloquer l’exploration de ressources non nĂ©cessaires Ă  la comprĂ©hension de votre contenu comme :

  • Certains Fichier JS ou CSS
  • Certaines Images ou vidĂ©os

En ce qui concerne le blocage d’une page web, voici ce qui nous est dit :

« N’utilisez pas le fichier robots.txt pour masquer votre page Web dans les rĂ©sultats de la Recherche Google. En effet, si d’autres pages redirigent vers la vĂ´tre avec un texte descriptif, celle-ci peut ĂŞtre indexĂ©e sans avoir Ă  ĂŞtre explorĂ©e. Si vous voulez empĂŞcher l’affichage de votre page dans les rĂ©sultats de recherche, utilisez une autre mĂ©thode, telle que la protection par mot de passe ou une directive noindex. Â»

L’utilisation de l’outil de gestion de paramètres dans la Google Search Console

Cet outil, assez ancien, n’a pas Ă©tĂ© migrĂ© sur la nouvelle GSC comme l’outil de dĂ©saveu de liens, mais il reste accessible via la section « anciens outils et rapports Â» en cliquant sur « paramètres d’URL Â».

Il permet de lister dans la Search Console les divers paramètres de vos URLs et de les dĂ©clarer pour « bloquer l’exploration du contenu en double associĂ© Ă  des paramètres Â».

Votre site web doit cependant respecter certaines conditions :

  • Votre site compte plus de 1 000 pages ;

Dans vos journaux, vous pouvez voir que Googlebot indexe un nombre important de pages en double, dont la seule différence réside dans les paramètres d’URL

(par exemple : example.com?product=green_dress et example.com?type=dress&color=green).

Exemple : j’utilise un moteur de recherche interne qui gĂ©nère des URLs avec le paramètre « / ?search= Â»

Je le dĂ©clare dans l’outil et je peux sĂ©lectionner diffĂ©rentes options :

Utiliser cet outil permet de donner des informations en plus à Google, mais cela ne l’empêchera pas de visiter vos URLs et de les indexer.

Rien ne dit que l’outil sera encore maintenu bien longtemps, et nous savons que cela ne fonctionne pas. Du moins, vous ne pouvez pas uniquement compter sur cet outil pour gérer vos paramètres ou vos facettes.

Au même titre que le robots.txt, si Google estime qu’il y a un intérêt à ce que vos URLs à paramètres soient crawlées et visitées, il le fera.

L’exemple ci-dessous (cas client anonymisĂ©) montre un paramètre renseignĂ© dans l’outil paramètre d’URL de la Search Console pour « en bloquer l’exploration Â».

Le paramètre « ?isPaginationRequest Â» est bien renseignĂ© dans l’outil en « n’affecte pas le contenu de la page Â»

Or, l’analyse de logs menée montre non seulement que les pages contenant le paramètre sont crawlées et visitées par Google et que dans certains cas, l’URL avec paramètre est plus intéressante pour Google, car plus visitée et crawlée que l’URL sans paramètre.

URLVisits : Count On Period By GoogleCrawls : Count On Period By Google
https://www.monsite.fr/frx/CatĂ©gorie/nom-de-la-categorie/nom-de-la-sous-categorie/nom-du-produit/marque/ref1235?isPaginationRequest=true 5918
https://www.monsite.fr/frx/Catégorie/nom-de-la-categorie/nom-de-la-sous-categorie/nom-du-produit/marque/ref123555

Ce problème, cumulĂ© Ă  d’autres, comme des facettes HTML accessibles au crawl nous donne un site avec un nombre d’URLs très Ă©levĂ© et une duplication de contenu importante :

Eviter un Spider Trap : les vraies bonnes idées

Dans le cas oĂą vous allez lancer un nouveau site avec des filtres et des facettes, nous vous conseillons les deux mĂ©thodes dĂ©crites ci-dessous : la technologie JS / Ajax, ou la mĂ©thode POST.

Utiliser la technologie JS / Ajax

Les facettes seront uniquement accessibles pour les utilisateurs et ne sont pas présentes dans le code source de la page et donc inaccessible aux robots.

Pour une implémentation idéale, nous vous conseillons de le faire côté client, c’est-à-dire côté navigateur et non coté serveur, car nous savons que Google exécute le JavaScript.

Utiliser la méthode PRG (Post-Redirect-Get) :

À l’inverse de la méthode GET, la méthode POST ne permet pas l’exécution des informations contenues dans un formulaire.

Un utilisateur clique sur un filtre d’une facette que vous ne voulez pas voir indexer, exemple : « voiture + coupĂ© cabriolet 1996-2000 Â». La requĂŞte serveur est envoyĂ©e en POST (pas d’exĂ©cution par Google).

Ensuite le serveur répond par une redirection vers l’URL filtrée et enfin, la redirection est suivie et renvoyée en GET pour que l’utilisateur puisse voir le résultat des filtres sélectionnés.

Elles doivent aussi être utilisées lorsque vous voulez corriger un spider trap existant, mais vous devrez dans suivre le processus expliqué plus bas.

Conseil de l’expert :

Le conseil que nous pouvons vous donner pour une bonne gestion des facettes est simple : il faut les rendre inexĂ©cutables pour les robots !

Rien ne vous empêchera par la suite d’ouvrir certaines facettes à l’indexation si elles ont un potentiel en étant associées à des requêtes SEO pertinentes pour votre activité.

Appliquez l’une des deux mĂ©thodes prĂ©sentĂ©es et rĂ©ellement fiables pour bloquer le crawl et l’indexation des facettes et ainsi Ă©viter un spider trap et vous serez sauvĂ© !

Comment corriger un Spider Trap actif ?

Si un spider trap est actif sur votre site et que, malheureusement, des milliers de pages dupliquĂ©es et ou non qualitatives sont indexĂ©es, voici les grandes Ă©tapes Ă  suivre :

1. Identifier d’où vient le problème.

En réalisant un crawl, vous pouvez identifier les URLs parasites et essayer de comprendre comment elles sont générées.

S’agissant des facettes, il faut vérifier si elles sont exécutables par les robots (lien en HTML). Essayez alors d’en faire une liste exhaustive, ou à défaut d’identifier des patterns qui vont permettre de les identifier.

2. Opérer un nettoyage via la désindexation

Une fois les URLs listées, il faudra les désindexer en y ajoutant une balise noindex dans l’en-tête http. Bien vérifier que les pages que vous voulez voir retirer de l’index de Google ne sont pas bloquées dans le robots.txt via une commande Disallow. SI elles sont bloquées, ajoutez d’abord la noindex, puis ouvrez les pages via la commande Allow: pour que vos noindex soient découvertes par les robots.

Vous pouvez aussi créer un sitemap dédié que vous pousserez via le robots.txt.

Attention, ce processus est très long. Cela peut prendre plusieurs mois et vos performances SEO peuvent chuter, en particulier si vous avez des positions sur des URLs de facettes, mais ce n’est pas toujours le cas. 

3. Fermez définitivement vos facettes

Faites Ă©voluer la technologie de votre site web en choisissant entre les deux mĂ©thodes dĂ©crites plus haut : le JS / Ajax ou la mĂ©thode PRG (Post-Redirect-Get).

Vous l’avez compris, un spider trap peut facilement être évité. Les clients les plus susceptibles d’avoir ce type de problème sont ceux qui utilisent un CMS maison. La plupart des CMS actuels préviennent ce genre de problème. Il est de toute façon impératif de faire toutes les vérifications nécessaires sur ce sujet si vous voulez, comme presque tous les sites e-commerce, utiliser des facettes pour l’affichage de vos produits. Utilisez la technologie et le cerveau de vos développeurs plutôt que des outils et des méthodes qui ne fonctionnent pas et peuvent à terme, réellement pénaliser votre SEO.

Découvrez nos autres articles

  • DĂ©finitions SEO
  • SEO
  • SEO Technique

Sitemap

Qu’est ce qu’un sitemap ? Sitemap dĂ©finition : un sitemap est un fichier XML, RSS ou texte dans lequel vous […]

Mathieu CHAPON
Lire l'article