Sitemap défaillant

le Ven 30 Sep 2011 17:00

Cet après-midi Google nous dit que certaines pages importantes sont bloquées par robots.txt.

Nous en sommes assez surpris puisque ce fichier ne bloque :
  • que des dossiers et pages que nous ne voulons pas voir explorer, par exemple le dossier des PDF ou des includes ;
  • ou des dossiers ou pages qui n'existent plus et dont nous avons demandé un remove URL.

Code: Tout sélectionner
# robots.txt du site
# http://www.phpdesigner.fr

# Ce fichier a pour ambition d'empêcher l'exploration et l'indexation
# de certaines parties de votre site web par les robots
# géré par des robots tels que ceux de Yahoo et Google.
# Il indique à ces robots où ne pas aller sur votre site.
# Vous économisez ainsi des ressources de bande passante sur votre serveur.

# Pour plus d'informations sur la norme robots.txt, consultez:
# http://www.robotstxt.org/wc/robots.html

User-agent: *
# Directories
Disallow: /dossier_existant/
Disallow: /autre_dossier_existant/fichier_exitant.php
Disallow: *autre_fichier_existant.php
Disallow: /dossier_qui_a_existé_et_qui_n'existe_plus/
Disallow: /dossier_existant/sous_dossier_de_même_nom_mais_créé_par_erreur_par_prestashop/

# sitemap
Sitemap: http://www.phpdesigner.fr/sitemap.xml


Comment corriger ça ? Merci pour votre aide.


Bénéficiez de la qualité française. Utilisez le Logiciel de conception web phpDesigner 8 nouvelle version.

Avatar de l’utilisateur   
phpDesigner
Like Rank Total : 1    
Actif
 
Messages : 695
Inscription : Sam 13 Aoû 2011 08:54
Localisation : Clermont-Ferrand







    
 

le Ven 30 Sep 2011 18:40

Personnellement j'ajoute toujours un allow généraliste (pour libérer les pages autorisées) et le sitemap dessous :

Code: Tout sélectionner
User-agent: *
Disallow: /intranet/
Disallow: /robotstats/
Disallow: /user/
Disallow: /forum/
Disallow: /pub/
Disallow: /api/
Disallow: /includes/

Allow: /
sitemap: http://www.microsupport.fr/sitemap.xml


depannage informatique - referencement

Avatar de l’utilisateur   
rsw
Like Rank Total : 10    
Actif
 
Messages : 2083
Inscription : Mar 24 Mai 2011 13:43
Localisation : Paris

le Sam 1 Oct 2011 07:41

Nous avons trouvé. Ou plutôt, le chef a trouvé si j'en juge le petit mot qu'il ma laissé.

Comme indiquée, notre robot.txt comporte des dossiers qui n'existent plus, dont l'URL a été supprimée dans WMT, et pour lesquels les fichiers ont été redirigés sur leur nouvelle adresse.

Or, un dossier ou un fichier ne peut pas être supprimé de Webmaster tool tant qu'il est redirigé. Il faut qu'il génère un code 404. C'est seulement quand il n'existe plus qu'on peut l'interdire d'exploration dans robot.txt.

Ce qui est pour le moins farfelu.


Bénéficiez de la qualité française. Utilisez le Logiciel de conception web phpDesigner 8 nouvelle version.

Avatar de l’utilisateur   
phpDesigner
Like Rank Total : 1    
Actif
 
Messages : 695
Inscription : Sam 13 Aoû 2011 08:54
Localisation : Clermont-Ferrand

le Jeu 6 Oct 2011 09:29

Il est mauvais pour le ref de bloquer des pages qui n'existent plus : il vaut bien mieux les rediriger avec une 301 indéfiniment.
Google n'aime pas tomber sur des pages qui ont disparu, mais surtout, bloquer des pages par un fichier robots.txt ou par balise meta, c'est créer des pièges à Page Rank, ces pages bénéficient du jus de liens transmis par les autres pages qui les lient ou qui les liaient, et comme elles sont en cul de sac, elles ne restituent rien.
Moins on en met dans ce robots.txt, mieux on se porte.


Mes images gratuites

Avatar de l’utilisateur   
campagne    
Actif
 
Messages : 50
Inscription : Lun 26 Sep 2011 18:45
Localisation : Dijon Bourgogne France

le Jeu 6 Oct 2011 09:59

Le mieux que j'ai vu comme pratique pour le choix de la redirection 301, quand l'url ne correspond plus à rien sur le site, c'est de rediriger vers une page de plan de site.


SAPA, N°1 du traitement termite depuis 1964: http://www.sapahabitat.com/

Avatar de l’utilisateur   
36positions
Like Rank Total : 1.5    
Actif
 
Messages : 2297
Inscription : Mar 9 Aoû 2011 12:10
Localisation : Caen

le Ven 27 Avr 2012 18:31

Le Google Webmaster Tools nous prévient que des URL sont bloquées par le fichier robots.txt dans le cas suivant :

Des liens interne, de notre site internet pointe vers une page que l'on ne souhaite pas voir apparaître dans les réponses de Google (Comme par exemple un lien en pied de page vers les C.G.V., et l'on ne souhaite pas faire apparaître la page des C.G.V. dans les réponses de Google).
Donc, cette page des C.G.V. à été interdite dans le fichier robots.txt !

Dans ce cas, Google Webmaster Tools nous informe que qu'une page importante à été bloqué par le fichier robots.txt !

Résolution du problème :
Utiliser l’outil de suppression d'URL de Google Webmaster Tools pour supprimer l'URL des C.G.V. qui a sans doute été enregistré par Google, puis ajouter un tag NoFollow sur la balise <href> du lien vers les C.G.V.

Ainsi, les conditions seront réunis pour que Google comprenne que vous ne souhaitez pas que votre page C.G.V. soit comptabilisée par Google ! :D



Avatar de l’utilisateur   
cssfr    
Débutant
 
Messages : 9
Inscription : Ven 23 Déc 2011 22:43
Localisation : Toulouse







    
 

Retourner vers Demande de conseils ou parler de son site




Autres sujets proches :
Sitemap et site à plusieurs millions de pages       28/10/2011
Fichier sitemap sur BING       11/12/2011
Suprimer le Sitemap & laisser les SE se débrouiller       21/03/2012
Des BL brisé ? sitemap solution.       21/05/2012
[Sitemap] Un xml pour les crawlers       02/09/2008
Sitemap pour site dynamique       25/03/2011
sitemap       27/04/2012