Résolution de l'indexation, bien que bloquée par robots.txt dans la Google Search Console

Lorsque vous gérez le référencement de votre site Web, vous pouvez rencontrer l'état Indexée, mais bloquée par robots.txt dans le rapport d'indexation de la Google Search Console.

Cela vous indique qu'une page est indexée par Google mais bloquée à l'exploration en raison de règles dans votre fichier robots.txt. Bien que cette situation ne soit pas toujours problématique, elle peut entraîner une indexation incomplète ou inexacte.

Dans cet article, nous expliquerons ce que cela signifie, pourquoi cela se produit et comment le résoudre à l'aide d'All in One SEO.

Dans cet article

Comprendre le statut Indexée, mais bloquée par robots.txt
Identifier le statut Indexée, mais bloquée par robots.txt dans la Google Search Console
Comment trouver le statut Indexée, mais bloquée par robots.txt à l'aide du statut d'indexation dans la fonctionnalité Statistiques de recherche d'All in One SEO
Comment corriger le statut Indexée, mais bloquée par robots.txt avec AIOSEO
Éviter les problèmes similaires à l'avenir

Comprendre le statut Indexée, mais bloquée par robots.txt

Le statut Indexée, mais bloquée par robots.txt survient lorsque Google indexe une page avec succès mais ne peut pas explorer son contenu en raison d'une règle dans votre fichier robots.txt. L'exploration et l'indexation sont des processus distincts :

L'exploration est la manière dont les moteurs de recherche accèdent et analysent le contenu de votre site.
L'indexation consiste à ajouter la page à la base de données du moteur de recherche afin qu'elle puisse apparaître dans les résultats de recherche.

Lorsqu'une page est bloquée à l'exploration, Google peut l'indexer en utilisant uniquement les métadonnées ou les informations provenant de liens externes, ce qui entraîne une indexation incomplète.

Identifier le statut Indexée, mais bloquée par robots.txt dans la Google Search Console

Pour identifier les pages avec le statut Indexée, mais bloquée par robots.txt dans la Google Search Console (GSC), suivez ces étapes :

Connectez-vous à votre compte Google Search Console et sélectionnez la propriété (site Web) appropriée dans le menu déroulant Propriété de recherche (si vous gérez plusieurs sites Web).
Cliquez sur Pages sous Indexation dans la barre latérale gauche.

Dans le rapport Indexation des pages, faites défiler jusqu'à la section Améliorer l'apparence des pages et recherchez Indexée, mais bloquée par robots.txt. Cliquez dessus pour voir une liste détaillée de toutes les pages signalées pour cette raison.

Après avoir cliqué sur Indexée, mais bloquée par robots.txt, faites défiler jusqu'à la section Exemples pour afficher la liste des URL concernées. Cela vous aidera à comprendre si cela est intentionnel ou s'il y a des problèmes, tels que des liens brisés ou des types de redirection incorrects.

Comment trouver le statut Indexée, mais bloquée par robots.txt à l'aide du statut d'indexation dans la fonctionnalité Statistiques de recherche d'All in One SEO

IMPORTANT :
Avant de commencer, assurez-vous de connecter les Statistiques de recherche à votre compte Google Search Console. Vous trouverez des instructions sur la façon de vous connecter à votre compte Google Search Console ici.

REMARQUE :
La fonctionnalité d'état de l'index est disponible pour les clients ayant un plan Elite pour All in One SEO Pro. Passez à All in One SEO Pro dès aujourd'hui pour obtenir les Statistiques de recherche et de nombreuses autres fonctionnalités !

La fonctionnalité Statut d'indexation vous permet de voir les erreurs de Google Search Console directement dans votre tableau de bord WordPress. Pour ce faire, suivez ces étapes :

Cliquez sur Statistiques de recherche dans le menu All in One SEO, puis cliquez sur l'onglet Statistiques SEO.

Dans le rapport Performances du contenu, vous trouverez une colonne intitulée Indexé, qui affiche le statut d'indexation de vos pages à l'aide d'icônes codées par couleur.

Si l'une de ces icônes est orange ou rouge, survolez-la pour afficher une fenêtre contextuelle détaillée. Si le problème est un statut Indexé, bien que bloqué par robots.txt, la fenêtre contextuelle fournira des informations spécifiques, telles que des détails sur la redirection.

Alternativement, accédez à l'écran Tous les articles ou Toutes les pages dans WordPress. La colonne Détails AIOSEO sur cette page affiche les mêmes icônes de statut d'indexation que le rapport Performances du contenu. Survoler une icône ici affichera également les détails de toute erreur.

En utilisant ces méthodes dans All in One SEO, vous pouvez localiser et résoudre efficacement les URL affectées par le statut Indexé, bien que bloqué par robots.txt, garantissant une expérience utilisateur fluide et une indexation optimale pour votre site. Vous pouvez en savoir plus sur la vérification du statut d'indexation du contenu dans notre article ici.

Comment corriger le statut Indexée, mais bloquée par robots.txt avec AIOSEO

AIOSEO fournit des outils puissants pour diagnostiquer et résoudre les problèmes de robots.txt. Suivez ces étapes :

Mise à jour de vos règles robots.txt

Si la page affectée doit être indexée et explorée, vous devrez mettre à jour votre fichier robots.txt. Vous pouvez accéder à l'Éditeur Robots.txt en allant dans la section Outils du menu All in One SEO de votre tableau de bord WordPress. Ici, vous pouvez afficher et modifier votre fichier robots.txt directement.

Recherchez les règles de désactivation qui pourraient empêcher Googlebot d'accéder à la page affectée. Par exemple : Disallow: /exemple-page/

Si la page doit être accessible, modifiez ou supprimez la règle. Enregistrez les modifications pour appliquer les mises à jour.

Modification des règles à l'aide du générateur de règles

Pour modifier une règle que vous avez ajoutée, changez simplement les détails dans le générateur de règles et cliquez sur le bouton Enregistrer les modifications.

Suppression d'une règle dans le générateur de règles

Pour supprimer une règle que vous avez ajoutée, cliquez sur l'icône de corbeille à droite de la règle.

Vous pouvez lire notre article Utilisation de l'outil Robots.txt dans All in One SEO pour en savoir plus.

Testez votre blocage robots.txt à l'aide de l'outil d'inspection d'URL de GSC

Maintenant que vous avez mis à jour votre fichier robots.txt, vous pouvez tester si Google est toujours bloqué pour explorer la page à l'aide de l'outil d'inspection d'URL de Google Search Console.

Connectez-vous à Google Search Console et utilisez la barre de recherche en haut pour inspecter l'URL affectée.
Après l'inspection initiale, cliquez sur le bouton TESTER L'URL EN DIRECT dans le coin supérieur droit. Cela montre comment Googlebot voit actuellement la page.
Attendez que le test en direct soit terminé.
Dans le résultat du test en direct, vérifiez le statut Autoriser l’exploration ?.

S'il est indiqué Oui, votre correction du fichier robots.txt a réussi et Google peut désormais explorer la page.
S'il est toujours indiqué Non, développez la section Erreur d’exploration et vérifiez les détails du Blocage par robots.txt. Vous devrez peut-être consulter à nouveau l'Éditeur de robots.txt dans AIOSEO pour apporter d’autres ajustements.

Application des balises Meta Noindex pour les pages indésirables

Lorsque vous souhaitez qu’une page soit exclue des résultats de recherche, il est essentiel d’utiliser une directive Meta Robots No Index plutôt que de vous fier aux règles du fichier robots.txt. La distinction clé ici est que robots.txt gère uniquement l’exploration, pas l’indexation. L’exploration et l’indexation sont deux processus distincts.

Par exemple, bloquer une page dans robots.txt empêche les moteurs de recherche d’y accéder, mais cela n’empêche pas la page d’être indexée si elle a déjà été découverte par d’autres moyens, tels que les backlinks.

Pour vous assurer qu’une page n’est pas indexée, vous devez ajouter une balise Meta Robots No Index. Cela indique aux moteurs de recherche d’exclure la page des résultats de recherche. Cependant, si vous bloquez la même page dans robots.txt, les moteurs de recherche comme Google ne pourront pas l’explorer pour voir la directive No Index. Par conséquent, la page pourrait rester indexée car les moteurs de recherche ignorent la directive.

Par exemple, imaginez que vous ayez une page que vous ne souhaitez pas indexer. Si vous la bloquez dans robots.txt et ajoutez une balise No Index, les moteurs de recherche n’exploreront pas la page pour reconnaître la directive No Index, ce qui rend son objectif inutile.

Au lieu de cela, vous devriez permettre aux moteurs de recherche d’explorer la page, afin qu’ils puissent détecter la Meta Robots No Index et la supprimer de leur index.

Scénario d’exemple :

Méthode correcte : Autorisez les moteurs de recherche à explorer une URL, telle que https://example.com/private-info, et ajoutez une balise No Index dans l’en-tête de la page.
Méthode incorrecte : Bloquez https://example.com/private-info dans robots.txt et ajoutez une balise No Index simultanément.

Enfin, robots.txt est mieux utilisé pour bloquer des fichiers tels que des PDF, des images ou des flux, où l’ajout d’une directive No Index n’est pas possible. Par exemple, vous pourriez bloquer https://example.com/files/document.pdf dans robots.txt car les PDF ne prennent pas en charge les balises Meta Robots.

Pour ajouter une balise noindex à une page, modifiez la page dans WordPress et faites défiler jusqu’à la section Paramètres AIOSEO. Sous l’onglet Avancé, vous verrez un paramètre pour Paramètres Robots avec un interrupteur réglé sur Utiliser les paramètres par défaut.

Changez l’interrupteur sur désactivé, et vous verrez des cases à cocher sous l’en-tête Meta Robots.

Cochez la case Aucun index et cliquez sur le bouton Mettre à jour pour votre article. Cet article ne sera pas indexé par les moteurs de recherche et n’apparaîtra pas dans les résultats de recherche. Ce processus peut prendre un certain temps pour que Google désindexe vos URL.

Gestion des liens externes vers des pages bloquées

Si des sites externes renvoient vers une page bloquée, Google peut néanmoins l’indexer en utilisant des données limitées. Pour résoudre ce problème, contactez le site externe et demandez-lui de mettre à jour son lien vers une URL plus pertinente. Alternativement, utilisez le Gestionnaire de redirections d’AIOSEO pour créer une redirection 301 de la page bloquée vers une URL appropriée. Cela garantit que les utilisateurs et les moteurs de recherche sont dirigés vers le bon contenu.

NOTE :
La fonctionnalité Gestionnaire de redirections est disponible pour les clients ayant un plan Pro ou supérieur pour All in One SEO Pro.

Passez à All in One SEO Pro dès aujourd’hui pour obtenir le Gestionnaire de redirections et de nombreuses autres fonctionnalités !

Demander à Google de revalider vos URL

Après avoir appliqué ces corrections, connectez-vous à votre Google Search Console et utilisez l’outil Inspection d’URL pour tester l’URL concernée.

Cliquez sur Demander l’indexation pour informer Google des modifications. Cette étape invite Google à réexplorer la page et à mettre à jour son statut en conséquence.

Si vous avez résolu toutes les occurrences de l’erreur, vous pouvez demander à Google de revalider vos URL en masse. Sur la page Indexation des pages dans Google Search Console, cliquez sur le bouton Valider la correction. Cela informe Google que les problèmes ont été résolus et que les URL sont prêtes à être indexées.

Parfois, Google peut signaler de faux positifs. Dans de tels cas, la revalidation garantit que ces URL sont à nouveau examinées.

NOTE :
Si vous avez manqué une correction, la validation s’arrêtera lorsque Google trouvera une seule instance restante de ce problème.

De plus, il est important de se rappeler que vous ne devez pas cliquer sur Valider la correction à nouveau tant que la validation n’a pas réussi ou échoué. Vous pouvez en apprendre davantage ici sur la manière dont Google vérifie vos corrections.

Vous pouvez suivre la progression de la validation. La validation prend généralement jusqu’à environ deux semaines, mais peut dans certains cas prendre beaucoup plus de temps, alors soyez patient. Vous recevrez une notification par e-mail lorsque la validation réussira ou échouera.

Éviter les problèmes similaires à l'avenir

Pour éviter que cette erreur ne se reproduise :

Examinez régulièrement votre fichier robots.txt pour vous assurer qu’il correspond à vos objectifs d’indexation.
Utilisez les balises Meta Noindex pour les pages qui ne doivent pas apparaître dans les résultats de recherche, plutôt que de les bloquer dans robots.txt.
Surveillez les problèmes d’exploration et d’indexation de votre site à l’aide de Google Search Console et des outils intégrés d’AIOSEO.

L’erreur « Indexé, bien que bloqué par robots.txt » peut être résolue en mettant à jour votre fichier robots.txt, en ajustant les directives meta, ou en gérant les liens externes. En utilisant les outils complets d’AIOSEO, vous pouvez résoudre ces problèmes efficacement et maintenir un site web sain et optimisé.