Google a mis à jour sa liste de robots d'exploration officiels en ajoutant le nom et les informations d'un robot d'exploration relativement inconnu que les éditeurs ont vu de temps en temps, mais pour lequel aucune documentation n'existait à ce jour.
Bien que Google ait ajouté une documentation officielle pour ce robot, les informations fournies semblent encourager des éclaircissements supplémentaires.
Robots d'exploration spéciaux Google dispose de plusieurs types de robots d'exploration (également appelés robots et araignées).
Les différentes formes de robots d'exploration comprennent :
- Robots d'exploration courants Ces robots sont principalement utilisés pour indexer différents types de contenus. Cependant, certains robots d'exploration courants sont également utilisés pour les outils de test de recherche, pour un usage interne par l'équipe produit de Google et pour l'exploration liée à l'IA.
- Récupérateurs déclenchés par les utilisateurs Ce sont des robots activés par les utilisateurs. Cela inclut des utilisations telles que la récupération de flux ou la vérification de sites.
- Crawlers spéciaux Il s'agit de cas particuliers tels que la vérification de la qualité des pages d'annonces mobiles ou des messages de notification push via les API Google. Ces robots ne respectent pas les directives globales d'utilisation dans le fichier robots.txt qui sont marquées d'un astérisque (*).
La nouvelle documentation concerne le User Agent Sécurité Google. Le robot d'exploration n'est pas nouveau, mais la documentation l'est.
Google-Safety Crawler La documentation du robot d'exploration Google-Safety dans la catégorie Special Crawler est utilisée par les processus Google pour détecter les logiciels malveillants.
Unique parmi les robots d'exploration spécialisés, le Google-Safety Crawler ignore complètement toutes les directives du fichier robots.txt.
Voici ce que dit la nouvelle documentation de Google-Safety Crawler :
L'agent utilisateur Google-Safety gère l'exploration spécifiquement pour signaler les abus, tels que la découverte de logiciels malveillants pour les liens accessibles au public sur les propriétés Google.
Cet agent utilisateur ignore les règles du fichier robots.txt.