Quel genre de travail font les robots araignées ? Les moteurs de recherche sont leurs robots et leurs araignées. Qui sont les robots de recherche

Robot de recherche (bot, araignée, araignée, robot d'exploration)- Ce programme spécial moteur de recherche conçu pour analyser les sites sur Internet.

Beaucoup de gens ne savent pas que les robots d’analyse collectent et stockent simplement des informations. Ils ne le traitent pas. D'autres programmes font cela.

Si vous souhaitez consulter le site à travers les yeux d'un robot de recherche, vous pouvez le faire via le panneau des webmasters.

Vous pouvez voir comment Google fonctionne via le panneau des webmasters. Là, vous devez ajouter votre site et vous pourrez ensuite consulter la page :

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru

Vous pouvez afficher Yandex via une copie enregistrée de la page. Pour ce faire, recherchez la page souhaitée dans la recherche Yandex, cliquez sur « copie enregistrée » puis sur « afficher la version texte ».

Vous trouverez ci-dessous une liste des robots de recherche qui visitent nos sites. Certains d'entre eux indexent des sites, d'autres surveillent publicité contextuelle. Il existe des robots spécialisés qui effectuent certaines tâches spécifiques. Par exemple, ils indexent des images ou des actualités.

Connaissant le robot de vue, vous pouvez lui interdire ou lui permettre d'explorer le site, réduisant ainsi la charge sur le serveur. Eh bien, ou protégez vos informations contre l'accès au réseau.

Robots de recherche Yandex

Le moteur de recherche Yandex compte une douzaine et demie de robots de recherche que nous connaissons. La liste des robots que j'ai réussi à déterrer, y compris à partir de l'aide officielle, se trouve ci-dessous.

YandexBot est le principal robot d'indexation ;
YandexMedia est un robot qui indexe les données multimédias ;
YandexImages - Indexeur Yandex.Images ;
YandexCatalog - un outil de « taraudage » pour Yandex.Catalog, utilisé pour supprimer temporairement les sites indisponibles de la publication dans le catalogue ;
YaDirectFetcher - robot Yandex.Direct ;
YandexBlogs est un robot de recherche de blogs qui indexe les publications et les commentaires ;
YandexNews - Robot Yandex.News ;
YandexWebmaster – apparaît lors de l'ajout d'un site via le forum AddURL ;
YandexPagechecker - validateur de micro-balisage ;
YandexFavicons - indexeur de favicon
YandexMetrika - Robot Yandex.Metrica ;
YandexMarket - Robot Yandex.Market ;
YandexCalendar est un robot Yandex.Calendar.

Robots de recherche Google (bots)

Googlebot est le principal robot d'indexation ;
Googlebot Nes - indexeur d'actualités ;
Googlebot Images - indexeur d'images ;
Googlebot Video - robot pour les données vidéo ;
Google Mobile - indexeur de contenu mobile ;
Google Mobile AdSense – robot AdSense pour mobile
Google adsense-Robot AdSense
Google AdsBot – robot de vérification de la qualité des pages de destination
Mediapartners-Google - Robot AdSense

Robots d'autres moteurs de recherche

Aussi, dans les logs de votre site, vous risquez de tomber sur certains robots d'autres moteurs de recherche.

Rambler - StackRambler
Mail.ru - Mail.Ru
Yahoo! — Slurp (ou Yahoo! Slurp)
AOL - Slurp
MSN-MSNBot
En direct - MSNBot
Demander - Teoma
Alexa-ia_archiver
Lycos - Lycos
Aéroport - Aéroport
Webalta - WebAlta (WebAlta Crawler/2.0)

En plus des robots des moteurs de recherche, il existe une énorme armée de toutes sortes d’araignées de gauche qui parcourent les sites. Il s'agit de divers analyseurs qui collectent des informations sur des sites, généralement à des fins égoïstes de leurs créateurs.

Certains volent du contenu, d’autres volent des images, d’autres piratent des sites Web et placent secrètement des liens. Si vous remarquez qu’un tel analyseur s’est attaché à votre site, bloquez l’accès de tout le monde moyens possibles, y compris via le fichier robots.txt.

Bonjour les amis! Aujourd'hui, vous apprendrez comment fonctionnent les robots de recherche Yandex et Google et quelle fonction ils remplissent dans la promotion d'un site Web. Alors allons-y!

Les moteurs de recherche effectuent cette action afin de trouver dix projets WEB parmi un million de sites qui apportent une réponse qualitative et pertinente à la demande de l’utilisateur. Pourquoi seulement dix ? Parce qu'il ne comprend que dix postes.

Les robots de recherche sont les amis des webmasters et des utilisateurs

Pourquoi il est important que les robots de recherche visitent un site est déjà devenu clair, mais pourquoi l'utilisateur en a-t-il besoin ? C'est vrai, pour que l'utilisateur ne voie que les sites qui répondront pleinement à sa demande.

Robot de recherche- un outil très flexible, il est capable de retrouver un site, même venant d'être créé, et sur lequel le propriétaire de ce site n'a pas encore travaillé. C’est pourquoi ce robot s’appelle une araignée : il peut se dégourdir les jambes et aller n’importe où sur le Web virtuel.

Est-il possible de contrôler un robot de recherche à votre avantage ?

Il existe des cas où certaines pages ne sont pas incluses dans la recherche. Cela est principalement dû au fait que cette page n'a pas encore été indexée par un robot de recherche. Bien sûr, tôt ou tard, un robot de recherche remarquera cette page. Mais cela prend du temps, et parfois beaucoup de temps. Mais ici, vous pouvez aider le robot de recherche à visiter cette page plus rapidement.

Pour ce faire, vous pouvez placer votre site Internet dans des répertoires ou listes spéciaux, sur les réseaux sociaux. En général, sur tous les sites où réside simplement le robot de recherche. Par exemple, les réseaux sociaux se mettent à jour toutes les secondes. Essayez de faire de la publicité pour votre site et le robot de recherche accédera à votre site beaucoup plus rapidement.

Une règle principale en découle. Si vous souhaitez que les robots des moteurs de recherche visitent votre site, vous devez leur fournir régulièrement du nouveau contenu. S'ils remarquent que le contenu est mis à jour et que le site se développe, ils commenceront à visiter votre projet Internet beaucoup plus souvent.

Chaque robot de recherche peut se souvenir de la fréquence à laquelle votre contenu change. Il évalue non seulement la qualité, mais aussi les intervalles de temps. Et si le matériel du site est mis à jour une fois par mois, il viendra alors sur le site une fois par mois.

Ainsi, si le site est mis à jour une fois par semaine, alors le robot de recherche viendra une fois par semaine. Si vous mettez à jour le site quotidiennement, le robot de recherche visitera le site tous les jours ou tous les deux jours. Certains sites sont indexés quelques minutes après la mise à jour. Ce réseaux sociaux, les agrégateurs d'actualités et les sites qui publient plusieurs articles par jour.

Comment confier une tâche à un robot et lui interdire de faire quoi que ce soit ?

Très tôt, nous avons appris que les moteurs de recherche disposent de plusieurs robots qui effectuent différentes tâches. Certains recherchent des images, d’autres des liens, etc.

Vous pouvez contrôler n'importe quel robot à l'aide d'un fichier spécial robots.txt . C'est à partir de ce fichier que le robot commence à se familiariser avec le site. Dans ce fichier vous pouvez préciser si le robot peut indexer le site, et si oui, quelles rubriques. Toutes ces instructions peuvent être créées pour un ou tous les robots.

Formation à la promotion de sites Web

Plus de détails sur la sagesse Promotion du référencement sites dans les moteurs de recherche Systèmes Google et Yandex, je parle seul sur Skype. J'ai amené tous mes projets WEB à plus de trafic et j'en ai obtenu d'excellents résultats. Je peux aussi vous l'apprendre, si cela vous intéresse !

Robot de recherche est un programme spécial d'un moteur de recherche conçu pour entrer dans une base de données (index) les sites et leurs pages trouvés sur Internet. Noms également utilisés : robot d'exploration, araignée, bot, indexeur automatique, fourmi, webcrawler, bot, webscutter, webrobots, webspider.

Principe d'opération

Un robot de recherche est un programme de type navigateur. Il scanne en permanence le réseau : visite les sites indexés (déjà connus), en suit les liens et trouve de nouvelles ressources. Lorsqu'une nouvelle ressource est découverte, le robot de procédure l'ajoute à l'index du moteur de recherche. Le robot de recherche indexe également les mises à jour des sites dont la fréquence est fixe. Par exemple, un site mis à jour une fois par semaine sera visité par une araignée avec cette fréquence, et le contenu des sites d'actualités pourra être indexé quelques minutes après sa publication. Si aucun lien provenant d'autres ressources ne mène au site, alors afin d'attirer les robots de recherche, la ressource doit être ajoutée via un formulaire spécial (Google Webmaster Center, Yandex Webmaster Panel, etc.).

Types de robots de recherche

Araignées Yandex:

  • Yandex/1.01.001 I - le principal robot impliqué dans l'indexation,
  • Yandex/1.01.001 (P) - indexe les images,
  • Yandex/1.01.001 (H) - trouve des sites miroirs,
  • Yandex/1.03.003 (D) - détermine si la page ajoutée à partir du panneau du webmaster répond aux paramètres d'indexation,
  • YaDirectBot/1.0 (I) - indexe les ressources de réseau publicitaire Yandex,
  • Yandex/1.02.000 (F) - indexe les favicons du site.

Les araignées Google :

  • Googlebot est le robot principal
  • Googlebot News - analyse et indexe les actualités,
  • Google Mobile - indexe les sites pour appareils mobiles,
  • Googlebot Images - recherche et indexe les images,
  • Googlebot Video - indexe les vidéos,
  • Google AdsBot - vérifie la qualité de la page de destination,
  • Google Mobile AdSense et Google AdSense - indexe les sites du réseau publicitaire de Google.

D’autres moteurs de recherche utilisent également plusieurs types de robots dont les fonctionnalités sont similaires à celles répertoriées.

Robot de recherche est un programme spécial d'un moteur de recherche conçu pour entrer dans une base de données (index) les sites et leurs pages trouvés sur Internet. Noms également utilisés : robot d'exploration, araignée, bot, indexeur automatique, fourmi, webcrawler, bot, webscutter, webrobots, webspider.

Principe d'opération

Un robot de recherche est un programme de type navigateur. Il scanne en permanence le réseau : visite les sites indexés (déjà connus), en suit les liens et trouve de nouvelles ressources. Lorsqu'une nouvelle ressource est découverte, le robot de procédure l'ajoute à l'index du moteur de recherche. Le robot de recherche indexe également les mises à jour des sites dont la fréquence est fixe. Par exemple, un site mis à jour une fois par semaine sera visité par une araignée avec cette fréquence, et le contenu des sites d'actualités pourra être indexé quelques minutes après sa publication. Si aucun lien provenant d'autres ressources ne mène au site, alors afin d'attirer les robots de recherche, la ressource doit être ajoutée via un formulaire spécial (Google Webmaster Center, Yandex Webmaster Panel, etc.).

Types de robots de recherche

Araignées Yandex:

  • Yandex/1.01.001 I - le principal robot impliqué dans l'indexation,
  • Yandex/1.01.001 (P) - indexe les images,
  • Yandex/1.01.001 (H) - trouve des sites miroirs,
  • Yandex/1.03.003 (D) - détermine si la page ajoutée à partir du panneau du webmaster répond aux paramètres d'indexation,
  • YaDirectBot/1.0 (I) - indexe les ressources du réseau publicitaire Yandex,
  • Yandex/1.02.000 (F) - indexe les favicons du site.

Les araignées Google :

  • Googlebot est le robot principal
  • Googlebot News - analyse et indexe les actualités,
  • Google Mobile - indexe les sites pour appareils mobiles,
  • Googlebot Images - recherche et indexe les images,
  • Googlebot Video - indexe les vidéos,
  • Google AdsBot - vérifie la qualité de la page de destination,
  • Google Mobile AdSense et Google AdSense - indexe les sites du réseau publicitaire de Google.

D’autres moteurs de recherche utilisent également plusieurs types de robots dont les fonctionnalités sont similaires à celles répertoriées.

Contrairement à une idée reçue, le robot n’intervient directement dans aucun traitement des documents numérisés. Il se contente de les lire et de les enregistrer ; ils sont ensuite traités par d'autres programmes. Une confirmation visuelle peut être obtenue en analysant les logs d'un site indexé pour la première fois. Lors de la première visite, le bot demande d'abord le fichier robots.txt, puis la page principale du site. C'est-à-dire qu'il suit le seul lien qu'il connaît. C’est là que se termine toujours la première visite du bot. Après un certain temps (généralement le lendemain), le robot demande les pages suivantes - en utilisant des liens trouvés sur la page déjà lue. Ensuite le processus se poursuit dans le même ordre : demande de pages pour lesquelles des liens ont déjà été trouvés - une pause pour le traitement des documents lus - la session suivante avec une demande de liens trouvés.

Analyser les pages à la volée signifierait beaucoup plus Ô plus grande consommation de ressources du robot et perte de temps. Chaque serveur d'analyse exécute plusieurs processus de robot en parallèle. Ils doivent agir le plus rapidement possible afin d'avoir le temps de lire les nouvelles pages et de relire celles existantes. Par conséquent, les robots lisent et enregistrent uniquement les documents. Tout ce qu'ils enregistrent est mis en file d'attente pour traitement (analyse du code). Les liens trouvés lors du traitement des pages sont placés dans une file d'attente de tâches pour les robots. C'est ainsi que l'ensemble du réseau est analysé en permanence. La seule chose qu'un bot peut et doit analyser à la volée est le fichier robots.txt, afin de ne pas demander d'adresses qui y sont interdites. Au cours de chaque session d'exploration du site, le robot demande d'abord ce fichier, puis toutes les pages mises en file d'attente pour l'exploration.

Types de robots de recherche

Chaque moteur de recherche possède son propre ensemble de robots destinés à différents objectifs.
Fondamentalement, ils diffèrent par leur objectif fonctionnel, bien que les limites soient très arbitraires et que chaque moteur de recherche les comprenne à sa manière. Pour les systèmes uniquement destinés à la recherche en texte intégral, un seul robot suffit pour toutes les occasions. Pour les moteurs de recherche qui ne s'occupent pas uniquement du texte, les robots sont divisés en au moins deux catégories : pour les textes et les dessins. Il existe également des robots distincts dédiés à des types spécifiques de contenu : mobile, blog, actualités, vidéo, etc.

Google-Robots

Tous les robots Google sont collectivement appelés Googlebot. Le robot indexeur principal « se présente » comme ceci :

Mozilla/5.0 (compatible ; Googlebot/2.1 ; +http://www.google.com/bot.html)

Ce bot est en train d'analyser les pages HTML et autres documents pour le principal recherche Google. Il lit également occasionnellement des fichiers CSS et JS - cela se remarque principalement au début de l'indexation du site, lorsque le robot explore le site pour la première fois. Les types de contenu acceptés sont tous (Accepter : */*).

Le deuxième des principaux robots est occupé à numériser les images du site. Il se « présente » simplement :

Googlebot-Image/1.0

Au moins trois robots ont également été aperçus dans les journaux, occupés à collecter du contenu pour version mobile recherche. Le champ User-agent des trois se termine par la ligne :

(compatible ; Googlebot-Mobile/2.1 ; +http://www.google.com/bot.html)

Avant cette ligne se trouve le modèle téléphone mobile, avec lequel ce bot est compatible. Les robots repérés ont des modèles Téléphones Nokia, Samsung et iPhone. Les types de contenu acceptés sont tous, mais avec des priorités indiquées :

Accepter : application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Robots Yandex

Parmi les moteurs de recherche actifs sur RuNet, Yandex possède la plus grande collection de robots. Dans la section d'aide aux webmasters, vous pouvez trouver une liste officielle de tout le personnel de Spider. Il ne sert à rien de la présenter ici dans son intégralité, puisque des changements interviennent périodiquement dans cette liste.
Cependant, les robots Yandex les plus importants pour nous doivent être mentionnés séparément.
Robot d'indexation de base actuellement appelé

Mozilla/5.0 (compatible ; YandexBot/3.0 ; +http://yandex.com/bots)

Auparavant représenté comme

Yandex/1.01.001 (compatible ; Win16 ; I)

Lit Pages HTML site Web et autres documents à indexer. La liste des types de médias acceptés était auparavant limitée :

Accepter : text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

Depuis le 31 juillet 2009, une expansion significative a été constatée dans cette liste (le nombre de types a presque doublé), et depuis le 10 novembre 2009, la liste a été raccourcie à */* (tous types).
Ce robot s'intéresse vivement à un ensemble de langues très spécifiques : le russe, un peu moins l'ukrainien et le biélorusse, un peu moins l'anglais et très peu toutes les autres langues.

Langue acceptée : ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Scanner d'images robotiques porte la ligne suivante dans le champ User-agent :

Mozilla/5.0 (compatible ; YandexImages/3.0 ; +http://yandex.com/bots)

Engagé dans la numérisation de graphiques de divers formats pour rechercher des images.

Contrairement à Google, Yandex dispose de robots distincts pour servir certains fonctions spéciales recherche générale.
Robot "miroir"

Mozilla/5.0 (compatible ; YandexBot/3.0 ; MirrorDetector ; +http://yandex.com/bots)

Il ne fait rien de particulièrement compliqué - il apparaît périodiquement et vérifie si la page principale du site correspond lors de l'accès au domaine avec www. Et sans. Vérifie également les domaines « miroirs » parallèles pour les correspondances. Apparemment, les miroirs et la forme canonique des domaines dans Yandex sont traités séparément progiciel, pas directement lié à l'indexation. Sinon, rien n’explique absolument l’existence d’un bot distinct à cet effet.

Collectionneur d'icônes favicon.ico

Mozilla/5.0 (compatible ; YandexFavicons/1.0 ; +http://yandex.com/bots)

Il apparaît périodiquement et demande l'icône favicon.ico, qui apparaît ensuite dans les résultats de recherche à côté du lien vers le site. On ne sait pas pour quelles raisons le collectionneur d’images ne partage pas cette responsabilité. Apparemment, un progiciel distinct est également en jeu.

Bot de vérification pour les nouveaux sites, fonctionne lorsqu'il est ajouté au formulaire AddURL

Mozilla/5.0 (compatible ; YandexWebmaster/2.0 ; +http://yandex.com/bots)

Ce bot vérifie la réponse du site en envoyant une requête HEAD à l'URL racine. De cette façon, nous vérifions l'existence page d'accueil dans le domaine et les en-têtes HTTP de cette page sont analysés. Le bot demande également le fichier robots.txt à la racine du site. Ainsi, après avoir soumis le lien à AddURL, il est déterminé que le site existe et ni le fichier robots.txt ni les en-têtes HTTP n'interdisent l'accès à la page principale.

Robot randonneur

Ne fonctionne plus actuellement, puisque Rambler utilise désormais la recherche Yandex
Le robot indexeur Rambler peut être facilement identifié dans les logs grâce au champ User-agent

StackRambler/2.0 (incompatible avec MSIE)

Comparé à ses « collègues » d'autres moteurs de recherche, ce bot semble assez simple : il n'indique pas de liste de types de médias (il reçoit donc le document demandé de tout type), le champ Accepter-Langue est manquant dans la requête, et le champ If-Modified-since est introuvable dans les requêtes du bot.

Robot Mail.Ru

On sait encore peu de choses sur ce robot. Le portail Mail.Ru développe sa propre recherche depuis longtemps, mais il n'a pas encore eu le temps de lancer cette recherche. Par conséquent, seul le nom du bot dans l'agent utilisateur est connu avec certitude - Mail.Ru/2.0 (auparavant - Mail.Ru/1.0). Le nom du bot pour les directives du fichier robors.txt n'a été publié nulle part, on suppose que le bot devrait s'appeler Mail.Ru.

Autres robots

La recherche sur Internet ne se limite bien entendu pas à deux moteurs de recherche. Il existe donc d'autres robots - par exemple le robot Bing - le moteur de recherche de Microsoft et d'autres robots. Ainsi, en Chine, il existe notamment un moteur de recherche national Baidu - mais il est peu probable que son robot atteigne le milieu du fleuve et atteigne le site russe.

Par ailleurs, de nombreux services ont récemment proliféré - notamment solomono - qui, bien qu'ils ne soient pas des moteurs de recherche, analysent également les sites. Souvent, l'intérêt de transmettre des informations sur le site à de tels systèmes est discutable et leurs robots peuvent donc être interdits.


Haut