maison › Problèmes › Quel travail font les robots des moteurs de recherche ? Qu'est-ce qu'un robot de recherche ? Fonctions du robot de recherche "Yandex" et Google. Que fait un robot de recherche ?

Quel travail font les robots des moteurs de recherche ? Qu'est-ce qu'un robot de recherche ? Fonctions du robot de recherche "Yandex" et Google. Que fait un robot de recherche ?

Contrairement à une idée reçue, le robot n’intervient directement dans aucun traitement des documents numérisés. Il se contente de les lire et de les enregistrer ; ils sont ensuite traités par d'autres programmes. Une confirmation visuelle peut être obtenue en analysant les logs d'un site indexé pour la première fois. Lors de la première visite, le bot demande d'abord le fichier robots.txt, puis la page principale du site. C'est-à-dire qu'il suit le seul lien qu'il connaît. C’est là que se termine toujours la première visite du bot. Après un certain temps (généralement le lendemain), le robot demande les pages suivantes - en utilisant des liens trouvés sur la page déjà lue. Ensuite le processus se poursuit dans le même ordre : demande de pages pour lesquelles des liens ont déjà été trouvés - une pause pour le traitement des documents lus - la session suivante avec une demande de liens trouvés.

Analyser les pages à la volée signifierait beaucoup plus Ô plus grande consommation de ressources du robot et perte de temps. Chaque serveur d'analyse exécute plusieurs processus de robot en parallèle. Ils doivent agir le plus rapidement possible afin d'avoir le temps de lire les nouvelles pages et de relire celles existantes. Par conséquent, les robots lisent et enregistrent uniquement les documents. Tout ce qu'ils enregistrent est mis en file d'attente pour traitement (analyse du code). Les liens trouvés lors du traitement des pages sont placés dans une file d'attente de tâches pour les robots. C'est ainsi que l'ensemble du réseau est analysé en permanence. La seule chose qu'un bot peut et doit analyser à la volée est le fichier robots.txt, afin de ne pas demander d'adresses qui y sont interdites. Au cours de chaque session d'exploration du site, le robot demande d'abord ce fichier, puis toutes les pages mises en file d'attente pour l'exploration.

Types de robots de recherche

Chaque moteur de recherche possède son propre ensemble de robots destinés à différents objectifs.
Fondamentalement, ils diffèrent par leur objectif fonctionnel, bien que les limites soient très arbitraires et que chaque moteur de recherche les comprenne à sa manière. Pour les systèmes uniquement destinés à la recherche en texte intégral, un seul robot suffit pour toutes les occasions. Pour les moteurs de recherche qui ne s'occupent pas uniquement du texte, les robots sont divisés en au moins deux catégories : pour les textes et les dessins. Il existe également des robots distincts dédiés à des types spécifiques de contenu : mobile, blog, actualités, vidéo, etc.

Google-Robots

Tous les robots Google sont collectivement appelés Googlebot. Le robot indexeur principal « se présente » comme ceci :

Mozilla/5.0 (compatible ; Googlebot/2.1 ; +http://www.google.com/bot.html)

Ce bot est en train d'analyser les pages HTML et autres documents pour le principal recherche Google. Il lit également occasionnellement des fichiers CSS et JS - cela se remarque principalement au début de l'indexation du site, lorsque le robot explore le site pour la première fois. Les types de contenu acceptés sont tous (Accepter : */*).

Le deuxième des principaux robots est occupé à numériser les images du site. Il se « présente » simplement :

Googlebot-Image/1.0

Au moins trois robots ont également été aperçus dans les journaux, occupés à collecter du contenu pour version mobile recherche. Le champ User-agent des trois se termine par la ligne :

(compatible ; Googlebot-Mobile/2.1 ; +http://www.google.com/bot.html)

Avant cette ligne se trouve le modèle téléphone mobile, avec lequel ce bot est compatible. Les robots repérés ont des modèles Téléphones Nokia, Samsung et iPhone. Les types de contenu acceptés sont tous, mais avec des priorités indiquées :

Accepter : application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Robots Yandex

Parmi les moteurs de recherche actifs sur RuNet, Yandex possède la plus grande collection de robots. Dans la section d'aide aux webmasters, vous pouvez trouver une liste officielle de tout le personnel de Spider. Il ne sert à rien de la présenter ici dans son intégralité, puisque des changements interviennent périodiquement dans cette liste.
Cependant, les robots Yandex les plus importants pour nous doivent être mentionnés séparément.
Robot d'indexation de base actuellement appelé

Mozilla/5.0 (compatible ; YandexBot/3.0 ; +http://yandex.com/bots)

Auparavant représenté comme

Yandex/1.01.001 (compatible ; Win16 ; I)

Lit les pages HTML du site Web et d’autres documents à des fins d’indexation. La liste des types de médias acceptés était auparavant limitée :

Accepter : text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

Depuis le 31 juillet 2009, une expansion significative a été constatée dans cette liste (le nombre de types a presque doublé), et depuis le 10 novembre 2009, la liste a été raccourcie à */* (tous types).
Ce robot s'intéresse vivement à un ensemble de langues très spécifiques : le russe, un peu moins l'ukrainien et le biélorusse, un peu moins l'anglais et très peu toutes les autres langues.

Langue acceptée : ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Scanner d'images robotiques porte la ligne suivante dans le champ User-agent :

Mozilla/5.0 (compatible ; YandexImages/3.0 ; +http://yandex.com/bots)

Engagé dans la numérisation de graphiques de divers formats pour rechercher des images.

Contrairement à Google, Yandex dispose de robots distincts pour servir certains fonctions spéciales recherche générale.
Robot "miroir"

Mozilla/5.0 (compatible ; YandexBot/3.0 ; MirrorDetector ; +http://yandex.com/bots)

Il ne fait rien de particulièrement compliqué - il apparaît périodiquement et vérifie si la page principale du site correspond lors de l'accès au domaine avec www. Et sans. Vérifie également les domaines « miroirs » parallèles pour les correspondances. Apparemment, les miroirs et la forme canonique des domaines dans Yandex sont traités séparément progiciel, pas directement lié à l'indexation. Sinon, rien n’explique absolument l’existence d’un bot distinct à cet effet.

Collectionneur d'icônes favicon.ico

Mozilla/5.0 (compatible ; YandexFavicons/1.0 ; +http://yandex.com/bots)

Il apparaît périodiquement et demande l'icône favicon.ico, qui apparaît ensuite dans les résultats de recherche à côté du lien vers le site. On ne sait pas pour quelles raisons le collectionneur d’images ne partage pas cette responsabilité. Apparemment, un progiciel distinct est également en jeu.

Bot de vérification pour les nouveaux sites, fonctionne lorsqu'il est ajouté au formulaire AddURL

Mozilla/5.0 (compatible ; YandexWebmaster/2.0 ; +http://yandex.com/bots)

Ce bot vérifie la réponse du site en envoyant une requête HEAD à l'URL racine. De cette façon, l'existence de la page principale dans le domaine est vérifiée et les en-têtes HTTP de cette page sont analysés. Le bot demande également le fichier robots.txt à la racine du site. Ainsi, après avoir soumis le lien à AddURL, il est déterminé que le site existe et ni le fichier robots.txt ni les en-têtes HTTP n'interdisent l'accès à la page principale.

Robot randonneur

Ne fonctionne plus actuellement, puisque Rambler utilise désormais la recherche Yandex
Le robot indexeur Rambler peut être facilement identifié dans les logs grâce au champ User-agent

StackRambler/2.0 (incompatible avec MSIE)

Par rapport aux « collègues » d’autres moteurs de recherche ce bot semble assez simple : il ne précise pas de liste de types de médias (en conséquence, il reçoit le document demandé de n'importe quel type), le champ Accept-Language est manquant dans la requête, et le champ If-Modified-since est introuvable dans les requêtes du bot.

Robot Mail.Ru

On sait encore peu de choses sur ce robot. Le portail Mail.Ru développe sa propre recherche depuis longtemps, mais il n'a pas encore eu le temps de lancer cette recherche. Par conséquent, seul le nom du bot dans l'agent utilisateur est connu avec certitude - Mail.Ru/2.0 (auparavant - Mail.Ru/1.0). Le nom du bot pour les directives du fichier robors.txt n'a été publié nulle part, on suppose que le bot devrait s'appeler Mail.Ru.

Autres robots

La recherche sur Internet ne se limite bien entendu pas à deux moteurs de recherche. Il existe donc d'autres robots - par exemple le robot Bing - le moteur de recherche de Microsoft et d'autres robots. Ainsi, en Chine, il existe notamment un moteur de recherche national Baidu - mais il est peu probable que son robot atteigne le milieu du fleuve et atteigne le site russe.

Par ailleurs, de nombreux services ont récemment proliféré - notamment solomono - qui, bien qu'ils ne soient pas des moteurs de recherche, analysent également les sites. Souvent, l'intérêt de transmettre des informations sur le site à de tels systèmes est discutable et leurs robots peuvent donc être interdits.

Comment fonctionnent les robots des moteurs de recherche

Un robot de recherche (spider, bot) est un petit programme capable de visiter des millions de sites Web et de numériser des gigaoctets de texte sans intervention de l'opérateur. La lecture des pages et le stockage de copies de texte de celles-ci constituent la première étape de l'indexation de nouveaux documents. Il convient de noter que les robots des moteurs de recherche n'effectuent aucun traitement des données reçues. Leur tâche est uniquement de préserver informations textuelles.

Plus de vidéos sur notre chaîne - apprenez le marketing Internet avec SEMANTICA

Liste des robots de recherche

De tous les moteurs de recherche qui analysent Runet, Yandex possède la plus grande collection de robots. Les robots suivants sont responsables de l'indexation :

le robot d'indexation principal qui collecte les données des pages du site Web ;
un robot capable de reconnaître les miroirs ;
Robot de recherche Yandex, qui indexe les images ;
un robot qui scanne les pages des sites acceptés par YAN ;
icônes de favicon de numérisation de robot ;
plusieurs araignées qui déterminent l'accessibilité des pages du site.

Le principal robot de recherche de Google collecte des informations textuelles. Fondamentalement, il affiche les fichiers HTML et analyse JS et CSS à certains intervalles. Capable d’accepter tous les types de contenu autorisés pour l’indexation. PS Google dispose d'un spider qui contrôle l'indexation des images. Il existe également un robot de recherche - un programme qui prend en charge le fonctionnement de la version mobile de la recherche.

Voir le site à travers les yeux d'un robot de recherche

Pour corriger les erreurs de code et autres défauts, le webmaster peut découvrir comment le robot de recherche voit le site. Cette opportunité est offerte par Google PS. Vous devrez accéder aux outils pour les webmasters, puis cliquer sur l'onglet « exploration ». Dans la fenêtre qui s'ouvre, vous devez sélectionner la ligne « afficher en tant que Googlebot ». Ensuite, vous devez saisir l'adresse de la page que vous recherchez dans le formulaire de recherche (sans préciser le domaine et le protocole http://).

En sélectionnant la commande « obtenir et afficher », le webmaster pourra évaluer visuellement l'état de la page du site. Pour ce faire, vous devez cocher la case « demande d'affichage ». Une fenêtre s'ouvrira avec deux versions du document Web. Le webmaster apprend comment un visiteur régulier voit la page et sous quelle forme elle est disponible pour l'araignée de recherche.

Astuce : Si le document web que vous analysez n'est pas encore indexé, vous pouvez utiliser la commande « ajouter à l'index » >> « analyser uniquement cette URL ». L'araignée analysera le document en quelques minutes et, dans un avenir proche, la page Web apparaîtra dans les résultats de recherche. La limite mensuelle des demandes d'indexation est de 500 documents.

Comment influencer la vitesse d'indexation

Après avoir compris le fonctionnement des robots de recherche, un webmaster pourra promouvoir son site beaucoup plus efficacement. L’un des principaux problèmes de nombreux jeunes projets Web est une mauvaise indexation. Les robots des moteurs de recherche hésitent à visiter des ressources Internet non autorisées.
Il a été établi que la rapidité d'indexation dépend directement de l'intensité avec laquelle le site est mis à jour. L'ajout régulier de textes uniques attirera l'attention des moteurs de recherche.

Pour accélérer l'indexation, vous pouvez utiliser le bookmarking social et le service Twitter. Il est recommandé de créer un plan du site et de le télécharger dans le répertoire racine du projet Web.

Robot de recherche appelé programme spécial tout moteur de recherche conçu pour entrer dans une base de données (index) les sites et leurs pages trouvés sur Internet. Noms également utilisés : robot d'exploration, araignée, bot, indexeur automatique, fourmi, webcrawler, bot, webscutter, webrobots, webspider.

Principe d'opération

Un robot de recherche est un programme de type navigateur. Il scanne en permanence le réseau : visite les sites indexés (déjà connus), en suit les liens et trouve de nouvelles ressources. Lorsqu'une nouvelle ressource est découverte, le robot de procédure l'ajoute à l'index du moteur de recherche. Le robot de recherche indexe également les mises à jour des sites dont la fréquence est fixe. Par exemple, un site mis à jour une fois par semaine sera visité par une araignée avec cette fréquence, et le contenu des sites d'actualités pourra être indexé quelques minutes après sa publication. Si aucun lien provenant d'autres ressources ne mène au site, alors afin d'attirer les robots de recherche, la ressource doit être ajoutée via un formulaire spécial (Google Webmaster Center, Yandex Webmaster Panel, etc.).

Types de robots de recherche

Araignées Yandex:

Yandex/1.01.001 I - le principal robot impliqué dans l'indexation,
Yandex/1.01.001 (P) - indexe les images,
Yandex/1.01.001 (H) - trouve des sites miroirs,
Yandex/1.03.003 (D) - détermine si la page ajoutée à partir du panneau du webmaster répond aux paramètres d'indexation,
YaDirectBot/1.0 (I) - indexe les ressources de réseau publicitaire Yandex,
Yandex/1.02.000 (F) - indexe les favicons du site.

Les araignées Google :

Googlebot est le robot principal
Googlebot News - analyse et indexe les actualités,
Google Mobile - indexe les sites pour appareils mobiles,
Googlebot Images - recherche et indexe les images,
Googlebot Video - indexe les vidéos,
Google AdsBot - vérifie la qualité de la page de destination,
Google Mobile AdSense et Google adsense— indexe les sites du réseau publicitaire de Google.

D’autres moteurs de recherche utilisent également plusieurs types de robots dont les fonctionnalités sont similaires à celles répertoriées.

Comment fonctionnent les moteurs de recherche ? L’une des merveilles d’Internet est qu’il existe des centaines de millions de ressources Web qui attendent et sont prêtes à nous être présentées. Mais le problème, c'est qu'il y a les mêmes millions de pages qui, même si nous en avons besoin, n'apparaîtront pas devant nous, parce que... tout simplement inconnu de nous. Comment savoir quoi et où trouver sur Internet ? Pour ce faire, nous nous tournons généralement vers les moteurs de recherche.

Les moteurs de recherche Internet sont des sites spéciaux dans réseau mondial, qui sont conçus pour aider les gens à trouver World Wide Web les informations dont ils ont besoin. Il existe des différences dans la manière dont les moteurs de recherche remplissent leurs fonctions, mais en général il existe 3 fonctions principales et identiques :

Tous « effectuent des recherches » sur Internet (ou dans un secteur de l'Internet) – sur la base de mots-clés donnés ;
- tous les moteurs de recherche indexent les mots qu'ils recherchent et les endroits où ils les trouvent ;
- tous les moteurs de recherche permettent aux utilisateurs de rechercher des mots ou des combinaisons de mots-clés à partir de pages Web déjà indexées et incluses dans leurs bases de données.

Les tout premiers moteurs de recherche indexaient jusqu'à plusieurs centaines de milliers de pages et recevaient 1 000 à 2 000 requêtes par jour. Aujourd'hui, les principaux moteurs de recherche ont indexé et indexent continuellement des centaines de millions de pages et traitent des dizaines de millions de requêtes par jour. Nous parlerons ci-dessous du fonctionnement des moteurs de recherche et de la manière dont ils « rassemblent » toutes les informations trouvées afin de pouvoir répondre à toute question qui nous intéresse.

Regardons le Web

Quand les gens parlent de Moteurs de recherche Internet machines, ils désignent en fait les moteurs de recherche World Wide Web. Avant que le Web ne devienne la partie la plus visible d’Internet, les moteurs de recherche existaient déjà pour aider les internautes à trouver des informations sur Internet. Des programmes appelés "gopher" et "Archie" étaient capables d'indexer des fichiers situés sur différents serveurs connectés à InternetInternet et réduit considérablement le temps passé à rechercher programmes nécessaires ou des documents. À la fin des années 80 du siècle dernier, la capacité d'utiliser Gopher, Archie, Veronica, etc. était synonyme de « capacité à travailler sur Internet ». programmes de recherche. Aujourd'hui, la plupart des internautes limitent leur recherche aux seuls réseau mondial, ou WWW.

Un petit début

Avant que nous puissions vous indiquer où trouver le document ou le dossier recherché, celui-ci doit déjà avoir été trouvé. Pour trouver des informations sur des centaines de millions de pages WEB existantes, le moteur de recherche utilise un programme robot spécial. Ce programme est également appelé spider (« araignée ») et permet de construire une liste de mots trouvés sur la page. Le processus de construction d’une telle liste s’appelle exploration du Web(Exploration du Web). Pour construire et capturer davantage une liste de mots « utiles » (significatives), araignée de recherche doit « parcourir » une tonne d’autres pages.

Comment peut-on commencer ? araignée(araignée) ton parcours sur le web ? Habituellement, le point de départ est les plus grands serveurs du monde et les pages Web très populaires. L'araignée commence son voyage à partir d'un tel site, indexe tous les mots trouvés et poursuit son déplacement plus loin, en suivant des liens vers d'autres sites. Ainsi, le robot araignée commence à couvrir des « morceaux » d’espace Web de plus en plus grands. Google.com a commencé comme moteur de recherche universitaire. Dans un article décrivant comment ce moteur de recherche a été créé, Sergey Brin et Lawrence Page (les fondateurs et propriétaires de Google) ont donné un exemple de la rapidité avec laquelle les robots de Google fonctionnent. Il en existe plusieurs et généralement la recherche commence par l'utilisation de 3 araignées. Chaque araignée prend en charge jusqu'à 300 connexions ouvertes simultanément vers des pages Web. En charge maximale, en utilisant 4 spiders, le système de Google est capable de traiter 100 pages par seconde, générant un trafic d'environ 600 kilo-octets/s.

Pour fournir aux robots les données dont ils avaient besoin pour traiter, Google disposait auparavant d'un serveur qui ne faisait rien d'autre que de nourrir les robots de plus en plus d'URL. Afin de ne pas dépendre des fournisseurs d'accès Internet en termes de serveurs de noms de domaine (DNS) qui traduisent les URL en adresses IP, Google a acquis son propre Serveur dns, réduisant ainsi au minimum tout le temps passé sur l'indexation des pages.

Lors de la visite du robot Google Page HTML, il prend en compte 2 choses :

Mots (texte) par page ;
- leur emplacement (dans quelle partie du corps de la page).

Mots situés avec des sections de service telles que titre, sous-titres, balises méta et d'autres ont été signalés comme particulièrement importants pour les requêtes de recherche des utilisateurs. Google Spider a été conçu pour indexer tous les mots similaires sur une page, à l'exception des interjections telles que "a", "an" et "the". D'autres moteurs de recherche ont une approche légèrement différente de l'indexation.

Toutes les approches et algorithmes des moteurs de recherche visent en fin de compte à rendre les robots araignées plus rapides et plus efficaces. Par exemple, certains robots de recherche suivent les mots du titre, les liens et jusqu'à 100 mots les plus fréquemment utilisés sur une page lors de l'indexation, et même chacun des mots des 20 premières lignes du contenu textuel de la page. Il s’agit notamment de l’algorithme d’indexation de Lycos.

D'autres moteurs de recherche, tels qu'AltaVista, vont dans l'autre sens, indexant chaque mot d'une page, y compris « un », « un », « le » et d'autres mots sans importance.

Balises méta

Les balises méta permettent au propriétaire d'une page Web de spécifier des mots-clés et des concepts qui définissent l'essence de son contenu. C'est un outil très utile, surtout lorsque ces mots-clés peuvent être répétés jusqu'à 2 à 3 fois dans le texte de la page. Dans ce cas, les balises méta peuvent « diriger » le robot de recherche vers la sélection souhaitée de mots-clés pour indexer la page. Il existe une possibilité de « tromper » les balises méta avec des requêtes de recherche populaires et des concepts qui ne sont en aucun cas liés au contenu de la page elle-même. Les robots de recherche sont capables de lutter contre cela, par exemple en analysant la corrélation entre les balises méta et le contenu d'une page Web, en « rejetant » les balises méta (respectivement les mots-clés) qui ne correspondent pas au contenu des pages.

Tout cela s'applique aux cas où le propriétaire d'une ressource Web souhaite réellement être inclus dans les résultats de recherche pour les mots de recherche souhaités. Mais il arrive souvent que le propriétaire ne souhaite pas du tout être indexé par le robot. Mais de tels cas ne font pas l’objet de notre article.

Construction de l'indice

Une fois que les robots ont terminé leur travail de recherche de nouvelles pages Web, les moteurs de recherche doivent placer toutes les informations trouvées de manière à ce qu'il soit pratique de les utiliser ultérieurement. Il y a 2 éléments clés qui comptent ici :

Informations stockées avec des données ;
- la méthode par laquelle ces informations sont indexées.

Dans le cas le plus simple, un moteur de recherche pourrait simplement placer le mot et l’URL là où il se trouve. Mais cela ferait du moteur de recherche un outil complètement primitif, puisqu'il n'y a aucune information sur la partie du document dans laquelle se trouve ce mot (balises méta ou en texte brut), si ce mot est utilisé une fois ou à plusieurs reprises, et s'il est utilisé. contenu dans un lien vers une autre ressource importante et connexe. Autrement dit, cette méthode ne permettra pas de classer les sites, ne fournira pas de résultats pertinents aux utilisateurs, etc.

Pour nous fournir des données utiles, les moteurs de recherche ne stockent pas seulement les informations du mot et de son URL. Un moteur de recherche peut enregistrer des données sur le nombre (fréquence) de mentions d'un mot sur une page, attribuer un « poids » au mot, ce qui permettra ensuite de produire des listes de recherche (résultats) basées sur le classement pondéré de ce mot, en prenant en compte son emplacement (dans les liens, les balises méta, le titre de la page, etc.). Chaque moteur de recherche commercial possède sa propre formule de calcul du « poids » des mots-clés lors de l’indexation. C'est une des raisons pour lesquelles, pour le même requête de recherche les moteurs de recherche produisent des résultats complètement différents.

Suivant point important lors du traitement des informations trouvées - leur codage afin de réduire la quantité d'espace disque pour leur stockage. Par exemple, l'article original de Google décrit que 2 octets (8 bits chacun) sont utilisés pour stocker les données de poids des mots - cela prend en compte le type de mot (en majuscules), la taille des lettres elles-mêmes (Font-Size ), et d'autres informations qui aident à classer le site. Chacune de ces « informations » nécessite 2 à 3 bits de données dans un ensemble complet de 2 octets. En conséquence, une énorme quantité d’informations peut être stockée sous une forme très compacte. Une fois les informations « compressées », il est temps de commencer l’indexation.

L'indexation n'a qu'un seul objectif : assurer un maximum recherche rapide les informations nécessaires. Il existe plusieurs manières de créer des index, mais la plus efficace consiste à créer tables de hachage(table de hachage). Le hachage utilise une formule spécifique pour attribuer une valeur numérique à chaque mot.

Dans n'importe quelle langue, il existe des lettres par lesquelles commencent beaucoup plus de mots que par le reste des lettres de l'alphabet. Par exemple, il y a beaucoup plus de mots commençant par la lettre « M » dans la section du dictionnaire anglais que de ceux commençant par la lettre « X ». Cela signifie que la recherche d’un mot commençant par la lettre la plus populaire prendra plus de temps que n’importe quel autre mot. Hachage(Hashing) égalise cette différence et réduit le temps de recherche moyen, et sépare également l'index lui-même des données réelles. Une table de hachage contient des valeurs de hachage ainsi qu'un pointeur vers les données correspondant à cette valeur. Une indexation efficace et un placement efficace offrent une vitesse de recherche élevée, même si l'utilisateur pose une requête de recherche très complexe.

L'avenir des moteurs de recherche

Une recherche basée sur des opérateurs booléens (« et », « ou », « non ») est une recherche littérale : le moteur de recherche reçoit les mots recherchés exactement tels qu'ils ont été saisis. Cela peut poser un problème lorsque, par exemple, le mot saisi a plusieurs significations. « Clé », par exemple, peut signifier « un moyen d'ouvrir une porte » ou un « mot de passe » pour se connecter à un serveur. Si vous n'êtes intéressé que par un seul sens d'un mot, vous n'aurez évidemment pas besoin de données sur son deuxième sens. Vous pouvez bien sûr créer une requête littérale qui exclura la sortie de données en fonction de la signification inutile d'un mot, mais ce serait bien si le moteur de recherche lui-même pouvait vous aider.

Un domaine de recherche sur les futurs algorithmes des moteurs de recherche est la récupération d’informations conceptuelles. Il s'agit d'algorithmes qui utilisent l'analyse statistique des pages contenant un mot-clé ou une expression de recherche donnée pour trouver des données pertinentes. Il est clair qu'un tel « moteur de recherche conceptuel » nécessiterait beaucoup plus d'espace de stockage pour chaque page et plus de temps pour traiter chaque requête. Actuellement, de nombreux chercheurs travaillent sur ce problème.

Des travaux non moins intensifs sont menés dans le domaine du développement d'algorithmes de recherche basés sur des requêtes. langage naturel(Requête en langage naturel).

L’idée derrière les requêtes naturelles est que vous pouvez rédiger votre requête comme si vous la posiez à un collègue assis en face de vous. Pas besoin de s'inquiéter des opérateurs booléens ou de la contrainte de composition requête complexe. Le site de recherche en langage naturel le plus populaire aujourd'hui est AskJeeves.com. Il convertit la requête en mots-clés, qu'il utilise ensuite lors de l'indexation des sites. Cette approche ne fonctionne que pour les requêtes simples. Cependant, les progrès ne s'arrêtent pas : il est possible que très bientôt nous « parlions » aux moteurs de recherche dans notre propre « langage humain ».

Mes amis, je vous souhaite à nouveau la bienvenue ! Nous allons maintenant examiner ce que sont les robots de recherche et parler en détail du robot de recherche Google et de la manière d'être ami avec eux.

Vous devez d’abord comprendre ce que sont réellement les robots de recherche ; ils sont également appelés araignées. Quel travail font les robots des moteurs de recherche ?

Ce sont des programmes qui vérifient les sites. Ils parcourent tous les articles et pages de votre blog, collectent des informations qu'ils transmettent ensuite à la base de données du moteur de recherche pour lequel ils travaillent.

Vous n’avez pas besoin de connaître la liste complète des robots de recherche, le plus important est de savoir que Google compte désormais deux araignées principales, appelées « panda » et « pingouin ». Ils luttent contre les contenus de mauvaise qualité et les liens indésirables, et vous devez savoir comment repousser leurs attaques.

Le robot de recherche Google Panda a été créé pour promouvoir uniquement du matériel de haute qualité dans les recherches. Tous les sites dont le contenu est de mauvaise qualité sont relégués au bas des résultats de recherche.

Cette araignée est apparue pour la première fois en 2011. Avant son apparition, il était possible de promouvoir n’importe quel site Web en publiant une grande quantité de texte dans des articles et en utilisant une énorme quantité de mots-clés. Ensemble, ces deux techniques ont amené le contenu de mauvaise qualité en tête des résultats de recherche, et les bons sites ont été relégués au bas des résultats de recherche.

« Panda » a immédiatement mis les choses en ordre en vérifiant tous les sites et en remettant chacun à sa juste place. Bien qu’il soit confronté à un contenu de mauvaise qualité, il est désormais possible de promouvoir même de petits sites avec des articles de haute qualité. Même si auparavant il était inutile de promouvoir de tels sites, ils ne pouvaient pas rivaliser avec les géants qui proposent une grande quantité de contenu.

Voyons maintenant comment éviter les sanctions « panda ». Vous devez d’abord comprendre ce qu’elle n’aime pas. J'ai déjà écrit ci-dessus qu'elle a du mal avec les mauvais contenus, mais quel type de texte est mauvais pour elle, voyons-le afin de ne pas le publier sur notre site Web.

Le robot de recherche Google s'efforce de garantir que ce moteur de recherche ne fournisse que des matériaux de haute qualité aux demandeurs d'emploi. Si vous avez des articles qui contiennent peu d'informations et qui ne sont pas attrayants en apparence, réécrivez de toute urgence ces textes afin que le « panda » ne vous atteigne pas.

Le contenu de haute qualité peut être à la fois grand et petit, mais si l'araignée voit un long article contenant beaucoup d'informations, il sera alors plus utile au lecteur.

Il faut alors constater les doublons, autrement dit le plagiat. Si vous pensez que vous allez réécrire les articles d’autres personnes sur votre blog, alors vous pouvez immédiatement mettre un terme à votre site. La copie est strictement punie par l'application d'un filtre, et Le plagiat est vérifié très facile, j'ai écrit un article sur le sujet comment vérifier l'unicité des textes.

La prochaine chose à remarquer est la sursaturation du texte avec des mots-clés. Quiconque pense pouvoir rédiger un article en utilisant uniquement des mots-clés et occuper la première place dans les résultats de recherche se trompe lourdement. J'ai un article sur la façon de vérifier la pertinence des pages, assurez-vous de le lire.

Et une autre chose qui peut attirer un « panda » vers vous, ce sont les vieux articles moralement dépassés et qui n'apportent pas de trafic vers le site. Ils doivent absolument être mis à jour.

Il existe également un robot de recherche Google « pingouin ». Cette araignée combat le spam et les liens indésirables sur votre site. Il calcule également les liens achetés à partir d’autres ressources. Par conséquent, afin de ne pas avoir peur de ce robot de recherche, vous ne devez pas acheter de liens, mais publier du contenu de haute qualité afin que les gens créent eux-mêmes des liens vers vous.

Formulons maintenant ce qui doit être fait pour que le site soit parfait aux yeux d'un robot de recherche :

Pour créer un contenu de qualité, recherchez d’abord bien le sujet avant d’écrire l’article. Ensuite, vous devez comprendre que les gens sont vraiment intéressés par ce sujet.

Utiliser exemples spécifiques et des images, cela rendra l'article vivant et intéressant. Divisez le texte en petits paragraphes pour le rendre facile à lire. Par exemple, si vous ouvrez une page de blagues dans un journal, lesquelles liriez-vous en premier ? Bien entendu, chacun lit d’abord des textes courts, puis des textes plus longs et enfin de longs enveloppements de pieds.

Le reproche favori du « panda » est le manque de pertinence d’un article contenant des informations périmées. Suivez les mises à jour et modifiez les textes.

Gardez une trace de la densité des mots-clés ; j’ai écrit ci-dessus comment déterminer cette densité ; dans le service que j’ai décrit, vous recevrez le nombre exact de mots-clés requis.

Ne plagiez pas, tout le monde sait qu’on ne peut pas voler les affaires ou les textes des autres – c’est la même chose. Vous serez puni en cas de vol en vous laissant prendre dans le filtre.

Écrivez des textes d'au moins deux mille mots, un tel article aura alors l'air informatif aux yeux des robots des moteurs de recherche.

Restez dans le sujet avec votre blog. Si vous gérez un blog sur la manière de gagner de l'argent sur Internet, vous n'avez pas besoin de publier des articles sur les armes à air comprimé. Cela peut réduire la note de votre ressource.

Concevez magnifiquement vos articles, divisez-les en paragraphes et ajoutez des images pour que vous aimiez lire et que vous ne vouliez pas quitter le site rapidement.

Lorsque vous achetez des liens, dirigez-les vers les articles les plus intéressants et les plus utiles que les gens liront réellement.

Eh bien, vous savez maintenant quel est le travail des robots des moteurs de recherche et vous pouvez être ami avec eux. Et surtout, le robot de recherche Google, ainsi que « panda » et « pingouin », ont été étudiés en détail par vous.

Populaire dans la catégorie :