Ce fel de muncă fac roboții păianjen? Motoarele de căutare sunt roboții și păianjenii lor. Cine sunt roboții de căutare

Robot de căutare (bot, păianjen, păianjen, crawler)- Acest program special motor de căutare conceput pentru a scana site-uri de pe Internet.

Mulți oameni nu știu că roboții de scanare pur și simplu colectează și stochează informații. Ei nu o procesează. Alte programe fac asta.

Dacă doriți să priviți site-ul prin ochii unui robot de căutare, puteți face acest lucru prin panoul pentru webmasteri.

Puteți vedea cum funcționează Google prin panoul pentru webmasteri. Acolo trebuie să-ți adaugi site-ul și apoi poți să te uiți la pagina:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru

Puteți vizualiza Yandex printr-o copie salvată a paginii. Pentru a face acest lucru, găsiți pagina dorită în căutarea Yandex, faceți clic pe „copie salvată” și apoi pe „vezi versiunea text”.

Mai jos este o listă de roboți de căutare care vizitează site-urile noastre. Unele dintre ele indexează site-uri, altele monitorizează publicitate contextuală. Există roboți specializați care îndeplinesc anumite sarcini înguste. De exemplu, ei indexează imagini sau știri.

Cunoscând robotul din vedere, îi puteți interzice sau permite acestuia să se târască în jurul site-ului, reducând astfel sarcina de pe server. Ei bine, sau protejați-vă informațiile împotriva pătrunderii în rețea.

roboți de căutare Yandex

Motorul de căutare Yandex are o duzină și jumătate de roboți de căutare cunoscuți nouă. Lista de roboți pe care am reușit să-i scot, inclusiv din ajutorul oficial, este mai jos.

YandexBot este principalul robot de indexare;
YandexMedia este un robot care indexează date multimedia;
YandexImages - Yandex.Images indexer;
YandexCatalog - un instrument de „atingere” pentru Yandex.Catalog, folosit pentru a elimina temporar site-urile indisponibile de la publicarea în Catalog;
YaDirectFetcher - robot Yandex.Direct;
YandexBlogs este un robot de căutare a blogurilor care indexează postări și comentarii;
YandexNews - robot Yandex.News;
YandexWebmaster – apare atunci când adăugați un site prin forumul AddURL;
YandexPagechecker - validator de micro markup;
YandexFavicons - indexator favicon
YandexMetrika - robot Yandex.Metrica;
YandexMarket - robot Yandex.Market;
YandexCalendar este un robot Yandex.Calendar.

roboți de căutare Google (roboți)

Googlebot este principalul robot de indexare;
Googlebot Nes - indexator de știri;
Googlebot Images - indexator de imagini;
Googlebot Video - robot pentru date video;
Google Mobile - indexator de conținut mobil;
Google Mobile AdSense - robot AdSense mobil
Google AdSense- Robot AdSense
Google AdsBot – bot de verificare a calității paginii de destinație
Mediapartners-Google - robot AdSense

Roboții altor motoare de căutare

De asemenea, în jurnalele site-ului dvs., puteți da peste câțiva roboți ai altor motoare de căutare.

Rambler - StackRambler
Mail.ru - Mail.Ru
Yahoo! — Slurp (sau Yahoo! Slurp)
AOL - Slurp
MSN - MSNBot
Live - MSNBot
Întreabă - Teoma
Alexa - ia_archiver
Lycos - Lycos
Aport - Aport
Webalta - WebAlta (WebAlta Crawler/2.0)

Pe lângă roboții motoarelor de căutare, există o armată uriașă de tot felul de păianjeni de stânga care rulează pe site-uri. Acestea sunt diverse analizoare care colectează informații de pe site-uri, de obicei în scopuri egoiste ale creatorilor lor.

Unii fură conținut, alții fură imagini, alții piratau site-uri web și plasează în secret link-uri. Dacă observați că un astfel de analizator s-a atașat site-ului dvs., blocați accesul tuturor la acesta moduri posibile, inclusiv prin fișierul robots.txt.

Bună prieteni! Astăzi veți afla cum funcționează roboții de căutare Yandex și Google și ce funcție îndeplinesc în promovarea site-ului web. Deci să mergem!

Motoarele de căutare fac această acțiune pentru a găsi zece proiecte WEB dintr-un milion de site-uri care au un răspuns de înaltă calitate și relevant la cererea utilizatorului. De ce doar zece? Pentru că este format din doar zece poziții.

Roboții de căutare sunt prieteni atât pentru webmasteri, cât și pentru utilizatori

De ce este important ca roboții de căutare să viziteze un site a devenit deja clar, dar de ce are nevoie utilizatorul de asta? Așa este, pentru ca utilizatorul să vadă doar acele site-uri care vor răspunde integral solicitării sale.

Robot de căutare- un instrument foarte flexibil, este capabil să găsească un site, chiar și unul care tocmai a fost creat, iar proprietarul acestui site nu a lucrat încă la el. De aceea, acest bot a fost numit păianjen; își poate întinde picioarele și poate ajunge oriunde pe rețeaua virtuală.

Este posibil să controlezi un robot de căutare în avantajul tău?

Există cazuri când unele pagini nu sunt incluse în căutare. Acest lucru se datorează în principal faptului că această pagină nu a fost încă indexată de un robot de căutare. Desigur, mai devreme sau mai târziu un robot de căutare va observa această pagină. Dar este nevoie de timp și, uneori, destul de mult. Dar aici poți ajuta robotul de căutare să viziteze această pagină mai repede.

Pentru a face acest lucru, puteți plasa site-ul dvs. în directoare sau liste speciale, rețele sociale. În general, pe toate site-urile unde pur și simplu locuiește robotul de căutare. De exemplu, rețelele sociale se actualizează în fiecare secundă. Încercați să faceți publicitate site-ului dvs., iar robotul de căutare va ajunge pe site-ul dvs. mult mai repede.

Din aceasta rezultă o regulă principală. Dacă doriți ca roboții motoarelor de căutare să vă viziteze site-ul, trebuie să le furnizați în mod regulat conținut nou. Dacă observă că conținutul este actualizat și site-ul se dezvoltă, vor începe să viziteze mult mai des proiectul tău de internet.

Fiecare robot de căutare își poate aminti cât de des se modifică conținutul tău. El evaluează nu numai calitatea, ci și intervalele de timp. Și dacă materialul de pe site este actualizat o dată pe lună, atunci el va veni pe site o dată pe lună.

Astfel, dacă site-ul este actualizat o dată pe săptămână, atunci robotul de căutare va veni o dată pe săptămână. Dacă actualizați site-ul în fiecare zi, atunci robotul de căutare va vizita site-ul în fiecare zi sau o dată la două zile. Există site-uri care sunt indexate în câteva minute după actualizare. Acest social media, agregatoare de știri și site-uri care postează mai multe articole pe zi.

Cum să dai o sarcină unui robot și să îi interzici să facă ceva?

De la început, am aflat că motoarele de căutare au mai mulți roboți care îndeplinesc sarcini diferite. Unii caută imagini, alții linkuri și așa mai departe.

Puteți controla orice robot folosind un fișier special robots.txt . Din acest fișier robotul începe să se familiarizeze cu site-ul. În acest fișier puteți specifica dacă robotul poate indexa site-ul și, dacă da, ce secțiuni. Toate aceste instrucțiuni pot fi create pentru unul sau toți roboții.

Training pentru promovarea site-ului web

Mai multe detalii despre înțelepciune Promovarea SEO site-uri din motoarele de căutare sistemele Googleși Yandex, vorbesc pe cont propriu pe Skype. Am adus toate proiectele mele WEB la mai mult trafic și am obținut rezultate excelente din asta. Pot să te învăț și pe tine, dacă te interesează!

Robot de căutare este un program special al unui motor de căutare care este conceput pentru a intra într-o bază de date (index) site-uri și paginile acestora găsite pe Internet. Se mai folosesc nume: crawler, spider, bot, automaticindexer, furnică, webcrawler, bot, webscutter, webroboți, webspider.

Principiul de funcționare

Un robot de căutare este un program de tip browser. Scanează în mod constant rețeaua: vizitează site-uri indexate (deja cunoscute de el), urmărește link-uri de la acestea și găsește noi resurse. Când o nouă resursă este descoperită, robotul de procedură o adaugă la indexul motorului de căutare. Robotul de căutare indexează și actualizările pe site-uri, a căror frecvență este fixă. De exemplu, un site care este actualizat o dată pe săptămână va fi vizitat de un păianjen cu această frecvență, iar conținutul de pe site-urile de știri poate fi indexat în câteva minute de la publicare. Dacă niciun link din alte resurse nu duce la site, atunci pentru a atrage roboți de căutare, resursa trebuie adăugată printr-un formular special (Google Webmaster Center, Yandex Webmaster Panel etc.).

Tipuri de roboți de căutare

păianjeni Yandex:

  • Yandex/1.01.001 I - botul principal implicat în indexare,
  • Yandex/1.01.001 (P) - indexează imagini,
  • Yandex/1.01.001 (H) - găsește site-uri oglindă,
  • Yandex/1.03.003 (D) - determină dacă pagina adăugată din panoul webmaster îndeplinește parametrii de indexare,
  • YaDirectBot/1.0 (I) - indexează resursele din retea de publicitate Yandex,
  • Yandex/1.02.000 (F) - indexează favicon-urile site-ului.

Google Spiders:

  • Googlebot este robotul principal
  • Știri Googlebot - scanează și indexează știrile,
  • Google Mobile - indexează site-urile pentru dispozitive mobile,
  • Imagini Googlebot - caută și indexează imagini,
  • Googlebot Video - indexează videoclipuri,
  • Google AdsBot - verifică calitatea paginii de destinație,
  • Google Mobile AdSense și Google AdSense - indexează site-urile rețelei de publicitate Google.

Alte motoare de căutare folosesc, de asemenea, mai multe tipuri de roboți care sunt similari din punct de vedere funcțional cu cei enumerați.

Robot de căutare este un program special al unui motor de căutare care este conceput pentru a intra într-o bază de date (index) site-uri și paginile acestora găsite pe Internet. Se mai folosesc nume: crawler, spider, bot, automaticindexer, furnică, webcrawler, bot, webscutter, webroboți, webspider.

Principiul de funcționare

Un robot de căutare este un program de tip browser. Scanează în mod constant rețeaua: vizitează site-uri indexate (deja cunoscute de el), urmărește link-uri de la acestea și găsește noi resurse. Când o nouă resursă este descoperită, robotul de procedură o adaugă la indexul motorului de căutare. Robotul de căutare indexează și actualizările pe site-uri, a căror frecvență este fixă. De exemplu, un site care este actualizat o dată pe săptămână va fi vizitat de un păianjen cu această frecvență, iar conținutul de pe site-urile de știri poate fi indexat în câteva minute de la publicare. Dacă niciun link din alte resurse nu duce la site, atunci pentru a atrage roboți de căutare, resursa trebuie adăugată printr-un formular special (Google Webmaster Center, Yandex Webmaster Panel etc.).

Tipuri de roboți de căutare

păianjeni Yandex:

  • Yandex/1.01.001 I - botul principal implicat în indexare,
  • Yandex/1.01.001 (P) - indexează imagini,
  • Yandex/1.01.001 (H) - găsește site-uri oglindă,
  • Yandex/1.03.003 (D) - determină dacă pagina adăugată din panoul webmaster îndeplinește parametrii de indexare,
  • YaDirectBot/1.0 (I) - indexează resursele din rețeaua de publicitate Yandex,
  • Yandex/1.02.000 (F) - indexează favicon-urile site-ului.

Google Spiders:

  • Googlebot este robotul principal
  • Știri Googlebot - scanează și indexează știrile,
  • Google Mobile - indexează site-urile pentru dispozitive mobile,
  • Imagini Googlebot - caută și indexează imagini,
  • Googlebot Video - indexează videoclipuri,
  • Google AdsBot - verifică calitatea paginii de destinație,
  • Google Mobile AdSense și Google AdSense - indexează site-urile rețelei de publicitate Google.

Alte motoare de căutare folosesc, de asemenea, mai multe tipuri de roboți care sunt similari din punct de vedere funcțional cu cei enumerați.

Contrar credinței populare, robotul nu este direct implicat în nicio prelucrare a documentelor scanate. Numai le citește și le salvează, apoi sunt procesate de alte programe. Confirmarea vizuală poate fi obținută prin analiza jurnalelor unui site care este indexat pentru prima dată. La prima vizită, botul solicită mai întâi fișierul robots.txt, apoi pagina principală a site-ului. Adică urmează singura legătură cunoscută de el. Aici se termină întotdeauna prima vizită a botului. După ceva timp (de obicei a doua zi), botul solicită următoarele pagini - folosind link-uri care se găsesc pe pagina care a fost deja citită. Apoi procesul continuă în aceeași ordine: solicitarea paginilor pentru care s-au găsit deja linkuri - o pauză de procesare a documentelor citite - următoarea sesiune cu o cerere de linkuri găsite.

Analizarea paginilor din mers ar însemna mult mai mult O consumul mai mare de resurse al robotului și pierderea de timp. Fiecare server de scanare rulează mai multe procese bot în paralel. Ei trebuie să acționeze cât mai repede posibil pentru a avea timp să citească paginile noi și să le recitească pe cele existente. Prin urmare, roboții citesc și salvează doar documente. Orice salvează ei este pus în coadă pentru procesare (analizarea codului). Linkurile găsite în timpul procesării paginii sunt plasate într-o coadă de activități pentru roboți. Acesta este modul în care întreaga rețea este scanată continuu. Singurul lucru pe care un bot îl poate și ar trebui să îl analizeze din mers este fișierul robots.txt, pentru a nu solicita adrese care sunt interzise în el. În timpul fiecărei sesiuni de accesare cu crawlere a site-ului, robotul solicită mai întâi acest fișier, iar după acesta, toate paginile sunt puse în coadă pentru accesare cu crawlere.

Tipuri de roboți de căutare

Fiecare motor de căutare are propriul său set de roboți pentru scopuri diferite.
Practic, ele diferă prin scopul lor funcțional, deși limitele sunt foarte arbitrare, iar fiecare motor de căutare le înțelege în felul său. Pentru sistemele doar pentru căutarea textului integral, un robot este suficient pentru toate ocaziile. Pentru acele motoare de căutare care sunt angajate nu numai în text, roboții sunt împărțiți în cel puțin două categorii: pentru texte și desene. Există, de asemenea, boți separati dedicați unor tipuri specifice de conținut - mobil, blog, știri, video etc.

Roboti Google

Toți roboții Google sunt numiți în mod colectiv Googlebot. Principalul robot de indexare „se prezintă” astfel:

Mozilla/5.0 (compatibil; Googlebot/2.1; +http://www.google.com/bot.html)

Acest bot este ocupat să scaneze pagini HTML și alte documente pentru principal cautare Google. De asemenea, citește ocazional fișiere CSS și JS - acest lucru poate fi observat în principal în stadiul incipient al indexării site-ului, în timp ce botul accesează site-ul pentru prima dată. Tipurile de conținut acceptate sunt toate (Accept: */*).

Al doilea dintre roboții principali este ocupat cu scanarea imaginilor de pe site. Se „se prezintă” simplu:

Googlebot-Image/1.0

Cel puțin trei roboți au fost de asemenea văzuți în jurnale, ocupați să colecteze conținut pentru versiune mobila căutare. Câmpul User-agent al tuturor celor trei se termină cu linia:

(compatibil; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Înainte de această linie este modelul telefon mobil, cu care acest bot este compatibil. Boții reperați au modele telefoane Nokia, Samsung și iPhone. Tipurile de conținut acceptate sunt toate, dar cu prioritățile indicate:

Accept: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

roboți Yandex

Dintre motoarele de căutare active pe RuNet, Yandex are cea mai mare colecție de roboți. În secțiunea de ajutor pentru webmasteri, puteți găsi o listă oficială a întregului personal spider. Nu are rost să-l prezentăm aici în întregime, deoarece în această listă apar periodic modificări.
Cu toate acestea, cei mai importanți roboți Yandex pentru noi trebuie menționați separat.
Robot de indexare de bază numit în prezent

Mozilla/5.0 (compatibil; YandexBot/3.0; +http://yandex.com/bots)

Reprezentat anterior ca

Yandex/1.01.001 (compatibil; Win16; I)

Citeste Pagini HTML site-ul web și alte documente pentru indexare. Lista tipurilor de media acceptate a fost limitată anterior:

Accept: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

Din 31 iulie 2009 s-a observat o extindere semnificativă în această listă (numărul de tipuri aproape s-a dublat), iar din 10 noiembrie 2009, lista a fost scurtată la */* (toate tipurile).
Acest robot este foarte interesat de un set foarte specific de limbi: rusă, puțin mai puțin ucraineană și belarusă, puțin mai puțin engleză și foarte puțin - toate celelalte limbi.

Limba de acceptare: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Scaner de imagini robot poartă următoarea linie în câmpul User-agent:

Mozilla/5.0 (compatibil; YandexImages/3.0; +http://yandex.com/bots)

Angajat în scanarea graficelor de diferite formate pentru a căuta în imagini.

Spre deosebire de Google, Yandex are roboți separați pentru a servi unii funcții speciale căutare generală.
„oglindă” robot

Mozilla/5.0 (compatibil; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Nu face nimic deosebit de complicat - apare periodic și verifică dacă pagina principală a site-ului se potrivește la accesarea domeniului cu www. si fara. Verifică, de asemenea, domeniile „oglindă” paralele pentru potriviri. Aparent, oglinzile și forma canonică a domeniilor din Yandex sunt tratate separat pachete software, care nu are legătură directă cu indexarea. În caz contrar, nu există absolut nimic care să explice existența unui bot separat în acest scop.

Colector de pictograme favicon.ico

Mozilla/5.0 (compatibil; YandexFavicons/1.0; +http://yandex.com/bots)

Apare periodic și solicită pictograma favicon.ico, care apare apoi în rezultatele căutării lângă linkul către site. Din ce motive colecționarul de imagini nu împărtășește această responsabilitate este necunoscut. Se pare că există și un pachet software separat în joc.

Botul de verificare pentru site-uri noi, funcționează atunci când este adăugat la formularul AddURL

Mozilla/5.0 (compatibil; YandexWebmaster/2.0; +http://yandex.com/bots)

Acest bot verifică răspunsul site-ului trimițând o solicitare HEAD la adresa URL rădăcină. Astfel verificăm existența pagina principalaîn domeniul și se analizează anteturile HTTP ale acestei pagini. Botul solicită și fișierul robots.txt din rădăcina site-ului. Astfel, după trimiterea link-ului către AddURL, se stabilește că site-ul există și nici anteturile robots.txt, nici HTTP nu interzic accesul la pagina principală.

Robot Rambler

Momentan nu mai funcționează, deoarece Rambler folosește acum căutarea Yandex
Robotul indexator Rambler poate fi identificat cu ușurință în jurnal prin câmpul User-agent

StackRambler/2.0 (MSIE incompatibil)

În comparație cu „colegii” săi din alte motoare de căutare, acest bot pare destul de simplu: nu indică o listă de tipuri de media (în consecință, primește documentul solicitat de orice tip), câmpul Accept-Language lipsește din cerere, iar câmpul If-Modified-since nu se găsește în solicitările botului .

Robot Mail.Ru

Se știu puține lucruri despre acest robot încă. Portalul Mail.Ru și-a dezvoltat propria căutare de mult timp, dar încă nu a ajuns să lanseze această căutare. Prin urmare, numai numele botului din User-agent este cunoscut cu siguranță - Mail.Ru/2.0 (anterior - Mail.Ru/1.0). Numele botului pentru directivele fișierului robors.txt nu a fost publicat nicăieri; se presupune că botul ar trebui să se numească Mail.Ru.

Alți roboți

Căutarea pe Internet nu se limitează, desigur, la două motoare de căutare. Prin urmare, există și alți roboți - de exemplu, robotul Bing - motorul de căutare de la Microsoft și alți roboți. Deci, în special, în China există un motor național de căutare Baidu - dar este puțin probabil ca robotul său să ajungă la mijlocul râului și să ajungă la site-ul rusesc.

În plus, în ultima perioadă au proliferat multe servicii - în special solomono - care, deși nu sunt motoare de căutare, scanează și site-uri. Adesea, valoarea transmiterii informațiilor despre site către astfel de sisteme este discutabilă și, prin urmare, roboții lor pot fi interziși


Top