Ce fel de muncă fac roboții păianjen. Motoarele de căutare sunt roboții și păianjenii lor. Cine sunt roboții de căutare

Robot de căutare(bot, păianjen, păianjen, crawler)- Acest program special un motor de căutare conceput pentru a scana site-uri de pe Internet.

Mulți nu știu că roboții de scanare pur și simplu colectează și stochează informații. Ei nu o procesează. Acest lucru este realizat de alte programe.

Dacă doriți să priviți site-ul prin ochii unui robot de căutare, atunci puteți face acest lucru prin panoul pentru webmasteri.

Puteți vedea cum este Google prin panoul pentru webmasteri. Acolo trebuie să adăugați site-ul dvs. și apoi puteți vedea pe pagină:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru

Puteți vedea cum este Yandex printr-o copie salvată a paginii. Pentru a face acest lucru, găsim pagina dorită în căutarea Yandex, faceți clic pe „copie salvată” și apoi „vedeți versiunea text”.

Mai jos este o listă de roboți de căutare care trec prin site-urile noastre. Unele dintre ele indexează site-uri, altele monitorizează publicitate contextuală. Există roboți specializați care se ocupă de anumite sarcini înguste. De exemplu, ei indexează imagini sau știri.

Cunoscând „fața” robotului, îi puteți interzice sau îi permiteți să se târască în jurul site-ului, reducând astfel sarcina de pe server. Ei bine, sau protejați-vă informațiile împotriva pătrunderii în rețea.

roboți de căutare Yandex

Motorul de căutare Yandex are o duzină și jumătate de roboți de căutare cunoscuți nouă. Lista de roboți pe care am reușit să-i scot la iveală, inclusiv din ajutorul oficial, este mai jos.

YandexBot este principalul robot de indexare;
YandexMedia este un robot care indexează date multimedia;
YandexImages — Yandex.Images indexer;
YandexCatalog - un „tapper” Yandex.Catalog, folosit pentru a anula temporar publicarea site-urilor inaccesibile din Catalog;
YaDirectFetcher - robot Yandex.Direct;
YandexBlogs este un robot de căutare a blogurilor care indexează postări și comentarii;
YandexNews - robot Yandex.News;
YandexWebmaster - apare atunci când adăugați un site prin forumul AddURL;
YandexPagechecker - validator de microdate;
YandexFavicons - indexator favicon
YandexMetrika - robot Yandex.Metrika;
YandexMarket — robot Yandex.Market;
YandexCalendar este un robot Yandex.Calendar.

roboți de căutare Google (roboți)

Googlebot este principalul robot de indexare;
Googlebot Nes - indexator de știri;
Googlebot Images - indexator de imagini;
Googlebot Video - robot pentru date video;
Google Mobile este un indexator de conținut mobil;
Google Mobile AdSense - robot adsense mobil
Google AdSense- robot adsense
Google AdsBot - Botul de verificare a calității paginii de destinație
Mediapartners-Google - AdSense Bot

Roboții altor motoare de căutare

De asemenea, în jurnalele site-ului tău, poți să dai peste niște roboți ai altor motoare de căutare.

Rambler - StackRambler
Mail.ru - Mail.Ru
Yahoo! - Slurp (sau Yahoo! Slurp)
AOL - Slurp
MSN-MSNBot
Live-MSNBot
Întreabă - Teoma
Alexa-ia_archiver
Lycos - Lycos
Aport - Aport
Webalta - WebAlta (WebAlta Crawler/2.0)

Pe lângă roboții motoarelor de căutare, o armată uriașă de tot felul de păianjeni stângaci aleargă pe site-uri. Acestea sunt diferiți analizatori care colectează informații de pe site-uri, de regulă, în scopurile egoiste ale creatorilor lor.

Unii fură conținut, alții fură imagini, alții hack site-uri și plasează în secret link-uri. Dacă observați că un astfel de analizator s-a lipit de site-ul dvs., blocați accesul la acesta cu toată lumea moduri posibile, inclusiv prin fișierul robots.txt.

Bună prieteni! Astăzi veți afla cum funcționează roboții de căutare Yandex și Google și ce funcție îndeplinesc în promovarea site-ului web. Deci să mergem!

Motoarele de căutare fac această acțiune pentru a găsi zece proiecte WEB dintr-un milion de site-uri care au un răspuns de înaltă calitate și relevant la interogarea unui utilizator. De ce doar zece? Pentru că este format din doar zece poziții.

Căutați prieteni roboți și webmasteri și utilizatori

De ce este important să vizitați site-ul de către roboții de căutare a devenit deja clar și de ce este pentru utilizator? Așa este, pentru ca utilizatorul să deschidă doar acele site-uri care răspund integral solicitării sale.

Robot de căutare- un instrument foarte flexibil, este capabil să găsească un site, chiar și unul care tocmai a fost creat, iar proprietarul acestui site nu a fost încă implicat în . Prin urmare, acest bot a fost numit păianjen, își poate întinde labele și poate ajunge oriunde pe web-ul virtual.

Este posibil să controlați robotul de căutare în interesele dvs

Există momente când unele pagini nu sunt incluse în căutare. Acest lucru se datorează în principal faptului că această pagină nu a fost încă indexată de un robot de căutare. Desigur, mai devreme sau mai târziu robotul de căutare va observa această pagină. Dar este nevoie de timp și, uneori, destul de mult. Dar aici poți ajuta robotul de căutare să viziteze această pagină mai repede.

Pentru a face acest lucru, vă puteți plasa site-ul în directoare sau liste speciale, rețele sociale. În general, pe toate site-urile unde pur și simplu locuiește robotul de căutare. De exemplu, în rețelele sociale există o actualizare în fiecare secundă. Încercați să revendicați site-ul dvs., iar robotul de căutare va ajunge pe site-ul dvs. mult mai repede.

Din aceasta rezultă una, dar regula principală. Dacă doriți ca roboții motoarelor de căutare să vă viziteze site-ul, aceștia trebuie să fie alimentați cu conținut nou în mod regulat. În cazul în care observă că se actualizează conținutul, site-ul se dezvoltă, vor vizita mult mai des proiectul tău de internet.

Fiecare robot de căutare își poate aminti cât de des se modifică conținutul tău. El evaluează nu numai calitatea, ci și intervalele de timp. Și dacă materialul de pe site este actualizat o dată pe lună, atunci va veni pe site o dată pe lună.

Astfel, dacă site-ul este actualizat o dată pe săptămână, atunci robotul de căutare va veni o dată pe săptămână. Dacă actualizați site-ul în fiecare zi, atunci robotul de căutare va vizita site-ul în fiecare zi sau o dată la două zile. Există site-uri care sunt indexate în câteva minute după actualizare. Acest social media, agregatoare de știri și site-uri care postează mai multe articole pe zi.

Cum să dai o sarcină unui robot și să îi interzici ceva?

La început, am aflat că motoarele de căutare au mai mulți roboți care îndeplinesc diferite sarcini. Cineva caută poze, cineva caută link-uri și așa mai departe.

Puteți controla orice robot folosind un fișier special robots.txt . Din acest fișier robotul începe să se familiarizeze cu site-ul. În acest fișier, puteți specifica dacă robotul poate indexa site-ul, dacă da, ce secțiuni. Toate aceste instrucțiuni pot fi create pentru unul sau toți roboții.

Training pentru promovarea site-ului web

Aflați mai multe despre înțelepciune Promovarea SEO site-uri din motoarele de căutare Google și Yandex, vorbesc pe cont propriu prin Skype. Mi-am adus mai mult la toate proiectele WEB și am obținut rezultate excelente din asta. Te pot invata, daca te intereseaza!

robot de căutare se numește un program special al unui motor de căutare, care este conceput pentru a intra în baza de date (indexare) site-uri găsite pe Internet și paginile acestora. Se mai folosesc denumirile: crawler, spider, bot, automaticindexer, furnică, webcrawler, bot, webscutter, webroboți, webspider.

Principiul de funcționare

Robotul de căutare este un program de tip browser. Scanează constant rețeaua: vizitează site-uri indexate (deja cunoscute de el), urmărește link-uri de la acestea și găsește noi resurse. Când este găsită o nouă resursă, robotul de procedură o adaugă la indexul motorului de căutare. Robotul de căutare indexează și actualizările pe site-uri, a căror frecvență este fixă. De exemplu, un site care este actualizat o dată pe săptămână va fi vizitat de un păianjen cu această frecvență, iar conținutul de pe site-urile de știri poate fi indexat în câteva minute de la publicare. Dacă niciun link de la alte resurse nu duce la site, atunci pentru a atrage roboți de căutare, resursa trebuie adăugată printr-un formular special (Google Webmaster Center, Yandex Webmaster Panel etc.).

Tipuri de roboți de căutare

păianjeni Yandex:

  • Yandex/1.01.001 I este principalul bot de indexare,
  • Yandex/1.01.001 (P) - indexează imagini,
  • Yandex/1.01.001 (H) - găsește oglinzi de site,
  • Yandex/1.03.003 (D) - determină dacă pagina adăugată din panoul webmaster se potrivește cu parametrii de indexare,
  • YaDirectBot/1.0 (I) - indexează resursele din retea de publicitate Yandex,
  • Yandex/1.02.000 (F) — indexează favicon-urile site-ului.

Google Spiders:

  • Googlebot este robotul principal,
  • Știri Googlebot - accesează cu crawlere și indexează știrile,
  • Google Mobile - indexează site-urile web pentru dispozitive mobile,
  • Imagini Googlebot - caută și indexează imagini,
  • Googlebot Video - indexează videoclipuri,
  • Google AdsBot - verifică calitatea paginii de destinație,
  • Google Mobile AdSense și Google AdSense - indexează site-urile rețelei de publicitate Google.

Alte motoare de căutare folosesc, de asemenea, mai multe tipuri de roboți care sunt similari din punct de vedere funcțional cu cei enumerați.

robot de căutare se numește un program special al unui motor de căutare, care este conceput pentru a intra în baza de date (indexare) site-uri găsite pe Internet și paginile acestora. Se mai folosesc denumirile: crawler, spider, bot, automaticindexer, furnică, webcrawler, bot, webscutter, webroboți, webspider.

Principiul de funcționare

Robotul de căutare este un program de tip browser. Scanează constant rețeaua: vizitează site-uri indexate (deja cunoscute de el), urmărește link-uri de la acestea și găsește noi resurse. Când este găsită o nouă resursă, robotul de procedură o adaugă la indexul motorului de căutare. Robotul de căutare indexează și actualizările pe site-uri, a căror frecvență este fixă. De exemplu, un site care este actualizat o dată pe săptămână va fi vizitat de un păianjen cu această frecvență, iar conținutul de pe site-urile de știri poate fi indexat în câteva minute de la publicare. Dacă niciun link de la alte resurse nu duce la site, atunci pentru a atrage roboți de căutare, resursa trebuie adăugată printr-un formular special (Google Webmaster Center, Yandex Webmaster Panel etc.).

Tipuri de roboți de căutare

păianjeni Yandex:

  • Yandex/1.01.001 I este principalul bot de indexare,
  • Yandex/1.01.001 (P) - indexează imagini,
  • Yandex/1.01.001 (H) - găsește oglinzi de site,
  • Yandex/1.03.003 (D) - determină dacă pagina adăugată din panoul webmaster se potrivește cu parametrii de indexare,
  • YaDirectBot/1.0 (I) - indexează resursele din rețeaua de publicitate Yandex,
  • Yandex/1.02.000 (F) — indexează favicon-urile site-ului.

Google Spiders:

  • Googlebot este robotul principal,
  • Știri Googlebot - accesează cu crawlere și indexează știrile,
  • Google Mobile - indexează site-urile web pentru dispozitive mobile,
  • Imagini Googlebot - caută și indexează imagini,
  • Googlebot Video - indexează videoclipuri,
  • Google AdsBot - verifică calitatea paginii de destinație,
  • Google Mobile AdSense și Google AdSense - indexează site-urile rețelei de publicitate Google.

Alte motoare de căutare folosesc, de asemenea, mai multe tipuri de roboți care sunt similari din punct de vedere funcțional cu cei enumerați.

Contrar credinței populare, robotul nu este direct implicat în nicio prelucrare a documentelor scanate. El doar le citește și le salvează, apoi alte programe le procesează. Confirmarea vizuală poate fi obținută prin analiza jurnalelor unui site care este indexat pentru prima dată. La prima vizită, botul solicită mai întâi fișierul robots.txt, apoi pagina principală a site-ului. Adică urmează singura legătură cunoscută de el. Aici se termină întotdeauna prima vizită a botului. După ceva timp (de obicei a doua zi), botul solicită paginile următoare - folosind link-urile găsite pe pagina deja citită. Apoi procesul continuă în aceeași ordine: o cerere de pagini, link-uri către care au fost deja găsite - o pauză de procesare a documentelor citite - următoarea sesiune cu o cerere de linkuri găsite.

Analizarea paginilor „din zbor” ar însemna mult mai mult O intensitatea mai mare a resurselor robotului și pierderea de timp. Fiecare server de scanare rulează multe procese bot în paralel. Ei trebuie să acționeze cât mai repede posibil pentru a avea timp să citească paginile noi și să recitească cele deja cunoscute. Prin urmare, roboții citesc și salvează doar documente. Tot ceea ce salvează este pus în coadă pentru procesare (dezasamblarea codului). Linkurile găsite în timpul procesării paginii sunt plasate în coada de activități pentru roboți. Deci, există o scanare continuă a întregii rețele. Singurul lucru pe care botul îl poate și ar trebui să îl analizeze din mers este fișierul robots.txt, pentru a nu solicita adrese care sunt interzise în el. În timpul fiecărei sesiuni de accesare cu crawlere a site-ului, robotul solicită în primul rând acest fișier, iar după el - toți cei aflați la coadă pentru scanarea paginii.

Tipuri de roboți de căutare

Fiecare motor de căutare are propriul său set de roboți pentru scopuri diferite.
Practic, ele diferă prin scopul lor funcțional, deși granițele sunt foarte condiționate, iar fiecare motor de căutare le înțelege în felul său. Pentru sistemele de căutare cu text integral, un robot este suficient pentru toate ocaziile. Pentru acele motoare de căutare care nu sunt ocupate doar de text, boții sunt împărțiți în cel puțin două categorii: pentru texte și imagini. Există, de asemenea, boți separati dedicați unor tipuri specifice de conținut - mobil, blog, știri, video etc.

roboți Google

Toți roboții Google sunt cunoscuți în mod colectiv ca Googlebot. Indexatorul principal al robotului „se reprezintă” după cum urmează:

Mozilla/5.0 (compatibil; Googlebot/2.1; +http://www.google.com/bot.html)

Acest bot este ocupat să scaneze pagini HTML și alte documente pentru principal cautare Google. De asemenea, citește din când în când fișiere CSS și JS - puteți observa acest lucru în cea mai mare parte într-un stadiu incipient al indexării site-ului, în timp ce botul accesează site-ul pentru prima dată. Tipurile de conținut acceptate sunt toate (Accept: */*).

Al doilea dintre roboții principali este ocupat cu scanarea imaginilor de pe site. „Apare” simplu:

Googlebot-Image/1.0

Cel puțin trei roboți au fost de asemenea văzuți în jurnale, ocupați să colecteze conținut pentru versiune mobila căutare. Câmpul User-agent al tuturor celor trei se termină cu linia:

(compatibil; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Înainte de această linie - model telefon mobil cu care acest bot este compatibil. Boții observați au aceste modele telefoane Nokia, Samsung și iPhone. Tipurile de conținut acceptate sunt toate, dar prioritizate:

Accept: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

roboți Yandex

Dintre motoarele de căutare active în Runet, Yandex are cea mai mare colecție de roboți. Consultați secțiunea de ajutor pentru webmasteri pentru o listă oficială a întregului personal spider. Nu are sens să o dați aici în întregime, deoarece în această listă apar periodic modificări.
Cu toate acestea, cei mai importanți roboți Yandex pentru noi ar trebui menționați separat.
Robot de indexare principal numit în prezent

Mozilla/5.0 (compatibil; YandexBot/3.0; +http://yandex.com/bots)

Prezentat anterior ca

Yandex/1.01.001 (compatibil; Win16; I)

Citeste Pagini HTML site și alte documente pentru indexare. Lista tipurilor de media acceptate era anterior limitată la:

Accept: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

Din 31 iulie 2009 s-a observat o extindere semnificativă în această listă (numărul de tipuri aproape s-a dublat), iar din 10 noiembrie 2009, lista a fost scurtată la */* (toate tipurile).
Acest robot este foarte interesat de un set foarte specific de limbi: rusă, ceva mai puțin ucraineană și belarusă, puțin mai puțin engleză și foarte puțin - toate celelalte limbi.

Limba de acceptare: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Robot scanner de imagini poartă următorul șir în câmpul User-agent:

Mozilla/5.0 (compatibil; YandexImages/3.0; +http://yandex.com/bots)

Angajat în scanarea graficelor de diferite formate pentru căutarea în imagini.

Spre deosebire de Google, Yandex are roboți separați pentru a servi unii funcții speciale căutare generală.
„oglindă” robot

Mozilla/5.0 (compatibil; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Nu face nimic deosebit de complicat - apare periodic și verifică dacă pagina principală a site-ului se potrivește cu www la accesarea domeniului. si fara. De asemenea, verifică domeniile „oglindă” paralele pentru o potrivire. Aparent, oglinzile și forma canonică a domeniilor din Yandex sunt gestionate de un separat pachete software A care nu are legătură directă cu indexarea. În caz contrar, nu există absolut nimic care să explice existența unui bot separat în acest scop.

selector de pictograme favicon.ico

Mozilla/5.0 (compatibil; YandexFavicons/1.0; +http://yandex.com/bots)

Apare periodic și solicită pictograma favicon.ico, care apare apoi în rezultatele căutării lângă linkul către site. Din ce motive selectorul de imagini nu combină această sarcină este necunoscut. Aparent, există și un pachet software separat.

Verificați Bot pentru site-uri noi, funcționează atunci când este adăugat la formularul AddURL

Mozilla/5.0 (compatibil; YandexWebmaster/2.0; +http://yandex.com/bots)

Acest bot verifică răspunsul site-ului trimițând o solicitare HEAD la adresa URL rădăcină. Astfel, se verifică existența unei pagini master în domeniu și se parsează anteturile HTTP ale acestei pagini. Botul solicită și fișierul robots.txt din rădăcina site-ului. Astfel, după trimiterea unui link către AddURL, se stabilește că site-ul există și nici anteturile robots.txt, nici HTTP nu interzic accesul la pagina principală.

Robot Rambler

Momentan nu mai funcționează, deoarece Rambler folosește acum căutarea Yandex
Robotul de indexare Rambler este ușor de identificat în jurnal prin câmpul User-agent

StackRambler/2.0 (MSIE incompatibil)

Față de „colegii” săi din alte motoare de căutare, acest bot pare destul de simplu: nu specifică o listă de tipuri de media (respectiv, primește documentul solicitat de orice tip), câmpul Accept-Language lipsește din cerere, iar câmpul If-Modified-since nu se găsește nici în solicitările botului .

Robot Mail.Ru

Se știu puține lucruri despre acest robot. Portalul Mail.Ru și-a dezvoltat propria căutare de mult timp, dar încă nu va lansa această căutare. Prin urmare, numai numele botului din User-agent este cunoscut în mod fiabil - Mail.Ru/2.0 (anterior - Mail.Ru/1.0). Numele botului pentru directivele fișierului robors.txt nu a fost publicat nicăieri, se presupune că botul ar trebui să se numească Mail.Ru.

Alți roboți

Căutarea pe Internet nu se limitează, desigur, la două motoare de căutare. Prin urmare, există și alți roboți - de exemplu, robotul Bing - un motor de căutare de la Microsoft și alți roboți. Deci, în special, în China există un motor național de căutare Baidu - dar este puțin probabil ca robotul său să ajungă la mijlocul râului și să ajungă la site-ul rusesc.

În plus, recent au apărut multe servicii - în special solomono - care, deși nu sunt motoare de căutare, scanează și site-uri. Adesea, valoarea transmiterii informațiilor despre site către astfel de sisteme este discutabilă și, prin urmare, roboții lor pot fi interziși în


Top