Aký druh práce robia pavúčí roboti? Vyhľadávače sú ich roboty a pavúky. Kto sú vyhľadávacie roboty

Vyhľadávací robot (bot, pavúk, pavúk, prehľadávač)- Toto špeciálny program vyhľadávací nástroj určený na skenovanie stránok na internete.

Mnoho ľudí nevie, že skenovacie roboty jednoducho zhromažďujú a ukladajú informácie. Nespracúvajú to. Robia to iné programy.

Ak sa chcete na stránku pozrieť očami vyhľadávacieho robota, môžete tak urobiť cez panel správcu webu.

Na paneli správcu webu môžete vidieť, ako Google funguje. Tam musíte pridať svoju stránku a potom sa môžete pozrieť na stránku:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=sk

Yandex môžete zobraziť prostredníctvom uloženej kópie stránky. Ak to chcete urobiť, nájdite požadovanú stránku vo vyhľadávaní Yandex, kliknite na „uložená kópia“ a potom na „zobraziť textovú verziu“.

Nižšie je uvedený zoznam vyhľadávacích robotov, ktorí navštevujú naše stránky. Niektoré z nich indexujú stránky, iné monitorujú kontextová reklama. Existujú špecializované roboty, ktoré vykonávajú určité úzke úlohy. Napríklad indexujú obrázky alebo správy.

Keď robota poznáte, môžete mu zakázať alebo povoliť, aby sa plazil po stránke, čím sa zníži zaťaženie servera. Alebo chráňte svoje informácie pred vniknutím do siete.

Vyhľadávacie roboty Yandex

Vyhľadávací nástroj Yandex má tucet a pol vyhľadávacích robotov, ktoré poznáme. Zoznam robotov, ktoré sa mi podarilo vykopať, vrátane z oficiálnej pomoci, je uvedený nižšie.

YandexBot je hlavný indexovací robot;
YandexMedia je robot, ktorý indexuje multimediálne údaje;
YandexImages - indexátor Yandex.Images;
YandexCatalog - nástroj „na klepnutie“ pre Yandex.Catalog, ktorý sa používa na dočasné odstránenie nedostupných stránok z uverejnenia v katalógu;
YaDirectFetcher – robot Yandex.Direct;
YandexBlogs je robot na vyhľadávanie blogov, ktorý indexuje príspevky a komentáre;
YandexNews - robot Yandex.News;
YandexWebmaster – prichádza pri pridávaní stránky cez fórum AddURL;
YandexPagechecker - mikro validátor značiek;
YandexFavicons - indexátor favicon
YandexMetrika - robot Yandex.Metrica;
YandexMarket - robot Yandex.Market;
YandexCalendar je robot Yandex.Calendar.

Vyhľadávacie roboty Google (boty)

Googlebot je hlavný indexovací robot;
Googlebot Nes – indexátor správ;
Googlebot Images – indexovač obrázkov;
Googlebot Video – robot pre video dáta;
Google Mobile – indexovač mobilného obsahu;
Google Mobile AdSense – mobilný robot AdSense
Google AdSense- Robot AdSense
Google AdsBot – robot na kontrolu kvality vstupnej stránky
Mediapartners-Google – robot AdSense

Roboty iných vyhľadávačov

V protokoloch vašej stránky môžete tiež naraziť na niektorých robotov iných vyhľadávacích nástrojov.

Rambler - StackRambler
Mail.ru - Mail.Ru
Yahoo! — Slurp (alebo Yahoo! Slurp)
AOL - Slurp
MSN - MSNBot
Naživo - MSNBot
Opýtajte sa - Teoma
Alexa - ia_archiver
Lycos - Lycos
Aport - Aport
Webalta – WebAlta (WebAlta Crawler/2.0)

Okrem robotov vo vyhľadávačoch po stránkach pobehuje obrovská armáda všelijakých ľavicových pavúkov. Ide o rôzne analyzátory, ktoré zhromažďujú informácie zo stránok, zvyčajne pre sebecké účely ich tvorcov.

Niektorí kradnú obsah, iní kradnú obrázky, iní hackujú webové stránky a tajne umiestňujú odkazy. Ak si všimnete, že sa takýto analyzátor pripojil k vašej lokalite, zablokujte k nemu prístup všetkých možné spôsoby, a to aj prostredníctvom súboru robots.txt.

Dobrý deň, priatelia! Dnes sa dozviete, ako fungujú vyhľadávacie roboty Yandex a Google a akú funkciu vykonávajú pri propagácii webových stránok. Tak, poďme!

Vyhľadávače robia túto akciu s cieľom nájsť desať WEB projektov z milióna stránok, ktoré majú kvalitnú a relevantnú odpoveď na požiadavku používateľa. Prečo len desať? Pretože pozostáva len z desiatich pozícií.

Vyhľadávacie roboty sú priateľmi správcov webu aj používateľov

Prečo je dôležité, aby vyhľadávacie roboty navštívili stránku, už bolo jasné, ale prečo to používateľ potrebuje? Je to tak, aby používateľ videl iba tie stránky, ktoré odpovedia na jeho žiadosť v plnom rozsahu.

Vyhľadávací robot- veľmi flexibilný nástroj, dokáže nájsť stránku, aj tú, ktorá bola práve vytvorená, a majiteľ tejto stránky na nej ešte nepracoval. To je dôvod, prečo sa tento robot nazýval pavúk; môže si natiahnuť nohy a dostať sa kdekoľvek na virtuálnom webe.

Je možné ovládať vyhľadávacieho robota vo svoj prospech?

Existujú prípady, keď niektoré stránky nie sú zahrnuté do vyhľadávania. Je to spôsobené najmä tým, že táto stránka ešte nebola zaindexovaná vyhľadávacím robotom. Samozrejme, skôr či neskôr si túto stránku všimne vyhľadávací robot. Chce to však čas a niekedy aj dosť času. Tu však môžete pomôcť vyhľadávaciemu robotovi rýchlejšie navštíviť túto stránku.

Ak to chcete urobiť, môžete umiestniť svoje webové stránky do špeciálnych adresárov alebo zoznamov, sociálnych sietí. Vo všeobecnosti na všetkých stránkach, kde vyhľadávací robot jednoducho žije. Napríklad sociálne siete sa aktualizujú každú sekundu. Skúste inzerovať svoju stránku a vyhľadávací robot príde na vašu stránku oveľa rýchlejšie.

Z toho vyplýva jedno hlavné pravidlo. Ak chcete, aby vaše stránky navštevovali roboti vyhľadávacích nástrojov, musíte im pravidelne poskytovať nový obsah. Ak si všimnú, že sa obsah aktualizuje a stránka sa vyvíja, začnú váš internetový projekt navštevovať oveľa častejšie.

Každý vyhľadávací robot si dokáže zapamätať, ako často sa mení váš obsah. Hodnotí nielen kvalitu, ale aj časové intervaly. A ak sa materiál na stránke aktualizuje raz za mesiac, príde na stránku raz za mesiac.

Ak sa teda stránka aktualizuje raz týždenne, vyhľadávací robot príde raz za týždeň. Ak aktualizujete stránku každý deň, vyhľadávací robot navštívi stránku každý deň alebo každý druhý deň. Existujú stránky, ktoré sú indexované do niekoľkých minút po aktualizácii. Toto sociálne médiá, agregátory správ a stránky, ktoré uverejňujú niekoľko článkov denne.

Ako zadať robotovi úlohu a zakázať mu čokoľvek?

Čoskoro sme sa dozvedeli, že vyhľadávacie nástroje majú viacero robotov, ktoré vykonávajú rôzne úlohy. Niektorí hľadajú obrázky, niektorí odkazy atď.

Pomocou špeciálneho súboru môžete ovládať akéhokoľvek robota robots.txt . Práve z tohto súboru sa robot začína zoznamovať so stránkou. V tomto súbore môžete určiť, či môže robot indexovať stránku a ak áno, ktoré sekcie. Všetky tieto inštrukcie môžu byť vytvorené pre jedného alebo všetkých robotov.

Školenie propagácie webových stránok

Viac podrobností o múdrosti SEO propagácia stránky vo vyhľadávačoch systémy Google a Yandex, hovorím sám na Skype. Všetky svoje WEB projekty som priviedol k väčšej návštevnosti a mám z toho vynikajúce výsledky. Môžem to naučiť aj vás, ak máte záujem!

Vyhľadávací robot je špeciálny program vyhľadávacieho nástroja, ktorý je určený na zadávanie do databázy (indexu) stránok a ich stránok nájdených na internete. Používané sú aj názvy: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Princíp činnosti

Vyhľadávací robot je program typu prehliadača. Neustále prehľadáva sieť: navštevuje indexované (už známe) stránky, sleduje odkazy z nich a nachádza nové zdroje. Keď je objavený nový zdroj, procedurálny robot ho pridá do indexu vyhľadávacieho nástroja. Vyhľadávací robot tiež indexuje aktualizácie na stránkach, ktorých frekvencia je pevná. Napríklad web, ktorý sa aktualizuje raz týždenne, navštívi pavúk s takouto frekvenciou a obsah na spravodajských weboch je možné indexovať v priebehu niekoľkých minút od zverejnenia. Ak na stránku nevedú žiadne odkazy z iných zdrojov, potom, aby sa prilákali vyhľadávacie roboty, musí byť zdroj pridaný prostredníctvom špeciálneho formulára (Google Webmaster Center, Yandex Webmaster Panel atď.).

Typy vyhľadávacích robotov

Pavúky Yandex:

  • Yandex/1.01.001 I - hlavný robot zapojený do indexovania,
  • Yandex/1.01.001 (P) - indexuje obrázky,
  • Yandex/1.01.001 (H) - nájde zrkadlové stránky,
  • Yandex/1.03.003 (D) - určuje, či stránka pridaná z panela správcu webu spĺňa parametre indexovania,
  • YaDirectBot/1.0 (I) – indexuje zdroje z reklamná sieť Yandex,
  • Yandex/1.02.000 (F) - indexuje obľúbené ikony stránok.

Google Spiders:

  • Hlavným robotom je Googlebot
  • Googlebot News – skenuje a indexuje správy,
  • Google Mobile – indexuje stránky pre mobilné zariadenia,
  • Googlebot Images – vyhľadáva a indexuje obrázky,
  • Googlebot Video – indexuje videá,
  • Google AdsBot – kontroluje kvalitu vstupnej stránky,
  • Google Mobile AdSense a Google AdSense – indexuje stránky reklamnej siete Google.

Iné vyhľadávače tiež používajú niekoľko typov robotov, ktoré sú funkčne podobné tým, ktoré sú uvedené.

Vyhľadávací robot je špeciálny program vyhľadávacieho nástroja, ktorý je určený na zadávanie do databázy (indexu) stránok a ich stránok nájdených na internete. Používané sú aj názvy: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Princíp činnosti

Vyhľadávací robot je program typu prehliadača. Neustále prehľadáva sieť: navštevuje indexované (už známe) stránky, sleduje odkazy z nich a nachádza nové zdroje. Keď je objavený nový zdroj, procedurálny robot ho pridá do indexu vyhľadávacieho nástroja. Vyhľadávací robot tiež indexuje aktualizácie na stránkach, ktorých frekvencia je pevná. Napríklad web, ktorý sa aktualizuje raz týždenne, navštívi pavúk s takouto frekvenciou a obsah na spravodajských weboch je možné indexovať v priebehu niekoľkých minút od zverejnenia. Ak na stránku nevedú žiadne odkazy z iných zdrojov, potom, aby sa prilákali vyhľadávacie roboty, musí byť zdroj pridaný prostredníctvom špeciálneho formulára (Google Webmaster Center, Yandex Webmaster Panel atď.).

Typy vyhľadávacích robotov

Pavúky Yandex:

  • Yandex/1.01.001 I - hlavný robot zapojený do indexovania,
  • Yandex/1.01.001 (P) - indexuje obrázky,
  • Yandex/1.01.001 (H) - nájde zrkadlové stránky,
  • Yandex/1.03.003 (D) - určuje, či stránka pridaná z panela správcu webu spĺňa parametre indexovania,
  • YaDirectBot/1.0 (I) - indexuje zdroje z reklamnej siete Yandex,
  • Yandex/1.02.000 (F) - indexuje obľúbené ikony stránok.

Google Spiders:

  • Hlavným robotom je Googlebot
  • Googlebot News – skenuje a indexuje správy,
  • Google Mobile – indexuje stránky pre mobilné zariadenia,
  • Googlebot Images – vyhľadáva a indexuje obrázky,
  • Googlebot Video – indexuje videá,
  • Google AdsBot – kontroluje kvalitu vstupnej stránky,
  • Google Mobile AdSense a Google AdSense – indexuje stránky reklamnej siete Google.

Iné vyhľadávače tiež používajú niekoľko typov robotov, ktoré sú funkčne podobné tým, ktoré sú uvedené.

Na rozdiel od všeobecného presvedčenia, robot nie je priamo zapojený do žiadneho spracovania naskenovaných dokumentov. Iba ich načíta a uloží, potom ich spracujú iné programy. Vizuálne potvrdenie možno získať analýzou denníkov lokality, ktorá sa indexuje po prvýkrát. Pri prvej návšteve si robot najprv vyžiada súbor robots.txt a potom hlavnú stránku webu. To znamená, že sleduje jediný odkaz, ktorý je mu známy. Tu vždy končí prvá návšteva robota. Po určitom čase (zvyčajne nasledujúci deň) si robot vyžiada nasledujúce stránky – pomocou odkazov, ktoré sa nachádzajú na stránke, ktorá už bola prečítaná. Potom proces pokračuje v rovnakom poradí: vyžiadanie stránok, na ktoré sa už našli odkazy - pauza na spracovanie prečítaných dokumentov - ďalšia relácia so žiadosťou o nájdené odkazy.

Parsovanie stránok za behu by znamenalo podstatne viac O väčšia spotreba zdrojov robota a strata času. Každý skenovací server spúšťa paralelne viacero procesov robotov. Musia konať čo najrýchlejšie, aby mali čas prečítať si nové stránky a znovu prečítať tie existujúce. Preto roboty iba čítajú a ukladajú dokumenty. Čokoľvek uložia, je zaradené do frontu na spracovanie (analýza kódu). Odkazy nájdené počas spracovania stránky sú umiestnené vo fronte úloh pre roboty. Takto sa nepretržite skenuje celá sieť. Jediná vec, ktorú bot môže a mal by analyzovať za behu, je súbor robots.txt, aby nepožadoval adresy, ktoré sú v ňom zakázané. Počas každej relácie prehľadávania stránok si robot najprv vyžiada tento súbor a po ňom sa všetky stránky zaradia do frontu na prehľadávanie.

Typy vyhľadávacích robotov

Každý vyhľadávací nástroj má svoju vlastnú sadu robotov na rôzne účely.
V zásade sa líšia funkčným účelom, hoci hranice sú veľmi ľubovoľné a každý vyhľadávač ich chápe po svojom. Pre systémy len na fulltextové vyhľadávanie stačí jeden robot na všetky príležitosti. Pre vyhľadávacie nástroje, ktoré sa zaoberajú nielen textom, sú roboty rozdelené do najmenej dvoch kategórií: pre texty a kresby. Existujú aj samostatné roboty, ktoré sa venujú špecifickým typom obsahu – mobil, blog, správy, video atď.

Google Robots

Všetky roboty Google sa súhrnne nazývajú Googlebot. Hlavný indexátor robota sa „predstavuje“ takto:

Mozilla/5.0 (kompatibilný; Googlebot/2.1; +http://www.google.com/bot.html)

Tento robot je zaneprázdnený skenovaním stránok HTML a iných dokumentov Google vyhľadávanie. Príležitostne tiež číta súbory CSS a JS – to si možno všimnúť hlavne v počiatočnom štádiu indexovania stránok, keď robot prvýkrát prehľadáva stránku. Akceptované typy obsahu sú všetky (Prijať: */*).

Druhý z hlavných robotov je zaneprázdnený skenovaním obrázkov zo stránky. „Predstavuje sa“ jednoducho:

Googlebot-Image/1.0

V protokoloch boli tiež videní najmenej traja roboti, ktorí boli zaneprázdnení zhromažďovaním obsahu mobilná verzia Vyhľadávanie. Pole User-agent všetkých troch končí riadkom:

(kompatibilné; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Pred týmto riadkom je model mobilný telefón, s ktorým je tento robot kompatibilný. Bodkované roboty majú modely telefóny Nokia, Samsung a iPhone. Akceptované typy obsahu sú všetky, ale s uvedenými prioritami:

Prijať: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0,9,text/vnd.wap.wml;q=0,8,text/html;q=0,7,*/*;q=0,6

roboty Yandex

Z vyhľadávacích nástrojov aktívnych na RuNet má Yandex najväčšiu zbierku robotov. V sekcii pomocníka pre webmasterov nájdete oficiálny zoznam všetkých zamestnancov pavúkov. Nemá zmysel uvádzať ho v plnom rozsahu, pretože v tomto zozname sa pravidelne vyskytujú zmeny.
Samostatne je však potrebné spomenúť najdôležitejšie roboty Yandex pre nás.
Základný indexovací robot v súčasnosti tzv

Mozilla/5.0 (kompatibilný; YandexBot/3.0; +http://yandex.com/bots)

Predtým zastúpená ako

Yandex/1.01.001 (kompatibilný; Win16; I)

Číta HTML stránky webové stránky a ďalšie dokumenty na indexovanie. Zoznam akceptovaných typov médií bol predtým obmedzený:

Prijať: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0,1, application/vnd.ms-powerpoint;q=0,1

Od 31. júla 2009 bolo zaznamenané výrazné rozšírenie tohto zoznamu (počet typov sa takmer zdvojnásobil) a od 10. novembra 2009 je zoznam skrátený na */* (všetky typy).
Tento robot sa živo zaujíma o veľmi špecifický súbor jazykov: ruština, o niečo menej ukrajinčina a bieloruština, o niečo menej angličtina a veľmi málo - všetky ostatné jazyky.

Akceptovaný jazyk: ru, uk;q=0,8, be;q=0,8, en;q=0,7, *;q=0,01

Robotický skener obrázkov má v poli User-agent nasledujúci riadok:

Mozilla/5.0 (kompatibilný; YandexImages/3.0; +http://yandex.com/bots)

Zaoberá sa skenovaním grafiky rôznych formátov na vyhľadávanie v obrázkoch.

Na rozdiel od Google má Yandex samostatné roboty, ktoré niektorým slúžia špeciálne funkcie všeobecné vyhľadávanie.
Robot "zrkadlo"

Mozilla/5.0 (kompatibilný; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Nerobí nič zvlášť zložité - pravidelne sa zobrazuje a kontroluje, či sa hlavná stránka webu zhoduje pri prístupe k doméne s www. a bez. Tiež kontroluje zhody paralelných „zrkadlových“ domén. Zdá sa, že zrkadlá a kanonická forma domén v Yandex sú riešené oddelene softvérový balík, ktorý priamo nesúvisí s indexovaním. Inak neexistuje absolútne nič, čo by vysvetľovalo existenciu samostatného bota na tento účel.

Zberateľ ikon favicon.ico

Mozilla/5.0 (kompatibilné; YandexFavicons/1.0; +http://yandex.com/bots)

Pravidelne sa zobrazuje a vyžaduje ikonu favicon.ico, ktorá sa potom zobrazí vo výsledkoch vyhľadávania vedľa odkazu na stránku. Z akých dôvodov zberateľ obrázkov nezdieľa túto zodpovednosť, nie je známe. V hre je zrejme aj samostatný softvérový balík.

Overovací robot pre nové stránky funguje po pridaní do formulára AddURL

Mozilla/5.0 (kompatibilný; YandexWebmaster/2.0; +http://yandex.com/bots)

Tento robot kontroluje odpoveď stránky odoslaním požiadavky HEAD na koreňovú adresu URL. Týmto spôsobom skontrolujeme existenciu domovskej stránke v doméne a analyzujú sa hlavičky HTTP tejto stránky. Robot tiež požaduje súbor robots.txt v koreňovom adresári webu. Po odoslaní odkazu na AddURL sa teda zistí, že stránka existuje a ani robots.txt, ani hlavičky HTTP nezakazujú prístup na hlavnú stránku.

Robot Rambler

V súčasnosti už nefunguje, pretože Rambler teraz používa vyhľadávanie Yandex
Indexovací robot Rambler sa dá v protokoloch ľahko identifikovať podľa poľa User-agent

StackRambler/2.0 (nekompatibilné s MSIE)

V porovnaní so svojimi „kolegami“ z iných vyhľadávačov vyzerá tento robot celkom jednoducho: neuvádza zoznam typov médií (podľa toho dostane požadovaný dokument akéhokoľvek typu), v požiadavke chýba pole Accept-Language, a pole If-Modified-since sa v požiadavkách robota nenachádza .

Robot Mail.Ru

O tomto robotovi sa zatiaľ nevie. Portál Mail.Ru už dlho vyvíja svoje vlastné vyhľadávanie, no stále sa mu nepodarilo spustiť toto vyhľadávanie. Preto je s určitosťou známy iba názov robota v User-agent - Mail.Ru/2.0 (predtým - Mail.Ru/1.0). Meno robota pre direktívy súboru robors.txt nebolo nikde zverejnené, existuje predpoklad, že robot by sa mal volať Mail.Ru.

Iné roboty

Internetové vyhľadávanie sa samozrejme neobmedzuje len na dva vyhľadávače. Preto existujú aj iné roboty – napríklad robot Bing – vyhľadávací nástroj od Microsoftu a ďalšie roboty. Najmä v Číne existuje národný vyhľadávač Baidu - ale jeho robot pravdepodobne nedosiahne stred rieky a nedostane sa na ruskú stránku.

Okrem toho sa v poslednej dobe rozmohlo mnoho služieb – najmä solomono – ktoré, hoci nie sú vyhľadávačmi, prehľadávajú aj stránky. Hodnota prenosu informácií o lokalite do takýchto systémov je často otázna, a preto môže byť vstup ich robotov zakázaný


Hore