Milyen munkát végeznek a pók robotok? A keresőmotorok a robotjaik és a pókok. Kik a keresőrobotok

Keresőrobot (bot, pók, pók, bejáró)- Ezt speciális program keresőmotor, amelyet internetes oldalak átvizsgálására terveztek.

Sokan nem tudják, hogy a keresőrobotok egyszerűen információkat gyűjtenek és tárolnak. Nem dolgozzák fel. Más programok ezt teszik.

Ha egy keresőrobot szemével szeretné nézni az oldalt, ezt a webmesteri panelen keresztül teheti meg.

A Google működését a webmesterpanelen tekintheti meg. Ott hozzá kell adnia a webhelyét, majd megtekintheti az oldalt:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru

Megtekintheti a Yandexet az oldal mentett másolatán keresztül. Ehhez keresse meg a kívánt oldalt a Yandex keresésében, kattintson a „mentett másolat”, majd a „szöveges verzió megtekintése” elemre.

Az alábbiakban felsoroljuk azokat a keresőrobotokat, amelyek felkeresik webhelyeinket. Némelyikük indexel, mások monitoroznak kontextuális reklámozás. Vannak speciális robotok, amelyek bizonyos szűk feladatokat látnak el. Például képeket vagy híreket indexelnek.

Ha látásból ismeri a robotot, megtilthatja vagy engedélyezheti, hogy a webhelyen mászkáljon, ezzel csökkentve a szerver terhelését. Nos, vagy védje meg adatait a hálózatba kerüléstől.

Yandex keresőrobotok

A Yandex keresőben másfél tucat keresőrobotot ismerünk. Az alábbiakban található azon robotok listája, amelyeket sikerült előásnom, beleértve a hivatalos súgót is.

A YandexBot a fő indexelő robot;
A YandexMedia egy robot, amely indexeli a multimédiás adatokat;
YandexImages - Yandex.Images indexelő;
YandexCatalog - a Yandex.Catalog „koppintó” eszköze, amely a nem elérhető webhelyek ideiglenes eltávolítására szolgál a katalógusban való közzétételből;
YaDirectFetcher - Yandex.Direct robot;
A YandexBlogs egy blogkereső robot, amely indexeli a bejegyzéseket és a megjegyzéseket;
YandexNews - Yandex.News robot;
YandexWebmaster – akkor jön, ha egy webhelyet ad hozzá az AddURL fórumon keresztül;
YandexPagechecker - mikrojelölés-ellenőrző;
YandexFavicons - Favicon indexelő
YandexMetrika - Yandex.Metrica robot;
YandexMarket - Yandex.Market robot;
A YandexCalendar egy Yandex.Calendar robot.

Google keresőrobotok (botok)

A Googlebot a fő indexelő robot;
Googlebot Nes – hírindexelő;
Googlebot Images - képindexelő;
Googlebot Video - robot videoadatokhoz;
Google Mobile - mobiltartalom indexelő;
Google Mobile AdSense – mobil AdSense robot
Google AdSense- AdSense robot
Google AdsBot – a céloldal minőségét ellenőrző robot
Mediapartners-Google - AdSense robot

Más keresőmotorok robotjai

Ezenkívül webhelye naplóiban más keresőmotorok robotjaira bukkanhat.

Rambler - StackRambler
Mail.ru - Mail.Ru
Jehu! - Slurp (vagy Yahoo! Slurp)
AOL – Slurp
MSN - MSNBot
Élőben – MSNBot
Kérdezz – Teoma
Alexa - ia_archiver
Lycos - Lycos
Aport – Aport
Webalta – WebAlta (WebAlta Crawler/2.0)

A keresőrobotokon kívül mindenféle baloldali pókok hatalmas hada rohangál az oldalakon. Ezek különféle elemzők, amelyek információkat gyűjtenek a webhelyekről, általában az alkotóik önző céljaira.

Egyesek tartalmat, mások képeket, mások webhelyeket törnek fel és linkeket helyeznek el titokban. Ha azt veszi észre, hogy egy ilyen elemző csatlakozott az Ön webhelyéhez, blokkolja mindenki hozzáférését lehetséges módjai, beleértve a robots.txt fájlt is.

Hello barátok! Ma megtudhatja, hogyan működnek a Yandex és a Google keresőrobotjai, és milyen funkciót töltenek be a webhelyek népszerűsítésében. Akkor gyerünk!

A keresőmotorok ezt a műveletet annak érdekében hajtják végre, hogy az egymillió webhely közül tíz olyan WEB-projektet találjanak, amelyek minőségi és releváns választ adnak a felhasználó kérésére. Miért csak tíz? Mert csak tíz pozícióból áll.

A keresőrobotok a webmesterek és a felhasználók barátai egyaránt

Hogy miért fontos a keresőrobotoknak egy oldal felkeresése, az már világossá vált, de miért van erre szüksége a felhasználónak? Ez így van, annak érdekében, hogy a felhasználó csak azokat a webhelyeket lássa, amelyek teljes mértékben válaszolnak a kérésére.

Keresőrobot- nagyon rugalmas eszköz, képes megtalálni az oldalt, még azt is, amelyik most készült, és az oldal tulajdonosa még nem dolgozott rajta. Ezért hívták ezt a botot póknak; képes kinyújtani a lábát, és bárhová eljuthat a virtuális weben.

Lehetséges egy keresőrobot irányítása az Ön előnyére?

Vannak esetek, amikor egyes oldalak nem szerepelnek a keresésben. Ez elsősorban annak tudható be, hogy ezt az oldalt még nem indexelte keresőrobot. Persze előbb-utóbb egy keresőrobot észreveszi ezt az oldalt. De ehhez idő kell, és néha elég sok idő. De itt segíthet a keresőrobotnak, hogy gyorsabban meglátogassa ezt az oldalt.

Ehhez elhelyezheti webhelyét speciális könyvtárakba vagy listákba, közösségi hálózatokba. Általában minden olyan webhelyen, ahol a keresőrobot egyszerűen él. Például a közösségi hálózatok másodpercenként frissülnek. Próbálja meg reklámozni az oldalát, és a keresőrobot sokkal gyorsabban érkezik az oldalára.

Ebből egy fő szabály következik. Ha azt szeretné, hogy a keresőrobotok meglátogassák webhelyét, rendszeresen új tartalommal kell ellátnia őket. Ha észreveszik, hogy a tartalom frissül, és a webhely fejlődik, sokkal gyakrabban kezdik meglátogatni az Ön internetes projektjét.

Minden keresőrobot képes megjegyezni, milyen gyakran változik a tartalom. Nemcsak a minőséget, hanem az időintervallumokat is értékeli. És ha az oldalon lévő anyagot havonta egyszer frissítik, akkor havonta egyszer jön az oldalra.

Így ha hetente egyszer frissül az oldal, akkor hetente egyszer jön a keresőrobot. Ha minden nap frissíti az oldalt, akkor a keresőrobot minden nap vagy minden második nap felkeresi az oldalt. Vannak olyan webhelyek, amelyeket a frissítés után néhány percen belül indexelnek. Ez közösségi média, hírgyűjtők és naponta több cikket közzétevő webhelyek.

Hogyan adjunk feladatot egy robotnak és tiltsuk meg, hogy bármit is csináljon?

Már az elején megtudtuk, hogy a keresőmotoroknak több robotjuk van, amelyek különböző feladatokat látnak el. Van aki képeket keres, van aki linkeket stb.

Egy speciális fájl segítségével bármilyen robotot irányíthat robots.txt . Ebből a fájlból kezdi el a robot megismerkedni az oldallal. Ebben a fájlban megadhatja, hogy a robot indexelhesse-e a webhelyet, és ha igen, mely szakaszokat. Mindezek az utasítások egy vagy az összes robothoz létrehozhatók.

Weboldal promóciós képzés

További részletek a bölcsességről SEO promóció webhelyek a keresőmotorokban Google rendszerekés a Yandex, egyedül beszélek Skype-on. Minden WEB projektemet nagyobb forgalomra hoztam, és ezzel kiváló eredményeket értem el. Ezt megtaníthatom neked is, ha érdekel!

Keresőrobot egy speciális keresőprogram, amely az interneten található webhelyek és oldalaik adatbázisba (index) bevitelére szolgál. Használt nevek is: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Működés elve

A keresőrobot egy böngésző típusú program. Folyamatosan átvizsgálja a hálózatot: indexelt (az általa már ismert) oldalakat látogat meg, követi az azokon található hivatkozásokat és új forrásokat talál. Ha új erőforrást fedez fel, az eljárási robot hozzáadja azt a keresőmotor indexéhez. A keresőrobot az oldalak frissítéseit is indexeli, amelyek gyakorisága rögzített. Például egy hetente egyszer frissített webhelyet ilyen gyakorisággal keres fel egy pók, és a híroldalak tartalma a megjelenés után perceken belül indexelhető. Ha más forrásokból nem vezetnek linkek a webhelyre, akkor a keresőrobotok vonzásához az erőforrást egy speciális űrlapon (Google Webmesterközpont, Yandex Webmester Panel stb.) keresztül kell hozzáadni.

A keresőrobotok típusai

Yandex pókok:

  • Yandex/1.01.001 I - az indexelésben részt vevő fő bot,
  • Yandex/1.01.001 (P) - indexeli a képeket,
  • Yandex/1.01.001 (H) - tükörhelyeket talál,
  • Yandex/1.03.003 (D) - meghatározza, hogy a webmesterpanelről hozzáadott oldal megfelel-e az indexelési paramétereknek,
  • YaDirectBot/1.0 (I) - az erőforrásokat indexeli hirdetési hálózat Yandex,
  • Yandex/1.02.000 (F) - indexeli a webhely kedvenceit.

Google Spiders:

  • A Googlebot a fő robot
  • Googlebot News – beolvassa és indexeli a híreket,
  • Google Mobile – indexeli a mobileszközökhöz készült webhelyeket,
  • Googlebot Images – képeket keres és indexel,
  • Googlebot Video – indexeli a videókat,
  • Google AdsBot – ellenőrzi a céloldal minőségét,
  • Google Mobile AdSense és Google AdSense - indexeli a Google hirdetési hálózat webhelyeit.

Más keresők is többféle robotot használnak, amelyek funkcionálisan hasonlóak a felsoroltakhoz.

Keresőrobot egy speciális keresőprogram, amely az interneten található webhelyek és oldalaik adatbázisba (index) bevitelére szolgál. Használt nevek is: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Működés elve

A keresőrobot egy böngésző típusú program. Folyamatosan átvizsgálja a hálózatot: indexelt (az általa már ismert) oldalakat látogat meg, követi az azokon található hivatkozásokat és új forrásokat talál. Ha új erőforrást fedez fel, az eljárási robot hozzáadja azt a keresőmotor indexéhez. A keresőrobot az oldalak frissítéseit is indexeli, amelyek gyakorisága rögzített. Például egy hetente egyszer frissített webhelyet ilyen gyakorisággal keres fel egy pók, és a híroldalak tartalma a megjelenés után perceken belül indexelhető. Ha más forrásokból nem vezetnek linkek a webhelyre, akkor a keresőrobotok vonzásához az erőforrást egy speciális űrlapon (Google Webmesterközpont, Yandex Webmester Panel stb.) keresztül kell hozzáadni.

A keresőrobotok típusai

Yandex pókok:

  • Yandex/1.01.001 I - az indexelésben részt vevő fő bot,
  • Yandex/1.01.001 (P) - indexeli a képeket,
  • Yandex/1.01.001 (H) - tükörhelyeket talál,
  • Yandex/1.03.003 (D) - meghatározza, hogy a webmesterpanelről hozzáadott oldal megfelel-e az indexelési paramétereknek,
  • YaDirectBot/1.0 (I) - indexeli a Yandex hirdetési hálózat erőforrásait,
  • Yandex/1.02.000 (F) - indexeli a webhely kedvenceit.

Google Spiders:

  • A Googlebot a fő robot
  • Googlebot News – beolvassa és indexeli a híreket,
  • Google Mobile – indexeli a mobileszközökhöz készült webhelyeket,
  • Googlebot Images – képeket keres és indexel,
  • Googlebot Video – indexeli a videókat,
  • Google AdsBot – ellenőrzi a céloldal minőségét,
  • Google Mobile AdSense és Google AdSense - indexeli a Google hirdetési hálózat webhelyeit.

Más keresők is többféle robotot használnak, amelyek funkcionálisan hasonlóak a felsoroltakhoz.

A közhiedelemmel ellentétben a robot nem vesz részt közvetlenül a beszkennelt dokumentumok feldolgozásában. Csak beolvassa és elmenti őket, majd más programok feldolgozzák őket. Vizuális megerősítést kaphat az első alkalommal indexelt webhely naplóinak elemzésével. Az első látogatáskor a bot először a robots.txt fájlt, majd a webhely főoldalát kéri le. Vagyis az egyetlen általa ismert linket követi. Mindig itt ér véget a bot első látogatása. Egy idő után (általában másnap) a bot a következő oldalakat kéri – a már olvasott oldalon található hivatkozások segítségével. Ezután a folyamat ugyanabban a sorrendben folytatódik: olyan oldalak lekérése, amelyekhez már találtak hivatkozásokat - szünet az olvasott dokumentumok feldolgozásához - a következő munkamenet a talált hivatkozások lekérésével.

Az oldalak menet közbeni elemzése lényegesen többet jelentene O a robot nagyobb erőforrás-felhasználása és időveszteség. Minden vizsgálószerver több bot-folyamatot futtat párhuzamosan. A lehető leggyorsabban kell cselekedniük, hogy legyen idejük az új oldalak elolvasására és a meglévők újraolvasására. Ezért a robotok csak olvasnak és mentenek el dokumentumokat. Amit elmentenek, az feldolgozásra (kódelemzésre) kerül sorba. Az oldalfeldolgozás során talált hivatkozások a robotok feladatsorába kerülnek. Így a teljes hálózatot folyamatosan pásztázzák. Az egyetlen dolog, amit egy bot menet közben tud és kell is elemeznie, az a robots.txt fájl, hogy ne kérjen le benne tiltott címeket. Minden webhely-feltérképezési munkamenet során a robot először ezt a fájlt kéri, majd ezt követően az összes feltérképezésre váró oldalt.

A keresőrobotok típusai

Minden keresőmotornak megvan a maga robotkészlete különböző célokra.
Alapvetően funkcionális céljukban különböznek, bár a határok nagyon önkényesek, és minden keresőmotor a maga módján értelmezi őket. A csak teljes szöveges keresésre szolgáló rendszerekben egy robot minden alkalomra elegendő. Azoknál a keresőmotoroknál, amelyek nem csak szöveggel foglalkoznak, a robotokat legalább két kategóriába sorolják: szövegekre és rajzokra. Vannak külön robotok is, amelyek meghatározott típusú tartalomhoz - mobil, blog, hírek, videók stb.

Google Robots

Az összes Google robotot összefoglalóan Googlebotnak nevezik. A fő robotindexelő így „bemutatkozik”:

Mozilla/5.0 (kompatibilis; Googlebot/2.1; +http://www.google.com/bot.html)

Ez a bot HTML-oldalak és egyéb dokumentumok szkennelésével van elfoglalva Google kereső. Alkalmanként CSS- és JS-fájlokat is olvas – ez főleg a webhelyindexelés korai szakaszában észlelhető, miközben a bot először járja be az oldalt. Az összes elfogadott tartalomtípus (Elfogadás: */*).

A főbb robotok közül a második a webhelyről származó képek szkennelésével van elfoglalva. Egyszerűen „bemutatkozik”:

Googlebot-Image/1.0

Legalább három botot is láttak a naplókban, amelyek tartalomgyűjtéssel voltak elfoglalva mobil verzió keresés. Mindhárom User-agent mezője a következő sorral végződik:

(kompatibilis; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

E sor előtt a modell áll mobiltelefon, amellyel ez a bot kompatibilis. A foltos botoknak modelljeik vannak Nokia telefonok, Samsung és iPhone. Az összes elfogadott tartalomtípus, a prioritások feltüntetésével:

Elfogadás: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Yandex robotok

A RuNeten aktív keresőmotorok közül a Yandex rendelkezik a legnagyobb botok gyűjteményével. A webmesterek súgójában megtalálja az összes pókszemélyzet hivatalos listáját. Nincs értelme itt teljes egészében bemutatni, mivel ebben a listában időszakonként változások történnek.
A számunkra legfontosabb Yandex robotokat azonban külön kell megemlíteni.
Alapvető indexelő robot jelenleg hívják

Mozilla/5.0 (kompatibilis; YandexBot/3.0; +http://yandex.com/bots)

Korábban mint

Yandex/1.01.001 (kompatibilis; Win16; I)

Olvas HTML oldalak webhely és egyéb indexelési dokumentumok. Az elfogadott médiatípusok listája korábban korlátozott volt:

Elfogadás: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0,1, application/vnd.ms-powerpoint;q=0,1

2009. július 31. óta ebben a listában jelentős bővülés figyelhető meg (a típusok száma közel duplájára nőtt), 2009. november 10-től pedig */*-ra rövidült a lista (minden típus).
Ez a robot élénken érdeklődik egy nagyon specifikus nyelv iránt: az orosz, egy kicsit kevésbé az ukrán és a fehérorosz, egy kicsit kevésbé az angol, és nagyon kevés az összes többi nyelv.

Accept-Language: ru, uk;q=0,8, be;q=0,8, en;q=0,7, *;q=0,01

Robot képszkenner a következő sort tartalmazza a User-agent mezőben:

Mozilla/5.0 (kompatibilis; YandexImages/3.0; +http://yandex.com/bots)

Különféle formátumú grafikák szkennelésével foglalkozik képekben való kereséshez.

A Google-lal ellentétben a Yandexnek külön robotjai vannak, hogy kiszolgáljanak néhányat speciális funkciókatáltalános keresés.
Robot "tükör"

Mozilla/5.0 (kompatibilis; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Nem csinál semmi különösebben bonyolultat - időnként megjelenik, és ellenőrzi, hogy a webhely főoldala megegyezik-e a domain www-vel való elérésekor. és anélkül. Ellenőrzi a párhuzamos „tükör” tartományok egyezéseit is. Úgy tűnik, a tükröket és a domének kanonikus formáját a Yandexben külön kezelik Szoftver csomag, nem kapcsolódik közvetlenül az indexeléshez. Egyébként semmi sem magyarázza egy külön bot létezését erre a célra.

Ikongyűjtő favicon.ico

Mozilla/5.0 (kompatibilis; YandexFavicons/1.0; +http://yandex.com/bots)

Időnként megjelenik, és kéri a favicon.ico ikont, amely ezután megjelenik a keresési eredmények között a webhelyre mutató hivatkozás mellett. Nem ismert, hogy a képgyűjtő milyen okokból nem osztja meg ezt a felelősséget. Nyilvánvalóan van egy külön szoftvercsomag is játékban.

Ellenőrző robotúj webhelyek esetén működik, ha hozzáadjuk az AddURL űrlaphoz

Mozilla/5.0 (kompatibilis; YandexWebmaster/2.0; +http://yandex.com/bots)

Ez a bot úgy ellenőrzi a webhely válaszát, hogy egy HEAD kérést küld a gyökér URL-nek. Így ellenőrizzük a létezést kezdőlap a tartományban, és az oldal HTTP-fejléceit elemzik. A bot kéri a robots.txt fájlt is a webhely gyökérkönyvtárában. Így az AddURL link elküldése után megállapítást nyer, hogy a webhely létezik, és sem a robots.txt, sem a HTTP-fejlécek nem tiltják a főoldalhoz való hozzáférést.

Rambler robot

Jelenleg már nem működik, mivel a Rambler mostantól a Yandex keresést használja
A Rambler indexelő robot könnyen azonosítható a naplókban a User-agent mező segítségével

StackRambler/2.0 (MSIE nem kompatibilis)

Más keresőkből származó „kollégáihoz” képest ez a bot meglehetősen egyszerűnek tűnik: nem jelzi a médiatípusok listáját (ennek megfelelően bármilyen típusú dokumentumot kap, az Elfogad-Nyelv mező hiányzik a kérésből, és az If-Modified-sce mező nem található a bot kérései között.

Robot Mail.Ru

Erről a robotról még keveset tudni. A Mail.Ru portál már régóta fejleszti saját keresését, de még mindig nem jutott el a keresés elindításához. Ezért bizonyos esetekben csak a bot neve ismert a User-agentben - Mail.Ru/2.0 (korábban - Mail.Ru/1.0). A robors.txt fájl direktíváihoz tartozó bot nevét sehol nem tették közzé, feltételezik, hogy a bot neve Mail.Ru.

Más robotok

Az internetes keresés természetesen nem korlátozódik két keresőmotorra. Ezért vannak más robotok - például a Bing robot - a Microsoft keresőmotorja és más robotok. Tehát különösen Kínában van egy nemzeti keresőmotor, a Baidu - de a robotja valószínűleg nem éri el a folyó közepét, és eléri az orosz oldalt.

Ráadásul az utóbbi időben számos szolgáltatás elterjedt - különösen a solomono -, amelyek bár nem keresőmotorok, de webhelyeket is átvizsgálnak. Gyakran megkérdőjelezhető a helyszíni információk ilyen rendszerekbe történő továbbításának értéke, ezért a robotjaikat kitilthatják


Top