Hva slags arbeid gjør edderkopproboter? Søkemotorer er deres roboter og edderkopper. Hvem er søkeroboter

Søkerobot (bot, edderkopp, edderkopp, crawler)- Dette spesialprogram søkemotor utviklet for å skanne nettsteder på Internett.

Mange vet ikke at skanningsroboter bare samler inn og lagrer informasjon. De behandler det ikke. Andre programmer gjør dette.

Hvis du vil se på nettstedet gjennom øynene til en søkerobot, kan du gjøre dette gjennom webmasterpanelet.

Du kan se hvordan Google fungerer gjennom nettredaktørpanelet. Der må du legge til nettstedet ditt, og så kan du se på siden:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru

Du kan se Yandex gjennom en lagret kopi av siden. For å gjøre dette, finn ønsket side i Yandex-søk, klikk på "lagret kopi" og deretter "vis tekstversjon".

Nedenfor er en liste over søkeroboter som besøker sidene våre. Noen av dem indekserer nettsteder, andre overvåker kontekstuell annonsering. Det finnes spesialiserte roboter som utfører visse smale oppgaver. For eksempel indekserer de bilder eller nyheter.

Når du kjenner roboten av syne, kan du forby eller la den krype rundt på nettstedet, og dermed redusere belastningen på serveren. Vel, eller beskytt informasjonen din mot å komme inn i nettverket.

Yandex søkeroboter

Yandex-søkemotoren har et dusin og et halvt søkeroboter kjent for oss. Listen over roboter som jeg klarte å grave opp, inkludert fra den offisielle hjelpen, er nedenfor.

YandexBot er den viktigste indekseringsroboten;
YandexMedia er en robot som indekserer multimediedata;
YandexImages - Yandex.Images indekserer;
YandexCatalog - et "tapping"-verktøy for Yandex.Catalog, brukt til å midlertidig fjerne utilgjengelige nettsteder fra publisering i katalogen;
YaDirectFetcher - Yandex.Direct robot;
YandexBlogs er en bloggsøkerobot som indekserer innlegg og kommentarer;
YandexNews - Yandex.News robot;
YandexWebmaster – kommer når du legger til et nettsted gjennom AddURL-forumet;
YandexPagechecker - mikro markup validator;
YandexFavicons - favicon-indekserer
YandexMetrika - Yandex.Metrica robot;
YandexMarket - Yandex.Market robot;
YandexCalendar er en Yandex.Calendar-robot.

Google søkeroboter (roboter)

Googlebot er den viktigste indekseringsroboten;
Googlebot Nes - nyhetsindekserer;
Googlebot Images - bildeindekserer;
Googlebot Video - robot for videodata;
Google Mobile – mobilinnholdsindekserer;
Google Mobile AdSense - mobil AdSense-robot
Google AdSense- AdSense-robot
Google AdsBot – robot for kontroll av landingssidekvalitet
Mediapartners-Google - AdSense-robot

Roboter fra andre søkemotorer

I loggene på nettstedet ditt kan du også snuble over noen roboter fra andre søkemotorer.

Rambler - StackRambler
Mail.ru - Mail.Ru
Yahoo! — Slurp (eller Yahoo! Slurp)
AOL - Slurp
MSN - MSNBot
Live - MSNBot
Spør - Teoma
Alexa - ia_archiver
Lycos - Lycos
Aport - Aport
Webalta – WebAlta (WebAlta Crawler/2.0)

I tillegg til søkemotorroboter, er det en enorm hær av alle slags venstreorienterte edderkopper som løper rundt på sidene. Dette er forskjellige analysere som samler inn informasjon fra nettsteder, vanligvis for egoistiske formål til skaperne deres.

Noen stjeler innhold, andre stjeler bilder, andre hacker nettsider og legger ut lenker i hemmelighet. Hvis du legger merke til at en slik parser har knyttet seg til nettstedet ditt, blokker alles tilgang til det mulige måter, inkludert gjennom robots.txt-filen.

Hei venner! I dag vil du lære hvordan Yandex- og Google-søkeroboter fungerer og hvilken funksjon de utfører i markedsføring av nettsteder. Så la oss gå!

Søkemotorer gjør denne handlingen for å finne ti WEB-prosjekter av en million nettsteder som har et høykvalitets og relevant svar på brukerens forespørsel. Hvorfor bare ti? For den består av bare ti stillinger.

Søkeroboter er venner med både nettredaktører og brukere

Hvorfor det er viktig for søkeroboter å besøke et nettsted har allerede blitt klart, men hvorfor trenger brukeren dette? Det er riktig, for at brukeren bare skal se de nettstedene som vil svare på forespørselen hans i sin helhet.

Søk robot- et veldig fleksibelt verktøy, det er i stand til å finne et nettsted, til og med et som nettopp er opprettet, og eieren av dette nettstedet har ennå ikke jobbet med det. Det er derfor denne boten ble kalt en edderkopp; den kan strekke bena og komme seg hvor som helst på det virtuelle nettet.

Er det mulig å styre en søkerobot til din fordel?

Det er tilfeller der enkelte sider ikke er inkludert i søket. Dette skyldes hovedsakelig at denne siden ennå ikke er indeksert av en søkerobot. Før eller siden vil selvfølgelig en søkerobot legge merke til denne siden. Men det tar tid, og noen ganger ganske mye tid. Men her kan du hjelpe søkeroboten til å besøke denne siden raskere.

For å gjøre dette kan du plassere nettstedet ditt i spesielle kataloger eller lister, sosiale nettverk. Generelt, på alle nettsteder hvor søkeroboten bare bor. For eksempel oppdaterer sosiale nettverk hvert sekund. Prøv å annonsere for nettstedet ditt, og søkeroboten kommer til nettstedet ditt mye raskere.

En hovedregel følger av dette. Hvis du vil at søkemotorroboter skal besøke nettstedet ditt, må du mate dem med nytt innhold med jevne mellomrom. Hvis de legger merke til at innholdet blir oppdatert og siden utvikler seg, vil de begynne å besøke Internett-prosjektet ditt mye oftere.

Hver søkerobot kan huske hvor ofte innholdet ditt endres. Han vurderer ikke bare kvalitet, men tidsintervaller. Og hvis materialet på nettstedet oppdateres en gang i måneden, vil han komme til nettstedet en gang i måneden.

Dermed, hvis siden oppdateres en gang i uken, vil søkeroboten komme en gang i uken. Hvis du oppdaterer siden hver dag, vil søkeroboten besøke siden hver dag eller annenhver dag. Det er nettsteder som indekseres innen få minutter etter oppdatering. Dette sosiale medier, nyhetsaggregatorer og nettsteder som legger ut flere artikler om dagen.

Hvordan gi en oppgave til en robot og forby den fra å gjøre noe?

Tidlig lærte vi at søkemotorer har flere roboter som utfører forskjellige oppgaver. Noen leter etter bilder, noen etter lenker og så videre.

Du kan kontrollere hvilken som helst robot ved å bruke en spesiell fil robots.txt . Det er fra denne filen at roboten begynner å bli kjent med nettstedet. I denne filen kan du spesifisere om roboten kan indeksere nettstedet, og i så fall hvilke seksjoner. Alle disse instruksjonene kan opprettes for én eller alle roboter.

Nettsideopplæring

Flere detaljer om visdom SEO-kampanje nettsteder i søkemotorer Google-systemer og Yandex, jeg snakker alene på Skype. Jeg brakte alle mine WEB-prosjekter til mer trafikk og får utmerkede resultater fra dette. Jeg kan lære deg dette også, hvis du er interessert!

Søk robot er et spesielt program for en søkemotor som er designet for å gå inn i en database (indeks) nettsteder og deres sider funnet på Internett. Navn som også brukes: crawler, spider, bot, automaticindexer, maur, webcrawler, bot, webscutter, webrobots, webspider.

Prinsipp for operasjon

En søkerobot er et nettleserprogram. Den skanner hele tiden nettverket: besøker indekserte (allerede kjente) nettsteder, følger koblinger fra dem og finner nye ressurser. Når en ny ressurs blir oppdaget, legger prosedyreroboten den til i søkemotorindeksen. Søkeroboten indekserer også oppdateringer på nettsteder, hvor frekvensen er fast. For eksempel vil et nettsted som oppdateres en gang i uken bli besøkt av en edderkopp med denne frekvensen, og innhold på nyhetssider kan indekseres innen minutter etter publisering. Hvis ingen lenker fra andre ressurser fører til nettstedet, må ressursen legges til via et spesielt skjema (Google Webmaster Center, Yandex Webmaster Panel, etc.) for å tiltrekke søkeroboter.

Typer søkeroboter

Yandex edderkopper:

  • Yandex/1.01.001 I - hovedroboten som er involvert i indeksering,
  • Yandex/1.01.001 (P) - indekserer bilder,
  • Yandex/1.01.001 (H) - finner speilsider,
  • Yandex/1.03.003 (D) - bestemmer om siden som er lagt til fra nettredaktørpanelet oppfyller indekseringsparametrene,
  • YaDirectBot/1.0 (I) - indekserer ressurser fra annonsenettverk Yandex,
  • Yandex/1.02.000 (F) - indekserer nettstedfavikoner.

Google Edderkopper:

  • Googlebot er hovedroboten
  • Googlebot News – skanner og indekserer nyheter,
  • Google Mobile – indekserer nettsteder for mobile enheter,
  • Googlebot Images – søker og indekserer bilder,
  • Googlebot Video - indekserer videoer,
  • Google AdsBot – kontrollerer kvaliteten på landingssiden,
  • Google Mobile AdSense og Google AdSense - indekserer nettsteder i Googles annonsenettverk.

Andre søkemotorer bruker også flere typer roboter som er funksjonelt lik de som er oppført.

Søk robot er et spesielt program for en søkemotor som er designet for å gå inn i en database (indeks) nettsteder og deres sider funnet på Internett. Navn som også brukes: crawler, spider, bot, automaticindexer, maur, webcrawler, bot, webscutter, webrobots, webspider.

Prinsipp for operasjon

En søkerobot er et nettleserprogram. Den skanner hele tiden nettverket: besøker indekserte (allerede kjente) nettsteder, følger koblinger fra dem og finner nye ressurser. Når en ny ressurs blir oppdaget, legger prosedyreroboten den til i søkemotorindeksen. Søkeroboten indekserer også oppdateringer på nettsteder, hvor frekvensen er fast. For eksempel vil et nettsted som oppdateres en gang i uken bli besøkt av en edderkopp med denne frekvensen, og innhold på nyhetssider kan indekseres innen minutter etter publisering. Hvis ingen lenker fra andre ressurser fører til nettstedet, må ressursen legges til via et spesielt skjema (Google Webmaster Center, Yandex Webmaster Panel, etc.) for å tiltrekke søkeroboter.

Typer søkeroboter

Yandex edderkopper:

  • Yandex/1.01.001 I - hovedroboten som er involvert i indeksering,
  • Yandex/1.01.001 (P) - indekserer bilder,
  • Yandex/1.01.001 (H) - finner speilsider,
  • Yandex/1.03.003 (D) - bestemmer om siden som er lagt til fra nettredaktørpanelet oppfyller indekseringsparametrene,
  • YaDirectBot/1.0 (I) - indekserer ressurser fra Yandex-annonseringsnettverket,
  • Yandex/1.02.000 (F) - indekserer nettstedfavikoner.

Google Edderkopper:

  • Googlebot er hovedroboten
  • Googlebot News – skanner og indekserer nyheter,
  • Google Mobile – indekserer nettsteder for mobile enheter,
  • Googlebot Images – søker og indekserer bilder,
  • Googlebot Video - indekserer videoer,
  • Google AdsBot – kontrollerer kvaliteten på landingssiden,
  • Google Mobile AdSense og Google AdSense - indekserer nettsteder i Googles annonsenettverk.

Andre søkemotorer bruker også flere typer roboter som er funksjonelt lik de som er oppført.

I motsetning til hva mange tror, ​​er ikke roboten direkte involvert i noen behandling av skannede dokumenter. Den leser og lagrer dem bare, deretter behandles de av andre programmer. Visuell bekreftelse kan oppnås ved å analysere loggene til et nettsted som blir indeksert for første gang. Ved det første besøket ber roboten først om robots.txt-filen, deretter hovedsiden til nettstedet. Det vil si at han følger den eneste lenken han kjenner til. Det er her botens første besøk alltid slutter. Etter en tid (vanligvis neste dag), ber boten om følgende sider - ved å bruke lenker som finnes på siden som allerede er lest. Deretter fortsetter prosessen i samme rekkefølge: forespørsel om sider som allerede er funnet lenker til - en pause for å behandle de leste dokumentene - neste økt med forespørsel om lenker som er funnet.

Å analysere sider i farten vil bety betydelig mer O større ressursforbruk av roboten og tap av tid. Hver skanneserver kjører flere bot-prosesser parallelt. De må handle så raskt som mulig for å få tid til å lese nye sider og gjenlese eksisterende. Derfor leser og lagrer roboter kun dokumenter. Det de lagrer står i kø for behandling (kodeparsing). Lenker funnet under sidebehandling plasseres i en oppgavekø for roboter. Slik skannes hele nettverket kontinuerlig. Det eneste som en robot kan og bør analysere umiddelbart er robots.txt-filen, for ikke å be om adresser som er forbudt i den. Under hver gjennomsøkingsøkt ber roboten først om denne filen, og etter den står alle sidene i kø for gjennomsøking.

Typer søkeroboter

Hver søkemotor har sitt eget sett med roboter for forskjellige formål.
I utgangspunktet er de forskjellige i deres funksjonelle formål, selv om grensene er veldig vilkårlige, og hver søkemotor forstår dem på sin egen måte. For systemer kun for fulltekstsøk er én robot nok for alle anledninger. For de søkemotorene som ikke bare er engasjert i tekst, er roboter delt inn i minst to kategorier: for tekster og tegninger. Det finnes også separate roboter dedikert til spesifikke typer innhold – mobil, blogg, nyheter, video, etc.

Google Robots

Alle Google-roboter kalles samlet Googlebot. Hovedrobotindekseren "introduserer seg selv" slik:

Mozilla/5.0 (kompatibel; Googlebot/2.1; +http://www.google.com/bot.html)

Denne boten er opptatt med å skanne HTML-sider og andre dokumenter Google søk. Den leser også av og til CSS- og JS-filer - dette kan hovedsakelig merkes på et tidlig stadium av nettstedindeksering, mens boten gjennomsøker nettstedet for første gang. Aksepterte innholdstyper er alle (Godta: */*).

Den andre av hovedrobotene er opptatt med å skanne bilder fra nettstedet. Den "introduserer seg selv" ganske enkelt:

Googlebot-Image/1.0

Minst tre roboter ble også sett i loggene, opptatt med å samle innhold for mobilversjon Søk. Brukeragent-feltet for alle tre ender med linjen:

(kompatibel; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Før denne linjen er modellen mobiltelefon, som denne boten er kompatibel med. De flekkete robotene har modeller Nokia-telefoner, Samsung og iPhone. Godkjente innholdstyper er alle, men med prioriteringer angitt:

Godta: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Yandex-roboter

Av søkemotorene som er aktive på RuNet, har Yandex den største samlingen av roboter. I hjelpeseksjonen for nettredaktører kan du finne en offisiell liste over alt edderkopppersonell. Det er ingen vits i å presentere det her i sin helhet, siden endringer skjer med jevne mellomrom i denne listen.
Imidlertid må de viktigste Yandex-robotene for oss nevnes separat.
Grunnleggende indekseringsrobot for øyeblikket kalt

Mozilla/5.0 (kompatibel; YandexBot/3.0; +http://yandex.com/bots)

Tidligere representert som

Yandex/1.01.001 (kompatibel; Win16; I)

Leser HTML-sider nettsted og andre dokumenter for indeksering. Listen over aksepterte medietyper var tidligere begrenset:

Godta: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

Siden 31. juli 2009 har det blitt lagt merke til en betydelig utvidelse i denne listen (antall typer er nesten doblet), og siden 10. november 2009 er listen forkortet til */* (alle typer).
Denne roboten er sterkt interessert i et veldig spesifikt sett med språk: russisk, litt mindre ukrainsk og hviterussisk, litt mindre engelsk, og veldig lite - alle andre språk.

Accept-Language: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Robot bildeskanner har følgende linje i User-agent-feltet:

Mozilla/5.0 (kompatibel; YandexImages/3.0; +http://yandex.com/bots)

Engasjert i å skanne grafikk i ulike formater for å søke i bilder.

I motsetning til Google, har Yandex separate roboter for å betjene noen spesielle funksjoner generelt søk.
Robot "speil"

Mozilla/5.0 (kompatibel; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Det gjør ikke noe spesielt komplisert - det vises med jevne mellomrom og sjekker om hovedsiden til nettstedet samsvarer når du får tilgang til domenet med www. og uten. Sjekker også parallelle "speil"-domener for treff. Tilsynelatende håndteres speil og den kanoniske formen for domener i Yandex separat Software pakke, ikke direkte relatert til indeksering. Ellers er det absolutt ingenting som forklarer eksistensen av en egen bot for dette formålet.

Ikonsamler favicon.ico

Mozilla/5.0 (kompatibel; YandexFavicons/1.0; +http://yandex.com/bots)

Den vises med jevne mellomrom og ber om favicon.ico-ikonet, som deretter vises i søkeresultatene ved siden av lenken til nettstedet. Av hvilke grunner bildesamleren ikke deler dette ansvaret er ukjent. Tilsynelatende er det også en egen programvarepakke på spill.

Verifiseringsrobot for nye nettsteder, fungerer når det legges til i AddURL-skjemaet

Mozilla/5.0 (kompatibel; YandexWebmaster/2.0; +http://yandex.com/bots)

Denne boten sjekker nettstedets svar ved å sende en HEAD-forespørsel til rot-URLen. På denne måten sjekker vi eksistensen hjemmeside i domenet og HTTP-hodene på denne siden analyseres. Boten ber også om robots.txt-filen i roten til nettstedet. Etter å ha sendt inn lenken til AddURL, fastslås det at nettstedet eksisterer, og verken robots.txt eller HTTP-hoder forbyr tilgang til hovedsiden.

Rambler robot

Fungerer ikke lenger, siden Rambler nå bruker Yandex-søk
Rambler-indekseringsroboten kan enkelt identifiseres i loggene ved hjelp av User-agent-feltet

StackRambler/2.0 (MSIE-inkompatibel)

Sammenlignet med sine "kolleger" fra andre søkemotorer, virker denne boten ganske enkel: den indikerer ikke en liste over medietyper (følgelig mottar den det forespurte dokumentet av enhver type), feltet Godta-språk mangler i forespørselen, og If-Modified-siden-feltet finnes ikke i botens forespørsler .

Robot Mail.Ru

Lite er kjent om denne roboten ennå. Mail.Ru-portalen har utviklet sitt eget søk i lang tid, men den har fortsatt ikke kommet seg rundt til å starte dette søket. Derfor er bare navnet på boten i User-agenten kjent med sikkerhet - Mail.Ru/2.0 (tidligere - Mail.Ru/1.0). Navnet på boten for direktivene til robors.txt-filen har ikke blitt publisert noe sted; det er en antagelse om at boten skal hete Mail.Ru.

Andre roboter

Internett-søk er selvfølgelig ikke begrenset til to søkemotorer. Derfor finnes det andre roboter – for eksempel Bing-roboten – søkemotoren fra Microsoft og andre roboter. Så spesielt i Kina er det en nasjonal søkemotor Baidu - men roboten vil neppe nå midten av elven og nå det russiske nettstedet.

I tillegg har mange tjenester nylig spredt seg - spesielt solomono - som, selv om de ikke er søkemotorer, også skanner nettsteder. Ofte er verdien av å overføre nettstedsinformasjon til slike systemer tvilsom, og derfor kan robotene deres utestenges


Topp