Hem › Firmware › Vilken typ av arbete gör spindelrobotar? Sökmotorer är deras robotar och spindlar. Vilka är sökrobotar

Vilken typ av arbete gör spindelrobotar? Sökmotorer är deras robotar och spindlar. Vilka är sökrobotar

Sökrobot (bot, spindel, spindel, sökrobot)- Det här specialprogram sökmotor utformad för att skanna webbplatser på Internet.

Många människor vet inte att genomsökningsrobotar helt enkelt samlar in och lagrar information. De bearbetar det inte. Andra program gör detta.

Om du vill titta på sajten genom en sökrobots ögon kan du göra detta via panelen för webbansvariga.

Du kan se hur Google fungerar via panelen för webbansvariga. Där måste du lägga till din webbplats och sedan kan du titta på sidan:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru

Du kan se Yandex genom en sparad kopia av sidan. För att göra detta, hitta önskad sida i Yandex-sökning, klicka på "sparad kopia" och sedan på "visa textversion".

Nedan finns en lista över sökrobotar som besöker våra webbplatser. Vissa av dem indexerar webbplatser, andra övervakar kontextuell reklam. Det finns specialiserade robotar som utför vissa smala uppgifter. Till exempel indexerar de bilder eller nyheter.

Genom att känna till roboten av synen kan du förbjuda eller tillåta den att krypa runt på webbplatsen, och därigenom minska belastningen på servern. Tja, eller skydda din information från att komma in i nätverket.

Yandex sökrobotar

Yandex sökmotor har ett dussin och ett halvt sökrobotar kända för oss. Listan över bots som jag lyckades gräva fram, inklusive från den officiella hjälpen, finns nedan.

YandexBot är den huvudsakliga indexeringsroboten;
YandexMedia är en robot som indexerar multimediadata;
YandexImages - Yandex.Images indexerare;
YandexCatalog - ett "tappningsverktyg" för Yandex.Catalog, som används för att tillfälligt ta bort otillgängliga webbplatser från publicering i katalogen;
YaDirectFetcher - Yandex.Direct robot;
YandexBlogs är en bloggsökningsrobot som indexerar inlägg och kommentarer;
YandexNews - Yandex.News robot;
YandexWebmaster – kommer när du lägger till en webbplats via AddURL-forumet;
YandexPagechecker - mikromarkeringsvalidator;
YandexFavicons - faviconindexerare
YandexMetrika - Yandex.Metrica robot;
YandexMarket - Yandex.Market robot;
YandexCalendar är en Yandex.Calendar-robot.

Google sökrobotar (bots)

Googlebot är den huvudsakliga indexeringsroboten;
Googlebot Nes - nyhetsindexerare;
Googlebot Images - bildindexerare;
Googlebot Video - robot för videodata;
Google Mobile - indexerare för mobilt innehåll;
Google Mobile AdSense - mobil AdSense-robot
Google AdSense- AdSense-robot
Google AdsBot – robot för kvalitetskontroll av målsidan
Mediapartners-Google - AdSense-robot

Robotar från andra sökmotorer

I loggarna på din webbplats kan du också snubbla på vissa robotar från andra sökmotorer.

Rambler - StackRambler
Mail.ru - Mail.Ru
Yahoo! — Slurp (eller Yahoo! Slurp)
AOL - Slurp
MSN - MSNBot
Live - MSNBot
Fråga - Teoma
Alexa - ia_archiver
Lycos - Lycos
Aport - Aport
Webalta - WebAlta (WebAlta Crawler/2.0)

Förutom sökmotorrobotar finns det en enorm armé av alla typer av vänsterspindlar som springer runt på sajterna. Det här är olika analyser som samlar in information från webbplatser, vanligtvis för skaparnas själviska syften.

Vissa stjäl innehåll, andra stjäl bilder, andra hackar hemsidor och placerar i hemlighet länkar. Om du märker att en sådan parser har kopplat sig till din webbplats, blockera allas åtkomst till den möjliga sätt, inklusive via robots.txt-filen.

Hej kompisar! Idag kommer du att lära dig hur Yandex och Google sökrobotar fungerar och vilken funktion de fyller vid marknadsföring av webbplatser. Låt oss gå!

Sökmotorer gör denna åtgärd för att hitta tio WEB-projekt av en miljon webbplatser som har ett högkvalitativt och relevant svar på användarens förfrågan. Varför bara tio? Eftersom det bara består av tio positioner.

Sökrobotar är vänner med både webbansvariga och användare

Varför det är viktigt för sökrobotar att besöka en sajt har redan blivit tydligt, men varför behöver användaren detta? Det stämmer, för att användaren bara ska se de webbplatser som kommer att svara på hans begäran i sin helhet.

Sökrobot- ett mycket flexibelt verktyg, det kan hitta en webbplats, även en som just har skapats, och ägaren till den här webbplatsen har ännu inte arbetat med den. Det är därför den här boten kallades en spindel; den kan sträcka på benen och ta sig var som helst på den virtuella webben.

Är det möjligt att styra en sökrobot till din fördel?

Det finns fall då vissa sidor inte ingår i sökningen. Detta beror främst på att denna sida ännu inte har indexerats av en sökrobot. Naturligtvis kommer en sökrobot förr eller senare att lägga märke till denna sida. Men det tar tid, och ibland ganska mycket tid. Men här kan du hjälpa sökroboten att besöka den här sidan snabbare.

För att göra detta kan du placera din webbplats i speciella kataloger eller listor, sociala nätverk. I allmänhet på alla sajter där sökroboten helt enkelt bor. Till exempel uppdateras sociala nätverk varje sekund. Försök att marknadsföra din webbplats så kommer sökroboten till din webbplats mycket snabbare.

Av detta följer en huvudregel. Om du vill att sökmotorrobotar ska besöka din webbplats måste du mata dem med nytt innehåll regelbundet. Om de märker att innehållet uppdateras och webbplatsen utvecklas, kommer de att börja besöka ditt internetprojekt mycket oftare.

Varje sökrobot kan komma ihåg hur ofta ditt innehåll ändras. Han utvärderar inte bara kvalitet, utan tidsintervall. Och om materialet på webbplatsen uppdateras en gång i månaden, kommer han att komma till webbplatsen en gång i månaden.

Således, om sajten uppdateras en gång i veckan, kommer sökroboten att komma en gång i veckan. Om du uppdaterar sidan varje dag kommer sökroboten att besöka sidan varje dag eller varannan dag. Det finns webbplatser som indexeras inom några minuter efter uppdatering. Detta sociala media, nyhetssamlare och webbplatser som publicerar flera artiklar om dagen.

Hur ger man en uppgift till en robot och förbjuder den att göra någonting?

Tidigt lärde vi oss att sökmotorer har flera robotar som utför olika uppgifter. Vissa letar efter bilder, andra efter länkar och så vidare.

Du kan styra vilken robot som helst med hjälp av en speciell fil robots.txt . Det är från denna fil som roboten börjar bekanta sig med webbplatsen. I den här filen kan du ange om roboten kan indexera webbplatsen, och i så fall vilka sektioner. Alla dessa instruktioner kan skapas för en eller alla robotar.

Utbildning för marknadsföring av webbplatser

Mer information om visdom SEO marknadsföring webbplatser i sökmotorer Googles system och Yandex, jag pratar själv på Skype. Jag tog alla mina WEB-projekt till mer trafik och får utmärkta resultat av detta. Jag kan lära dig detta också, om du är intresserad!

Sökrobot är ett speciellt program för en sökmotor som är utformat för att gå in i en databas (index) webbplatser och deras sidor som finns på Internet. Namn som också används: crawler, spider, bot, automaticindexer, myra, webcrawler, bot, webscutter, webrobots, webspider.

Funktionsprincip

En sökrobot är ett program av webbläsare. Den skannar hela tiden nätverket: besöker indexerade (redan kända för det) webbplatser, följer länkar från dem och hittar nya resurser. När en ny resurs upptäcks lägger procedurroboten till den i sökmotorindexet. Sökroboten indexerar också uppdateringar på sajter, vars frekvens är fast. Till exempel kommer en webbplats som uppdateras en gång i veckan att besökas av en spindel med denna frekvens, och innehåll på nyhetssajter kan indexeras inom några minuter efter publicering. Om inga länkar från andra resurser leder till webbplatsen, måste resursen läggas till via ett speciellt formulär för att locka sökrobotar (Google Webmaster Center, Yandex Webmaster Panel, etc.).

Typer av sökrobotar

Yandex spindlar:

Yandex/1.01.001 I - den huvudsakliga boten som är involverad i indexering,
Yandex/1.01.001 (P) - indexerar bilder,
Yandex/1.01.001 (H) - hittar spegelwebbplatser,
Yandex/1.03.003 (D) - avgör om sidan som läggs till från panelen för webbansvariga uppfyller indexeringsparametrarna,
YaDirectBot/1.0 (I) - indexerar resurser från annonsnätverk Yandex,
Yandex/1.02.000 (F) - indexerar webbplatsfaviconer.

Google spindlar:

Googlebot är huvudroboten
Googlebot News - skannar och indexerar nyheter,
Google Mobile - indexerar webbplatser för mobila enheter,
Googlebot Images - söker och indexerar bilder,
Googlebot Video - indexerar videor,
Google AdsBot - kontrollerar kvaliteten på målsidan,
Google Mobile AdSense och Google AdSense - indexerar webbplatser i Googles annonsnätverk.

Andra sökmotorer använder också flera typer av robotar som funktionellt liknar de som anges.

Funktionsprincip

Typer av sökrobotar

Yandex spindlar:

Yandex/1.01.001 I - den huvudsakliga boten som är involverad i indexering,
Yandex/1.01.001 (P) - indexerar bilder,
Yandex/1.01.001 (H) - hittar spegelwebbplatser,
Yandex/1.03.003 (D) - avgör om sidan som läggs till från panelen för webbansvariga uppfyller indexeringsparametrarna,
YaDirectBot/1.0 (I) - indexerar resurser från Yandex annonsnätverk,
Yandex/1.02.000 (F) - indexerar webbplatsfaviconer.

Google spindlar:

Googlebot är huvudroboten
Googlebot News - skannar och indexerar nyheter,
Google Mobile - indexerar webbplatser för mobila enheter,
Googlebot Images - söker och indexerar bilder,
Googlebot Video - indexerar videor,
Google AdsBot - kontrollerar kvaliteten på målsidan,
Google Mobile AdSense och Google AdSense - indexerar webbplatser i Googles annonsnätverk.

Andra sökmotorer använder också flera typer av robotar som funktionellt liknar de som anges.

I motsats till vad många tror är roboten inte direkt involverad i någon behandling av skannade dokument. Den läser bara och sparar dem, sedan bearbetas de av andra program. Visuell bekräftelse kan erhållas genom att analysera loggarna för en webbplats som indexeras för första gången. Vid det första besöket begär boten först robots.txt-filen och sedan webbplatsens huvudsida. Det vill säga han följer den enda länken som han känner till. Det är här botens första besök alltid slutar. Efter en tid (vanligtvis nästa dag) begär boten följande sidor - med hjälp av länkar som finns på sidan som redan har lästs. Sedan fortsätter processen i samma ordning: att begära sidor för vilka länkar redan har hittats - en paus för att bearbeta de lästa dokumenten - nästa session med en begäran om hittade länkar.

Att analysera sidor i farten skulle betyda betydligt mer O större resursåtgång för roboten och tidsförlust. Varje skanningsserver kör flera botprocesser parallellt. De måste agera så snabbt som möjligt för att hinna läsa nya sidor och läsa om befintliga. Därför läser och sparar bots endast dokument. Vad de än sparar står i kö för bearbetning (kodanalys). Länkar som hittas under sidbearbetning placeras i en uppgiftskö för botar. Det är så hela nätverket skannas kontinuerligt. Det enda som en bot kan och bör analysera i farten är robots.txt-filen, för att inte begära adresser som är förbjudna i den. Under varje webbplatsgenomsökningssession begär roboten först den här filen, och efter den köade alla sidor för genomsökning.

Typer av sökrobotar

Varje sökmotor har sin egen uppsättning robotar för olika ändamål.
I grund och botten skiljer de sig åt i sitt funktionella syfte, även om gränserna är väldigt godtyckliga, och varje sökmotor förstår dem på sitt eget sätt. För system endast för fulltextsökning räcker det med en robot för alla tillfällen. För de sökmotorer som inte bara är engagerade i text är bots indelade i minst två kategorier: för texter och ritningar. Det finns också separata bots dedikerade till specifika typer av innehåll - mobil, blogg, nyheter, video, etc.

Google Robots

Alla Google-robotar kallas tillsammans Googlebot. Huvudrobotindexeraren "introducerar sig själv" så här:

Mozilla/5.0 (kompatibel; Googlebot/2.1; +http://www.google.com/bot.html)

Den här boten är upptagen med att skanna HTML-sidor och andra dokument Google Sök. Den läser också ibland CSS- och JS-filer - detta kan främst märkas i ett tidigt skede av webbplatsindexering, medan boten genomsöker webbplatsen för första gången. Godkända innehållstyper är alla (Acceptera: */*).

Den andra av huvudrobotarna är upptagen med att skanna bilder från webbplatsen. Det "introducerar sig själv" helt enkelt:

Googlebot-Image/1.0

Minst tre botar sågs också i loggarna, upptagna med att samla in innehåll för mobilversion Sök. Fältet User-agent för alla tre slutar med raden:

(kompatibel; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Innan denna linje är modellen mobiltelefon, som denna bot är kompatibel med. De prickiga botarna har modeller Nokia telefoner, Samsung och iPhone. Godkända innehållstyper är alla, men med angivna prioriteringar:

Acceptera: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Yandex robotar

Av de sökmotorer som är aktiva på RuNet har Yandex den största samlingen av bots. I hjälpsektionen för webbansvariga kan du hitta en officiell lista över all spindelpersonal. Det är ingen idé att presentera det här i sin helhet, eftersom ändringar sker med jämna mellanrum i denna lista.
Men de viktigaste Yandex-robotarna för oss måste nämnas separat.
Grundläggande indexeringsrobot för närvarande uppringd

Mozilla/5.0 (kompatibel; YandexBot/3.0; +http://yandex.com/bots)

Tidigare representerad som

Yandex/1.01.001 (kompatibel; Win16; I)

Läser HTML-sidor webbplats och andra dokument för indexering. Listan över accepterade mediatyper var tidigare begränsad:

Acceptera: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

Sedan den 31 juli 2009 har en betydande expansion märkts i denna lista (antalet typer har nästan fördubblats), och sedan den 10 november 2009 har listan förkortats till */* (alla typer).
Den här roboten är mycket intresserad av en mycket specifik uppsättning språk: ryska, lite mindre ukrainska och vitryska, lite mindre engelska och väldigt lite - alla andra språk.

Acceptera-språk: ru, uk;q=0,8, be;q=0,8, en;q=0,7, *;q=0,01

Robot bildskanner har följande rad i fältet User-agent:

Mozilla/5.0 (kompatibel; YandexImages/3.0; +http://yandex.com/bots)

Engagerad i att skanna grafik i olika format för att söka i bilder.

Till skillnad från Google har Yandex separata bots för att tjäna några speciella funktioner allmän sökning.
Robot "spegel"

Mozilla/5.0 (kompatibel; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Det gör inget särskilt komplicerat - det dyker upp med jämna mellanrum och kontrollerar om sidans huvudsida matchar när du kommer åt domänen med www. och utan. Kontrollerar även parallella "spegeldomäner" för matchningar. Uppenbarligen hanteras speglar och den kanoniska formen av domäner i Yandex separat mjukvarupaket, inte direkt relaterad till indexering. Annars finns det absolut ingenting som förklarar existensen av en separat bot för detta ändamål.

Ikonsamlare favicon.ico

Mozilla/5.0 (kompatibel; YandexFavicons/1.0; +http://yandex.com/bots)

Den dyker upp med jämna mellanrum och efterfrågar favicon.ico-ikonen, som sedan visas i sökresultaten bredvid länken till webbplatsen. Av vilka skäl bildsamlaren inte delar detta ansvar är okänt. Tydligen finns det också ett separat mjukvarupaket på gång.

Verifieringsbot för nya webbplatser, fungerar när den läggs till i AddURL-formuläret

Mozilla/5.0 (kompatibel; YandexWebmaster/2.0; +http://yandex.com/bots)

Den här boten kontrollerar webbplatsens svar genom att skicka en HEAD-förfrågan till rot-URL:n. På så sätt kontrollerar vi existensen hemsida i domänen och HTTP-huvudena på denna sida analyseras. Boten begär också filen robots.txt i roten på webbplatsen. Således, efter att ha skickat länken till AddURL, fastställs det att webbplatsen existerar och varken robots.txt eller HTTP-huvuden förbjuder åtkomst till huvudsidan.

Rambler robot

Fungerar inte längre för närvarande, eftersom Rambler nu använder Yandex-sökning
Rambler-indexeringsroboten kan lätt identifieras i loggarna med fältet User-agent

StackRambler/2.0 (MSIE-inkompatibel)

Jämfört med sina "kollegor" från andra sökmotorer verkar den här boten ganska enkel: den anger inte en lista över medietyper (därefter tar den emot det begärda dokumentet av vilken typ som helst), fältet Acceptera-språk saknas i begäran, och fältet If-Modified-since finns inte i botens förfrågningar .

Robot Mail.Ru

Lite är känt om denna robot ännu. Mail.Ru-portalen har utvecklat sin egen sökning under lång tid, men den har fortfarande inte hunnit starta den här sökningen. Därför är endast namnet på boten i User-agenten känt med säkerhet - Mail.Ru/2.0 (tidigare - Mail.Ru/1.0). Namnet på boten för direktiven för filen robors.txt har inte publicerats någonstans, det finns ett antagande om att boten ska heta Mail.Ru.

Andra robotar

Internetsökning är naturligtvis inte begränsad till två sökmotorer. Därför finns det andra robotar – till exempel Bing-roboten – sökmotorn från Microsoft och andra robotar. Så i synnerhet i Kina finns det en nationell sökmotor Baidu - men dess robot kommer sannolikt inte att nå mitten av floden och nå den ryska platsen.

Dessutom har många tjänster spridit sig på senare tid - i synnerhet solomono - som, även om de inte är sökmotorer, också skannar webbplatser. Ofta är värdet av att överföra platsinformation till sådana system tveksamt, och därför kan deras robotar förbjudas in

Populär i kategorin: