Каква работа работат роботите-пајак? Пребарувачите се нивните роботи и пајаци. Кои се роботите за пребарување

Роботот за пребарување (бот, пајак, пајак, ползач)- Ова специјална програмапребарувач дизајниран да скенира страници на Интернет.

Многу луѓе не знаат дека ботови за скенирање едноставно собираат и складираат информации. Не го обработуваат. Други програми го прават тоа.

Ако сакате да ја погледнете страницата преку очите на роботот за пребарување, можете да го направите тоа преку панелот за веб-администратори.

Можете да видите како работи Google преку панелот за веб-администратори. Таму треба да ја додадете вашата страница и потоа да ја погледнете страницата:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru

Можете да го видите Yandex преку зачувана копија на страницата. За да го направите ова, пронајдете ја саканата страница во пребарувањето на Yandex, кликнете на „зачувана копија“ и потоа „прегледајте ја текстуалната верзија“.

Подолу е листа на роботи за пребарување кои ги посетуваат нашите сајтови. Некои од нив индексираат страници, други следат контекстуално рекламирање. Постојат специјализирани роботи кои извршуваат одредени тесни задачи. На пример, тие индексираат слики или вести.

Познавајќи го роботот по видување, можете да му забраните или дозволите да ползи околу локацијата, а со тоа да го намалите оптоварувањето на серверот. Па, или заштитете ги вашите информации од влегување во мрежата.

Роботи за пребарување Yandex

Пребарувачот Yandex има десетина и пол роботи за пребарување кои ни се познати. Списокот на ботови што успеав да ги ископам, вклучително и од официјалната помош, е подолу.

YandexBot е главниот робот за индексирање;
YandexMedia е робот кој индексира мултимедијални податоци;
YandexImages - Индексатор на Yandex.Images;
YandexCatalog - алатка за „прислушување“ за Yandex.Catalog, која се користи за привремено отстранување на недостапните страници од објавување во Каталогот;
YaDirectFetcher - Yandex.Direct робот;
YandexBlogs е робот за пребарување блог кој индексира објави и коментари;
YandexNews - роботот Yandex.News;
YandexWebmaster – доаѓа кога додавате страница преку форумот AddURL;
YandexPagechecker - валидатор на микро означување;
YandexFavicons - индексатор на фавикони
YandexMetrika - Yandex.Metrica робот;
YandexMarket - Yandex.Market робот;
YandexCalendar е робот Yandex.Calendar.

Роботи за пребарување на Google (ботови)

Googlebot е главниот робот за индексирање;
Googlebot Nes - индексатор на вести;
Googlebot Images - индексатор на слики;
Googlebot Video - робот за видео податоци;
Google Mobile - мобилен индексатор на содржини;
Google Mobile AdSense - мобилен AdSense робот
Google AdSense- Роботот на AdSense
Google AdsBot – бот за проверка на квалитетот на целната страница
Mediapartners-Google - роботот AdSense

Роботи на други пребарувачи

Исто така, во дневниците на вашата страница, може да налетате на некои роботи на други пребарувачи.

Rambler - StackRambler
Mail.ru - Mail.Ru
Yahoo! - Slurp (или Yahoo! Slurp)
АОЛ - Слурп
MSN - MSNBot
Во живо - MSNBot
Прашај - Теома
Alexa - ia_archiver
Лајкос - Lycos
Апорт - Апорт
Webalta - WebAlta (WebAlta Crawler/2.0)

Покрај ботови на пребарувачите, има огромна армија од секакви леви пајаци кои трчаат по сајтовите. Тоа се различни парсери кои собираат информации од сајтови, обично за себични цели на нивните креатори.

Некои крадат содржина, други крадат слики, други хакираат веб-страници и тајно поставуваат врски. Ако забележите дека таков парсер се прикачил на вашата страница, блокирајте го пристапот на сите до него можни начини, вклучително и преку датотеката robots.txt.

Здраво пријатели! Денес ќе научите како функционираат роботите за пребарување Yandex и Google и каква функција извршуваат при промоција на веб-страници. Па ајде да одиме!

Пребарувачите ја прават оваа акција со цел да пронајдат десет ВЕБ-проекти од милион страници кои имаат висококвалитетен и релевантен одговор на барањето на корисникот. Зошто само десет? Затоа што се состои од само десет позиции.

Роботите за пребарување се пријатели и на веб-администраторите и на корисниците

Зошто е важно роботите за пребарување да посетуваат локација веќе стана јасно, но зошто на корисникот му е потребно ова? Така е, со цел корисникот да ги види само оние страници кои целосно ќе одговорат на неговото барање.

Роботот за пребарување- многу флексибилна алатка, може да најде локација, дури и онаа што штотуку е креирана, а сопственикот на оваа страница сè уште не работел на неа. Затоа овој бот беше наречен пајак; може да ги истегне нозете и да стигне насекаде на виртуелната мрежа.

Дали е можно да контролирате робот за пребарување во ваша корист?

Има случаи кога некои страници не се вклучени во пребарувањето. Ова главно се должи на фактот што оваа страница сè уште не е индексирана од робот за пребарување. Се разбира, порано или подоцна робот за пребарување ќе ја забележи оваа страница. Но, потребно е време, а понекогаш и доста време. Но, овде можете да му помогнете на роботот за пребарување побрзо да ја посети оваа страница.

За да го направите ова, можете да ја поставите вашата веб-страница во специјални директориуми или списоци, социјални мрежи. Во принцип, на сите страници каде што роботот за пребарување едноставно живее. На пример, социјалните мрежи се ажурираат секоја секунда. Обидете се да ја рекламирате вашата страница и роботот за пребарување ќе дојде на вашата страница многу побрзо.

Од ова произлегува едно главно правило. Ако сакате ботови на пребарувачот да ја посетуваат вашата страница, треба редовно да им давате нова содржина. Ако забележат дека содржината се ажурира и страницата се развива, ќе почнат да го посетуваат вашиот интернет проект многу почесто.

Секој робот за пребарување може да запомни колку често се менува вашата содржина. Тој го оценува не само квалитетот, туку и временските интервали. И ако материјалот на страницата се ажурира еднаш месечно, тогаш тој ќе доаѓа на страницата еднаш месечно.

Така, ако страницата се ажурира еднаш неделно, тогаш роботот за пребарување ќе доаѓа еднаш неделно. Ако ја ажурирате страницата секој ден, тогаш роботот за пребарување ќе ја посетува страницата секој ден или секој втор ден. Има сајтови кои се индексираат во рок од неколку минути по ажурирањето. Ова социјални медиуми, агрегатори на вести и сајтови кои објавуваат неколку статии дневно.

Како да му дадете задача на робот и да му забраните да прави нешто?

На почетокот дознавме дека пребарувачите имаат повеќе роботи кои извршуваат различни задачи. Некои бараат слики, некои линкови итн.

Можете да контролирате кој било робот користејќи специјална датотека роботи.txt . Од оваа датотека роботот почнува да се запознава со страницата. Во оваа датотека можете да одредите дали роботот може да ја индексира страницата и ако е така, кои секции. Сите овие инструкции може да се креираат за еден или сите роботи.

Обука за промоција на веб-страница

Повеќе детали за мудроста Промоција на оптимизацијасајтови во пребарувачите Системи на Googleи Yandex, зборувам сам на Skype. Ги донесов сите мои WEB проекти во поголем сообраќај и добив одлични резултати од ова. Можам и тебе да ти научам ова, ако те интересира!

Роботот за пребарување е специјална програма на пребарувач кој е дизајниран да внесува во база на податоци (индекс) страници и нивните страници пронајдени на Интернет. Користени се и имиња: роботи, пајак, бот, автоматски индексирач, мравка, веб-краулер, бот, веб-секач, веб-ботови, веб-пајак.

Принцип на работа

Роботот за пребарување е програма од типот на прелистувач. Постојано ја скенира мрежата: посетува индексирани (веќе му се познати) страници, следи врски од нив и наоѓа нови ресурси. Кога ќе се открие нов ресурс, роботот за процедура го додава во индексот на пребарувачот. Роботот за пребарување индексира и ажурирања на сајтови, чија фреквенција е фиксна. На пример, страницата што се ажурира еднаш неделно ќе ја посетува пајак со оваа фреквенција, а содржината на сајтовите за вести може да се индексира за неколку минути по објавувањето. Ако не водат врски од други ресурси до страницата, тогаш за да се привлечат роботи за пребарување, ресурсот мора да се додаде преку специјална форма (Центар за веб-администратори на Google, панел за веб-администратори на Yandex, итн.).

Видови роботи за пребарување

Yandex пајаци:

  • Yandex/1.01.001 I - главниот бот вклучен во индексирањето,
  • Yandex/1.01.001 (P) - индексира слики,
  • Yandex/1.01.001 (H) - наоѓа огледални страници,
  • Yandex/1.03.003 (D) - одредува дали страницата додадена од панелот на веб-администраторот ги исполнува параметрите за индексирање,
  • YaDirectBot/1.0 (I) - индексира ресурси од рекламна мрежа Yandex,
  • Yandex/1.02.000 (F) - ги индексира фавиконите на страниците.

Google Spiders:

  • Googlebot е главниот робот
  • Googlebot News - скенира и индексира вести,
  • Google Mobile - индексира сајтови за мобилни уреди,
  • Googlebot Images - пребарува и индексира слики,
  • Видео на Googlebot - индексира видеа,
  • Google AdsBot - го проверува квалитетот на целната страница,
  • Google Mobile AdSense и Google AdSense - ги индексира сајтовите на рекламната мрежа на Google.

Други пребарувачи исто така користат неколку типови на роботи кои се функционално слични на наведените.

Роботот за пребарување е специјална програма на пребарувач кој е дизајниран да внесува во база на податоци (индекс) страници и нивните страници пронајдени на Интернет. Користени се и имиња: роботи, пајак, бот, автоматски индексирач, мравка, веб-краулер, бот, веб-секач, веб-ботови, веб-пајак.

Принцип на работа

Роботот за пребарување е програма од типот на прелистувач. Постојано ја скенира мрежата: посетува индексирани (веќе му се познати) страници, следи врски од нив и наоѓа нови ресурси. Кога ќе се открие нов ресурс, роботот за процедура го додава во индексот на пребарувачот. Роботот за пребарување индексира и ажурирања на сајтови, чија фреквенција е фиксна. На пример, страницата што се ажурира еднаш неделно ќе ја посетува пајак со оваа фреквенција, а содржината на сајтовите за вести може да се индексира за неколку минути по објавувањето. Ако не водат врски од други ресурси до страницата, тогаш за да се привлечат роботи за пребарување, ресурсот мора да се додаде преку специјална форма (Центар за веб-администратори на Google, панел за веб-администратори на Yandex, итн.).

Видови роботи за пребарување

Yandex пајаци:

  • Yandex/1.01.001 I - главниот бот вклучен во индексирањето,
  • Yandex/1.01.001 (P) - индексира слики,
  • Yandex/1.01.001 (H) - наоѓа огледални страници,
  • Yandex/1.03.003 (D) - одредува дали страницата додадена од панелот на веб-администраторот ги исполнува параметрите за индексирање,
  • YaDirectBot/1.0 (I) - ги индексира ресурсите од рекламната мрежа Yandex,
  • Yandex/1.02.000 (F) - ги индексира фавиконите на страниците.

Google Spiders:

  • Googlebot е главниот робот
  • Googlebot News - скенира и индексира вести,
  • Google Mobile - индексира сајтови за мобилни уреди,
  • Googlebot Images - пребарува и индексира слики,
  • Видео на Googlebot - индексира видеа,
  • Google AdsBot - го проверува квалитетот на целната страница,
  • Google Mobile AdSense и Google AdSense - ги индексира сајтовите на рекламната мрежа на Google.

Други пребарувачи исто така користат неколку типови на роботи кои се функционално слични на наведените.

Спротивно на популарното верување, роботот не е директно вклучен во било каква обработка на скенирани документи. Само ги чита и зачувува; потоа се обработуваат од други програми. Визуелна потврда може да се добие со анализа на дневниците на страницата што се индексира за прв пат. При првата посета, ботот прво ја бара датотеката robots.txt, а потоа главната страница на страницата. Односно, тој ја следи единствената врска која му е позната. Тука секогаш завршува првата посета на ботот. По некое време (обично следниот ден), ботот ги бара следните страници - користејќи врски што се наоѓаат на страницата што е веќе прочитана. Потоа процесот продолжува по истиот редослед: барање страници за кои веќе се пронајдени врски - пауза за обработка на прочитаните документи - следната сесија со барање за пронајдени врски.

Парсирањето страници во лет би значело значително повеќе Опоголема потрошувачка на ресурси на роботот и губење време. Секој сервер за скенирање работи паралелно со повеќе процеси на бот. Тие мора да дејствуваат што е можно побрзо за да имаат време да читаат нови страници и повторно да ги читаат постоечките. Затоа, ботови само читаат и зачувуваат документи. Што и да зачуваат е во ред за обработка (парсирање на кодови). Врските пронајдени при обработката на страницата се ставаат во редот за задачи за ботови. Така континуирано се скенира целата мрежа. Единственото нешто што бот може и треба да го анализира во лет е датотеката robots.txt, за да не бара адреси кои се забранети во неа. За време на секоја сесија на индексирање на страницата, роботот прво ја бара оваа датотека, а по неа сите страници во редица за индексирање.

Видови роботи за пребарување

Секој пребарувач има свој сет на роботи за различни намени.
Во основа, тие се разликуваат во нивната функционална намена, иако границите се многу произволни, и секој пребарувач ги разбира на свој начин. За системи само за пребарување на целосен текст, еден робот е доволен за сите прилики. За оние пребарувачи кои се занимаваат не само со текст, ботови се поделени во најмалку две категории: за текстови и цртежи. Исто така, постојат посебни ботови посветени на одредени типови на содржина - мобилен, блог, вести, видео итн.

Google Robots

Сите роботи на Google заеднички се нарекуваат Googlebot. Главниот индекс на роботи „се претставува“ вака:

Mozilla/5.0 (компатибилен; Googlebot/2.1; +http://www.google.com/bot.html)

Овој бот е зафатен со скенирање на HTML страници и други документи за главните Google пребарување. Исто така, повремено чита CSS и JS-датотеки - ова главно може да се забележи во раната фаза на индексирање на страницата, додека ботот за прв пат ја лази страницата. Прифатени типови содржини се сите (Прифати: */*).

Вториот од главните ботови е зафатен со скенирање слики од страницата. Се „претставува“ едноставно:

Googlebot-Image/1.0

Најмалку три бота беа забележани и во дневниците, зафатени со собирање содржина за мобилна верзијапребарување. Полето Кориснички агент од сите три завршува со линијата:

(компатибилен; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Пред оваа линија е моделот мобилен телефон, со кој овој бот е компатибилен. Забележаните ботови имаат модели Нокиа телефони, Samsung и iPhone. Прифатени типови содржини се сите, но со наведени приоритети:

Прифати: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Роботи Yandex

Од пребарувачите активни на RuNet, Yandex има најголема колекција на ботови. Во делот за помош на веб-администраторот можете да најдете официјална листа на целиот персонал на пајакот. Нема смисла да се презентира овде во целост, бидејќи промените се случуваат периодично во оваа листа.
Сепак, најважните Yandex роботи за нас треба да се споменат посебно.
Основен робот за индексирањемоментално повикан

Mozilla/5.0 (компатибилен; YandexBot/3.0; +http://yandex.com/bots)

Претходно претставен како

Yandex/1.01.001 (компатибилен; Win16; I)

Чита HTML страницивеб-страница и други документи за индексирање. Списокот на прифатени типови медиуми беше претходно ограничен:

Прифатете: текст/html, апликација/pdf;q=0.1, апликација/rtf;q=0.1, текст/rtf;q=0.1, апликација/msword;q=0.1, апликација/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

Од 31 јули 2009 година, во оваа листа е забележано значително проширување (бројот на типови е речиси двојно зголемен), а од 10 ноември 2009 година списокот е скратен на */* (сите типови).
Овој робот е силно заинтересиран за многу специфичен сет на јазици: руски, малку помалку украински и белоруски, малку помалку англиски и многу малку - сите други јазици.

Accept-Language: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Роботски скенер за сликија носи следната линија во полето Кориснички агент:

Mozilla/5.0 (компатибилен; YandexImages/3.0; +http://yandex.com/bots)

Се занимава со скенирање графики од различни формати за пребарување во слики.

За разлика од Google, Yandex има посебни ботови за да им служи на некои специјални функцииопшто пребарување.
Роботот „огледало“

Mozilla/5.0 (компатибилен; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Не прави ништо особено комплицирано - периодично се појавува и проверува дали главната страница на страницата се совпаѓа при пристап до доменот со www. и без. Исто така, ги проверува паралелните домени „огледало“ за совпаѓање. Очигледно, огледалата и канонската форма на домени во Yandex се постапуваат одделно софтверски пакет, не е директно поврзана со индексирање. Инаку, нема апсолутно ништо што може да го објасни постоењето на посебен бот за оваа намена.

Колекционер на икони favicon.ico

Mozilla/5.0 (компатибилен; YandexFavicons/1.0; +http://yandex.com/bots)

Периодично се појавува и ја бара иконата favicon.ico, која потоа се појавува во резултатите од пребарувањето до врската до страницата. Од кои причини колекционерот на слики не ја дели оваа одговорност не е познато. Очигледно има и посебен софтверски пакет во игра.

Бот за верификацијаза нови сајтови, работи кога се додава во формуларот AddURL

Mozilla/5.0 (компатибилен; YandexWebmaster/2.0; +http://yandex.com/bots)

Овој бот го проверува одговорот на страницата со испраќање барање HEAD до root URL-то. На овој начин го проверуваме постоењето почетна страницаво доменот и се анализираат HTTP насловите на оваа страница. Ботот исто така ја бара датотеката robots.txt во коренот на страницата. Така, по поднесувањето на врската до AddURL, се утврдува дека страницата постои и ниту заглавието на robots.txt ниту HTTP не забрануваат пристап до главната страница.

Роботот Рамблер

Во моментов повеќе не работи, бидејќи Rambler сега користи Yandex пребарување
Роботот за индексирање Rambler може лесно да се идентификува во дневниците преку полето Кориснички агент

StackRambler/2.0 (MSIE некомпатибилно)

Во споредба со неговите „колеги“ од другите пребарувачи, овој бот изгледа прилично едноставен: не покажува листа на типови медиуми (соодветно на тоа, го добива бараниот документ од кој било тип), полето Accept-Language недостасува во барањето, а полето If-Modified-since не се наоѓа во барањата на ботот.

Роботот Mail.Ru

За овој робот се уште малку се знае. Порталот Mail.Ru развива сопствено пребарување долго време, но сè уште не успеал да го започне ова пребарување. Затоа, сигурно е познато само името на ботот во корисничкиот агент - Mail.Ru/2.0 (претходно - Mail.Ru/1.0). Името на ботот за директивите на датотеката robors.txt не е објавено никаде; постои претпоставка дека ботот треба да се вика Mail.Ru.

Други роботи

Пребарувањето на Интернет, се разбира, не е ограничено на два пребарувачи. Затоа, има и други роботи - на пример, роботот Бинг - пребарувачот од Microsoft и други роботи. Значи, особено, во Кина постои национален пребарувач Baidu - но неговиот робот веројатно нема да стигне до средината на реката и да стигне до руската локација.

Покрај тоа, неодамна се размножија многу услуги - особено solomono - кои, иако не се пребарувачи, исто така скенираат страници. Честопати вредноста на преносот на информации за локацијата на таквите системи е сомнителна, и затоа нивните роботи можат да бидат забранети во


Врв