дома › Проблеми › Каква работа прават пајаците на пребарувачите? Што е робот за пребарување? Функции на роботот за пребарување „Јандекс“ и Гугл. Што прави роботот за пребарување?

Каква работа прават пајаците на пребарувачите? Што е робот за пребарување? Функции на роботот за пребарување „Јандекс“ и Гугл. Што прави роботот за пребарување?

Спротивно на популарното верување, роботот не е директно вклучен во било каква обработка на скенирани документи. Само ги чита и зачувува; потоа се обработуваат од други програми. Визуелна потврда може да се добие со анализа на дневниците на страницата што се индексира за прв пат. При првата посета, ботот прво ја бара датотеката robots.txt, а потоа главната страница на страницата. Односно, тој ја следи единствената врска која му е позната. Тука секогаш завршува првата посета на ботот. По некое време (обично следниот ден), ботот ги бара следните страници - користејќи врски што се наоѓаат на страницата што е веќе прочитана. Потоа процесот продолжува по истиот редослед: барање страници за кои веќе се пронајдени врски - пауза за обработка на прочитаните документи - следната сесија со барање за пронајдени врски.

Парсирањето страници во лет би значело значително повеќе Опоголема потрошувачка на ресурси на роботот и губење време. Секој сервер за скенирање работи паралелно со повеќе процеси на бот. Тие мора да дејствуваат што е можно побрзо за да имаат време да читаат нови страници и повторно да ги читаат постоечките. Затоа, ботови само читаат и зачувуваат документи. Што и да зачуваат е во ред за обработка (парсирање на кодови). Врските пронајдени при обработката на страницата се ставаат во редот за задачи за ботови. Така континуирано се скенира целата мрежа. Единственото нешто што бот може и треба да го анализира во лет е датотеката robots.txt, за да не бара адреси кои се забранети во неа. За време на секоја сесија на индексирање на страницата, роботот прво ја бара оваа датотека, а по неа сите страници во редица за индексирање.

Видови роботи за пребарување

Секој пребарувач има свој сет на роботи за различни намени.
Во основа, тие се разликуваат во нивната функционална намена, иако границите се многу произволни, и секој пребарувач ги разбира на свој начин. За системи само за пребарување на целосен текст, еден робот е доволен за сите прилики. За оние пребарувачи кои се занимаваат не само со текст, ботови се поделени во најмалку две категории: за текстови и цртежи. Исто така, постојат посебни ботови посветени на одредени типови на содржина - мобилен, блог, вести, видео итн.

Google Robots

Сите роботи на Google заеднички се нарекуваат Googlebot. Главниот индекс на роботи „се претставува“ вака:

Mozilla/5.0 (компатибилен; Googlebot/2.1; +http://www.google.com/bot.html)

Овој бот е зафатен со скенирање на HTML страници и други документи за главните Google пребарување. Исто така, повремено чита CSS и JS-датотеки - ова главно може да се забележи во раната фаза на индексирање на страницата, додека ботот за прв пат ја лази страницата. Прифатени типови содржини се сите (Прифати: */*).

Вториот од главните ботови е зафатен со скенирање слики од страницата. Се „претставува“ едноставно:

Googlebot-Image/1.0

Најмалку три бота беа забележани и во дневниците, зафатени со собирање содржина за мобилна верзијапребарување. Полето Кориснички агент од сите три завршува со линијата:

(компатибилен; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Пред оваа линија е моделот мобилен телефон, со кој овој бот е компатибилен. Забележаните ботови имаат модели Нокиа телефони, Samsung и iPhone. Прифатени типови содржини се сите, но со наведени приоритети:

Прифати: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Роботи Yandex

Од пребарувачите активни на RuNet, Yandex има најголема колекција на ботови. Во делот за помош на веб-администраторот можете да најдете официјална листа на целиот персонал на пајакот. Нема смисла да се презентира овде во целост, бидејќи промените се случуваат периодично во оваа листа.
Сепак, најважните Yandex роботи за нас треба да се споменат посебно.
Основен робот за индексирањемоментално повикан

Mozilla/5.0 (компатибилен; YandexBot/3.0; +http://yandex.com/bots)

Претходно претставен како

Yandex/1.01.001 (компатибилен; Win16; I)

Чита веб-страници HTML и други документи за индексирање. Списокот на прифатени типови медиуми беше претходно ограничен:

Прифатете: текст/html, апликација/pdf;q=0.1, апликација/rtf;q=0.1, текст/rtf;q=0.1, апликација/msword;q=0.1, апликација/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

Од 31 јули 2009 година, забележано е значително проширување на оваа листа (бројот на типови е речиси двојно зголемен), а од 10 ноември 2009 година списокот е скратен на */* (сите типови).
Овој робот е силно заинтересиран за многу специфичен сет на јазици: руски, малку помалку украински и белоруски, малку помалку англиски и многу малку - сите други јазици.

Accept-Language: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Роботски скенер за сликија носи следната линија во полето Кориснички агент:

Mozilla/5.0 (компатибилен; YandexImages/3.0; +http://yandex.com/bots)

Се занимава со скенирање графики од различни формати за пребарување во слики.

За разлика од Google, Yandex има посебни ботови за да им служи на некои специјални функцииопшто пребарување.
Роботот „огледало“

Mozilla/5.0 (компатибилен; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Не прави ништо особено комплицирано - периодично се појавува и проверува дали главната страница на страницата се совпаѓа при пристап до доменот со www. и без. Исто така, ги проверува паралелните домени „огледало“ за совпаѓање. Очигледно, огледалата и канонската форма на домени во Yandex се постапуваат одделно софтверски пакет, не е директно поврзана со индексирање. Инаку, нема апсолутно ништо што може да го објасни постоењето на посебен бот за оваа намена.

Колекционер на икони favicon.ico

Mozilla/5.0 (компатибилен; YandexFavicons/1.0; +http://yandex.com/bots)

Периодично се појавува и ја бара иконата favicon.ico, која потоа се појавува во резултатите од пребарувањето до врската до страницата. Од кои причини колекционерот на слики не ја дели оваа одговорност не е познато. Очигледно има и посебен софтверски пакет во игра.

Бот за верификацијаза нови сајтови, работи кога се додава во формуларот AddURL

Mozilla/5.0 (компатибилен; YandexWebmaster/2.0; +http://yandex.com/bots)

Овој бот го проверува одговорот на страницата со испраќање барање HEAD до root URL-то. На овој начин се проверува постоењето на главната страница во доменот и се анализираат HTTP заглавијата на оваа страница. Ботот исто така ја бара датотеката robots.txt во коренот на страницата. Така, по поднесувањето на врската до AddURL, се утврдува дека страницата постои и ниту заглавието на robots.txt ниту HTTP не забрануваат пристап до главната страница.

Роботот Рамблер

Во моментов повеќе не работи, бидејќи Rambler сега користи Yandex пребарување
Роботот за индексирање Rambler може лесно да се идентификува во дневниците преку полето Кориснички агент

StackRambler/2.0 (MSIE некомпатибилно)

Во споредба со „колегите“ од другите пребарувачитеовој бот изгледа прилично едноставен: не наведува листа на типови медиуми (соодветно на тоа, го добива бараниот документ од кој било тип), полето Accept-Language недостасува во барањето и полето If-Modified- since не е пронајдено во барањата на ботот.

Роботот Mail.Ru

За овој робот се уште малку се знае. Порталот Mail.Ru развива сопствено пребарување долго време, но сè уште не успеал да го започне ова пребарување. Затоа, сигурно е познато само името на ботот во корисничкиот агент - Mail.Ru/2.0 (претходно - Mail.Ru/1.0). Името на ботот за директивите на датотеката robors.txt не е објавено никаде; постои претпоставка дека ботот треба да се вика Mail.Ru.

Други роботи

Пребарувањето на Интернет, се разбира, не е ограничено на два пребарувачи. Затоа, има и други роботи - на пример, роботот Бинг - пребарувачот од Microsoft и други роботи. Значи, особено, во Кина постои национален пребарувач Baidu - но неговиот робот веројатно нема да стигне до средината на реката и да стигне до руската локација.

Покрај тоа, неодамна се размножија многу услуги - особено solomono - кои, иако не се пребарувачи, исто така скенираат страници. Честопати вредноста на преносот на информации за локацијата на таквите системи е сомнителна, и затоа нивните роботи можат да бидат забранети во

Како работат роботите на пребарувачите

Роботот за пребарување (пајак, бот) е мала програма која може да посети милиони веб-локации и да скенира гигабајти текст без интервенција на операторот. Читањето страници и складирањето текстуални копии од нив е првата фаза од индексирање на нови документи. Треба да се напомене дека роботите на пребарувачите не вршат никаква обработка на примените податоци. Нивната задача е само да зачуваат текстуални информации.

Повеќе видеа на нашиот канал - научи интернет маркетинг со SEMANTICA

Список на роботи за пребарување

Од сите пребарувачи кои го скенираат Runet, Yandex има најголема колекција на ботови. Следниве ботови се одговорни за индексирање:

главниот робот за индексирање кој собира податоци од веб-страниците;
бот кој може да препознава огледала;
Роботот за пребарување Yandex, кој индексира слики;
пајак кој ги скенира страниците на страниците прифатени од YAN;
икони за фавикони за скенирање на роботи;
неколку пајаци кои ја одредуваат пристапноста на страниците на страницата.

Главниот робот за пребарување на Google собира текстуални информации. Во основа, ги прегледува HTML-датотеките и ги анализира JS и CSS во одредени интервали. Способен да прифати секаков вид содржина дозволена за индексирање. PS Google има пајак кој го контролира индексирањето на сликите. Постои и робот за пребарување - програма која го поддржува функционирањето на мобилната верзија на пребарувањето.

Погледнете ја страницата низ очите на роботот за пребарување

За да ги исправи грешките во кодот и другите недостатоци, вебмастерот може да открие како роботот за пребарување ја гледа страницата. Оваа можност е обезбедена од Google PS. Ќе треба да отидете до алатките за веб-администратори, а потоа да кликнете на табулаторот „ползење“. Во прозорецот што се отвора, треба да ја изберете линијата „преглед како Googlebot“. Следно, треба да ја внесете адресата на страницата што ја истражувате во формуларот за пребарување (без да го наведете доменот и протоколот http://).

Со избирање на командата „земи и прикажи“, вебмастерот ќе може визуелно да ја процени состојбата на страницата на страницата. За да го направите ова, треба да кликнете на полето за избор „барање за прикажување“. Ќе се отвори прозорец со две верзии на веб-документот. Веб-администраторот дознава како обичниот посетител ја гледа страницата и во каква форма е достапна за пајакот за пребарување.

Совет!Ако веб-документот што го анализирате сè уште не е индексиран, можете да ја користите командата „add to index“ >> „scan only this URL“. Пајакот ќе го анализира документот за неколку минути, а во блиска иднина веб-страницата ќе се појави во резултатите од пребарувањето. Месечниот лимит за индексирање на барањата е 500 документи.

Како да се влијае на брзината на индексирање

Откако ќе сфати како функционираат роботите за пребарување, вебмастерот ќе може многу поефикасно да ја промовира својата страница. Еден од главните проблеми на многу млади веб-проекти е лошото индексирање. Роботите од пребарувачите не сакаат да посетуваат неовластени интернет ресурси.
Утврдено е дека брзината на индексирање директно зависи од интензитетот со кој се ажурира страницата. Редовното додавање уникатни текстуални материјали ќе го привлече вниманието на пребарувачите.

За да го забрзате индексирањето, можете да користите социјални обележувачи и услугата Твитер. Препорачливо е да креирате карта на сајтот и да ја поставите во root директориумот на веб-проектот.

Роботот за пребарување повикани специјална програмасекој пребарувач кој е дизајниран да внесува во база на податоци (индекс) страници и нивните страници пронајдени на Интернет. Користени се и имиња: роботи, пајак, бот, автоматски индексирач, мравка, веб-краулер, бот, веб-секач, веб-ботови, веб-пајак.

Принцип на работа

Роботот за пребарување е програма од типот на прелистувач. Постојано ја скенира мрежата: посетува индексирани (веќе му се познати) страници, следи врски од нив и наоѓа нови ресурси. Кога ќе се открие нов ресурс, роботот за процедура го додава во индексот на пребарувачот. Роботот за пребарување индексира и ажурирања на сајтови, чија фреквенција е фиксна. На пример, страницата што се ажурира еднаш неделно ќе ја посетува пајак со оваа фреквенција, а содржината на сајтовите за вести може да се индексира за неколку минути по објавувањето. Ако не водат врски од други ресурси до страницата, тогаш за да се привлечат роботи за пребарување, ресурсот мора да се додаде преку специјална форма (Центар за веб-администратори на Google, панел за веб-администратори на Yandex, итн.).

Видови роботи за пребарување

Yandex пајаци:

Yandex/1.01.001 I - главниот бот вклучен во индексирањето,
Yandex/1.01.001 (P) - индексира слики,
Yandex/1.01.001 (H) - наоѓа огледални страници,
Yandex/1.03.003 (D) - одредува дали страницата додадена од панелот на веб-администраторот ги исполнува параметрите за индексирање,
YaDirectBot/1.0 (I) - индексира ресурси од рекламна мрежа Yandex,
Yandex/1.02.000 (F) - ги индексира фавиконите на страниците.

Google Spiders:

Googlebot е главниот робот
Googlebot News - скенира и индексира вести,
Google Mobile - индексира сајтови за мобилни уреди,
Googlebot Images - пребарува и индексира слики,
Видео на Googlebot - индексира видеа,
Google AdsBot - го проверува квалитетот на целната страница,
Google Mobile AdSense и Google AdSense— ги индексира страниците на рекламната мрежа на Google.

Други пребарувачи исто така користат неколку типови на роботи кои се функционално слични на наведените.

Како работат пребарувачите? Една од прекрасните работи за Интернет е тоа што стотици милиони веб-ресурси чекаат и се подготвени да ни бидат претставени. Но, лошата работа е што постојат исти милиони страници кои, дури и да ни требаат, нема да се појават пред нас, бидејќи ... едноставно непознато за нас. Како да дознаете што и каде можете да најдете на Интернет? За да го направите ова, ние обично се обраќаме до пребарувачите.

Интернет пребарувачите се специјални сајтови во глобална мрежа, кои се дизајнирани да им помогнат на луѓето да најдат светска мрежаинформациите што им се потребни. Постојат разлики во начинот на кој пребарувачите ги извршуваат своите функции, но генерално постојат 3 главни и идентични функции:

Сите тие „пребаруваат“ на Интернет (или некој сектор на Интернет) - врз основа на дадените клучни зборови;
- сите пребарувачи ги индексираат зборовите што ги бараат и местата каде што ги наоѓаат;
- сите пребарувачи им овозможуваат на корисниците да бараат зборови или комбинации на клучни зборови врз основа на веб-страници кои се веќе индексирани и вклучени во нивните бази на податоци.

Првите пребарувачи индексираа до неколку стотици илјади страници и добиваа 1.000 - 2.000 барања дневно. Денес, врвните пребарувачи индексираа и континуирано индексираат стотици милиони страници и обработуваат десетици милиони барања дневно. Подолу ќе зборуваме за тоа како работат пребарувачите и како тие ги „склопуваат“ сите пронајдени информации за да можеме да одговориме на секое прашање што нè интересира.

Ајде да погледнеме на Интернет

Кога луѓето зборуваат за Интернет пребарувачимашини, тие всушност значат пребарувачи World Wide Web. Пред Интернетот да стане највидливиот дел од Интернетот, пребарувачите веќе постоеја за да им помогнат на луѓето да најдат информации на Интернет. Програмите наречени „Gopher“ и „Archie“ можеа да индексираат датотеки лоцирани на различни сервери поврзани со Интернет Интернети значително го намали времето поминато за пребарување потребни програмиили документи. Во доцните 80-ти години на минатиот век, синоним за „способност за работа на Интернет“ беше можноста за користење на Gopher, Archie, Veronica итн. програми за пребарување. Денес, повеќето корисници на Интернет го ограничуваат своето пребарување само на светска мрежа, или WWW.

Мал почеток

Пред да ви кажеме каде да го најдете потребниот документ или датотека, датотеката или документот мора да се веќе пронајдени. За да пронајде информации за стотици милиони постоечки ВЕБ-страници, пребарувачот користи специјална програма за роботи. Оваа програма се нарекува и пајак („пајак“) и се користи за создавање листа на зборови пронајдени на страницата. Процесот на конструирање на таква листа се нарекува веб индексирање(Веб индексирање). За понатамошно конструирање и снимање на „корисна“ (значајна) листа на зборови, барај пајакмора да „прогледа“ еден тон други страници.

Како некој почнува? пајак(пајак) вашето патување на мрежата? Обично почетна точка се најголемите светски сервери и многу популарни веб-страници. Пајакот го започнува своето патување од таква локација, ги индексира сите пронајдени зборови и го продолжува своето движење понатаму, следејќи ги линковите до други локации. Така, роботот-пајак почнува да покрива сè поголеми „парчиња“ од веб-просторот. Google.com започна како академски пребарувач. Во написот кој опишува како е создаден овој пребарувач, Сергеј Брин и Лоренс Пејџ (основачи и сопственици на Google) дадоа пример за тоа колку брзо функционираат пајаците на Google. Ги има неколку и обично пребарувањето започнува со употреба на 3 пајаци. Секој пајак поддржува до 300 истовремено отворени врски со веб-страници. При максимално оптоварување, користејќи 4 пајаци, системот на Google е способен да обработува 100 страници во секунда, генерирајќи сообраќај од околу 600 килобајти/сек.

За да им ги обезбеди на пајаците податоците што требаше да ги обработат, Google порано имаше сервер што не правеше ништо повеќе од тоа што ги нахрануваше пајаците сè повеќе URL-адреси. За да не зависи од давателите на интернет услуги во однос на серверите за имиња на домени (DNS) кои ги преведуваат URL-адресите во IP-адреси, Google стекна свој DNS сервер, намалувајќи го на минимум целото време потрошено за индексирање страници.

Кога го посетува роботот на Google HTML страница, зема предвид 2 работи:

Зборови (текст) по страница;
- нивната локација (во кој дел од телото на страницата).

Зборови лоцирани со секции за услуги како што се наслов, преводи, мета-таговии други беа означени како особено важни за прашањата за пребарување на корисниците. Google Spider е создаден за да го индексира секој сличен збор на страница, со исклучок на интерекциите како „a“, „an“ и „the“. Другите пребарувачи имаат малку поинаков пристап кон индексирањето.

Сите пристапи и алгоритми на пребарувачите се насочени кон тоа пајаковите роботи да работат побрзо и поефикасно. На пример, некои роботи за пребарување ги следат зборовите во насловот, врските и до 100 најчесто користени зборови на страницата за време на индексирањето, па дури и секој од зборовите во првите 20 реда текстуална содржина на страницата. Ова е алгоритам за индексирање, особено на Lycos.

Други пребарувачи, како што е AltaVista, одат во друга насока, индексирајќи го секој збор на страницата, вклучително и „a“, „an“, „the“ и други неважни зборови.

Мета тагови

Мета-таговите му дозволуваат на сопственикот на веб-страницата да наведе клучни зборови и концепти кои ја дефинираат суштината на нејзината содржина. Ова е многу корисна алатка, особено кога овие клучни зборови може да се повторат до 2-3 пати во текстот на страницата. Во овој случај, мета-ознаките можат да го „насочат“ роботот за пребарување до саканиот избор на клучни зборови за индексирање на страницата. Постои можност за „измамување“ на мета-тагови со популарни барања за пребарување и концепти кои на никаков начин не се поврзани со содржината на самата страница. Роботите за пребарување се способни да се изборат со ова, на пример, со анализа на корелацијата на мета-таговите и содржината на веб-страницата, „исфрлајќи ги“ од разгледување оние мета-тагови (односно клучни зборови) кои не одговараат на содржината на страниците.

Сето ова се однесува на оние случаи кога сопственикот на веб-ресурс навистина сака да биде вклучен во резултатите од пребарувањето за саканите зборови за пребарување. Но, често се случува сопственикот воопшто да не сака да биде индексиран од роботот. Но, ваквите случаи не се тема на нашата статија.

Конструкција на индекс

Откако пајаците ќе ја завршат својата работа за наоѓање нови веб-страници, пребарувачите мора да ги стават сите пронајдени информации за да биде погодно да ги користат во иднина. Тука има 2 клучни компоненти:

Информации зачувани со податоци;
- методот со кој се индексираат овие информации.

Во наједноставниот случај, пребарувачот може едноставно да ги постави зборот и URL-то каде што е пронајден. Но, ова ќе го направи пребарувачот целосно примитивна алатка, бидејќи нема информации за тоа во кој дел од документот се наоѓа овој збор (мета-ознаки или во обичен текст), дали овој збор се користи еднаш или повеќепати и дали е содржани во врска до друг важен и поврзан ресурс. Со други зборови, овој метод нема да ги рангира страниците, нема да обезбеди релевантни резултати за корисниците итн.

За да ни дадат корисни податоци, пребарувачите складираат не само информации од зборот и неговиот URL. Пребарувачот може да зачува податоци за бројот (фреквенцијата) на спомнувањето на зборот на страницата, да му додели „тежина“ на зборот, што потоа ќе помогне да се создадат списоци за пребарување (резултати) врз основа на пондерираното рангирање за овој збор, земајќи во предвид нејзината локација (во врски, мета-тагови, наслов на страница и така натаму.). Секој комерцијален пребарувач има своја формула за пресметување на „тежината“ на клучните зборови за време на индексирањето. Ова е една од причините зошто за истото барање за пребарувањепребарувачите произведуваат сосема различни резултати.

Следно важна точкапри обработка на пронајдените информации - негово кодирање со цел да се намали количината на простор на дискот за нејзино складирање. На пример, оригиналната статија на Google опишува дека 2 бајти (по 8 бита) се користат за складирање на податоците за тежината на зборовите - ова го зема предвид типот на зборот (со големи букви), големината на самите букви (Големина на фонтот ), и други информации.кои помагаат за рангирање на страницата. Секој таков „дел“ од информации бара 2-3 бита податоци во комплетен сет од 2 бајти. Како резултат на тоа, огромна количина на информации може да се складира во многу компактна форма. Откако информациите се „компресирани“, време е да започнете со индексирање.

Индексирањето има една цел: да се обезбеди максимум брзо пребарувањепотребните информации. Постојат неколку начини за градење индекси, но најефективниот е да се изгради хаш табели(хаш табела). Хеширањето користи специфична формула за доделување нумеричка вредност на секој збор.

Во секој јазик, постојат букви со кои почнуваат многу повеќе зборови отколку со останатите букви од азбуката. На пример, има значително повеќе зборови што почнуваат со буквата „М“ во делот на англискиот речник отколку оние што почнуваат со буквата „Х“. Ова значи дека пребарувањето за збор што започнува со најпопуларната буква ќе трае подолго од кој било друг збор. Хеширање(Hashing) ја изедначува оваа разлика и го намалува просечното време на пребарување, а исто така го одделува самиот индекс од реалните податоци. Табелата за хаш содржи хаш вредности заедно со покажувач кон податоците што одговараат на таа вредност. Ефективното индексирање + ефективно поставување заедно обезбедуваат голема брзина на пребарување, дури и ако корисникот побара многу сложено барање за пребарување.

Иднината на пребарувачите

Пребарувањето базирано на Булови оператори („и“, „или“, „не“) е буквално пребарување - пребарувачот ги прима зборовите за пребарување точно како што се внесени. Ова може да предизвика проблем кога, на пример, внесениот збор има повеќе значења. „Клуч“, на пример, може да значи „средство за отворање врата“ или може да значи „лозинка“ за најавување на сервер. Ако ве интересира само едно значење на зборот, тогаш очигледно нема да ви требаат податоци за неговото второ значење. Се разбира, можете да изградите буквално барање што ќе го исклучи излезот на податоци врз основа на непотребното значење на зборот, но би било убаво ако самиот пребарувач може да ви помогне.

Една област на истражување во идните алгоритми на пребарувачот е концептуалното пребарување на информации. Ова се алгоритми кои користат статистичка анализа на страници кои содржат даден клучен збор или фраза за пребарување за да најдат релевантни податоци. Јасно е дека таков „концептуален пребарувач“ би барал многу повеќе простор за складирање на секоја страница и повеќе време за обработка на секое барање. Во моментов, многу истражувачи работат на овој проблем.

Не помалку интензивна работа се врши на полето на развој на алгоритми за пребарување врз основа на прашања. природен јазик(Прашање на природен јазик).

Идејата зад природните прашања е дека можете да го напишете вашето барање како да прашувате колега што седи спроти вас. Нема потреба да се грижите за буловите оператори или да се напрегате за компонирање сложено барање. Најпопуларната страница за пребарување на природен јазик на денешницата е AskJeeves.com. Го претвора барањето во клучни зборови, кои потоа ги користи при индексирање на сајтови. Овој пристап работи само за едноставни прашања. Сепак, напредокот не застанува, можно е многу наскоро да „разговараме“ со пребарувачите на нашиот сопствен „човечки јазик“.

Пријатели, повторно ви посакувам добредојде! Сега ќе погледнеме што се роботите за пребарување и детално ќе разговараме за роботот за пребарување на Google и како да се дружиме со нив.

Прво треба да разберете што всушност се роботите за пребарување; тие се нарекуваат и пајаци. Каква работа прават пајаците на пребарувачите?

Тоа се програми кои проверуваат сајтови. Тие ги разгледуваат сите објави и страници на вашиот блог, собираат информации, кои потоа ги пренесуваат во базата на податоци на пребарувачот за кој работат.

Не треба да ја знаете целата листа на роботи за пребарување, најважно е да знаете дека Google сега има два главни пајаци, наречени „панда“ и „пингвин“. Тие се борат против неквалитетната содржина и непотребните врски, а вие треба да знаете како да ги одбиете нивните напади.

Роботот за пребарување на Google Panda е создаден за да промовира само висококвалитетен материјал во пребарувањата. Сите страници со неквалитетна содржина се спуштени во резултатите од пребарувањето.

Овој пајак првпат се појави во 2011 година. Пред неговото појавување, беше можно да се промовира која било веб-страница со објавување на голема количина текст во статии и користење на огромна количина на клучни зборови. Заедно, овие две техники донесоа неквалитетна содржина на врвот на резултатите од пребарувањето, а добрите страници беа намалени во резултатите од пребарувањето.

„Панда“ веднаш ги стави работите во ред со проверка на сите страници и ставање на сите на нивните вистински места. Иако се бори со неквалитетна содржина, сега е можно да се промовираат дури и мали сајтови со висококвалитетни статии. Иако претходно беше бескорисно да се промовираат такви сајтови, тие не можеа да се натпреваруваат со гиганти кои имаат голема количина на содржина.

Сега ќе откриеме како можете да ги избегнете санкциите за „панда“. Прво треба да разберете што не и се допаѓа. Веќе напишав погоре дека таа се бори со лоша содржина, но каков текст е лош за неа, ајде да дознаеме за да не го објавиме на нашата веб-страница.

Роботот за пребарување на Google се стреми да осигура дека овој пребарувач обезбедува само висококвалитетни материјали за оние кои бараат работа. Ако имате написи што содржат малку информации и не се привлечни по изглед, тогаш итно препишете ги овие текстови за да не дојде „пандата“ до вас.

Висококвалитетната содржина може да биде и голема и мала, но ако пајакот види долга статија со многу информации, тогаш ќе му биде покорисна на читателот.

Потоа треба да забележите дуплирање, со други зборови, плагијат. Ако мислите дека ќе ги препишувате написите на другите луѓе на вашиот блог, тогаш можете веднаш да ставите крај на вашата страница. Копирањето строго се казнува со примена на филтер, и Плагијатот се проверувамногу лесно, напишав статија на темата како да ги проверите текстовите за уникатност.

Следно што треба да се забележи е презаситеноста на текстот со клучни зборови. Секој што мисли дека може да напише статија користејќи само клучни зборови и да го заземе првото место во резултатите од пребарувањето, многу се лаже. Имам статија за тоа како да проверувам страници за релевантност, не заборавајте да ја прочитате.

И друго нешто што може да привлече „панда“ кон вас се старите написи кои се морално застарени и не носат сообраќај на страницата. Тие дефинитивно треба да се ажурираат.

Постои и робот за пребарување на Google „пингвин“. Овој пајак се бори со спам и непотребни врски на вашата страница. Исто така, ги пресметува купените врски од други ресурси. Затоа, за да не се плашите од овој робот за пребарување, не треба да купувате линкови, туку да објавувате висококвалитетна содржина за луѓето самите да ве поврзат.

Сега ајде да формулираме што треба да се направи за да се направи страницата да изгледа совршено преку очите на роботот за пребарување:

За да направите квалитетна содржина, прво добро истражете ја темата пред да ја напишете статијата. Тогаш треба да разберете дека луѓето се навистина заинтересирани за оваа тема.

Користете конкретни примерии слики, ова ќе ја направи статијата жива и интересна. Разделете го текстот на мали параграфи за да биде лесен за читање.На пример, ако отворите страница со шеги во весник, кои прво ќе ги прочитате? Нормално, секој човек прво чита кратки текстови, потоа подолги и на крај долги облоги за стапалата.

Омилената препирка на „пандата“ е недостатокот на релевантност на статија која содржи застарени информации. Следете ги ажурирањата и променете ги текстовите.

Следете ја густината на клучниот збор; напишав погоре како да ја одредите оваа густина; во услугата што ја опишав, ќе го добиете точниот потребен број на клучни зборови.

Не правете плагијат, сите знаат дека не можете да украдете туѓи работи или пораки - тоа е истото. Ќе бидете казнети за кражба со тоа што ќе бидете фатени во филтерот.

Напишете текстови од најмалку две илјади зборови, тогаш таквата статија ќе изгледа информативна низ очите на роботите на пребарувачите.

Останете на темата со вашиот блог. Ако водите блог за заработка на Интернет, тогаш не треба да објавувате статии за воздушни пушки. Ова може да го намали рејтингот на вашиот ресурс.

Дизајнирајте ги вашите статии убаво, поделете ги во пасуси и додајте слики за да уживате во читањето и да не сакате брзо да ја напуштите страницата.

Кога купувате врски, направете ги до најинтересните и најкорисните написи што луѓето навистина ќе ги читаат.

Па, сега знаете што работат роботите на пребарувачот и можете да бидете пријатели со нив. И што е најважно, роботот за пребарување на Google и „пандата“ и „пингвинот“ се детално проучени од вас.

Популарни во категоријата: