Kakšno delo opravljajo pajki iskalnikov? Kaj je iskalni robot? Funkcije iskalnega robota "Yandex" in Google. Kaj počne iskalni robot?

V nasprotju s splošnim prepričanjem robot ni neposredno vključen v obdelavo skeniranih dokumentov. Le prebere in shrani jih, nato pa jih obdelajo drugi programi. Vizualno potrditev lahko dobite z analizo dnevnikov spletnega mesta, ki se prvič indeksira. Ob prvem obisku bot najprej zahteva datoteko robots.txt, nato glavno stran spletnega mesta. To pomeni, da sledi edini povezavi, ki jo pozna. Tu se vedno konča prvi obisk bota. Po določenem času (običajno naslednji dan) bot zahteva naslednje strani – z uporabo povezav, ki jih najde na že prebrani strani. Nato se postopek nadaljuje v enakem vrstnem redu: zahteva strani, za katere so že bile najdene povezave - premor za obdelavo prebranih dokumentov - naslednja seja z zahtevo po najdenih povezavah.

Razčlenjevanje strani na letenju bi pomenilo bistveno več O večja poraba virov robota in izguba časa. Vsak strežnik skeniranja izvaja več procesov botov vzporedno. Ukrepati morajo čim hitreje, da bodo imeli čas za branje novih strani in ponovno branje obstoječih. Boti torej le berejo in shranjujejo dokumente. Karkoli shranijo, je v čakalni vrsti za obdelavo (razčlenjevanje kode). Povezave, najdene med obdelavo strani, se postavijo v čakalno vrsto opravil za bote. Tako se neprekinjeno pregleduje celotno omrežje. Edino, kar lahko in mora bot analizirati sproti, je datoteka robots.txt, da ne zahteva naslovov, ki so v njej prepovedani. Med vsako sejo pajkanja po spletnem mestu robot najprej zahteva to datoteko, nato pa vse strani, ki so v čakalni vrsti za pajkanje.

Vrste iskalnih robotov

Vsak iskalnik ima svoj nabor robotov za različne namene.
V osnovi se razlikujejo po funkcionalnem namenu, čeprav so meje zelo poljubne in jih vsak iskalnik razume po svoje. Za sisteme samo za iskanje po celotnem besedilu je en robot dovolj za vse priložnosti. Za tiste iskalnike, ki se ne ukvarjajo samo z besedilom, so roboti razdeljeni v vsaj dve kategoriji: za besedila in risbe. Obstajajo tudi ločeni roboti, namenjeni določenim vrstam vsebine – mobilni, blog, novice, video itd.

Googlovi roboti

Vsi Googlovi roboti se skupaj imenujejo Googlebot. Glavni robot indekser se "predstavi" takole:

Mozilla/5.0 (združljivo; Googlebot/2.1; +http://www.google.com/bot.html)

Ta bot je zaposlen s skeniranjem strani HTML in drugih dokumentov za glavno Google iskanje. Občasno bere tudi datoteke CSS in JS – to je mogoče opaziti predvsem v zgodnji fazi indeksiranja spletnega mesta, ko bot prvič preišče spletno mesto. Sprejete vrste vsebine so vse (Sprejmi: */*).

Drugi od glavnih botov je zaposlen s skeniranjem slik s spletnega mesta. Preprosto se »predstavi«:

Googlebot-Image/1.0

V dnevnikih so opazili tudi najmanj tri robote, ki so zbirali vsebino za mobilna različica Iskanje. Polje User-agent vseh treh se konča z vrstico:

(združljivo; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Pred to vrstico je model mobilni telefon, s katerim je ta bot združljiv. Opaženi roboti imajo modele telefoni Nokia, Samsung in iPhone. Sprejete vrste vsebine so vse, vendar z navedenimi prioritetami:

Sprejmi: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Yandex roboti

Med iskalniki, ki so aktivni v RuNetu, ima Yandex največjo zbirko botov. V razdelku s pomočjo za spletne skrbnike lahko najdete uradni seznam vseh osebja pajka. Tu ga nima smisla predstavljati v celoti, saj se na tem seznamu občasno spreminjajo.
Vendar pa je treba ločeno omeniti najpomembnejše robote Yandex za nas.
Osnovni robot za indeksiranje trenutno poklican

Mozilla/5.0 (združljivo; YandexBot/3.0; +http://yandex.com/bots)

Prej predstavljen kot

Yandex/1.01.001 (združljiv; Win16; I)

Bere HTML strani spletnega mesta in druge dokumente za indeksiranje. Seznam sprejetih vrst medijev je bil prej omejen:

Sprejmi: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, aplikacija/vnd.ms-excel;q=0,1, aplikacija/vnd.ms-powerpoint;q=0,1

Od 31. julija 2009 je opaziti znatno razširitev tega seznama (število vrst se je skoraj podvojilo), od 10. novembra 2009 pa je seznam skrajšan na */* (vse vrste).
Tega robota močno zanima zelo specifičen nabor jezikov: ruščina, nekoliko manj ukrajinski in beloruski, malo manj angleščina in zelo malo - vsi drugi jeziki.

Sprejemljiv jezik: ru, uk;q=0,8, be;q=0,8, en;q=0,7, *;q=0,01

Robotski skener slik nosi naslednjo vrstico v polju User-agent:

Mozilla/5.0 (združljivo; YandexImages/3.0; +http://yandex.com/bots)

Ukvarja se s skeniranjem grafik različnih formatov za iskanje po slikah.

Za razliko od Googla ima Yandex ločene bote, ki služijo nekaterim posebne funkcije splošno iskanje.
Robotsko "ogledalo"

Mozilla/5.0 (združljivo; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Ne naredi nič posebej zapletenega - občasno se prikaže in preveri, ali se glavna stran spletnega mesta ujema pri dostopu do domene z www. in brez. Preveri tudi vzporedne »zrcalne« domene za ujemanja. Očitno se ogledala in kanonična oblika domen v Yandexu obravnavajo ločeno programski paket, ki ni neposredno povezan z indeksiranjem. V nasprotnem primeru ni prav nič, kar bi razložilo obstoj ločenega bota za ta namen.

Zbiralec ikon favicon.ico

Mozilla/5.0 (združljivo; YandexFavicons/1.0; +http://yandex.com/bots)

Občasno se pojavi in ​​zahteva ikono favicon.ico, ki se nato prikaže v rezultatih iskanja poleg povezave do spletnega mesta. Iz katerih razlogov zbiralec slik ne deli te odgovornosti, ni znano. Očitno je v igri tudi ločen programski paket.

Bot za preverjanje za nova spletna mesta deluje, ko je dodano v obrazec AddURL

Mozilla/5.0 (združljivo; YandexWebmaster/2.0; +http://yandex.com/bots)

Ta bot preveri odziv spletnega mesta tako, da pošlje zahtevo HEAD na korenski URL. Na ta način se preveri obstoj glavne strani v domeni in analizirajo HTTP glave te strani. Bot zahteva tudi datoteko robots.txt v korenu spletnega mesta. Tako se po predložitvi povezave na AddURL ugotovi, da spletno mesto obstaja in niti robots.txt niti HTTP glave ne prepovedujejo dostopa do glavne strani.

robot Rambler

Trenutno ne deluje več, saj Rambler zdaj uporablja iskanje Yandex
Robota indekserja Rambler je mogoče zlahka prepoznati v dnevnikih po polju User-agent

StackRambler/2.0 (nezdružljiv z MSIE)

V primerjavi s »kolegi« iz dr Iskalniki ta bot se zdi precej preprost: ne podaja seznama vrst medijev (v skladu s tem prejme zahtevani dokument katere koli vrste), v zahtevi manjka polje Accept-Language in polje If-Modified-since ni najdeno v zahtevah bota.

Robot Mail.Ru

O tem robotu je še malo znanega. Portal Mail.Ru že dolgo razvija lastno iskanje, vendar še vedno ni prišel do tega iskanja. Zato je zagotovo znano samo ime bota v uporabniškem agentu - Mail.Ru/2.0 (prej - Mail.Ru/1.0). Ime bota za direktive datoteke robors.txt ni nikjer objavljeno, obstaja domneva, da bi se moral bot imenovati Mail.Ru.

Drugi roboti

Iskanje po internetu seveda ni omejeno na dva iskalnika. Zato obstajajo drugi roboti - na primer robot Bing - Microsoftov iskalnik in drugi roboti. Tako še posebej na Kitajskem obstaja nacionalni iskalnik Baidu - vendar njegov robot verjetno ne bo dosegel sredine reke in dosegel ruskega mesta.

Poleg tega so se v zadnjem času razširile številne storitve - zlasti solomono -, ki, čeprav niso iskalniki, pregledujejo tudi spletna mesta. Pogosto je vrednost prenosa informacij o spletnem mestu v takšne sisteme vprašljiva, zato je lahko njihovim robotom prepovedan vstop

Kako delujejo roboti iskalnikov

Iskalni robot (pajek, bot) je majhen program, ki lahko obišče na milijone spletnih mest in pregleda gigabajte besedila brez posredovanja operaterja. Branje strani in shranjevanje njihovih besedilnih kopij je prva stopnja indeksiranja novih dokumentov. Treba je opozoriti, da roboti iskalnikov ne izvajajo nobene obdelave prejetih podatkov. Njihova naloga je samo ohranjanje besedilne informacije.

Več videov na našem kanalu - naučite se internetnega trženja s SEMANTICO

Seznam iskalnih robotov

Od vseh iskalnikov, ki pregledujejo Runet, ima Yandex največjo zbirko botov. Za indeksiranje so odgovorni naslednji roboti:

  • glavni robot za indeksiranje, ki zbira podatke s spletnih strani;
  • bot, ki lahko prepozna ogledala;
  • Iskalni robot Yandex, ki indeksira slike;
  • pajek, ki pregleduje strani spletnih mest, ki jih sprejema YAN;
  • ikone priljubljenih ikon za skeniranje robotov;
  • več pajkov, ki določajo dostopnost strani spletnega mesta.

Googlov glavni iskalni robot zbira besedilne informacije. V bistvu si ogleduje datoteke HTML in analizira JS in CSS v določenih intervalih. Sposoben sprejeti vse vrste vsebin, ki so dovoljene za indeksiranje. PS Google ima pajka, ki nadzoruje indeksiranje slik. Obstaja tudi iskalni robot - program, ki podpira delovanje mobilne različice iskanja.

Oglejte si spletno mesto skozi oči iskalnega robota

Za odpravo napak kode in drugih pomanjkljivosti lahko spletni skrbnik ugotovi, kako iskalni robot vidi spletno mesto. To možnost ponuja Google PS. Odpreti boste morali orodja za spletne skrbnike in nato klikniti zavihek »pajkanje«. V oknu, ki se odpre, morate izbrati vrstico »pogled kot Googlebot«. Nato morate v iskalni obrazec vnesti naslov strani, ki jo raziskujete (brez podajanja domene in http:// protokola).

Z izbiro ukaza »dobi in prikaži« bo spletni skrbnik lahko vizualno ocenil stanje strani spletnega mesta. Če želite to narediti, morate klikniti potrditveno polje »zahteva za prikaz«. Odpre se okno z dvema različicama spletnega dokumenta. Spletni skrbnik spozna, kako stran vidi redni obiskovalec in v kakšni obliki je na voljo iskalnemu pajku.

Namig! Če spletni dokument, ki ga analizirate, še ni indeksiran, lahko uporabite ukaz »dodaj v indeks« >> »preglej samo ta URL«. Pajek bo analiziral dokument v nekaj minutah in v bližnji prihodnosti se bo spletna stran pojavila med rezultati iskanja. Mesečna omejitev zahtevkov za indeksiranje je 500 dokumentov.

Kako vplivati ​​na hitrost indeksiranja

Ko bo spletni skrbnik ugotovil, kako delujejo iskalni roboti, bo lahko veliko bolj učinkovito promoviral svoje spletno mesto. Ena glavnih težav mnogih mladih spletnih projektov je slabo indeksiranje. Roboti iskalnikov neradi obiščejo nepooblaščene internetne vire.
Ugotovljeno je bilo, da je hitrost indeksiranja neposredno odvisna od intenzivnosti posodabljanja strani. Redno dodajanje edinstvenih besedilnih materialov bo pritegnilo pozornost iskalnikov.

Če želite pospešiti indeksiranje, lahko uporabite družabne zaznamke in storitev twitter. Priporočljivo je, da ustvarite zemljevid spletnega mesta in ga naložite v korenski imenik spletnega projekta.

Iskalni robot klical poseben program vsak iskalnik, ki je zasnovan za vnos v bazo podatkov (indeks) spletnih mest in njihovih strani, najdenih na internetu. Uporabljena so tudi imena: pajek, pajek, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Načelo delovanja

Iskalni robot je program v obliki brskalnika. Nenehno pregleduje omrežje: obiskuje indeksirana (že znana) spletna mesta, sledi povezavam z njih in najde nove vire. Ko je odkrit nov vir, ga robot procedure doda v indeks iskalnika. Iskalni robot indeksira tudi posodobitve na spletnih mestih, katerih pogostost je fiksna. Na primer, spletno mesto, ki se posodablja enkrat na teden, bo pajek obiskal s to pogostostjo, vsebino na spletnih mestih z novicami pa je mogoče indeksirati v nekaj minutah po objavi. Če nobena povezava iz drugih virov ne vodi do spletnega mesta, je treba za privabljanje iskalnih robotov vir dodati prek posebnega obrazca (Google Webmaster Center, Yandex Webmaster Panel itd.).

Vrste iskalnih robotov

Yandex pajki:

  • Yandex/1.01.001 I - glavni bot, ki sodeluje pri indeksiranju,
  • Yandex/1.01.001 (P) - indeksira slike,
  • Yandex/1.01.001 (H) - najde zrcalna mesta,
  • Yandex/1.03.003 (D) - določa, ali stran, dodana s plošče za spletne skrbnike, ustreza parametrom indeksiranja,
  • YaDirectBot/1.0 (I) - indeksira vire iz oglaševalsko mrežo Yandex,
  • Yandex/1.02.000 (F) - indeksira priljubljene ikone spletnih mest.

Google Spiders:

  • Googlebot je glavni robot
  • Googlebot News – pregleduje in indeksira novice,
  • Google Mobile – indeksira spletna mesta za mobilne naprave,
  • Googlebot Images – išče in indeksira slike,
  • Googlebot Video – indeksira videoposnetke,
  • Google AdsBot - preverja kakovost ciljne strani,
  • Google Mobile AdSense in Google AdSense— indeksira spletna mesta oglaševalskega omrežja Google.

Tudi drugi iskalniki uporabljajo več vrst robotov, ki so funkcionalno podobni naštetim.

Kako delujejo iskalniki? Ena izmed čudovitih stvari interneta je, da obstaja na stotine milijonov spletnih virov, ki čakajo in so pripravljeni, da se nam predstavijo. Slaba stvar pa je, da obstajajo isti milijoni strani, ki se, tudi če jih potrebujemo, ne bodo pojavile pred nami, ker ... nam preprosto neznana. Kako ugotoviti, kaj in kje lahko najdete na internetu? Za to se običajno obrnemo na iskalnike.

Internetni iskalniki so posebna spletna mesta v globalno omrežje, ki so namenjeni ljudem v pomoč pri iskanju svetovni splet informacije, ki jih potrebujejo. Obstajajo razlike v načinu, kako iskalniki opravljajo svoje funkcije, vendar na splošno obstajajo 3 glavne in enake funkcije:

Vsi »iščejo« internet (ali kakšen sektor interneta) - na podlagi danih ključnih besed;
- vsi iskalniki indeksirajo besede, ki jih iščejo, in mesta, kjer jih najdejo;
- vsi iskalniki omogočajo uporabnikom iskanje besed ali kombinacij ključnih besed na podlagi spletnih strani, ki so že indeksirane in vključene v njihove baze podatkov.

Že prvi iskalniki so indeksirali do nekaj sto tisoč strani in prejemali od 1.000 do 2.000 zahtev na dan. Danes so vrhunski iskalniki indeksirali in nenehno indeksirajo na stotine milijonov strani in obdelajo na desetine milijonov zahtev na dan. V nadaljevanju bomo govorili o tem, kako delujejo iskalniki in kako »sestavijo« vse najdene informacije, da lahko odgovorijo na vsako vprašanje, ki nas zanima.

Poglejmo na splet

Ko ljudje govorijo o Internetni iskalniki stroji, dejansko pomenijo iskalnike Svetovni splet. Preden je splet postal najvidnejši del interneta, so že obstajali iskalniki, ki so ljudem pomagali najti informacije na internetu. Programa, imenovana "gopher" in "Archie", sta lahko indeksirala datoteke na različnih strežnikih, ki so povezani Internet Internet in bistveno skrajša čas, porabljen za iskanje potrebne programe ali dokumenti. V poznih 80. letih prejšnjega stoletja je bil sinonim za "sposobnost dela na internetu" sposobnost uporabe gopherja, Archieja, Veronice itd. iskalni programi. Danes večina uporabnikov interneta svoje iskanje omeji le na svetovno omrežje, ali WWW.

Majhen začetek

Preden vam lahko povemo, kje najti zahtevani dokument ali datoteko, mora biti datoteka ali dokument že najden. Za iskanje informacij o več sto milijonih obstoječih SPLETNIH straneh iskalnik uporablja poseben robotski program. Ta program se imenuje tudi spider ("pajek") in se uporablja za izdelavo seznama besed, najdenih na strani. Postopek izdelave takega seznama se imenuje iskanje po spletu(Iskanje po spletu). Za nadaljnjo sestavo in zajemanje "uporabnega" (pomembnega) seznama besed, iskalni pajek mora "pregledati" tono drugih strani.

Kako kdo začne? pajek(pajek) vaše potovanje po spletu? Običajno so izhodišče največji svetovni strežniki in zelo priljubljene spletne strani. Pajek začne svojo pot s take strani, indeksira vse najdene besede in nadaljuje svoje gibanje naprej, sledi povezavam do drugih strani. Tako začne robot pajek pokrivati ​​vse večje »kose« spletnega prostora. Google.com se je začel kot akademski iskalnik. Sergey Brin in Lawrence Page (ustanovitelja in lastnika Googla) sta v članku, ki opisuje nastanek tega iskalnika, podala primer, kako hitro delujejo Googlovi pajki. Več jih je in običajno se iskanje začne z uporabo 3 pajkov. Vsak pajek podpira do 300 istočasno odprtih povezav do spletnih strani. Pri največji obremenitvi z uporabo 4 pajkov je Googlov sistem sposoben obdelati 100 strani na sekundo in ustvari promet okoli 600 kilobajtov/s.

Da bi pajkom zagotovil podatke, ki jih potrebujejo za obdelavo, je imel Google včasih strežnik, ki ni počel nič drugega kot dajal pajkom vedno več URL-jev. Da ne bi bil odvisen od ponudnikov internetnih storitev glede strežnikov domenskih imen (DNS), ki prevajajo URL-je v naslove IP, je Google pridobil lastne strežnik DNS, kar zmanjša ves čas, porabljen za indeksiranje strani, na minimum.

Ko Google Robot obišče stran HTML, upošteva 2 stvari:

Besed (besedilo) na stran;
- njihovo lokacijo (v katerem delu telesa strani).

Besede, ki se nahajajo s servisnimi razdelki, kot je npr naslov, podnapisi, meta oznake drugi pa so bili označeni kot posebej pomembni za iskalne poizvedbe uporabnikov. Google Spider je bil zgrajen za indeksiranje vseh podobnih besed na strani, z izjemo medmetov, kot so "a", "an" in "the." Drugi iskalniki imajo nekoliko drugačen pristop k indeksiranju.

Vsi pristopi in algoritmi iskalnikov so končno usmerjeni k hitrejšemu in učinkovitejšemu delovanju robotov pajkov. Na primer, nekateri iskalni roboti med indeksiranjem sledijo besedam v naslovu, povezavam in do 100 najpogosteje uporabljenim besedam na strani ter celo vsaki besedi v prvih 20 vrsticah besedilne vsebine na strani. To je predvsem algoritem indeksiranja Lycosa.

Drugi iskalniki, kot je AltaVista, gredo v drugo smer in indeksirajo vsako posamezno besedo na strani, vključno z "a", "an", "the" in drugimi nepomembnimi besedami.

Meta oznake

Meta oznake omogočajo lastniku spletne strani, da določi ključne besede in pojme, ki opredeljujejo bistvo njene vsebine. To je zelo uporabno orodje, še posebej, če se lahko te ključne besede v besedilu strani ponovijo do 2-3 krat. V tem primeru lahko meta oznake »usmerijo« iskalnega robota na želeni izbor ključnih besed za indeksiranje strani. Obstaja možnost "goljufanja" meta oznak s priljubljenimi iskalnimi poizvedbami in koncepti, ki niso na noben način povezani s samo vsebino strani. Iskalni roboti se lahko borijo proti temu tako, da na primer analizirajo korelacijo meta oznak in vsebine spletne strani in iz obravnave »vržejo« tiste meta oznake (oziroma ključne besede), ki ne ustrezajo vsebini strani.

Vse to velja za tiste primere, ko lastnik spletnega vira resnično želi biti vključen v rezultate iskanja za želene iskane besede. Toda pogosto se zgodi, da lastnik sploh ne želi, da bi ga robot indeksiral. Toda takšni primeri niso tema našega članka.

Konstrukcija indeksa

Ko pajki končajo svoje delo iskanja novih spletnih strani, morajo iskalniki vse najdene informacije postaviti tako, da jih je priročno uporabiti v prihodnosti. Tu sta pomembni dve ključni komponenti:

Informacije, shranjene s podatki;
- način, s katerim so te informacije indeksirane.

V najpreprostejšem primeru bi lahko iskalnik preprosto postavil besedo in URL, kjer jo najde. Toda s tem bi bil iskalnik popolnoma primitivno orodje, saj ni podatkov o tem, v katerem delu dokumenta je ta beseda (meta oznake ali v navadnem besedilu), ali je ta beseda uporabljena enkrat ali večkrat in ali je vsebovan v povezavi do drugega pomembnega in sorodnega vira. Z drugimi besedami, ta metoda ne bo razvrstila spletnih mest, uporabnikom ne bo zagotovila ustreznih rezultatov itd.

Da bi nam zagotovili koristne podatke, iskalniki ne shranjujejo le informacij o besedi in njenem URL-ju. Iskalnik lahko shrani podatke o številu (pogostosti) omemb besede na strani, besedi dodeli »težo«, kar bo nato pomagalo ustvariti iskalne sezname (rezultate) na podlagi utežene uvrstitve za to besedo, ob upoštevanju upoštevati njegovo lokacijo (v povezavah, meta oznakah, naslovu strani itd.). Vsak komercialni iskalnik ima svojo formulo za izračun "teže" ključnih besed med indeksiranjem. To je eden od razlogov za isto iskalna poizvedba iskalniki dajejo popolnoma drugačne rezultate.

Naslednji pomembna točka pri obdelavi najdenih informacij - njihovo kodiranje, da se zmanjša količina prostora na disku za njihovo shranjevanje. Izvirni Googlov članek na primer opisuje, da se 2 bajta (vsak po 8 bitov) uporabljata za shranjevanje podatkov o teži besed – to upošteva vrsto besede (velike ali velike črke), velikost samih črk (Font- Velikost) in druge informacije, ki pomagajo uvrstiti spletno mesto. Vsak tak "kos" informacije zahteva 2-3 bite podatkov v celotnem 2-bajtnem nizu. Posledično se lahko ogromno informacij shrani v zelo kompaktni obliki. Ko so informacije "stisnjene", je čas za začetek indeksiranja.

Indeksacija ima en cilj: zagotoviti največ hitro iskanje potrebne podatke. Obstaja več načinov za izgradnjo indeksov, vendar je najučinkovitejši izdelava zgoščene tabele(zgoščena tabela). Zgoščevanje uporablja posebno formulo za dodelitev številske vrednosti vsaki besedi.

V katerem koli jeziku obstajajo črke, s katerimi se začne veliko več besed kot z ostalimi črkami abecede. Na primer, v razdelku angleškega slovarja je bistveno več besed, ki se začnejo na črko "M", kot tistih, ki se začnejo na črko "X". To pomeni, da bo iskanje besede, ki se začne z najbolj priljubljeno črko, trajalo dlje kot katera koli druga beseda. Zgoščevanje(Zgoščevanje) to razliko izenači in skrajša povprečni čas iskanja, prav tako pa loči sam indeks od resničnih podatkov. Zgoščevalna tabela vsebuje zgoščene vrednosti skupaj s kazalcem na podatke, ki ustrezajo tej vrednosti. Učinkovito indeksiranje in učinkovita umestitev skupaj zagotavljata visoko hitrost iskanja, tudi če uporabnik postavi zelo zapleteno iskalno poizvedbo.

Prihodnost iskalnikov

Iskanje, ki temelji na logičnih operatorjih (»in«, »ali«, »ne«) je dobesedno iskanje – iskalnik prejme iskane besede točno takšne, kot so bile vnesene. To lahko povzroči težave, če ima na primer vnesena beseda več pomenov. "Ključ" lahko na primer pomeni "sredstvo za odpiranje vrat" ali pa "geslo" za prijavo v strežnik. Če vas zanima samo en pomen besede, potem podatkov o njenem drugem pomenu očitno ne boste potrebovali. Seveda lahko sestavite dobesedno poizvedbo, ki bo izključila izpis podatkov na podlagi nepotrebnega pomena besede, vendar bi bilo lepo, če bi vam lahko pomagal sam iskalnik.

Eno področje raziskav prihodnjih algoritmov iskalnikov je konceptualno iskanje informacij. To so algoritmi, ki uporabljajo statistično analizo strani, ki vsebujejo dano iskalno ključno besedo ali besedno zvezo, da bi našli ustrezne podatke. Jasno je, da bi tak "konceptualni iskalnik" zahteval veliko več prostora za shranjevanje za vsako stran in več časa za obdelavo vsake zahteve. Trenutno se s tem problemom ukvarja veliko raziskovalcev.

Nič manj intenzivno delo poteka na področju razvoja iskalnih algoritmov na podlagi poizvedb. naravni jezik(Poizvedba v naravnem jeziku).

Ideja za naravnimi poizvedbami je, da lahko svojo poizvedbo napišete, kot da bi vprašali kolega, ki sedi nasproti vas. Ni vam treba skrbeti za logične operatorje ali se naprezati pri sestavljanju kompleksna poizvedba. Danes najbolj priljubljeno spletno mesto za iskanje v naravnem jeziku je AskJeeves.com. Poizvedbo pretvori v ključne besede, ki jih nato uporabi pri indeksiranju spletnih mest. Ta pristop deluje samo za preproste poizvedbe. Vendar pa napredek ne miruje, možno je, da se bomo zelo kmalu "pogovarjali" z iskalniki v svojem "človeškem jeziku".

Prijatelji, ponovno vas pozdravljam! Zdaj si bomo ogledali, kaj so iskalni roboti, in podrobno govorili o iskalnem robotu Google in o tem, kako biti prijatelj z njimi.

Najprej morate razumeti, kaj pravzaprav so iskalni roboti, imenujemo jih tudi pajki. Kakšno delo opravljajo pajki iskalnikov?

To so programi, ki preverjajo spletna mesta. Pregledajo vse objave in strani na vašem blogu, zbirajo informacije, ki jih nato posredujejo v bazo podatkov iskalnika, za katerega delajo.

Ni vam treba poznati celotnega seznama iskalnih robotov, najpomembnejše je vedeti, da ima Google zdaj dva glavna pajka, imenovana "panda" in "pingvin". Borijo se proti nekakovostni vsebini in neželenim povezavam, zato morate vedeti, kako odbiti njihove napade.

Iskalni robot Google Panda je bil ustvarjen za promocijo samo visokokakovostnega materiala pri iskanju. Vsa spletna mesta z nizko kakovostno vsebino so nižja v rezultatih iskanja.

Ta pajek se je prvič pojavil leta 2011. Pred njegovim pojavom je bilo mogoče promovirati vsako spletno stran z objavo velike količine besedila v člankih in uporabo ogromne količine ključnih besed. Ti dve tehniki sta skupaj prinesli nekvalitetno vsebino na vrh rezultatov iskanja, dobra spletna mesta pa so padla v rezultatih iskanja.

"Panda" je takoj uredila stvari tako, da je preverila vsa spletna mesta in vse postavila na njihova prava mesta. Čeprav se spopada z vsebino nizke kakovosti, je zdaj mogoče promovirati celo majhna spletna mesta z visokokakovostnimi članki. Čeprav je bilo prej neuporabno promovirati takšna spletna mesta, se niso mogla kosati z velikani, ki imajo veliko vsebine.

Zdaj bomo ugotovili, kako se lahko izognete sankcijam "panda". Najprej morate razumeti, kaj ji ni všeč. Zgoraj sem že napisala, da se bori s slabo vsebino, kakšno besedilo je zanjo slabo, pa naj ugotovimo, da ga ne objavljamo na naši spletni strani.

Iskalni robot Google se trudi zagotoviti, da iskalcem zaposlitve ta iskalnik ponuja le visoko kakovostne materiale. Če imate članke, ki vsebujejo malo informacij in niso privlačni na videz, potem ta besedila nujno prepišite, da vas "panda" ne doseže.

Visokokakovostna vsebina je lahko velika in majhna, če pa pajek vidi dolg članek z veliko informacijami, bo bolj uporaben za bralca.

Potem morate upoštevati podvajanje, z drugimi besedami, plagiat. Če mislite, da boste na svojem spletnem dnevniku prepisali članke drugih ljudi, lahko takoj ukinete svoje spletno mesto. Kopiranje se strogo kaznuje z uporabo filtra ter Plagiatorstvo se preverja zelo enostavno, napisal sem članek na to temo kako preveriti edinstvenost besedil.

Naslednja stvar, ki jo opazimo, je prenasičenost besedila s ključnimi besedami. Kdor misli, da lahko samo s ključnimi besedami napiše članek in zasede prvo mesto v rezultatih iskanja, se zelo moti. Imam članek o tem, kako preveriti ustreznost strani, vsekakor ga preberite.

In še ena stvar, ki lahko pritegne "pando" k vam, so stari članki, ki so moralno zastareli in ne prinašajo prometa na spletno mesto. Vsekakor jih je treba posodobiti.

Obstaja tudi Googlov iskalni robot "pingvin". Ta pajek se bori proti neželenim in neželenim povezavam na vašem spletnem mestu. Izračuna tudi kupljene povezave iz drugih virov. Zato, da se ne bi bali tega iskalnega robota, ne kupujte povezav, ampak objavite kakovostno vsebino, tako da se ljudje sami povežejo z vami.

Zdaj pa oblikujmo, kaj je treba storiti, da bo spletno mesto videti popolno skozi oči iskalnega robota:

  • Če želite narediti kakovostno vsebino, najprej dobro raziščite temo, preden napišete članek. Potem morate razumeti, da ljudi ta tema resnično zanima.
  • Uporaba konkretni primeri in slike, bo to naredilo članek živahen in zanimiv. Besedilo razdelite na majhne odstavke, da ga bo lažje brati. Če na primer odprete stran s šalami v časopisu, katere boste najprej prebrali? Seveda vsak človek najprej prebere kratka besedila, nato daljša in na koncu dolge prevleke.
  • Najljubša prepirka "pande" je pomanjkanje relevantnosti članka, ki vsebuje zastarele informacije. Sledite posodobitvam in spreminjajte besedila.
  • Spremljajte gostoto ključnih besed, zgoraj sem napisal, kako to gostoto določite, v storitvi, ki sem jo opisal, boste prejeli točno potrebno število ključnih besed.
  • Ne plagiirajte, vsi vedo, da ne morete ukrasti stvari ali sporočil drugih ljudi - to je isto. Za krajo boste kaznovani tako, da se boste ujeli v filter.
  • Napišite besedila z vsaj dva tisoč besedami, potem bo tak članek videti informativen skozi oči robotov iskalnikov.
  • S svojim blogom ostanite na temi. Če vodite blog o služenju denarja na internetu, vam ni treba objavljati člankov o zračnem orožju. To lahko zniža oceno vašega vira.
  • Lepo oblikujte svoje članke, razdelite jih na odstavke in dodajte slike, da boste uživali v branju in ne boste želeli hitro zapustiti strani.
  • Ko kupujete povezave, naredite povezave do najbolj zanimivih in uporabnih člankov, ki jih bodo ljudje dejansko prebrali.

No, zdaj veste, kaj delajo roboti iskalnikov, in lahko ste prijatelji z njimi. In kar je najpomembnejše, iskalni robot Google ter "panda" in "pingvin" ste podrobno preučili.




Vrh