Kakšno delo opravljajo pajki iskalnikov? Kaj je iskalni robot? Funkcije iskalnega robota "Yandex" in Google. Kaj počne iskalni robot?

V nasprotju s splošnim prepričanjem robot ni neposredno vključen v obdelavo skeniranih dokumentov. On jih samo prebere in shrani, nato pa jih obdelajo drugi programi. Vizualno potrditev lahko dobite z analizo dnevnikov spletnega mesta, ki je prvič indeksirano. Ob prvem obisku bot najprej zahteva datoteko robots.txt, nato glavno stran spletnega mesta. To pomeni, da sledi edini povezavi, ki jo pozna. Tu se prvi obisk bota vedno konča. Čez nekaj časa (običajno naslednji dan) bot zahteva naslednje strani - z uporabo povezav, ki jih najdete na že prebrani strani. Nato se postopek nadaljuje v istem vrstnem redu: zahteva za strani, povezave do katerih so že bile najdene - premor za obdelavo prebranih dokumentov - naslednja seja z zahtevo za najdene povezave.

Razčlenjevanje strani "sproti" bi pomenilo veliko več O večja intenzivnost virov robota in izguba časa. Vsak Scan Server vzporedno izvaja številne bot procese. Ukrepati morajo čim hitreje, da bodo imeli čas za branje novih strani in ponovno branje že znanih. Boti torej le berejo in shranjujejo dokumente. Vse, kar shranijo, je v čakalni vrsti za obdelavo (razstavljanje kode). Povezave, najdene med obdelavo strani, se postavijo v čakalno vrsto opravil za bote. Tako obstaja neprekinjeno skeniranje celotnega omrežja. Edina stvar, ki jo lahko in mora bot analizirati sproti, je datoteka robots.txt, da ne zahteva naslovov, ki so v njej prepovedani. Med vsako sejo pajkanja po spletnem mestu robot najprej zahteva to datoteko, nato pa vse tiste, ki so v čakalni vrsti za skeniranje strani.

Vrste iskalnih robotov

Vsak iskalnik ima svoj nabor robotov za različne namene.
V bistvu se razlikujejo po funkcionalnem namenu, čeprav so meje zelo pogojne in jih vsak iskalnik razume na svoj način. Za sisteme samo za iskanje po celotnem besedilu je en robot dovolj za vse priložnosti. Za tiste iskalnike, ki se ne ukvarjajo samo z besedilom, so roboti razdeljeni v vsaj dve kategoriji: za besedila in slike. Obstajajo tudi ločeni roboti, namenjeni določenim vrstam vsebine – mobilni, blog, novice, video itd.

Googlovi roboti

Vsi Googlovi roboti so skupaj znani kot Googlebot. Glavni robot indekser se "predstavlja" na naslednji način:

Mozilla/5.0 (združljivo; Googlebot/2.1; +http://www.google.com/bot.html)

Ta bot je zaposlen s skeniranjem strani HTML in drugih dokumentov za glavno Google iskanje. Občasno prebere tudi datoteke CSS in JS – večinoma lahko to opazite v zgodnji fazi indeksiranja spletnega mesta, medtem ko bot prvič preišče spletno mesto. Sprejete vrste vsebine so vse (Sprejmi: */*).

Drugi od glavnih botov je zaposlen s skeniranjem slik s spletnega mesta. "Izgleda" preprosto:

Googlebot-Image/1.0

V dnevnikih so opazili tudi najmanj tri robote, ki so zbirali vsebino za mobilna različica Iskanje. Polje User-agent vseh treh se konča z vrstico:

(združljivo; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Pred to vrstico - model mobilni telefon s katerim je ta bot združljiv. Opaženi roboti imajo te modele telefoni Nokia, Samsung in iPhone. Sprejete vrste vsebine so vse, vendar imajo prednost:

Sprejmi: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Yandex roboti

Od iskalnikov, ki so aktivni v Runetu, ima Yandex največjo zbirko botov. Oglejte si razdelek s pomočjo za spletne skrbnike za uradni seznam vsega osebja pajka. Nima smisla, da ga tukaj podajamo v celoti, saj se na tem seznamu občasno spreminjajo.
Kljub temu je treba posebej omeniti najpomembnejše robote Yandex za nas.
Glavni robot za indeksiranje trenutno poklican

Mozilla/5.0 (združljivo; YandexBot/3.0; +http://yandex.com/bots)

Prej predstavljen kot

Yandex/1.01.001 (združljiv; Win16; I)

Bere HTML strani spletnega mesta in druge dokumente za indeksiranje. Seznam sprejetih vrst medijev je bil prej omejen na:

Sprejmi: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, aplikacija/vnd.ms-excel;q=0,1, aplikacija/vnd.ms-powerpoint;q=0,1

Od 31. julija 2009 je opaziti znatno razširitev tega seznama (število vrst se je skoraj podvojilo), od 10. novembra 2009 pa je seznam skrajšan na */* (vse vrste).
Tega robota zelo zanima zelo specifičen nabor jezikov: ruščina, nekoliko manj ukrajinski in beloruski, malo manj angleščina in zelo malo - vsi drugi jeziki.

Sprejemljiv jezik: ru, uk;q=0,8, be;q=0,8, en;q=0,7, *;q=0,01

Robot za skeniranje slik nosi naslednji niz v polju User-agent:

Mozilla/5.0 (združljivo; YandexImages/3.0; +http://yandex.com/bots)

Ukvarja se s skeniranjem grafik različnih formatov za iskanje po slikah.

Za razliko od Googla ima Yandex ločene bote, ki služijo nekaterim posebne funkcije splošno iskanje.
Robotsko "ogledalo"

Mozilla/5.0 (združljivo; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Ne naredi nič posebej zapletenega - občasno se prikaže in preveri, ali se glavna stran spletnega mesta ujema z www pri dostopu do domene. in brez. Preveri tudi ujemanje vzporednih "zrcalnih" domen. Očitno ogledala in kanonično obliko domen v Yandexu obravnava ločeno programski paket A, ki ni neposredno povezan z indeksiranjem. V nasprotnem primeru ni prav nič, kar bi razložilo obstoj ločenega bota za ta namen.

izbirnik ikon favicon.ico

Mozilla/5.0 (združljivo; YandexFavicons/1.0; +http://yandex.com/bots)

Občasno se prikaže in zahteva ikono favicon.ico, ki se nato prikaže v rezultatih iskanja poleg povezave do spletnega mesta. Iz katerih razlogov izbirnik slik ne združuje te dolžnosti, ni znano. Očitno obstaja tudi ločen programski paket.

Preverite Bot za nova spletna mesta deluje, ko je dodano v obrazec AddURL

Mozilla/5.0 (združljivo; YandexWebmaster/2.0; +http://yandex.com/bots)

Ta bot preveri odziv mesta tako, da pošlje zahtevo HEAD na korenski URL. To preverja obstoj domača stran v domeni in razčlenite glave HTTP te strani. Bot zahteva tudi datoteko robots.txt v korenu spletnega mesta. Tako se po predložitvi povezave do AddURL ugotovi, da spletno mesto obstaja in niti robots.txt niti HTTP glave ne prepovedujejo dostopa do glavne strani.

Robot Rambler

Trenutno ne deluje več, ker Rambler zdaj uporablja iskanje Yandex
Robota za indeksiranje Rambler je enostavno prepoznati v dnevnikih po polju User-agent

StackRambler/2.0 (nezdružljiv z MSIE)

V primerjavi s svojimi "kolegi" iz drugih iskalnikov se ta bot zdi precej preprost: ne določa seznama vrst medijev (oziroma prejme zahtevani dokument katere koli vrste), v zahtevi manjka polje Accept-Language, in polja If-Modified-since prav tako ni mogoče najti v zahtevah bota.

Robot Mail.Ru

O tem robotu je malo znanega. Portal Mail.Ru že dolgo razvija lastno iskanje, vendar tega iskanja še vedno ne namerava zagnati. Zato je zanesljivo znano samo ime bota v uporabniškem agentu - Mail.Ru/2.0 (prej - Mail.Ru/1.0). Ime bota za direktive datoteke robors.txt ni bilo objavljeno nikjer, obstaja domneva, da bi se moral bot imenovati Mail.Ru.

Drugi roboti

Iskanje po internetu seveda ni omejeno na dva iskalnika. Zato obstajajo drugi roboti - na primer robot Bing - Microsoftov iskalnik in drugi roboti. Tako še posebej na Kitajskem obstaja nacionalni iskalnik Baidu - vendar njegov robot verjetno ne bo dosegel sredine reke in dosegel ruskega mesta.

Poleg tega so se v zadnjem času pojavile številne storitve - zlasti solomono -, ki, čeprav niso iskalniki, pregledujejo tudi spletna mesta. Pogosto je vrednost posredovanja informacij o spletnem mestu takšnim sistemom vprašljiva, zato so lahko njihovi roboti prepovedani v

Kako delujejo roboti iskalnikov

Iskalni robot (pajek, bot) je majhen program, ki lahko obišče milijone spletnih mest in pregleda gigabajte besedil brez sodelovanja operaterja. Branje strani in shranjevanje njihovih besedilnih kopij je prva faza indeksiranja novih dokumentov. Treba je opozoriti, da roboti iskalnikov ne izvajajo nobene obdelave prejetih podatkov. Njihova naloga je samo ohranjanje besedilne informacije.

Več videov na našem kanalu - naučite se internetnega trženja s SEMANTICO

Seznam iskalnih robotov

Od vseh iskalnikov, ki so vključeni v skeniranje Runeta, ima Yandex največjo zbirko botov. Za indeksiranje so odgovorni naslednji roboti:

  • glavni robot za indeksiranje, ki zbira podatke s spletnih strani;
  • bot, ki je sposoben prepoznati ogledala;
  • Iskalni robot Yandex, ki indeksira slike;
  • pajek, ki brska po straneh spletnih mest, sprejetih v YAN;
  • ikone priljubljenih ikon za skeniranje robotov;
  • več pajkov, ki določajo razpoložljivost strani spletnega mesta.

Googlov glavni iskalni robot zbira besedilne informacije. V bistvu gleda datoteke html, analizira JS in CSS v rednih intervalih. Lahko sprejme vse vrste vsebine, ki so dovoljene za indeksiranje. PS Google ima pajka, ki nadzoruje indeksiranje slik. Obstaja tudi iskalni robot - program, ki podpira delovanje mobilne različice iskanja.

Oglejte si spletno mesto skozi oči iskalnega robota

Za odpravo napak kode in drugih pomanjkljivosti lahko spletni skrbnik ugotovi, kako iskalni robot vidi spletno mesto. To možnost ponuja Google PS. Morali boste odpreti orodja za spletne skrbnike in nato klikniti zavihek »skeniraj«. V oknu, ki se odpre, izberite vrstico "brskaj kot Googlebot". Nato morate v iskalni obrazec vnesti naslov preučevane strani (brez navedbe domene in protokola http://).

Z izbiro ukaza "dobi in prikaži" bo spletni skrbnik lahko vizualno ocenil stanje strani spletnega mesta. Če želite to narediti, morate klikniti potrditveno polje "zahteva za prikaz". Odpre se okno z dvema različicama spletnega dokumenta. Spletni skrbnik spozna, kako stran vidi redni obiskovalec in v kakšni obliki je na voljo iskalnemu pajku.

Namig! Če spletni dokument, ki ga analizirate, še ni indeksiran, lahko uporabite ukaz »dodaj v indeks« >> »pajkaj samo ta URL«. Pajek bo analiziral dokument v nekaj minutah, v bližnji prihodnosti se bo spletna stran pojavila med rezultati iskanja. Mesečna omejitev zahteve za indeksiranje je 500 dokumentov.

Kako vplivati ​​na hitrost indeksiranja

Ko bo spletni skrbnik ugotovil, kako delujejo iskalni roboti, bo lahko veliko bolj učinkovito promoviral svoje spletno mesto. Ena glavnih težav mnogih mladih spletnih projektov je slabo indeksiranje. Roboti iskalnikov neradi obiskujejo neavtoritativne internetne vire.
Ugotovljeno je bilo, da je hitrost indeksiranja neposredno odvisna od intenzivnosti posodabljanja spletnega mesta. Redno dodajanje edinstvenih besedilnih materialov bo pritegnilo pozornost iskalnika.

Za pospešitev indeksiranja lahko uporabite družbene zaznamke in storitev twitter. Priporočljivo je, da ustvarite zemljevid spletnega mesta in ga naložite v korenski imenik spletnega projekta.

iskalni robot klical poseben program vsak iskalnik, ki je zasnovan za vnos v bazo podatkov (indeksiranje) spletnih mest, najdenih na internetu, in njihovih strani. Uporabljajo se tudi imena: pajek, pajek, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Načelo delovanja

Iskalni robot je program vrste brskalnika. Nenehno pregleduje omrežje: obiskuje indeksirana (njemu že znana) spletna mesta, sledi povezavam z njih in išče nove vire. Ko je najden nov vir, ga robot procedure doda v indeks iskalnika. Iskalni robot indeksira tudi posodobitve na spletnih mestih, katerih pogostost je fiksna. Na primer, spletno mesto, ki se posodablja enkrat na teden, bo pajek obiskal s to pogostostjo, vsebino na spletnih mestih z novicami pa je mogoče indeksirati v nekaj minutah po objavi. Če nobena povezava iz drugih virov ne vodi do spletnega mesta, je treba za privabljanje iskalnih robotov vir dodati prek posebnega obrazca (Google Webmaster Center, Yandex Webmaster Panel itd.).

Vrste iskalnih robotov

Yandex pajki:

  • Yandex/1.01.001 I je glavni bot za indeksiranje,
  • Yandex/1.01.001 (P) - indeksira slike,
  • Yandex/1.01.001 (H) - najde ogledala strani,
  • Yandex/1.03.003 (D) - določa, ali stran, dodana s plošče za spletne skrbnike, ustreza parametrom indeksiranja,
  • YaDirectBot/1.0 (I) - indeksira vire iz oglaševalsko mrežo Yandex,
  • Yandex/1.02.000 (F) — indeksira priljubljene ikone spletnih mest.

Google Spiders:

  • Googlebot je glavni robot,
  • Googlebot News – išče in indeksira novice,
  • Google Mobile – indeksira spletna mesta za mobilne naprave,
  • Googlebot Images – išče in indeksira slike,
  • Googlebot Video – indeksira videoposnetke,
  • Google AdsBot - preverja kakovost ciljne strani,
  • Google Mobile Adsense in Google adsense- indeksira spletna mesta oglaševalskega omrežja Google.

Tudi drugi iskalniki uporabljajo več vrst robotov, ki so funkcionalno podobni naštetim.

Kako delujejo iskalniki? Ena od odličnih stvari v zvezi z internetom je, da obstaja na stotine milijonov spletnih virov, ki čakajo in so pripravljeni, da se nam predstavijo. Toda slaba stvar je, da obstajajo isti milijoni strani, ki se, tudi če jih potrebujemo, ne bodo pojavile pred nami, ker. so nam enostavno neznani. Kako ugotoviti, kaj in kje je na internetu? Za to se običajno obrnemo na iskalnike.

Internetni iskalniki so posebna spletna mesta v globalno omrežje, ki so namenjeni ljudem v pomoč pri iskanju svetovni splet informacije, ki jih potrebujejo. Obstajajo razlike v načinu, kako iskalniki opravljajo svoje funkcije, vendar na splošno obstajajo 3 osnovne in enake funkcije:

Vsi "iščejo" internet (ali kakšen sektor interneta) - na podlagi danih ključnih besed;
- vsi iskalniki indeksirajo besede, ki jih iščejo, in mesta, kjer jih najdejo;
- vsi iskalniki omogočajo uporabnikom iskanje besed ali kombinacij ključnih besed na podlagi že indeksiranih spletnih strani in vnesenih v njihove baze podatkov.

Že prvi iskalniki so indeksirali do nekaj sto tisoč strani in prejeli od 1000 do 2000 poizvedb na dan. Danes so vrhunski iskalniki indeksirali in nenehno indeksirajo na stotine milijonov strani, pri čemer obdelajo na desetine milijonov zahtev na dan. V nadaljevanju bomo govorili o tem, kako delujejo iskalniki in kako »seštevajo« vse najdene informacije, da lahko odgovorijo na vsako vprašanje, ki nas zanima.

Poglejmo na splet

Ko ljudje govorijo o Internetni iskalniki stroji, v resnici pomenijo iskalnike svetovni splet. Preden je splet postal najvidnejši del interneta, so že obstajali iskalniki, ki so ljudem pomagali najti informacije na spletu. Programa, imenovana "gopher" in "Archie", sta lahko indeksirala datoteke, ki gostujejo na različnih strežnikih, povezanih z Internet Internet in večkrat zmanjšal čas, porabljen za iskanje želene programe ali dokumenti. V poznih 80. letih prejšnjega stoletja je bil sinonim za "sposobnost dela na internetu" sposobnost uporabe gopherja, Archieja, Veronice itd. iskalni programi. Danes večina uporabnikov interneta svoje iskanje omeji le na svetovno omrežje, ali www.

majhen začetek

Preden vam odgovorimo, kje najti želeni dokument ali datoteko, morate to datoteko ali dokument že najti. Za iskanje informacij o več sto milijonih obstoječih SPLETNIH straneh iskalnik uporablja poseben robotski program. Ta program se imenuje tudi pajek ("pajek", pajek) in se uporablja za izdelavo seznama besed, najdenih na strani. Postopek izdelave takega seznama se imenuje iskanje po spletu(Iskanje po spletu). Za nadaljnjo izgradnjo in objavo "uporabnega" (pomembnega) seznama besed mora iskalni pajek "pomakniti" veliko drugih strani.

Kako kdo začne? pajek(pajek) vaše spletno potovanje? Običajno so izhodišče največji svetovni strežniki in zelo priljubljene spletne strani. Pajek začne svojo pot s take strani, indeksira vse najdene besede in nadaljuje svoje gibanje naprej, sledi povezavam do drugih strani. Tako začne robot pajek pokrivati ​​vse velike »kose« spletnega prostora. Google.com se je začel kot akademski iskalnik. Sergey Brin in Laurence Page (ustanovitelja in lastnika Googla) sta v članku, ki opisuje nastanek tega iskalnika, podala primer, kako hitro delujejo Googlovi pajki. Več jih je in običajno se iskanje začne z uporabo 3 pajkov. Vsak pajek vzdržuje do 300 istočasno odprtih povezav s spletnimi stranmi. Pri največji obremenitvi z uporabo 4 pajkov je Googlov sistem sposoben obdelati 100 strani na sekundo in ustvari promet približno 600 kilobajtov / sekundo.

Da bi pajkom zagotovil podatke, ki jih potrebujejo za obdelavo, je imel Google včasih strežnik, ki ni počel nič drugega kot "vrgel" pajkom vedno več URL-jev. Da ne bi bil odvisen od ponudnikov internetnih storitev glede strežnikov domenskih imen (DNS), ki prevedejo url v naslov IP, je Google pridobil lastne strežnik DNS, kar zmanjša čas, porabljen za indeksiranje strani, na minimum.

Ko obišče Google Robot stran HTML, upošteva 2 stvari:

Besed (besedilo) na stran;
- njihovo lokacijo (v katerem delu telesa strani).

Besede, ki se nahajajo s servisnimi razdelki, kot je npr naslov, podnapisi, meta oznake in drugi so bili označeni kot posebej pomembni za iskalne poizvedbe uporabnikov. Google pajek je bil zgrajen tako, da indeksira vse podobne besede na strani, z izjemo medmetov, kot so "a", "an" in "the.". Drugi iskalniki imajo nekoliko drugačen pristop k indeksiranju.

Vsi pristopi in algoritmi iskalnikov so v končni fazi usmerjeni k hitrejšemu in učinkovitejšemu delovanju robotov pajkov. Na primer, nekateri iskalni roboti pri indeksiranju sledijo besedam v naslovu, povezavam in do 100 najpogosteje uporabljenim besedam na strani ter celo vsaki besedi v prvih 20 vrsticah besedilne vsebine strani. To je algoritem indeksiranja, zlasti za Lycos.

Drugi iskalniki, kot je AltaVista, gredo v drugo smer in indeksirajo vsako posamezno besedo na strani, vključno z "a", "an", "the" in drugimi nepomembnimi besedami.

Meta oznake

Meta oznake omogočajo lastniku spletne strani, da določi ključne besede in pojme, ki opredeljujejo bistvo njene vsebine. To je zelo uporabno orodje, še posebej, če se lahko te ključne besede v besedilu strani ponovijo do 2-3 krat. V tem primeru lahko metaoznake »usmerijo« iskalnega robota na pravo izbiro ključnih besed za indeksiranje strani. Obstaja možnost "goljufanja" meta oznak, ki presegajo priljubljene iskalne poizvedbe in koncepte, ki nimajo nobene zveze z vsebino same strani. Iskalni roboti se lahko s tem spopadejo, na primer z analizo korelacije meta oznak in vsebine spletne strani, pri čemer »izločijo« tiste meta oznake (oziroma ključne besede), ki ne ustrezajo vsebini strani.

Vse to velja za tiste primere, ko lastnik spletnega vira resnično želi biti vključen v rezultate iskanja za želene iskane besede. Toda pogosto se zgodi, da lastnik sploh ne želi, da bi ga robot indeksiral. Toda takšni primeri ne sodijo v temo našega članka.

Gradnja indeksa

Ko pajki končajo z iskanjem novih spletnih strani, morajo iskalniki vse informacije, ki jih najdejo, postaviti na način, ki je enostaven za kasnejšo uporabo. Tu sta pomembni dve ključni komponenti:

Informacije, shranjene s podatki;
- način, s katerim so te informacije indeksirane.

V najpreprostejšem primeru bi lahko iskalnik preprosto postavil besedo in URL, kjer se nahaja. Toda zaradi tega bi bil iskalnik zelo primitivno orodje, saj ni podatkov o tem, v katerem delu dokumenta se ta beseda nahaja (meta oznake ali v navadnem besedilu), ali je ta beseda uporabljena enkrat ali večkrat in ali je vsebovan v povezavi do drugega pomembnega in sorodnega vira. Z drugimi besedami, ta metoda vam ne bo omogočila razvrščanja spletnih mest, uporabnikom ne bo zagotovila ustreznih rezultatov itd.

Da bi nam zagotovili koristne podatke, iskalniki shranjujejo več kot le informacije o besedi in njenem URL-ju. Iskalnik lahko shranjuje podatke o številu (frekvenci) omemb besede na strani, besedi dodeli »utež«, kar bo dodatno pomagalo pri izdajanju iskalnih seznamov (rezultatov) glede na utežno rangiranje te besede, ob upoštevanju njegove lokacije (v povezavah, meta oznakah, naslovu strani) in tako naprej.). Vsak komercialni iskalnik ima svojo formulo za izračun "teže" ključnih besed pri indeksiranju. To je eden od razlogov za isto iskalna poizvedba Iskalniki dajejo zelo različne rezultate.

Naslednji pomembna točka pri obdelavi najdenih informacij - njihovo kodiranje, da se zmanjša količina prostora na disku za njihovo shranjevanje. Na primer, v izvirnem Googlovem članku je opisano, da se 2 bajta (po 8 bitov) uporabljata za shranjevanje podatkov o teži besed – to upošteva vrsto besede (velike ali velike črke), velikost same črke (velikost pisave) in druge informacije, ki pomagajo pri rangiranju strani. Vsak tak "kos" informacije zahteva 2-3 bite podatkov v celotnem 2-bajtnem nizu. Posledično se lahko ogromno informacij shrani v zelo kompaktni obliki. Ko so informacije "stisnjene", je čas za začetek indeksiranja.

Cilj indeksiranja je enak: zagotoviti maksimum hitro iskanje potrebne podatke. Obstaja več načinov za izgradnjo indeksov, vendar je najučinkovitejši izdelava zgoščene tabele(zgoščena tabela). Zgoščevanje uporablja formulo, ki vsaki besedi dodeli številsko vrednost.

V katerem koli jeziku obstajajo črke, ki se začnejo z veliko več besedami kot z ostalimi črkami abecede. Na primer, v angleškem slovarju je bistveno več besed, ki se začnejo s črkama "M", kot tistih, ki se začnejo s črko "X". To pomeni, da bo iskanje besede, ki se začne z najbolj priljubljeno črko, trajalo dlje kot katera koli druga beseda. zgoščevanje(Zgoščevanje) izenači to razliko in skrajša povprečni čas iskanja ter loči sam indeks od resničnih podatkov. Zgoščena tabela vsebuje zgoščene vrednosti skupaj s kazalcem na podatke, ki ustrezajo tej vrednosti. Učinkovito indeksiranje + učinkovita umestitev skupaj zagotavljata visoko hitrost iskanja, tudi če uporabnik nastavi zelo kompleksno iskalno poizvedbo.

Prihodnost iskalnikov

Iskanje, ki temelji na logičnih operatorjih ("in", "ali", "ne") je dobesedno iskanje - iskalnik dobi iskalne besede točno tako, kot so vnesene. To lahko povzroči težave, če ima na primer vnesena beseda več pomenov. "Ključ" bi lahko na primer pomenil "sredstvo za odpiranje vrat" ali pa "geslo" za vstop v strežnik. Če vas zanima samo en pomen besede, potem očitno ne boste potrebovali podatkov o njenem drugem pomenu. Seveda lahko sestavite dobesedno poizvedbo, ki vam bo omogočila izključitev izpisa podatkov o nepotrebnem pomenu besede, vendar bi bilo lepo, če bi vam iskalnik lahko pomagal.

Eno od področij raziskav prihodnjih algoritmov iskalnikov je konceptualno iskanje informacij. To so algoritmi, pri katerih se za iskanje ustreznih podatkov uporablja statistična analiza strani, ki vsebujejo dano iskalno ključno besedo ali frazo. Jasno je, da bi tak "konceptualni iskalnik" potreboval veliko več prostora za vsako stran in več časa za obdelavo vsake zahteve. Mnogi raziskovalci se trenutno ukvarjajo s tem problemom.

Nič manj intenzivno delo poteka na področju razvoja iskalnih algoritmov na podlagi poizvedb. naravni jezik(Poizvedba v naravnem jeziku).

Ideja za naravnimi poizvedbami je, da lahko napišete poizvedbo, kot da bi vprašali kolega, ki sedi nasproti vas. Ni vam treba skrbeti za logične operatorje ali se truditi s sestavljanjem kompleksna poizvedba. Najbolj priljubljeno spletno mesto za iskanje v naravnem iskalnem jeziku je danes AskJeeves.com. Poizvedbo pretvori v ključne besede, ki jih nato uporabi pri indeksiranju spletnih mest. Ta pristop deluje samo za preproste poizvedbe. Vendar pa napredek ne miruje, možno je, da se bomo zelo kmalu "pogovarjali" z iskalniki v svojem, "človeškem jeziku".

Prijatelji, še enkrat vas pozdravljam! Zdaj bomo analizirali, kaj so iskalni roboti, in podrobno govorili o iskalnem robotu Google in o tem, kako biti prijatelj z njimi.

Najprej morate razumeti, kaj so iskalni roboti na splošno, imenujemo jih tudi pajki. Kakšno delo opravljajo pajki iskalnikov?

To so programi, ki preverjajo spletna mesta. Pregledajo vse objave in strani na vašem blogu, zbirajo informacije, ki jih nato prenesejo v bazo podatkov iskalnika, za katerega delajo.

Ni vam treba poznati celotnega seznama iskalnih robotov, najpomembnejše je vedeti, da ima Google zdaj dva glavna pajka, ki se imenujeta "panda" in "pingvin". Borijo se z nekakovostno vsebino in neželenimi povezavami, zato morate vedeti, kako odbiti njihove napade.

Iskalni robot google panda je bil ustvarjen z namenom, da pri iskanju promovira samo visokokakovosten material. Vsa spletna mesta z nizko kakovostno vsebino so nižja v rezultatih iskanja.

Prvič se je ta pajek pojavil leta 2011. Pred njegovim pojavom je bilo mogoče promovirati katero koli stran z objavo velike količine besedila v člankih in uporabo ogromne količine ključnih besed. Ti dve tehniki skupaj nista prinesli visokokakovostne vsebine na vrh rezultatov iskanja, dobra spletna mesta pa so padla med rezultati iskanja.

"Panda" je takoj uredila stvari tako, da je preverila vsa spletna mesta in vse postavila na njihova prava mesta. Čeprav se bori z nizko kakovostno vsebino, je zdaj mogoče promovirati celo majhna spletna mesta s kakovostnimi članki. Čeprav je bilo prej neuporabno promovirati takšna spletna mesta, se niso mogla kosati z velikani, ki imajo veliko vsebine.

Zdaj bomo ugotovili, kako se izogniti sankcijam "panda". Najprej moramo razumeti, kaj ji ni všeč. Zgoraj sem že napisala, da se bori s slabo vsebino, ampak kakšno besedilo je zanjo slabo, pa dajmo ugotoviti, da tega ne objavimo na njeni strani.

Googlov iskalni robot si prizadeva zagotoviti, da so v tem iskalniku izdani samo visokokakovostni materiali za prosilce. Če imate članke, v katerih je malo informacij in na videz niso privlačni, potem ta besedila nujno prepišite, da vas "panda" ne doseže.

Kakovostna vsebina je lahko tako velika kot majhna, a če pajek vidi dolg članek z veliko informacijami, bo to bralcu bolj koristilo.

Potem je treba opozoriti na podvajanje, z drugimi besedami na plagiat. Če mislite, da boste za svoj blog prepisali članke drugih ljudi, lahko takoj ukinete svoje spletno mesto. Kopiranje se strogo kaznuje z uporabo filtra in plagiat se preverja zelo enostavno, napisal sem članek na to temo kako preveriti edinstvenost besedil.

Naslednja stvar, ki jo opazimo, je prenasičenost besedila s ključnimi besedami. Kdor misli, da bo iz istih ključnih besed napisal članek in zasedel prvo mesto v rezultatih iskanja, se zelo moti. Imam članek o tem, kako preveriti ustreznost strani, vsekakor ga preberite.

In kaj drugega lahko pritegne "pando" k vam, so stari članki, ki so moralno zastareli in ne prinašajo prometa na spletno mesto. Treba jih je posodobiti.

Obstaja tudi Googlov iskalni robot "pingvin". Ta pajek se bori proti neželenim in neželenim povezavam na vašem spletnem mestu. Izračuna tudi kupljene povezave iz drugih virov. Zato, da se ne bi bali tega iskalnega robota, ne kupujte povezav, ampak objavite kakovostno vsebino, tako da se ljudje sami povežejo z vami.

Zdaj pa oblikujmo, kaj je treba storiti, da bo spletno mesto videti popolno skozi oči iskalnega robota:

  • Če želite narediti kakovostno vsebino, najprej dobro preučite temo, preden napišete članek. Potem morate razumeti, da ljudi ta tema resnično zanima.
  • Uporaba konkretni primeri in slike, bo to naredilo članek živahen in zanimiv. Besedilo razdelite na majhne odstavke, da ga bo lažje brati. Če na primer v časopisu odprete stran s šalami, katere boste najprej prebrali? Seveda vsak človek najprej prebere kratka besedila, nato daljša in ne nazadnje dolge krpice.
  • Pandina najljubša zaničba ni relevantnost članka, ki vsebuje zastarele informacije. Spremljajte posodobitve in spreminjajte besedila.
  • Pazite na gostoto ključnih besed, zgoraj sem napisal, kako to gostoto določite, v storitvi o kateri sem govoril boste prejeli točno potrebno število ključev.
  • Ne plagiirajte, vsi vedo, da ne morete ukrasti stvari ali besedil drugih ljudi - to je isto. Če pridete pod filter, boste odgovorni za krajo.
  • Napišite besedila za vsaj dva tisoč besed, potem bo tak članek videti informativen skozi oči robotov iskalnikov.
  • V svojem blogu ne zavijte od teme. Če vodite blog o služenju denarja na internetu, vam ni treba tiskati člankov o zračnem orožju. To lahko zniža oceno vašega vira.
  • Lepo oblikujte članke, jih razdelite na odstavke in dodajte slike, da bo prijetno brati in ne želite hitro zapustiti spletnega mesta.
  • Ko kupujete povezave, naredite povezave do najbolj zanimivih in uporabnih člankov, ki jih bodo ljudje dejansko prebrali.

No, zdaj veste, kakšno delo opravljajo roboti iskalnikov, in lahko ste prijatelji z njimi. In kar je najpomembneje, Googlov iskalni robot ter "pando" in "pingvina" ste podrobno preučili.




Vrh