Kādu darbu veic meklētājprogrammu zirnekļi? Kas ir meklēšanas robots? Meklēšanas robota "Yandex" un Google funkcijas. Ko dara meklēšanas robots?

Pretēji izplatītajam uzskatam, robots nav tieši iesaistīts nevienā skenēto dokumentu apstrādē. Tas tos tikai nolasa un saglabā; pēc tam tos apstrādā citas programmas. Vizuālu apstiprinājumu var iegūt, analizējot vietnes žurnālus, kas tiek indeksēti pirmo reizi. Pirmajā apmeklējumā robots vispirms pieprasa failu robots.txt un pēc tam vietnes galveno lapu. Tas ir, viņš seko vienīgajai viņam zināmajai saitei. Šeit vienmēr beidzas robota pirmā vizīte. Pēc kāda laika (parasti nākamajā dienā) robots pieprasa šādas lapas – izmantojot saites, kas atrodamas jau izlasītajā lapā. Pēc tam process turpinās tādā pašā secībā: pieprasot lapas, kurām jau ir atrastas saites - pauze lasīto dokumentu apstrādei - nākamā sesija ar pieprasījumu pēc atrastajām saitēm.

Lapu parsēšana lidojuma laikā nozīmētu ievērojami vairāk O lielāks robota resursu patēriņš un laika zudums. Katrs skenēšanas serveris paralēli palaiž vairākus botu procesus. Viņiem jārīkojas pēc iespējas ātrāk, lai būtu laiks lasīt jaunas lapas un pārlasīt esošās. Tāpēc robotprogrammatūra tikai lasa un saglabā dokumentus. Viss, ko viņi saglabā, tiek ievietots apstrādes rindā (koda parsēšanai). Lapas apstrādes laikā atrastās saites tiek ievietotas robotprogrammatūras uzdevumu rindā. Tādā veidā tiek nepārtraukti skenēts viss tīkls. Vienīgais, ko robots var un vajadzētu analizēt lidojuma laikā, ir fails robots.txt, lai nepieprasītu tajā aizliegtas adreses. Katras vietnes rāpuļprogrammas sesijas laikā robots vispirms pieprasa šo failu un pēc tam visas lapas, kas atrodas rāpuļprogrammas pārmeklēšanas rindā.

Meklēšanas robotu veidi

Katrai meklētājprogrammai ir savs robotu komplekts dažādiem mērķiem.
Būtībā tie atšķiras pēc to funkcionālā mērķa, lai gan robežas ir ļoti patvaļīgas, un katra meklētājprogramma tās saprot savā veidā. Sistēmām, kas paredzētas tikai pilna teksta meklēšanai, visiem gadījumiem pietiek ar vienu robotu. Tām meklētājprogrammām, kuras nodarbojas ne tikai ar tekstu, robotprogrammatūras tiek iedalītas vismaz divās kategorijās: tekstiem un zīmējumiem. Ir arī atsevišķi roboti, kas paredzēti konkrētiem satura veidiem – mobilajam, emuāram, ziņām, video utt.

Google roboti

Visi Google roboti tiek saukti par Googlebot. Galvenais robotu indeksētājs “iepazīstina sevi” šādi:

Mozilla/5.0 (saderīgs; Googlebot/2.1; +http://www.google.com/bot.html)

Šis robots ir aizņemts, skenējot HTML lapas un citus dokumentus Google meklēšanu. Reizēm tas arī nolasa CSS un JS failus — to galvenokārt var pamanīt vietnes indeksēšanas sākumposmā, kamēr robots vietni pārmeklē pirmo reizi. Tiek pieņemti visi satura veidi (pieņemt: */*).

Otrais no galvenajiem robotiem ir aizņemts ar vietnes attēlu skenēšanu. Tas "iepazīstina sevi" vienkārši:

Googlebot-Image/1.0

Žurnālos tika redzēti arī vismaz trīs roboti, kas bija aizņemti ar satura vākšanu mobilā versija Meklēt. Visu trīs lauks User-agent beidzas ar rindiņu:

(saderīgs; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Pirms šīs līnijas ir modelis Mobilais telefons, ar kuru šis robots ir saderīgs. Plankumainajiem robotiem ir modeļi Nokia tālruņi, Samsung un iPhone. Ir visi pieņemtie satura veidi, bet ar norādītām prioritātēm:

Pieņemt: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Yandex roboti

No RuNet aktīvajām meklētājprogrammām Yandex ir lielākā robotu kolekcija. Tīmekļa pārziņa palīdzības sadaļā varat atrast oficiālu visu zirnekļa darbinieku sarakstu. Nav jēgas to šeit parādīt pilnībā, jo šajā sarakstā periodiski notiek izmaiņas.
Tomēr atsevišķi jāmin mums vissvarīgākie Yandex roboti.
Pamata indeksēšanas robotsšobrīd zvana

Mozilla/5.0 (saderīgs; YandexBot/3.0; +http://yandex.com/bots)

Iepriekš pārstāvēts kā

Yandex/1.01.001 (saderīgs; Win16; I)

Lasa vietnes HTML lapas un citus dokumentus indeksēšanai. Pieņemto multivides veidu saraksts iepriekš bija ierobežots:

Pieņemt: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

Kopš 2009. gada 31. jūlija šajā sarakstā ir manīts ievērojams paplašinājums (veidu skaits ir gandrīz dubultojies), un kopš 2009. gada 10. novembra saraksts ir saīsināts līdz */* (visi veidi).
Šo robotu ļoti interesē ļoti specifisks valodu komplekts: krievu, nedaudz mazāk ukraiņu un baltkrievu, nedaudz mazāk angļu un ļoti maz - visas pārējās valodas.

Pieņemt valodu: ru, uk;q=0,8, be;q=0,8, en;q=0,7, *;q=0,01

Robota attēlu skeneris laukā User-agent ir šāda rinda:

Mozilla/5.0 (saderīgs; YandexImages/3.0; +http://yandex.com/bots)

Nodarbojas ar dažādu formātu grafiku skenēšanu, lai meklētu attēlos.

Atšķirībā no Google, Yandex ir atsevišķi robotprogrammatūras, kas apkalpo dažus īpašas funkcijas vispārēja meklēšana.
Robots "spogulis"

Mozilla/5.0 (saderīgs; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Tas nedara neko īpaši sarežģītu - tas periodiski parādās un pārbauda, ​​vai vietnes galvenā lapa atbilst, piekļūstot domēnam ar www. un bez. Pārbauda arī paralēlo spoguļa domēnu atbilstību. Acīmredzot spoguļi un domēnu kanoniskā forma pakalpojumā Yandex tiek apstrādāti atsevišķi programmatūras pakotne, kas nav tieši saistīts ar indeksēšanu. Citādi nav absolūti nekā, kas izskaidrotu atsevišķa bota esamību šim nolūkam.

Ikonu kolekcionārs favicon.ico

Mozilla/5.0 (saderīgs; YandexFavicons/1.0; +http://yandex.com/bots)

Tas periodiski parādās un pieprasa ikonu favicon.ico, kas pēc tam tiek parādīta meklēšanas rezultātos blakus saitei uz vietni. Kādu iemeslu dēļ attēlu kolekcionārs neuzņemas šo atbildību, nav zināms. Acīmredzot spēlē ir arī atsevišķa programmatūras pakotne.

Verifikācijas robots jaunām vietnēm, darbojas, ja tiek pievienota veidlapai AddURL

Mozilla/5.0 (saderīgs; YandexWebmaster/2.0; +http://yandex.com/bots)

Šis robots pārbauda vietnes atbildi, nosūtot HEAD pieprasījumu uz saknes URL. Tādā veidā tiek pārbaudīta galvenās lapas esamība domēnā un tiek analizētas šīs lapas HTTP galvenes. Robots arī pieprasa robots.txt failu vietnes saknē. Tādējādi pēc saites iesniegšanas uz AddURL tiek konstatēts, ka vietne pastāv un ne robots.txt, ne HTTP galvenes neaizliedz piekļuvi galvenajai lapai.

Rambler robots

Šobrīd vairs nestrādā, jo Rambler tagad izmanto Yandex meklēšanu
Rambler indeksētāja robotu var viegli identificēt žurnālos, izmantojot lauku User-agent

StackRambler/2.0 (nesaderīgs ar MSIE)

Salīdzinot ar “kolēģiem” no citiem meklētājprogrammasšis robots šķiet diezgan vienkāršs: tas nenorāda multivides veidu sarakstu (attiecīgi tas saņem jebkura veida pieprasīto dokumentu), pieprasījumā trūkst lauka Accept-Language, un lauks If-Modified-sec nav atrasts. robota pieprasījumos.

Robots Mail.Ru

Par šo robotu vēl ir maz zināms. Portāls Mail.Ru jau ilgu laiku ir izstrādājis savu meklēšanu, taču joprojām nav paspējis uzsākt šo meklēšanu. Tāpēc noteikti ir zināms tikai robota nosaukums lietotāja aģentā - Mail.Ru/2.0 (iepriekš - Mail.Ru/1.0). Robors.txt faila direktīvu bota nosaukums nekur nav publicēts, pastāv pieņēmums, ka botu vajadzētu saukt par Mail.Ru.

Citi roboti

Meklēšana internetā, protams, neaprobežojas tikai ar divām meklētājprogrammām. Tāpēc ir arī citi roboti - piemēram, Bing robots - meklētājprogramma no Microsoft un citiem robotiem. Tātad, jo īpaši Ķīnā ir valsts meklētājprogramma Baidu, taču tās robots, visticamāk, nesasniegs upes vidu un sasniegs Krievijas vietni.

Turklāt pēdējā laikā ir izplatījušies daudzi pakalpojumi, jo īpaši solomono, kas, lai gan tie nav meklētājprogrammas, skenē arī vietnes. Bieži vien vietņu informācijas pārsūtīšanas vērtība šādām sistēmām ir apšaubāma, un tāpēc to robotus var aizliegt

Kā darbojas meklētājprogrammu roboti

Meklēšanas robots (zirneklis, robots) ir neliela programma, kas var apmeklēt miljoniem vietņu un skenēt teksta gigabaitus bez operatora iejaukšanās. Lapu lasīšana un to teksta kopiju glabāšana ir pirmais jaunu dokumentu indeksēšanas posms. Jāpiebilst, ka meklētājprogrammu roboti nekādu saņemto datu apstrādi neveic. Viņu uzdevums ir tikai saglabāt teksta informācija.

Vairāk video mūsu kanālā - apgūstiet interneta mārketingu ar SEMANTICA

Meklēšanas robotu saraksts

No visām meklētājprogrammām, kas skenē Runet, Yandex ir lielākā robotprogrammatūras kolekcija. Par indeksēšanu ir atbildīgi šādi roboti:

  • galvenais indeksēšanas robots, kas apkopo datus no tīmekļa vietnes lapām;
  • robotprogrammatūra, kas spēj atpazīt spoguļus;
  • Yandex meklēšanas robots, kas indeksē attēlus;
  • zirneklis, kas skenē YAN pieņemto vietņu lapas;
  • robotu skenēšanas favicon ikonas;
  • vairāki zirnekļi, kas nosaka vietnes lapu pieejamību.

Google galvenais meklēšanas robots apkopo teksta informāciju. Būtībā tas skatās HTML failus un analizē JS un CSS noteiktos intervālos. Var pieņemt jebkāda veida saturu, kas atļauts indeksēšanai. PS Google ir zirneklis, kas kontrolē attēlu indeksēšanu. Ir arī meklēšanas robots - programma, kas atbalsta meklēšanas mobilās versijas darbību.

Skatiet vietni ar meklēšanas robota acīm

Lai labotu koda kļūdas un citus trūkumus, tīmekļa pārzinis var uzzināt, kā meklēšanas robots redz vietni. Šo iespēju nodrošina Google PS. Jums būs jādodas uz tīmekļa pārziņa rīkiem un pēc tam noklikšķiniet uz cilnes “Rāpuļprogramma”. Atvērtajā logā jāizvēlas rinda “View as Googlebot”. Tālāk meklēšanas formā jāievada tās lapas adrese, kuru pētāt (nenorādot domēnu un http:// protokolu).

Atlasot komandu “get and display”, tīmekļa pārzinis varēs vizuāli novērtēt vietnes lapas stāvokli. Lai to izdarītu, jums jānoklikšķina uz izvēles rūtiņas “pieprasīt parādīt”. Tiks atvērts logs ar divām tīmekļa dokumenta versijām. Tīmekļa pārzinis uzzina, kā parasts apmeklētājs redz lapu un kādā formā tā ir pieejama meklēšanas zirnekļa vajadzībām.

Padoms! Ja tīmekļa dokuments, kuru analizējat, vēl nav indeksēts, varat izmantot komandu “pievienot indeksam” >> “pārmeklēt tikai šo URL”. Zirneklis analizēs dokumentu dažu minūšu laikā, un tuvākajā nākotnē tīmekļa lapa parādīsies meklēšanas rezultātos. Indeksēšanas pieprasījumu mēneša limits ir 500 dokumenti.

Kā ietekmēt indeksēšanas ātrumu

Uzzinājis, kā darbojas meklēšanas roboti, tīmekļa pārzinis varēs daudz efektīvāk reklamēt savu vietni. Viena no daudzu jauno tīmekļa projektu galvenajām problēmām ir slikta indeksēšana. Meklētājprogrammu roboti nelabprāt apmeklē nesankcionētus interneta resursus.
Ir noskaidrots, ka indeksēšanas ātrums ir tieši atkarīgs no vietnes atjaunināšanas intensitātes. Regulāri pievienojot unikālus teksta materiālus, tiks pievērsta meklētājprogrammu uzmanība.

Lai paātrinātu indeksēšanu, varat izmantot sociālās grāmatzīmes un Twitter pakalpojumu. Ieteicams izveidot vietnes karti un augšupielādēt to tīmekļa projekta saknes direktorijā.

Meklēšanas robots sauca īpaša programma jebkura meklētājprogramma, kas paredzēta, lai ievadītu datubāzē (indeksā) vietnes un to lapas, kas atrodamas internetā. Izmantoti arī nosaukumi: rāpuļprogramma, zirneklis, bots, automātiskais indeksētājs, skudra, tīmekļa rāpuļprogramma, bots, tīmekļa meklētājs, tīmekļa roboti, tīmekļa zirneklis.

Darbības princips

Meklēšanas robots ir pārlūkprogrammas tipa programma. Tas pastāvīgi skenē tīklu: apmeklē indeksētas (tam jau zināmas) vietnes, seko saitēm no tām un atrod jaunus resursus. Kad tiek atklāts jauns resurss, procedūras robots to pievieno meklētājprogrammas indeksam. Meklēšanas robots arī indeksē atjauninājumus vietnēs, kuru biežums ir fiksēts. Piemēram, vietni, kas tiek atjaunināta reizi nedēļā, ar šādu biežumu apmeklēs zirneklis, un ziņu vietņu saturu var indeksēt dažu minūšu laikā pēc publicēšanas. Ja uz vietni nenoved nekādas saites no citiem resursiem, tad, lai piesaistītu meklēšanas robotus, resurss ir jāpievieno, izmantojot īpašu formu (Google Webmaster Center, Yandex Webmaster Panel utt.).

Meklēšanas robotu veidi

Yandex zirnekļi:

  • Yandex/1.01.001 I - galvenais robots, kas iesaistīts indeksēšanā,
  • Yandex/1.01.001 (P) - indeksē attēlus,
  • Yandex/1.01.001 (H) - atrod spoguļvietas,
  • Yandex/1.03.003 (D) — nosaka, vai no tīmekļa pārziņa paneļa pievienotā lapa atbilst indeksēšanas parametriem,
  • YaDirectBot/1.0 (I) - indeksē resursus no reklāmas tīkls Yandex,
  • Yandex/1.02.000 (F) - indeksē vietnes favicons.

Google zirnekļi:

  • Googlebot ir galvenais robots
  • Googlebot ziņas — skenē un indeksē ziņas,
  • Google Mobile — indeksē vietnes mobilajām ierīcēm,
  • Googlebot attēli — meklē un indeksē attēlus,
  • Googlebot Video — indeksē videoklipus,
  • Google AdsBot — ​​pārbauda galvenās lapas kvalitāti,
  • Google Mobile AdSense un Google AdSense— indeksē Google reklāmas tīkla vietnes.

Arī citas meklētājprogrammas izmanto vairākus robotu veidus, kas funkcionāli ir līdzīgi uzskaitītajiem.

Kā darbojas meklētājprogrammas? Viena no brīnišķīgajām interneta lietām ir tā, ka simtiem miljonu tīmekļa resursu gaida un ir gatavi, lai tos mums prezentētu. Bet slikti ir tas, ka ir tie paši miljoni lappušu, kuras, pat ja mums tās būtu vajadzīgas, mums neparādīsies, jo... mums vienkārši nezināms. Kā uzzināt, ko un kur var atrast internetā? Lai to izdarītu, mēs parasti vēršamies pie meklētājprogrammām.

Interneta meklētājprogrammas ir īpašas vietnes globālais tīkls, kas ir izstrādāti, lai palīdzētu cilvēkiem atrast Globālais tīmeklis viņiem nepieciešamo informāciju. Pastāv atšķirības, kā meklētājprogrammas pilda savas funkcijas, taču kopumā ir 3 galvenās un identiskas funkcijas:

Viņi visi “meklē” internetā (vai kādā interneta sektorā) – pamatojoties uz dotajiem atslēgvārdiem;
- visas meklētājprogrammas indeksē meklētos vārdus un vietas, kur tās atrod;
- visas meklētājprogrammas ļauj lietotājiem meklēt vārdus vai atslēgvārdu kombinācijas, pamatojoties uz tīmekļa lapām, kas jau ir indeksētas un iekļautas viņu datubāzēs.

Pašas pirmās meklētājprogrammas indeksēja līdz pat vairākiem simtiem tūkstošu lappušu un saņēma 1000 - 2000 pieprasījumu dienā. Mūsdienās populārākās meklētājprogrammas ir indeksējušas un nepārtraukti indeksē simtiem miljonu lapu un apstrādā desmitiem miljonu pieprasījumu dienā. Tālāk mēs runāsim par to, kā darbojas meklētājprogrammas un kā tās “saliek” visu atrasto informāciju, lai varētu atbildēt uz jebkuru mūs interesējošo jautājumu.

Apskatīsim Web

Kad cilvēki runā par Interneta meklētājprogrammas mašīnas, tās patiesībā nozīmē meklētājprogrammas Globālais tīmeklis. Pirms tīmeklis kļuva par visredzamāko interneta daļu, meklētājprogrammas jau pastāvēja, lai palīdzētu cilvēkiem atrast informāciju internetā. Programmas, ko sauc par "gopher" un "Archie", varēja indeksēt failus, kas atrodas dažādos serveros, kas ir savienoti ar Internets Internets un ievērojami samazināja meklēšanai pavadīto laiku nepieciešamās programmas vai dokumentiem. Pagājušā gadsimta 80. gadu beigās sinonīms vārdam “spēja strādāt internetā” bija iespēja izmantot gopheru, Ārčiju, Veroniku utt. meklēšanas programmas. Mūsdienās lielākā daļa interneta lietotāju ierobežo meklēšanu tikai vispasaules tīkls vai WWW.

Mazs sākums

Lai mēs varētu jums pateikt, kur atrast vajadzīgo dokumentu vai failu, failam vai dokumentam jau ir jābūt atrastam. Lai atrastu informāciju par simtiem miljonu esošo WEB lapu, meklētājs izmanto īpašu robotprogrammu. Šo programmu sauc arī par zirnekli ("zirnekli"), un to izmanto, lai izveidotu lapā atrodamo vārdu sarakstu. Šāda saraksta veidošanas process tiek saukts tīmekļa pārmeklēšana(tīmekļa pārmeklēšana). Lai tālāk izveidotu un uztvertu “noderīgu” (jēgpilnu) vārdu sarakstu, meklēt zirnekli ir "jāizskatās cauri" daudzām citām lapām.

Kā kāds sāk? zirneklis(zirneklis) jūsu ceļojums tīmeklī? Parasti sākumpunkts ir pasaulē lielākie serveri un ļoti populāras tīmekļa lapas. Zirneklis sāk savu ceļojumu no šādas vietnes, indeksē visus atrastos vārdus un turpina kustību tālāk, sekojot saitēm uz citām vietnēm. Tādējādi zirnekļrobots sāk aptvert arvien lielākus tīmekļa vietas “gabalus”. Vietne Google.com sākās kā akadēmiska meklētājprogramma. Rakstā, kurā aprakstīts, kā šī meklētājprogramma tika izveidota, Sergejs Brins un Lorenss Peidžs (Google dibinātāji un īpašnieki) sniedza piemēru tam, cik ātri darbojas Google zirnekļi. Tie ir vairāki, un parasti meklēšana sākas ar 3 zirnekļu izmantošanu. Katrs zirneklis atbalsta līdz pat 300 vienlaicīgi atvērtiem savienojumiem ar tīmekļa lapām. Maksimālajā slodzē, izmantojot 4 zirnekļus, Google sistēma spēj apstrādāt 100 lappuses sekundē, radot trafiku aptuveni 600 kilobaiti/sek.

Lai nodrošinātu zirnekļus ar datiem, kas tiem bija nepieciešami apstrādei, Google agrāk bija serveris, kas nedarīja neko vairāk, kā tikai baro zirnekļus ar arvien vairāk vietrāžu URL. Lai nebūtu atkarīgi no interneta pakalpojumu sniedzējiem attiecībā uz domēna nosaukumu serveriem (DNS), kas pārvērš URL IP adresēs, Google iegādājās savu DNS serveris, līdz minimumam samazinot visu lapu indeksēšanai pavadīto laiku.

Kad Google robots apmeklē HTML lapa, tajā ir ņemtas vērā 2 lietas:

Vārdi (teksts) vienā lapā;
- to atrašanās vieta (kurā lapas pamatteksta daļā).

Vārdi, kas atrodas ar pakalpojumu sadaļām, piemēram, virsraksts, subtitri, metabirkas un citi tika atzīmēti kā īpaši svarīgi lietotāju meklēšanas vaicājumiem. Google Spider tika izveidots, lai rādītu katru līdzīgu vārdu lapā, izņemot tādus starpsaucienus kā "a", "an" un "the". Citām meklētājprogrammām ir nedaudz atšķirīga pieeja indeksēšanai.

Visu meklētājprogrammu pieejas un algoritmi galu galā ir vērsti uz to, lai zirnekļroboti darbotos ātrāk un efektīvāk. Piemēram, daži meklēšanas roboti indeksēšanas laikā izseko vārdus nosaukumā, saitēs un līdz 100 visbiežāk lietotajiem vārdiem lapā un pat katru vārdu pirmajās 20 lapas teksta rindiņās. Tas ir jo īpaši Lycos indeksēšanas algoritms.

Citas meklētājprogrammas, piemēram, AltaVista, darbojas citā virzienā, indeksējot katru vārdu lapā, tostarp "a", "an", "the" un citus nesvarīgus vārdus.

Meta tagi

Meta tagi ļauj tīmekļa lapas īpašniekam norādīt atslēgvārdus un jēdzienus, kas nosaka tās satura būtību. Tas ir ļoti noderīgs rīks, īpaši, ja šie atslēgvārdi lapas tekstā var tikt atkārtoti līdz 2-3 reizēm. Šajā gadījumā metatagi var “novirzīt” meklēšanas robotu uz vēlamo atslēgvārdu atlasi lapas indeksēšanai. Pastāv iespēja “apkrāpt” metatagus ar populāriem meklēšanas vaicājumiem un jēdzieniem, kas nekādā veidā nav saistīti ar pašas lapas saturu. Meklēšanas roboti spēj ar to cīnīties, piemēram, analizējot metatagu un tīmekļa lapas satura korelāciju, “izmetot” no apskates tos metatagus (attiecīgi atslēgvārdus), kas neatbilst lapu saturam.

Tas viss attiecas uz gadījumiem, kad tīmekļa resursa īpašnieks patiešām vēlas tikt iekļauts vēlamo meklēšanas vārdu meklēšanas rezultātos. Bet bieži gadās, ka īpašnieks nemaz nevēlas, lai robots viņu indeksētu. Bet šādi gadījumi nav mūsu raksta tēma.

Indeksa uzbūve

Kad zirnekļi ir pabeiguši savu darbu, meklējot jaunas interneta lapas, meklētājprogrammām visa atrastā informācija ir jāizvieto tā, lai būtu ērti to izmantot arī turpmāk. Šeit ir svarīgi divi galvenie komponenti:

Informācija, kas saglabāta kopā ar datiem;
- metode, ar kuru šī informācija tiek indeksēta.

Vienkāršākajā gadījumā meklētājprogramma var vienkārši ievietot vārdu un URL, kur tas ir atrasts. Bet tas padarītu meklētājprogrammu par pilnīgi primitīvu rīku, jo nav informācijas par to, kurā dokumenta daļā ir šis vārds (meta tagos vai vienkāršā tekstā), vai šis vārds tiek lietots vienreiz vai atkārtoti un vai tas ir ietverta saitē uz citu svarīgu un saistītu resursu. Citiem vārdiem sakot, šī metode nenorādīs vietnes rangu, nesniegs lietotājiem atbilstošus rezultātus utt.

Lai sniegtu mums noderīgus datus, meklētājprogrammas saglabā ne tikai informāciju no vārda un tā URL. Meklētājprogramma var saglabāt datus par vārda pieminēšanas skaitu (biežumu) lapā, piešķirt vārdam “svaru”, kas pēc tam palīdzēs izveidot meklēšanas sarakstus (rezultātus), pamatojoties uz šī vārda svērto rangu, ņemot ņem vērā tās atrašanās vietu (saitēs, meta tagos, lapas nosaukumā un tā tālāk). Katrai komerciālajai meklētājprogrammai ir sava formula atslēgvārdu “svara” aprēķināšanai indeksēšanas laikā. Tas ir viens no iemesliem tam pašam meklēšanas vaicājums meklētājprogrammas sniedz pilnīgi atšķirīgus rezultātus.

Nākamais svarīgs punkts apstrādājot atrasto informāciju - tās kodējumu, lai samazinātu diska vietu tās glabāšanai. Piemēram, oriģinālajā Google rakstā ir aprakstīts, ka vārdu svara datu glabāšanai tiek izmantoti 2 baiti (katrs 8 biti) - tiek ņemts vērā vārda veids (lielie vai lielie burti), pašu burtu lielums (Fonts- Izmērs) un cita informācija. kas palīdz sakārtot vietni. Katrai šādai informācijas “gabalam” ir nepieciešami 2–3 datu biti pilnā 2 baitu komplektā. Rezultātā milzīgs informācijas apjoms var tikt uzglabāts ļoti kompaktā formā. Kad informācija ir “saspiesta”, ir pienācis laiks sākt indeksēšanu.

Indeksācijai ir viens mērķis: nodrošināt maksimālu Ātrā meklēšana nepieciešamo informāciju. Ir vairāki veidi, kā veidot indeksus, bet visefektīvākais ir veidot hash tabulas(jaucēj tabula). Jaukšanā tiek izmantota noteikta formula, lai katram vārdam piešķirtu skaitlisku vērtību.

Jebkurā valodā ir burti, ar kuriem sākas daudz vairāk vārdu nekā ar pārējiem alfabēta burtiem. Piemēram, angļu valodas vārdnīcas sadaļā ir ievērojami vairāk vārdu, kas sākas ar burtu "M", nekā to, kas sākas ar burtu "X". Tas nozīmē, ka vārda, kas sākas ar populārāko burtu, meklēšana prasīs ilgāku laiku nekā jebkura cita vārda meklēšana. Jaukšana(Jaukšana) izlīdzina šo atšķirību un samazina vidējo meklēšanas laiku, kā arī atdala pašu indeksu no reālajiem datiem. Hash tabulā ir jaucējvērtības, kā arī rādītājs uz datiem, kas atbilst šai vērtībai. Efektīva indeksēšana + efektīvs izvietojums kopā nodrošina lielu meklēšanas ātrumu, pat ja lietotājs uzdod ļoti sarežģītu meklēšanas vaicājumu.

Meklētājprogrammu nākotne

Meklēšana, kuras pamatā ir Būla operatori ("un", "vai", "nē") ir burtiska meklēšana — meklētājprogramma saņem meklēšanas vārdus tieši tādus, kādi tie tika ievadīti. Tas var radīt problēmas, ja, piemēram, ievadītajam vārdam ir vairākas nozīmes. Piemēram, “atslēga” var nozīmēt “līdzeklis durvju atvēršanai”, vai arī tas var nozīmēt “paroli”, lai pieteiktos serverī. Ja jūs interesē tikai viena vārda nozīme, tad jums acīmredzami nebūs nepieciešami dati par tā otro nozīmi. Protams, jūs varat izveidot burtisku vaicājumu, kas izslēgs datu izvadi, pamatojoties uz vārda nevajadzīgo nozīmi, taču būtu jauki, ja pati meklētājprogramma varētu jums palīdzēt.

Viena no nākotnes meklētājprogrammu algoritmu izpētes jomām ir konceptuāla informācijas izguve. Tie ir algoritmi, kas izmanto statistisko analīzi lapām, kurās ir norādīts meklēšanas atslēgvārds vai frāze, lai atrastu atbilstošus datus. Ir skaidrs, ka šādai "konceptuālai meklētājprogrammai" būtu nepieciešams daudz vairāk vietas katrai lapai un vairāk laika katra pieprasījuma apstrādei. Pašlaik daudzi pētnieki strādā pie šīs problēmas.

Ne mazāk intensīvs darbs tiek veikts uz vaicājumiem balstītu meklēšanas algoritmu izstrādes jomā. dabiskā valoda(Dabiskās valodas vaicājums).

Dabisko vaicājumu ideja ir tāda, ka varat rakstīt savu vaicājumu tā, it kā jautātu kolēģim, kas sēž pretī. Nav jāuztraucas par Būla operatoriem vai sasprindzinājumu, lai rakstītu sarežģīts vaicājums. Mūsdienās populārākā dabiskās valodas meklēšanas vietne ir AskJeeves.com. Tas pārvērš vaicājumu atslēgvārdos, kurus pēc tam izmanto vietņu indeksēšanai. Šī pieeja darbojas tikai vienkāršu vaicājumu gadījumā. Tomēr progress nestāv uz vietas, iespējams, ka pavisam drīz mēs ar meklētājprogrammām “sarunāsim” mūsu pašu “cilvēku valodā”.

Draugi, sveicu jūs atkal! Tagad mēs apskatīsim, kas ir meklēšanas roboti, un detalizēti runāsim par Google meklēšanas robotu un to, kā ar viņiem draudzēties.

Vispirms jums ir jāsaprot, kas patiesībā ir meklēšanas roboti; tos sauc arī par zirnekļiem. Kādu darbu veic meklētājprogrammu zirnekļi?

Šīs ir programmas, kas pārbauda vietnes. Viņi izskata visas ziņas un lapas jūsu emuārā, apkopo informāciju, ko pēc tam pārsūta uz meklētājprogrammas datu bāzi, kurā viņi strādā.

Jums nav jāzina viss meklēšanas robotu saraksts, vissvarīgākais ir zināt, ka Google tagad ir divi galvenie zirnekļi, ko sauc par "pandu" un "pingvīnu". Viņi cīnās pret zemas kvalitātes saturu un nevēlamām saitēm, un jums ir jāzina, kā atvairīt viņu uzbrukumus.

Google Panda meklēšanas robots tika izveidots, lai meklējumos reklamētu tikai augstas kvalitātes materiālu. Visas vietnes ar zemas kvalitātes saturu tiek pazeminātas meklēšanas rezultātos.

Šis zirneklis pirmo reizi parādījās 2011. gadā. Pirms tās parādīšanās jebkuru vietni bija iespējams reklamēt, publicējot rakstos lielu daudzumu teksta un izmantojot milzīgu daudzumu atslēgvārdu. Kopā šīs divas metodes nodrošināja nekvalitatīvu saturu meklēšanas rezultātu augšgalā, un labas vietnes tika pazeminātas meklēšanas rezultātos.

“Panda” nekavējoties sakārtoja lietas, pārbaudot visas vietnes un ievietojot visus pareizajās vietās. Lai gan tas cīnās ar zemas kvalitātes saturu, tagad ir iespējams reklamēt pat nelielas vietnes ar augstas kvalitātes rakstiem. Lai gan iepriekš bija bezjēdzīgi reklamēt šādas vietnes, tās nevarēja konkurēt ar milžiem, kuriem ir liels satura apjoms.

Tagad mēs izdomāsim, kā jūs varat izvairīties no "pandu" sankcijām. Vispirms jums jāsaprot, kas viņai nepatīk. Es jau rakstīju iepriekš, ka viņa cīnās ar sliktu saturu, bet kāds teksts viņai ir slikts, izdomāsim, lai mēs to nepublicētu savā vietnē.

Google meklēšanas robots cenšas nodrošināt, lai šī meklētājprogramma darba meklētājiem nodrošinātu tikai augstas kvalitātes materiālus. Ja jums ir raksti, kuros ir maz informācijas un kuri pēc izskata nav pievilcīgi, tad steidzami pārrakstiet šos tekstus, lai “panda” nenonāk pie jums.

Kvalitatīvs saturs var būt gan liels, gan mazs, taču, ja zirneklis ieraudzīs garu rakstu ar daudz informācijas, tad lasītājam tas noderēs vairāk.

Tad jums jāatzīmē dublēšanās, citiem vārdiem sakot, plaģiāts. Ja domājat, ka savā emuārā pārrakstīsit citu cilvēku rakstus, varat nekavējoties pielikt punktu savai vietnei. Kopēšana tiek stingri sodīta, izmantojot filtru, un Plaģiāts tiek pārbaudītsļoti vienkārši, es uzrakstīju rakstu par tēmu kā pārbaudīt tekstu unikalitāti.

Nākamā lieta, kas jāpamana, ir teksta pārsātinājums ar atslēgvārdiem. Ikviens, kurš domā, ka var uzrakstīt rakstu, izmantojot tikai atslēgvārdus un ieņemt pirmo vietu meklēšanas rezultātos, ļoti maldās. Man ir raksts par to, kā pārbaudīt lapu atbilstību, noteikti izlasiet to.

Un vēl viena lieta, kas var piesaistīt jums “pandu”, ir veci raksti, kas ir morāli novecojuši un nerada trafiku vietnē. Tie noteikti ir jāatjaunina.

Ir arī Google meklēšanas robots "pingvīns". Šis zirneklis cīnās ar surogātpastu un nevēlamām saitēm jūsu vietnē. Tas arī aprēķina iegādātās saites no citiem resursiem. Tāpēc, lai nebaidītos no šī meklēšanas robota, nevajadzētu pirkt saites, bet gan publicēt kvalitatīvu saturu, lai cilvēki paši uz jums linku.

Tagad formulēsim, kas jādara, lai meklēšanas robota acīs vietne izskatītos perfekti:

  • Lai izveidotu kvalitatīvu saturu, pirms raksta rakstīšanas rūpīgi izpētiet tēmu. Tad jums ir jāsaprot, ka cilvēkiem šī tēma patiešām interesē.
  • Izmantot konkrētus piemērus un bildes, tas rakstu padarīs dzīvīgu un interesantu. Sadaliet tekstu mazās rindkopās, lai to būtu viegli lasīt. Piemēram, ja avīzē atverat joku lapu, kuras jūs izlasīsit vispirms? Protams, katrs cilvēks vispirms izlasa īsus tekstus, pēc tam garākus un visbeidzot garos pēdu aptinumus.
  • “Pandas” iecienītākā ķibele ir tāda raksta neatbilstība, kurā ir novecojusi informācija. Sekojiet atjauninājumiem un mainiet tekstus.
  • Sekojiet līdzi atslēgvārdu blīvumam; iepriekš rakstīju, kā noteikt šo blīvumu; manis aprakstītajā pakalpojumā jūs saņemsit precīzu nepieciešamo atslēgvārdu skaitu.
  • Neplaģiātējiet, visi zina, ka jūs nevarat nozagt citu cilvēku lietas vai īsziņas - tas ir viens un tas pats. Par zādzību tiksi sodīts, ieķeroties filtrā.
  • Uzraksti vismaz divus tūkstošus vārdu garus tekstus, tad šāds raksts meklētāju robotu acīs izskatīsies informatīvs.
  • Palieciet pie tēmas ar savu emuāru. Ja jums ir emuārs par naudas pelnīšanu internetā, jums nav jāpublicē raksti par pneimatiskajiem ieročiem. Tas var pazemināt jūsu resursa vērtējumu.
  • Noformējiet savus rakstus skaisti, sadaliet tos rindkopās un pievienojiet attēlus, lai jums patīk lasīt un nevēlaties ātri pamest vietni.
  • Iegādājoties saites, izveidojiet tās uz interesantākajiem un noderīgākajiem rakstiem, ko cilvēki patiešām lasīs.

Nu, tagad jūs zināt, kādu darbu veic meklētājprogrammu roboti, un varat ar viņiem draudzēties. Un pats galvenais, jūs esat sīki izpētījis Google meklēšanas robotu un “pandu” un “pingvīnu”.




Tops