Koti › Ongelmia › Mitä työtä hakukoneiden hämähäkit tekevät? Mikä on hakurobotti? Hakurobotin "Yandex" ja Googlen toiminnot. Mitä hakurobotti tekee?

Mitä työtä hakukoneiden hämähäkit tekevät? Mikä on hakurobotti? Hakurobotin "Yandex" ja Googlen toiminnot. Mitä hakurobotti tekee?

Toisin kuin yleisesti luullaan, robotti ei ole suoraan mukana missään skannattujen asiakirjojen käsittelyssä. Se vain lukee ja tallentaa ne; sitten muut ohjelmat käsittelevät ne. Visuaalinen vahvistus voidaan saada analysoimalla ensimmäisen kerran indeksoitavan sivuston lokit. Ensimmäisellä vierailulla botti pyytää ensin robots.txt-tiedostoa ja sitten sivuston pääsivua. Eli hän seuraa ainoaa hänen tuntemaansa linkkiä. Tähän botin ensimmäinen vierailu aina päättyy. Jonkin ajan kuluttua (yleensä seuraavana päivänä) botti pyytää seuraavia sivuja - käyttämällä linkkejä, jotka löytyvät jo luetulta sivulta. Sitten prosessi jatkuu samassa järjestyksessä: sivujen pyytäminen, joille linkit on jo löydetty - tauko luettujen asiakirjojen käsittelyyn - seuraava istunto, jossa pyydetään löytyneitä linkkejä.

Sivujen jäsentäminen lennossa tarkoittaisi huomattavasti enemmän O robotin suurempi resurssien kulutus ja ajanhukkaa. Jokainen tarkistuspalvelin ajaa useita bottiprosesseja rinnakkain. Heidän on toimittava mahdollisimman nopeasti, jotta heillä on aikaa lukea uudet sivut ja lukea uudelleen olemassa olevat sivut. Siksi robotit vain lukevat ja tallentavat asiakirjoja. Kaikki mitä he tallentavat, on jonossa käsittelyä varten (koodin jäsentäminen). Sivun käsittelyn aikana löydetyt linkit sijoitetaan bottien tehtäväjonoon. Näin koko verkkoa skannataan jatkuvasti. Ainoa asia, jonka botti voi ja sen pitäisi analysoida lennossa, on robots.txt-tiedosto, jotta se ei pyydä siinä kiellettyjä osoitteita. Jokaisen sivuston indeksointiistunnon aikana robotti pyytää ensin tätä tiedostoa ja sen jälkeen kaikki indeksointijonossa olevat sivut.

Hakurobottien tyypit

Jokaisella hakukoneella on omat robottisarjansa eri tarkoituksiin.
Pohjimmiltaan ne eroavat toiminnallisesta tarkoituksestaan, vaikka rajat ovat hyvin mielivaltaisia, ja jokainen hakukone ymmärtää ne omalla tavallaan. Pelkästään kokotekstihaun järjestelmissä yksi robotti riittää kaikkiin tilanteisiin. Niille hakukoneille, jotka eivät ole mukana vain tekstissä, robotit jaetaan vähintään kahteen luokkaan: teksteihin ja piirustuksiin. On myös erillisiä botteja, jotka on omistettu tietyntyyppiselle sisällölle - mobiili, blogi, uutiset, videot jne.

Google Robotit

Kaikkia Googlen robotteja kutsutaan yhdessä nimellä Googlebot. Päärobotti-indeksoija "esittelee itsensä" näin:

Mozilla/5.0 (yhteensopiva; Googlebot/2.1; +http://www.google.com/bot.html)

Tämä robotti skannaa HTML-sivuja ja muita asiakirjoja Google haku. Se myös lukee ajoittain CSS- ja JS-tiedostoja - tämä voidaan havaita pääasiassa sivuston indeksoinnin alkuvaiheessa, kun robotti indeksoi sivustoa ensimmäistä kertaa. Hyväksytyt sisältötyypit ovat kaikki (Hyväksy: */*).

Toinen tärkeimmistä roboteista on kiireinen skannaamalla kuvia sivustolta. Se "esittelee itsensä" yksinkertaisesti:

Googlebot-Image/1.0

Lokeissa nähtiin myös ainakin kolme bottia, jotka keräävät sisältöä mobiiliversio Hae. Kaikkien kolmen User-agent-kentän lopussa on rivi:

(yhteensopiva; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Ennen tätä riviä on malli kännykkä, jonka kanssa tämä botti on yhteensopiva. Täplillä boteilla on malleja Nokian puhelimet, Samsung ja iPhone. Hyväksytyt sisältötyypit ovat kaikki, mutta prioriteetit on ilmoitettu:

Hyväksy: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Yandex robotit

RuNetissä toimivista hakukoneista Yandexillä on suurin kokoelma robotteja. Verkkovastaavan ohjeosiosta löydät virallisen luettelon kaikista hämähäkkihenkilöstöstä. Ei ole mitään järkeä esittää sitä tässä kokonaisuudessaan, koska tässä luettelossa tapahtuu ajoittain muutoksia.
Meille tärkeimmät Yandex-robotit on kuitenkin mainittava erikseen.
Perus indeksointirobotti tällä hetkellä kutsuttu

Mozilla/5.0 (yhteensopiva; YandexBot/3.0; +http://yandex.com/bots)

Aiemmin edustettuna

Yandex/1.01.001 (yhteensopiva; Win16; I)

Lukee verkkosivujen HTML-sivuja ja muita asiakirjoja indeksointia varten. Hyväksyttyjen mediatyyppien luettelo oli aiemmin rajoitettu:

Hyväksy: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

31. heinäkuuta 2009 lähtien tässä listassa on havaittu merkittävä laajennus (tyyppien määrä on lähes kaksinkertaistunut), ja 10. marraskuuta 2009 lähtien lista on lyhennetty */*:iin (kaikki tyypit).
Tämä robotti on erittäin kiinnostunut tietyistä kielistä: venäjästä, vähän vähemmän ukrainasta ja valkovenäläisestä, vähän vähemmän englannista ja hyvin vähän kaikista muista kielistä.

Hyväksy-kieli: ru, uk;q=0,8, be;q=0,8, en;q=0,7, *;q=0,01

Robottikuvaskanneri sisältää seuraavan rivin User-agent-kentässä:

Mozilla/5.0 (yhteensopiva; YandexImages/3.0; +http://yandex.com/bots)

Harrastaa eri muotoisten grafiikan skannaamista kuvien etsimiseksi.

Toisin kuin Google, Yandexillä on erilliset robotit palvelemaan joitain erikoistoiminnot yleinen haku.
Robotti "peili"

Mozilla/5.0 (yhteensopiva; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Se ei tee mitään erityisen monimutkaista - se ilmestyy ajoittain ja tarkistaa, vastaako sivuston pääsivu verkkotunnusta käytettäessä www. ja ilman. Tarkistaa myös rinnakkaiset "peili"-verkkotunnukset osumien varalta. Ilmeisesti Yandexin peilejä ja verkkotunnusten kanonista muotoa käsitellään erikseen ohjelmistopaketti, joka ei liity suoraan indeksointiin. Muuten mikään ei selitä erillisen botin olemassaoloa tähän tarkoitukseen.

Ikonien kerääjä favicon.ico

Mozilla/5.0 (yhteensopiva; YandexFavicons/1.0; +http://yandex.com/bots)

Se ilmestyy säännöllisesti ja pyytää favicon.ico-kuvaketta, joka näkyy sitten hakutuloksissa sivuston linkin viereen. Mistä syistä kuvankeräilijä ei jaa tätä vastuuta, ei ole tiedossa. Ilmeisesti pelissä on myös erillinen ohjelmistopaketti.

Vahvistusbotti uusille sivustoille, toimii, kun ne lisätään AddURL-lomakkeeseen

Mozilla/5.0 (yhteensopiva; YandexWebmaster/2.0; +http://yandex.com/bots)

Tämä botti tarkistaa sivuston vastauksen lähettämällä HEAD-pyynnön juuri-URL-osoitteeseen. Näin tarkistamme olemassaolon kotisivu verkkotunnuksessa ja tämän sivun HTTP-otsikot analysoidaan. Botti pyytää myös robots.txt-tiedostoa sivuston juureen. Siten AddURL-linkin lähettämisen jälkeen määritetään, että sivusto on olemassa, eivätkä robots.txt- tai HTTP-otsikot estä pääsyä pääsivulle.

Rambler robotti

Tällä hetkellä ei enää toimi, koska Rambler käyttää nyt Yandex-hakua
Rambler-indeksoijarobotti voidaan helposti tunnistaa lokeista User-agent-kentän avulla

StackRambler/2.0 (MSIE-yhteensopiva)

Verrattuna muiden hakukoneiden "kollegoihinsa" tämä robotti näyttää melko yksinkertaiselta: se ei ilmoita mediatyyppien luetteloa (vastaavasti se vastaanottaa pyydetyn asiakirjan minkä tahansa tyyppistä), Accept-Language -kenttä puuttuu pyynnöstä, ja If-Modified-sce -kenttää ei löydy botin pyynnöistä .

Robot Mail.Ru

Tästä robotista tiedetään vielä vähän. Mail.Ru-portaali on kehittänyt omaa hakuaan pitkään, mutta se ei ole vieläkään päässyt käynnistämään tätä hakua. Siksi vain käyttäjäagentissa olevan botin nimi tunnetaan tietyille - Mail.Ru/2.0 (aiemmin - Mail.Ru/1.0). Robors.txt-tiedoston käskyjen botin nimeä ei ole julkaistu missään, oletetaan, että botin nimeksi tulee Mail.Ru.

Muut robotit

Internet-haku ei tietenkään rajoitu kahteen hakukoneeseen. Siksi on olemassa muita robotteja - esimerkiksi Bing-robotti - Microsoftin ja muiden robottien hakukone. Joten erityisesti Kiinassa on kansallinen hakukone Baidu - mutta sen robotti ei todennäköisesti pääse joen keskelle ja saavuttaa Venäjän sivuston.

Lisäksi monet palvelut ovat viime aikoina yleistyneet - erityisesti solomono - jotka, vaikka ne eivät ole hakukoneita, myös skannaavat sivustoja. Usein sivustotietojen välittämisen arvo tällaisiin järjestelmiin on kyseenalainen, ja siksi niiden robotit voidaan kieltää

Miten hakukonerobotit toimivat

Hakurobotti (hämähäkki, robotti) on pieni ohjelma, joka voi vierailla miljoonilla verkkosivustoilla ja skannata gigatavuja tekstiä ilman käyttäjän väliintuloa. Sivujen lukeminen ja niistä tekstikopioiden tallentaminen on uusien asiakirjojen indeksoinnin ensimmäinen vaihe. On huomattava, että hakukonerobotit eivät käsittele vastaanotettuja tietoja. Heidän tehtävänsä on vain säilyttää tekstitietoa.

Lisää videoita kanavallamme - opi Internet-markkinointia SEMANTICAlla

Luettelo hakuroboteista

Kaikista Runetia skannaavista hakukoneista Yandexillä on suurin kokoelma robotteja. Seuraavat robotit vastaavat indeksoinnista:

tärkein indeksointirobotti, joka kerää tietoja verkkosivustojen sivuilta;
robotti, joka voi tunnistaa peilit;
Yandex-hakurobotti, joka indeksoi kuvat;
hämähäkki, joka skannaa YANin hyväksymien sivustojen sivut;
robotti skannaa suosikkikuvakkeita;
useita hämähäkkejä, jotka määrittävät sivuston sivujen saavutettavuuden.

Googlen päähakurobotti kerää tekstitietoja. Pohjimmiltaan se tarkastelee HTML-tiedostoja ja analysoi JS:ää ja CSS:ää tietyin väliajoin. Pystyy hyväksymään kaiken tyyppisen indeksoinnin sallitun sisällön. PS Googlella on hämähäkki, joka hallitsee kuvien indeksointia. On myös hakurobotti - ohjelma, joka tukee haun mobiiliversion toimintaa.

Katso sivusto hakurobotin silmin

Koodivirheiden ja muiden puutteiden korjaamiseksi verkkovastaava voi selvittää, kuinka hakurobotti näkee sivuston. Tämän mahdollisuuden tarjoaa Google PS. Sinun on siirryttävä Verkkovastaavan työkaluihin ja napsautettava sitten "indeksointi"-välilehteä. Avautuvassa ikkunassa sinun on valittava rivi "View as Googlebot". Seuraavaksi sinun on syötettävä etsimäsi sivun osoite hakulomakkeeseen (määrittelemättä verkkotunnusta ja http://-protokollaa).

Valitsemalla "hanki ja näytä" -komennon verkkovastaava voi arvioida visuaalisesti sivuston sivun tilaa. Voit tehdä tämän napsauttamalla "näyttöpyyntö" -valintaruutua. Näyttöön tulee ikkuna, jossa on kaksi verkkoasiakirjan versiota. Verkkovastaava oppii, kuinka tavallinen vierailija näkee sivun ja missä muodossa se on hakuhämähäkin käytettävissä.

Vinkki: Jos analysoitavaa verkkodokumenttia ei ole vielä indeksoitu, voit käyttää "lisää hakemistoon" >> "skannaa vain tämä URL" -komentoa. Hämähäkki analysoi asiakirjan muutamassa minuutissa, ja lähitulevaisuudessa verkkosivu ilmestyy hakutuloksiin. Indeksointipyyntöjen kuukausiraja on 500 asiakirjaa.

Kuinka vaikuttaa indeksointinopeuteen

Kun verkkovastaava on ymmärtänyt, miten hakurobotit toimivat, hän voi mainostaa sivustoaan paljon tehokkaammin. Yksi monien nuorten verkkoprojektien pääongelmista on huono indeksointi. Hakukonerobotit ovat haluttomia vierailemaan luvattomissa Internet-resursseissa.
On todettu, että indeksoinnin nopeus riippuu suoraan sivuston päivityksen intensiteetistä. Ainutlaatuisten tekstimateriaalien säännöllinen lisääminen herättää hakukoneiden huomion.

Indeksoinnin nopeuttamiseksi voit käyttää kirjanmerkkejä ja twitter-palvelua. On suositeltavaa luoda sivustokartta ja ladata se verkkoprojektin juurihakemistoon.

Etsi robotti nimeltään erikoisohjelma mikä tahansa hakukone, joka on suunniteltu syöttämään tietokantaan (hakemistoon) Internetistä löytyviä sivustoja ja niiden sivuja. Käytetyt nimet myös: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Toimintaperiaate

Hakurobotti on selaintyyppinen ohjelma. Se skannaa jatkuvasti verkkoa: vierailee indeksoiduilla (sen jo tuntemilla) sivustoilla, seuraa niistä linkkejä ja löytää uusia resursseja. Kun uusi resurssi löydetään, proseduurirobotti lisää sen hakukoneen hakemistoon. Hakurobotti indeksoi myös sivustoille päivitykset, joiden tiheys on kiinteä. Esimerkiksi kerran viikossa päivitettävällä sivustolla käy hämähäkki tällä tiheydellä, ja uutissivustojen sisältö voidaan indeksoida muutamassa minuutissa julkaisusta. Jos sivustolle ei johda linkkejä muista resursseista, hakurobottien houkuttelemiseksi resurssi on lisättävä erityisellä lomakkeella (Google Webmaster Center, Yandex Webmaster Panel jne.).

Hakurobottien tyypit

Yandex hämähäkit:

Yandex/1.01.001 I - tärkein indeksointiin osallistuva robotti,
Yandex/1.01.001 (P) - indeksoi kuvat,
Yandex/1.01.001 (H) - löytää peilisivut,
Yandex/1.03.003 (D) - määrittää, täyttääkö verkkovastaavan paneelista lisätty sivu indeksointiparametrit,
YaDirectBot/1.0 (I) - indeksoi resurssit mainosverkosto Yandex,
Yandex/1.02.000 (F) - indeksoi sivuston suosikkikuvakkeet.

Google Spiders:

Googlebot on tärkein robotti
Googlebot News - skannaa ja indeksoi uutisia,
Google Mobile - indeksoi sivustot mobiililaitteille,
Googlebot Images - etsii ja indeksoi kuvia,
Googlebot Video - indeksoi videot,
Google AdsBot – tarkistaa aloitussivun laadun,
Google Mobile AdSense ja Google AdSense— indeksoi Googlen mainosverkoston sivustot.

Myös muut hakukoneet käyttävät useita erilaisia robotteja, jotka ovat toiminnallisesti samanlaisia kuin luetellut.

Miten hakukoneet toimivat? Yksi Internetin hienoista puolista on se, että siellä on satoja miljoonia verkkoresursseja odottamassa ja valmiina esitettäväksi meille. Mutta huono asia on se, että siellä on samoja miljoonia sivuja, jotka, vaikka tarvitsisimme niitä, eivät ilmesty meille, koska... meille yksinkertaisesti tuntematon. Kuinka selvittää, mitä ja mistä voit löytää Internetistä? Tätä varten käännymme yleensä hakukoneiden puoleen.

Internetin hakukoneet ovat erityisiä sivustoja maailmanlaajuinen verkosto, jotka on suunniteltu auttamaan ihmisiä löytämään maailman laajuinen verkko tarvitsemansa tiedot. Hakukoneiden toiminnoissa on eroja, mutta yleisesti ottaen on kolme päätoimintoa, jotka ovat identtisiä:

Kaikki he "hakevat" Internetistä (tai jostain Internetin sektorista) - annettujen avainsanojen perusteella;
- kaikki hakukoneet indeksoivat etsimänsä sanat ja paikat, joista he löytävät ne;
- Kaikki hakukoneet antavat käyttäjien etsiä sanoja tai avainsanayhdistelmiä jo indeksoitujen ja heidän tietokantoihinsa sisältyvien verkkosivujen perusteella.

Ensimmäiset hakukoneet indeksoivat useita satojatuhansia sivuja ja saivat 1 000 - 2 000 pyyntöä päivässä. Nykyään suosituimmat hakukoneet ovat indeksoineet ja indeksoivat jatkuvasti satoja miljoonia sivuja ja käsittelevät kymmeniä miljoonia pyyntöjä päivässä. Alla puhumme siitä, kuinka hakukoneet toimivat ja kuinka ne "kokoavat" kaikki löydetyt tiedot voidakseen vastata kaikkiin meitä kiinnostaviin kysymyksiin.

Katsotaanpa verkkoa

Kun ihmiset puhuvat Internetin hakukoneet koneita, ne tarkoittavat itse asiassa hakukoneita Maailman laajuinen verkko. Ennen kuin Webistä tuli Internetin näkyvin osa, oli jo olemassa hakukoneita, jotka auttoivat ihmisiä löytämään tietoa Internetistä. Ohjelmat nimeltä "gopher" ja "Archie" pystyivät indeksoimaan tiedostoja, jotka sijaitsevat eri palvelimilla, joihin on yhdistetty Internet Internet ja lyhensi huomattavasti etsimiseen käytettyä aikaa tarvittavat ohjelmat tai asiakirjoja. Viime vuosisadan 80-luvun lopulla synonyymi "kyvylle työskennellä Internetissä" oli kyky käyttää gopheria, Archieta, Veronicaa jne. hakuohjelmia. Nykyään useimmat Internetin käyttäjät rajoittavat hakunsa vain maailmanlaajuinen verkko, tai WWW.

Pieni aloitus

Ennen kuin voimme kertoa sinulle, mistä vaadittu asiakirja tai tiedosto löytyy, tiedoston tai asiakirjan on oltava jo löydetty. Etsiäkseen tietoa sadoilta miljoonilta olemassa olevilta WEB-sivuilta hakukone käyttää erityistä robottiohjelmaa. Tätä ohjelmaa kutsutaan myös spideriksi ("hämähäkki"), ja sitä käytetään luomaan luettelo sivulta löytyvistä sanoista. Tällaisen luettelon muodostamisprosessia kutsutaan verkkoindeksointia(Verkon indeksointi). "hyödyllisen" (merkittävän) sanaluettelon rakentamiseksi ja tallentamiseksi edelleen, etsi hämähäkki täytyy "katsoa läpi" paljon muita sivuja.

Miten joku aloittaa? hämähäkki(hämähäkki) matkasi verkossa? Yleensä lähtökohtana ovat maailman suurimmat palvelimet ja erittäin suositut web-sivut. Hämähäkki aloittaa matkansa sellaiselta sivustolta, indeksoi kaikki löydetyt sanat ja jatkaa liikkumistaan eteenpäin seuraamalla linkkejä muille sivustoille. Näin hämähäkkirobotti alkaa peittää yhä suurempia "palasia" verkkotilasta. Google.com aloitti akateemisena hakukoneena. Artikkelissa, jossa kuvataan tämän hakukoneen luomista, Sergey Brin ja Lawrence Page (Googlen perustajat ja omistajat) antoivat esimerkin Googlen hämähäkkien toimivuudesta. Niitä on useita ja yleensä haku alkaa käyttämällä 3 hämähäkkiä. Jokainen hämähäkki tukee jopa 300:aa samanaikaisesti avointa yhteyttä verkkosivuille. Huippukuormituksessa Google-järjestelmä pystyy käsittelemään 100 sivua sekunnissa 4 hämähäkin avulla ja tuottaa noin 600 kilotavua sekunnissa liikennettä.

Antaakseen hämähäkille niiden käsittelyyn tarvittavat tiedot Googlella oli aiemmin palvelin, joka ei tehnyt muuta kuin syöttänyt hämähäkkeille yhä useampia URL-osoitteita. Jotta ei olisi riippuvainen Internet-palveluntarjoajista URL-osoitteet IP-osoitteiksi muuntavien verkkotunnuspalvelimien (DNS) suhteen, Google hankki omansa. DNS-palvelin, mikä vähentää kaiken sivujen indeksointiin käytetyn ajan minimiin.

Kun Google Robot vierailee HTML-sivu, se ottaa huomioon 2 asiaa:

Sanat (teksti) per sivu;
- niiden sijainti (missä sivun rungon osassa).

Palveluosien yhteydessä sijaitsevat sanat, kuten otsikko, tekstitykset, sisällönkuvauskentät ja muut merkittiin erityisen tärkeiksi käyttäjien hakukyselyille. Google Spider luotiin indeksoimaan kaikki samanlaiset sanat sivulla lukuun ottamatta välimerkkejä, kuten "a", "an" ja "the". Muilla hakukoneilla on hieman erilainen lähestymistapa indeksointiin.

Kaikki hakukonelähestymistavat ja algoritmit tähtäävät viime kädessä saamaan hämähäkkirobotit toimimaan nopeammin ja tehokkaammin. Jotkin hakurobotit esimerkiksi seuraavat otsikon sanoja, linkkejä ja jopa 100 useimmin käytettyä sanaa sivulla indeksoinnin aikana ja jopa kaikkia sanoja sivun tekstisisällön ensimmäisellä 20 rivillä. Tämä on erityisesti Lycosin indeksointialgoritmi.

Muut hakukoneet, kuten AltaVista, menevät toiseen suuntaan indeksoimalla jokaisen sivun sanan, mukaan lukien "a", "an", "the" ja muut merkityksettömät sanat.

Sisällönkuvauskentät

Sisällönkuvauskenttien avulla verkkosivun omistaja voi määrittää avainsanoja ja käsitteitä, jotka määrittelevät sen sisällön olemuksen. Tämä on erittäin hyödyllinen työkalu, varsinkin kun nämä avainsanat voivat toistua jopa 2-3 kertaa sivun tekstissä. Tässä tapauksessa sisällönkuvauskentät voivat "ohjata" hakurobotin haluttuun avainsanavalikoimaan sivun indeksointia varten. On mahdollista "huijata" sisällönkuvauskenttiä suosituilla hakukyselyillä ja käsitteillä, jotka eivät liity millään tavalla itse sivun sisältöön. Hakurobotit pystyvät taistelemaan tätä vastaan esimerkiksi analysoimalla sisällönkuvauskenttien ja verkkosivun sisällön korrelaatiota, ”heittämällä” huomiosta ne metatagit (vastaavasti avainsanat), jotka eivät vastaa sivujen sisältöä.

Kaikki tämä koskee niitä tapauksia, joissa verkkoresurssin omistaja todella haluaa tulla mukaan haluttujen hakusanojen hakutuloksiin. Mutta usein käy niin, että omistaja ei halua robotin indeksoida häntä ollenkaan. Mutta tällaiset tapaukset eivät ole artikkelimme aihe.

Indeksin rakentaminen

Kun hämähäkit ovat saaneet työnsä valmiiksi uusien verkkosivujen etsimisessä, hakukoneiden on sijoitettava kaikki löydetyt tiedot niin, että niitä on mukava käyttää jatkossa. Tässä on kaksi avainkomponenttia, joilla on merkitystä:

Tietojen kanssa tallennetut tiedot;
- menetelmä, jolla nämä tiedot indeksoidaan.

Yksinkertaisimmassa tapauksessa hakukone voisi yksinkertaisesti sijoittaa sanan ja URL-osoitteen sinne, missä se löytyy. Mutta tämä tekisi hakukoneesta täysin primitiivisen työkalun, koska ei ole tietoa siitä, missä osassa asiakirjaa tämä sana on (sisällönkuvauskentissä vai pelkässä tekstissä), käytetäänkö sanaa kerran vai toistuvasti ja onko se joka sisältyy linkkiin toiseen tärkeään ja asiaan liittyvään resurssiin. Toisin sanoen tämä menetelmä ei aseta sivustoja paremmuusjärjestykseen, ei tarjoa osuvia tuloksia käyttäjille jne.

Tarjotakseen meille hyödyllisiä tietoja, hakukoneet eivät tallenna vain tietoa sanasta ja sen URL-osoitteesta. Hakukone voi tallentaa tietoja sivulla olevan sanan mainintojen määrästä (tiheydestä), antaa sanalle "painon", mikä auttaa tuottamaan hakuluetteloita (tuloksia) tämän sanan painotetun sijoituksen perusteella. ottaa huomioon sen sijainnin (linkkeissä, sisällönkuvauskentissä, sivun otsikossa ja niin edelleen). Jokaisella kaupallisella hakukoneella on oma kaavansa avainsanojen "painon" laskemiseksi indeksoinnin aikana. Tämä on yksi syy siihen, miksi sama hakulauseke hakukoneet tuottavat täysin erilaisia tuloksia.

Seuraava tärkeä pointti löydettyä tietoa käsiteltäessä - sen koodaus sen tallentamiseen käytettävän levytilan vähentämiseksi. Esimerkiksi alkuperäisessä Google-artikkelissa kuvataan, että 2 tavua (8 bittiä kukin) käytetään sanojen painotietojen tallentamiseen - tämä ottaa huomioon sanan tyypin (isoilla kirjaimilla), itse kirjainten koon (Font-Size). ), ja muita tietoja, jotka auttavat määrittämään sivuston paremmuusjärjestyksen. Jokainen tällainen "tieto" vaatii 2-3 bittiä dataa täydellisessä 2-tavuisessa sarjassa. Tämän seurauksena valtava määrä tietoa voidaan tallentaa erittäin kompaktissa muodossa. Kun tiedot on "pakattu", on aika aloittaa indeksointi.

Indeksoinnilla on yksi tavoite: varmistaa maksimaalinen Pikahaku tarvittavat tiedot. On olemassa useita tapoja luoda indeksejä, mutta tehokkain on rakentaa hash-taulukoita(tiivistetaulukko). Hashing käyttää erityistä kaavaa määrittääkseen jokaiselle sanalle numeerisen arvon.

Jokaisella kielellä on kirjaimia, joilla paljon enemmän sanoja alkaa kuin muilla aakkosten kirjaimilla. Esimerkiksi englannin sanakirjaosassa on huomattavasti enemmän M-kirjaimella alkavia sanoja kuin X-kirjaimella alkavia sanoja. Tämä tarkoittaa, että suosituimmalla kirjaimella alkavan sanan etsiminen kestää kauemmin kuin minkään muun sanan. Hashing(Hashing) tasoittaa tämän eron ja vähentää keskimääräistä hakuaikaa sekä erottaa itse indeksin todellisista tiedoista. Hash-taulukko sisältää hash-arvoja sekä osoittimen sitä arvoa vastaaviin tietoihin. Tehokas indeksointi + tehokas sijoittelu yhdessä takaavat nopean hakunopeuden, vaikka käyttäjä tekisi erittäin monimutkaisen hakukyselyn.

Hakukoneiden tulevaisuus

Boolen operaattoreihin ("ja", "tai", "ei") perustuva haku on kirjaimellinen haku - hakukone vastaanottaa hakusanat täsmälleen sellaisina kuin ne on syötetty. Tämä voi aiheuttaa ongelmia esimerkiksi silloin, kun syötetyllä sanalla on useita merkityksiä. "Avain" voi esimerkiksi tarkoittaa "keinoa oven avaamiseen" tai se voi tarkoittaa "salasanaa" palvelimelle kirjautumiseen. Jos olet kiinnostunut vain yhdestä sanan merkityksestä, et ilmeisesti tarvitse tietoja sen toisesta merkityksestä. Voit tietysti rakentaa kirjaimellisen kyselyn, joka sulkee pois tietojen tulostuksen sanan tarpeettoman merkityksen perusteella, mutta olisi mukavaa, jos hakukone itse voisi auttaa sinua.

Yksi tulevaisuuden hakukonealgoritmien tutkimusalue on käsitteellinen tiedonhaku. Nämä ovat algoritmeja, jotka käyttävät tilastollista analyysiä sivuista, jotka sisältävät tietyn hakusanan tai -lauseen löytääkseen asiaankuuluvia tietoja. On selvää, että tällainen "käsitteellinen hakukone" vaatisi paljon enemmän tallennustilaa jokaiselle sivulle ja enemmän aikaa kunkin pyynnön käsittelemiseen. Tällä hetkellä monet tutkijat työskentelevät tämän ongelman parissa.

Yhtä intensiivistä työtä tehdään kyselyihin perustuvien hakualgoritmien kehittämisessä. luonnollinen kieli(Luonnollinen kielikysely).

Luonnollisten kyselyjen taustalla on ajatus, että voit kirjoittaa kyselysi ikään kuin kysyisit sinua vastapäätä istuvalta kollegalta. Sinun ei tarvitse huolehtia Boolen operaattoreista tai säveltämisen rasituksesta monimutkainen kysely. Nykyään suosituin luonnollisen kielen hakusivusto on AskJeeves.com. Se muuntaa kyselyn avainsanoiksi, joita se sitten käyttää indeksoidessaan sivustoja. Tämä lähestymistapa toimii vain yksinkertaisissa kyselyissä. Edistys ei kuitenkaan pysähdy, vaan on mahdollista, että pian "puhumme" hakukoneiden kanssa omalla "ihmiskielellämme".

Ystävät, tervetuloa uudelleen! Nyt tarkastelemme, mitä hakurobotit ovat, ja puhumme yksityiskohtaisesti Google-hakurobotista ja kuinka olla ystäviä heidän kanssaan.

Ensin sinun on ymmärrettävä, mitä hakurobotit todella ovat; niitä kutsutaan myös hämähäkeiksi. Mitä työtä hakukoneiden hämähäkit tekevät?

Nämä ovat ohjelmia, jotka tarkistavat sivustoja. He käyvät läpi kaikki blogisi viestit ja sivut, keräävät tietoja, jotka he sitten välittävät sen hakukoneen tietokantaan, jonka parissa työskentelevät.

Sinun ei tarvitse tietää koko hakurobottien luetteloa, tärkeintä on tietää, että Googlella on nyt kaksi päähämähäkkiä, nimeltään "panda" ja "pingviini". He taistelevat heikkolaatuista sisältöä ja roskapostilinkkejä vastaan, ja sinun on tiedettävä, kuinka torjua heidän hyökkäyksensä.

Google Panda -hakurobotti luotiin mainostamaan hauissa vain korkealaatuista materiaalia. Kaikki sivustot, joiden sisältö on heikkolaatuista, laskevat hakutuloksissa.

Tämä hämähäkki ilmestyi ensimmäisen kerran vuonna 2011. Ennen sen ilmestymistä mitä tahansa verkkosivustoa oli mahdollista mainostaa julkaisemalla suuri määrä tekstiä artikkeleissa ja käyttämällä valtavaa määrää avainsanoja. Yhdessä nämä kaksi tekniikkaa toivat epälaadukkaan sisällön hakutulosten kärkeen, ja hyvät sivustot laskivat hakutuloksissa.

"Panda" laittoi asiat välittömästi järjestykseen tarkistamalla kaikki sivustot ja laittamalla kaikki oikeille paikoilleen. Vaikka se kamppailee heikkolaatuisen sisällön kanssa, on nyt mahdollista mainostaa pieniäkin sivustoja laadukkailla artikkeleilla. Vaikka aiemmin tällaisten sivustojen mainostaminen oli turhaa, ne eivät voineet kilpailla jättiläisten kanssa, joilla on paljon sisältöä.

Nyt selvitetään, kuinka voit välttää "panda"-pakotteet. Sinun on ensin ymmärrettävä, mistä hän ei pidä. Kirjoitin jo ylempänä, että hän kamppailee huonon sisällön kanssa, mutta millainen teksti on hänelle huonoa, selvitetään se, jotta emme julkaise sitä verkkosivuillamme.

Googlen hakurobotti pyrkii varmistamaan, että tämä hakukone tarjoaa työnhakijoille vain laadukasta materiaalia. Jos sinulla on artikkeleita, jotka sisältävät vähän tietoa ja jotka eivät ole ulkonäöltään houkuttelevia, kirjoita nämä tekstit nopeasti uudelleen, jotta "panda" ei pääse käsiisi.

Laadukas sisältö voi olla sekä suurta että pientä, mutta jos hämähäkki näkee pitkän artikkelin, jossa on paljon tietoa, se on lukijalle hyödyllisempää.

Sitten sinun on huomioitava päällekkäisyys, toisin sanoen plagiointi. Jos luulet kirjoittavasi uudelleen muiden ihmisten artikkeleita blogiisi, voit lopettaa sivustosi välittömästi. Kopiointi rangaistaan ankarasti käyttämällä suodatinta ja Plagiointi tarkistetaan erittäin helppoa, kirjoitin artikkelin aiheesta kuinka tarkistaa tekstien ainutlaatuisuus.

Seuraavaksi huomioitava asia on tekstin ylikylläisyys avainsanoilla. Jokainen, joka luulee voivansa kirjoittaa artikkelin käyttämällä vain avainsanoja ja olla hakutuloksissa ensimmäinen paikka, erehtyy suuresti. Minulla on artikkeli sivujen osuvuuden tarkistamisesta, muista lukea se.

Ja toinen asia, joka voi houkutella "pandan" sinulle, ovat vanhat artikkelit, jotka ovat moraalisesti vanhentuneita eivätkä tuo liikennettä sivustolle. Ne pitää ehdottomasti päivittää.

Siellä on myös Google-hakurobotti "pingviini". Tämä hämähäkki taistelee sivustosi roskapostia ja roskapostia vastaan. Se laskee myös muista resursseista ostetut linkit. Siksi, jotta et pelkää tätä hakurobottia, sinun ei pitäisi ostaa linkkejä, vaan julkaista korkealaatuista sisältöä, jotta ihmiset linkittävät sinuun itse.

Muotoillaan nyt, mitä on tehtävä, jotta sivusto näyttäisi täydelliseltä hakurobotin silmissä:

Laadukkaan sisällön saamiseksi tutki ensin aihetta hyvin ennen artikkelin kirjoittamista. Sitten sinun on ymmärrettävä, että ihmiset ovat todella kiinnostuneita tästä aiheesta.

Käyttää konkreettisia esimerkkejä ja kuvia, tämä tekee artikkelista elävän ja mielenkiintoisen. Jaa teksti pieniin kappaleisiin, jotta se on helppo lukea. Jos esimerkiksi avaat vitsisivun sanomalehdessä, mitkä luet ensin? Luonnollisesti jokainen lukee ensin lyhyet tekstit, sitten pidemmät ja lopuksi pitkät jalkakääreet.

"Pandan" suosikkijuttu on vanhentunutta tietoa sisältävän artikkelin merkityksettömyys. Seuraa päivityksiä ja muuta tekstejä.

Pidä kirjaa avainsanatiheydestä; kirjoitin edellä, kuinka tämä tiheys määritetään; kuvailemassani palvelussa saat tarkan tarvittavan määrän avainsanoja.

Älä plagioi, kaikki tietävät, että et voi varastaa muiden asioita tai tekstiä – se on sama asia. Sinua rangaistaan varkaudesta jäämällä kiinni suodattimeen.

Kirjoita vähintään kahden tuhannen sanan tekstejä, niin tällainen artikkeli näyttää informatiiviselta hakukonerobottien silmissä.

Pysy aiheessa blogisi kanssa. Jos pidät blogia rahan ansaitsemisesta Internetissä, sinun ei tarvitse julkaista artikkeleita ilma-aseista. Tämä voi alentaa resurssi luokitusta.

Suunnittele artikkelisi kauniisti, jaa ne kappaleisiin ja lisää kuvia, jotta nautit lukemisesta etkä halua poistua sivustolta nopeasti.

Kun ostat linkkejä, tee niistä mielenkiintoisimpia ja hyödyllisimpiä artikkeleita, joita ihmiset todella lukevat.

No, nyt tiedät mitä työtä hakukonerobotit tekevät ja voit olla heidän kanssaan ystäviä. Ja mikä tärkeintä, olet tutkinut yksityiskohtaisesti Google-hakurobottia ja "pandaa" ja "pingviiniä".

Suosittuja luokassa: