hjem › Problemer › Hvilken jobb gjør søkemotoredderkopper? Hva er en søkerobot? Funksjoner til søkeroboten "Yandex" og Google. Hva gjør en søkerobot?

Hvilken jobb gjør søkemotoredderkopper? Hva er en søkerobot? Funksjoner til søkeroboten "Yandex" og Google. Hva gjør en søkerobot?

I motsetning til hva mange tror, er ikke roboten direkte involvert i noen behandling av skannede dokumenter. Han bare leser og lagrer dem, så utfører andre programmer behandlingen. Visuell bekreftelse kan oppnås ved å analysere loggene til et nettsted som indekseres for første gang. Ved det første besøket ber roboten først om robots.txt-filen, deretter hovedsiden til nettstedet. Det vil si at han følger den eneste lenken han kjenner til. Det er her det første besøket til boten alltid slutter. Etter en tid (vanligvis neste dag), ber boten om de neste sidene - ved å bruke lenkene som finnes på den allerede leste siden. Deretter fortsetter prosessen i samme rekkefølge: en forespørsel om sider, lenker til som allerede er funnet - en pause for å behandle de leste dokumentene - neste økt med en forespørsel om funnet lenker.

Å analysere sider "i farten" ville bety mye mer O større ressursintensitet for roboten og tap av tid. Hver skanneserver kjører mange bot-prosesser parallelt. De må handle så raskt som mulig for å få tid til å lese nye sider og gjenlese allerede kjente. Derfor leser og lagrer roboter kun dokumenter. Alt de lagrer står i kø for behandling (kodedemontering). Lenker funnet under sidebehandling plasseres i oppgavekøen for roboter. Så det er en kontinuerlig skanning av hele nettverket. Det eneste som roboten kan og bør analysere umiddelbart er robots.txt-filen, for ikke å be om adresser som er forbudt i den. Under hver økt med å gjennomsøke nettstedet, ber roboten først og fremst om denne filen, og etter den - alle de som står i kø for å skanne siden.

Typer søkeroboter

Hver søkemotor har sitt eget sett med roboter for forskjellige formål.
I utgangspunktet er de forskjellige i deres funksjonelle formål, selv om grensene er svært betingede, og hver søkemotor forstår dem på sin egen måte. For fulltekstsøkbare systemer er én robot nok for alle anledninger. For de søkemotorene som ikke bare er opptatt av tekst, er roboter delt inn i minst to kategorier: for tekster og bilder. Det finnes også separate roboter dedikert til spesifikke typer innhold – mobil, blogg, nyheter, video, etc.

Google-roboter

Alle Google-roboter er samlet kjent som Googlebot. Hovedrobotindekseren "representerer seg selv" som følger:

Mozilla/5.0 (kompatibel; Googlebot/2.1; +http://www.google.com/bot.html)

Denne boten er opptatt med å skanne HTML-sider og andre dokumenter Google søk. Den leser også CSS- og JS-filer fra tid til annen - du kan stort sett merke dette på et tidlig stadium av nettstedindeksering, mens boten gjennomsøker nettstedet for første gang. Aksepterte innholdstyper er alle (Godta: */*).

Den andre av hovedrobotene er opptatt med å skanne bilder fra nettstedet. Det "vises" ganske enkelt:

Googlebot-Image/1.0

Minst tre roboter ble også sett i loggene, opptatt med å samle innhold for mobilversjon Søk. Brukeragent-feltet for alle tre ender med linjen:

(kompatibel; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Før denne linjen - modell mobiltelefon som denne boten er kompatibel med. De merkede robotene har disse modellene Nokia-telefoner, Samsung og iPhone. Godkjente innholdstyper er alle, men prioriterte:

Godta: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Yandex-roboter

Av søkemotorene som er aktive i Runet, har Yandex den største samlingen av roboter. Se hjelpeseksjonen for nettredaktører for en offisiell liste over alt edderkopppersonell. Det gir ingen mening å gi det her i sin helhet, siden endringer skjer med jevne mellomrom i denne listen.
Likevel bør de viktigste Yandex-robotene for oss nevnes separat.
Hovedindekseringsrobot ringes for øyeblikket

Mozilla/5.0 (kompatibel; YandexBot/3.0; +http://yandex.com/bots)

Tidligere presentert som

Yandex/1.01.001 (kompatibel; Win16; I)

Leser nettsidens HTML-sider og andre dokumenter for indeksering. Listen over aksepterte medietyper var tidligere begrenset til:

Godta: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

Siden 31. juli 2009 har det blitt lagt merke til en betydelig utvidelse i denne listen (antall typer er nesten doblet), og siden 10. november 2009 er listen forkortet til */* (alle typer).
Denne roboten er sterkt interessert i et veldig spesifikt sett med språk: russisk, noe mindre ukrainsk og hviterussisk, litt mindre engelsk, og veldig lite - alle andre språk.

Accept-Language: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Bildeskannerrobot har følgende streng i User-agent-feltet:

Mozilla/5.0 (kompatibel; YandexImages/3.0; +http://yandex.com/bots)

Engasjert i skanning av grafikk i forskjellige formater for søk i bilder.

I motsetning til Google, har Yandex separate roboter for å betjene noen spesielle funksjoner generelt søk.
Robot "speil"

Mozilla/5.0 (kompatibel; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Det gjør ikke noe spesielt komplisert - det dukker opp med jevne mellomrom og sjekker om hovedsiden til nettstedet samsvarer med www når du får tilgang til domenet. og uten. Den sjekker også parallelle "speil"-domener for samsvar. Tilsynelatende håndteres speil og den kanoniske formen for domener i Yandex av en separat Software pakke En som ikke er direkte relatert til indeksering. Ellers er det absolutt ingenting som forklarer eksistensen av en egen bot for dette formålet.

favicon.ico ikonvelger

Mozilla/5.0 (kompatibel; YandexFavicons/1.0; +http://yandex.com/bots)

Dukker med jevne mellomrom og ber om favicon.ico-ikonet, som deretter vises i søkeresultatene ved siden av lenken til nettstedet. Av hvilke grunner bildevelgeren ikke kombinerer denne plikten er ukjent. Tilsynelatende er det også en egen programvarepakke.

Sjekk Bot for nye nettsteder, fungerer når det legges til i AddURL-skjemaet

Mozilla/5.0 (kompatibel; YandexWebmaster/2.0; +http://yandex.com/bots)

Denne boten sjekker nettstedets respons ved å sende en HEAD-forespørsel til rot-URLen. Dette sjekker eksistensen hjemmeside i domenet og analyser HTTP-hodene på den siden. Boten ber også om robots.txt-filen i roten til nettstedet. Etter å ha sendt inn en lenke til AddURL, fastslås det at nettstedet eksisterer, og verken robots.txt eller HTTP-hoder forbyr tilgang til hovedsiden.

Robot Rambler

Fungerer ikke lenger, fordi Rambler nå bruker Yandex-søk
Rambler-indekseringsroboten er lett å identifisere i loggene ved hjelp av feltet User-agent

StackRambler/2.0 (MSIE-inkompatibel)

Sammenlignet med sine "kolleger" fra andre søkemotorer, virker denne boten ganske enkel: den spesifiserer ikke en liste over medietyper (henholdsvis mottar den det forespurte dokumentet av enhver type), feltet Godta-språk mangler i forespørselen, og If-Modified-siden-feltet finnes heller ikke i botens forespørsler .

Mail.Ru robot

Lite er kjent om denne roboten. Mail.Ru-portalen har utviklet sitt eget søk i lang tid, men den kommer fortsatt ikke til å starte dette søket. Derfor er bare navnet på boten i User-agenten pålitelig kjent - Mail.Ru/2.0 (tidligere - Mail.Ru/1.0). Navnet på boten for direktivene til robors.txt-filen har ikke blitt publisert noe sted, det er en antagelse om at boten skal hete Mail.Ru.

Andre roboter

Å søke på Internett er selvfølgelig ikke begrenset til to søkemotorer. Derfor finnes det andre roboter – for eksempel Bing-roboten – en søkemotor fra Microsoft og andre roboter. Så spesielt i Kina er det en nasjonal søkemotor Baidu - men roboten vil neppe nå midten av elven og nå det russiske nettstedet.

I tillegg har mange tjenester nylig avlet frem - spesielt solomono - som, selv om de ikke er søkemotorer, også skanner nettsteder. Ofte er verdien av å sende informasjon om nettstedet til slike systemer tvilsom, og derfor kan robotene deres bli utestengt i

Hvordan søkemotorroboter fungerer

En søkerobot (edderkopp, bot) er et lite program som kan besøke millioner av nettsider og skanne gigabyte med tekster uten deltakelse fra en operatør. Å lese sider og lagre tekstkopier er det første trinnet med å indeksere nye dokumenter. Det skal bemerkes at søkemotorroboter ikke utfører noen behandling av de mottatte dataene. Deres oppgave er bare å bevare tekstinformasjon.

Flere videoer på kanalen vår - lær internettmarkedsføring med SEMANTICA

Liste over søkeroboter

Av alle søkemotorene som er involvert i å skanne Runet, har Yandex den største samlingen av roboter. Følgende roboter er ansvarlige for indeksering:

den viktigste indekseringsroboten som samler inn data fra nettsider;
en bot som er i stand til å gjenkjenne speil;
Yandex søkerobot som indekserer bilder;
en edderkopp som surfer på sidene til nettsteder som er akseptert i YAN;
robot skanning favicon ikoner;
flere edderkopper som bestemmer tilgjengeligheten av nettstedssider.

Googles hovedsøkerobot samler inn tekstinformasjon. I utgangspunktet ser den på html-filer, analyserer JS og CSS med jevne mellomrom. Kan godta alle innholdstyper som er tillatt for indeksering. PS Google har en edderkopp som kontrollerer indeksering av bilder. Det er også en søkerobot - et program som støtter funksjonen til mobilversjonen av søket.

Se nettstedet gjennom øynene til en søkerobot

For å rette opp kodefeil og andre mangler kan webmaster finne ut hvordan søkeroboten ser på siden. Dette alternativet leveres av Google PS. Du må gå til verktøy for nettredaktører, og deretter klikke på "skann"-fanen. I vinduet som åpnes velger du linjen «surf som Googlebot». Deretter må du skrive inn adressen til siden som studeres i søkeskjemaet (uten å spesifisere domenet og http://-protokollen).

Ved å velge "hent og vis"-kommandoen, vil nettredaktøren være i stand til visuelt å vurdere tilstanden til sidesiden. For å gjøre dette, må du klikke på avmerkingsboksen "forespørsel om visning". Et vindu åpnes med to versjoner av nettdokumentet. Nettredaktøren lærer hvordan en vanlig besøkende ser siden, og i hvilken form den er tilgjengelig for søkeedderkoppen.

Tips! Hvis nettdokumentet som analyseres ennå ikke er indeksert, kan du bruke kommandoen "legg til i indeks" >> "gjennomsøk bare denne URL". Edderkoppen vil analysere dokumentet om noen minutter, i nær fremtid vil nettsiden vises i søkeresultatene. Den månedlige grensen for indekseringsforespørsel er 500 dokumenter.

Hvordan påvirke indekseringshastigheten

Etter å ha funnet ut hvordan søkeroboter fungerer, vil webmasteren kunne markedsføre nettstedet sitt mye mer effektivt. Et av hovedproblemene til mange unge nettprosjekter er dårlig indeksering. Søkemotorroboter er motvillige til å besøke ikke-autoritative Internett-ressurser.
Det er fastslått at indekseringshastigheten direkte avhenger av intensiteten som siden oppdateres med. Regelmessig å legge til unikt tekstmateriale vil tiltrekke søkemotorens oppmerksomhet.

For å få fart på indekseringen kan du bruke sosiale bokmerker og twittertjenesten. Det anbefales å generere et områdekart og laste det opp til rotkatalogen til webprosjektet.

søkerobot kalt spesialprogram enhver søkemotor som er laget for å gå inn i databasen (indeksere) nettstedene som finnes på Internett og deres sider. Navnene brukes også: crawler, spider, bot, automaticindexer, maur, webcrawler, bot, webscutter, webrobots, webspider.

Prinsipp for operasjon

Søkeroboten er et nettleserprogram. Han skanner hele tiden nettverket: han besøker indekserte (allerede kjent for ham) nettsteder, følger lenker fra dem og finner nye ressurser. Når en ny ressurs blir funnet, legger prosedyreroboten den til i søkemotorindeksen. Søkeroboten indekserer også oppdateringer på nettsteder, hvor frekvensen er fast. For eksempel vil et nettsted som oppdateres en gang i uken bli besøkt av en edderkopp med denne frekvensen, og innhold på nyhetssider kan indekseres i løpet av minutter etter publisering. Hvis ingen koblinger fra andre ressurser fører til nettstedet, må ressursen legges til via et spesielt skjema (Google Webmaster Center, Yandex Webmaster Panel, etc.) for å tiltrekke søkeroboter.

Typer søkeroboter

Yandex edderkopper:

Yandex/1.01.001 I er den viktigste indekseringsroboten,
Yandex/1.01.001 (P) - indekserer bilder,
Yandex/1.01.001 (H) - finner sidespeil,
Yandex/1.03.003 (D) - bestemmer om siden som er lagt til fra nettredaktørpanelet samsvarer med indekseringsparametrene,
YaDirectBot/1.0 (I) - indekserer ressurser fra annonsenettverk Yandex,
Yandex/1.02.000 (F) — indekserer nettstedfavikoner.

Google Edderkopper:

Googlebot er hovedroboten,
Googlebot News – gjennomsøker og indekserer nyheter,
Google Mobile – indekserer nettsteder for mobile enheter,
Googlebot Images – søker og indekserer bilder,
Googlebot Video - indekserer videoer,
Google AdsBot – kontrollerer kvaliteten på landingssiden,
Google Mobile Adsense og Google adsense- indekserer sidene til Googles annonsenettverk.

Andre søkemotorer bruker også flere typer roboter som er funksjonelt lik de som er oppført.

Hvordan fungerer søkemotorer? En av de flotte tingene med Internett er at det er hundrevis av millioner av nettressurser som venter og er klare til å bli presentert for oss. Men det dårlige er at det er de samme millioner sidene som, selv om vi trenger dem, ikke vil dukke opp foran oss, fordi. er rett og slett ukjente for oss. Hvordan finne ut hva og hvor kan finnes på Internett? Vi pleier å henvende oss til søkemotorer for dette.

Internett-søkemotorer er spesielle nettsteder i globalt nettverk, som er laget for å hjelpe folk å finne verdensveven informasjonen de trenger. Det er forskjeller i måten søkemotorer utfører funksjonene sine på, men generelt er det 3 grunnleggende og identiske funksjoner:

Alle "søker" på Internett (eller en eller annen sektor av Internett) - basert på gitte nøkkelord;
- alle søkemotorer indekserer ordene de leter etter og stedene de finner dem;
- alle søkemotorer lar brukere søke etter ord eller kombinasjoner av nøkkelord basert på nettsider som allerede er indeksert og lagt inn i databasene deres.

De aller første søkemotorene indekserte opptil flere hundre tusen sider og mottok 1000 til 2000 søk per dag. I dag har de beste søkemotorene indeksert og indekserer kontinuerlig hundrevis av millioner sider, og behandler titalls millioner forespørsler per dag. Nedenfor vil vi snakke om hvordan søkemotorer fungerer og hvordan de "legger til" all informasjon som finnes for å kunne svare på spørsmål som interesserer oss.

La oss se på nettet

Når folk snakker om Internett-søkemotorer maskiner, betyr de virkelig søkemotorer verdensveven. Før nettet ble den mest synlige delen av Internett, eksisterte søkemotorer allerede for å hjelpe folk med å finne informasjon på nettet. Programmer kalt "gopher" og "Archie" var i stand til å indeksere filer som var vert på forskjellige servere koblet til Internett Internett og reduserte tiden brukt på søk gjentatte ganger ønskede programmer eller dokumenter. På slutten av 80-tallet av forrige århundre var synonymet for "evnen til å jobbe på Internett" muligheten til å bruke gopher, Archie, Veronica, etc. søkeprogrammer. I dag begrenser de fleste Internett-brukere søket til kun verdensomspennende nettverk, eller www.

liten start

Før du svarer deg hvor du finner ønsket dokument eller fil, må denne filen eller dokumentet allerede være funnet på et tidspunkt. For å finne informasjon om hundrevis av millioner av eksisterende WEB-sider, bruker søkemotoren et spesielt robotprogram. Dette programmet kalles også en edderkopp ("edderkopp", edderkopp) og brukes til å bygge en liste over ord som finnes på siden. Prosessen med å bygge en slik liste kalles nettgjennomgang(Webcrawling). For ytterligere å bygge og begå en "nyttig" (meningsfull) liste med ord, må søkeedderkoppen "scrolle" mange andre sider.

Hvordan begynner noen? edderkopp(edderkopp) din nettreise? Vanligvis er utgangspunktet verdens største servere og svært populære nettsider. Edderkoppen starter sin reise fra et slikt nettsted, indekserer alle ordene som er funnet og fortsetter sin bevegelse videre ved å følge lenker til andre nettsteder. Dermed begynner edderkopproboten å dekke alle de store "bitene" av nettplassen. Google.com startet som en akademisk søkemotor. I en artikkel som beskrev hvordan denne søkemotoren ble opprettet, ga Sergey Brin og Laurence Page (grunnleggere og eiere av Google) et eksempel på hvor raskt Google-edderkopper fungerer. Det er flere av dem og vanligvis begynner søket med bruk av 3 edderkopper. Hver edderkopp opprettholder opptil 300 samtidige åpne forbindelser til nettsider. Ved toppbelastning, ved bruk av 4 edderkopper, er Google-systemet i stand til å behandle 100 sider per sekund, og generere trafikk på omtrent 600 kilobyte/sek.

For å gi edderkoppene dataene de trenger å behandle, pleide Google å ha en server som ikke gjorde annet enn å "kaste" edderkoppene med flere og flere nettadresser. For ikke å være avhengig av Internett-tjenesteleverandører når det gjelder domenenavnservere (DNS) som oversetter url til IP-adresse, har Google anskaffet sin egen DNS-server, noe som reduserer all tid brukt på indeksering av sider til et minimum.

Når Google Robot er på besøk HTML-side, den tar hensyn til 2 ting:

Ord (tekst) per side;
- deres plassering (i hvilken del av hoveddelen av siden).

Ord som ligger med tjenesteseksjoner som f.eks tittel, undertekster, metakoder et al. ble flagget som spesielt viktige for brukersøk. Google-edderkoppen ble bygget for å indeksere hvert lignende ord på en side, med unntak av interjeksjoner som "a", "an" og "the.". Andre søkemotorer har en litt annen tilnærming til indeksering.

Alle tilnærminger og algoritmer til søkemotorer er til syvende og sist rettet mot å få edderkopproboter til å jobbe raskere og mer effektivt. For eksempel sporer noen søkeroboter når de indekserer ordene i tittelen, lenkene og opptil 100 av de mest brukte ordene på siden, og til og med hvert av ordene i de første 20 linjene i tekstinnholdet på siden. Dette er indekseringsalgoritmen, spesielt for Lycos.

Andre søkemotorer, som AltaVista, går i den andre retningen, og indekserer hvert eneste ord på en side, inkludert "a", "en", "den" og andre uviktige ord.

Meta-tagger

Metakoder lar eieren av en nettside spesifisere nøkkelord og konsepter som definerer essensen av innholdet. Dette er et veldig nyttig verktøy, spesielt når disse søkeordene kan gjentas opptil 2-3 ganger i sideteksten. I dette tilfellet kan metatagger "dirigere" søkeroboten til riktig valg av søkeord for å indeksere siden. Det er en mulighet for å "jukse" metatagger i overkant av populære søk og konsepter som ikke har noe å gjøre med innholdet på selve siden. Søk roboter er i stand til å håndtere dette, for eksempel ved å analysere sammenhengen mellom metatagger og nettsideinnhold, "kaste ut" de metataggene (henholdsvis nøkkelord) som ikke samsvarer med innholdet på sidene.

Alt dette gjelder de tilfellene hvor eieren av en nettressurs virkelig ønsker å bli inkludert i søkeresultatene for de ønskede søkeordene. Men det skjer ofte at eieren ikke ønsker å bli indeksert av roboten i det hele tatt. Men slike tilfeller tilhører ikke emnet for artikkelen vår.

Indeksbygg

Når edderkoppene har fullført jobben med å finne nye nettsider, må søkemotorene plassere all informasjonen de finner på en måte som er enkel å bruke senere. Det er 2 nøkkelkomponenter som betyr noe her:

Informasjon lagret med data;
- metoden som denne informasjonen er indeksert på.

I det enkleste tilfellet kan søkemotoren ganske enkelt plassere ordet og nettadressen der det er funnet. Men dette vil gjøre søkemotoren til et veldig primitivt verktøy, siden det ikke er informasjon om hvilken del av dokumentet dette ordet ligger i (metakoder eller i ren tekst), om dette ordet brukes én gang eller gjentatte ganger, og om det er inneholdt i en lenke til en annen viktig og relatert ressurs. Med andre ord, denne metoden vil ikke tillate deg å rangere nettsteder, vil ikke gi brukerne relevante resultater osv.

For å gi oss nyttige data lagrer søkemotorer mer enn bare informasjon fra et ord og dets URL. Søkemotoren kan lagre data om antall (hyppighet) av omtale av et ord på en side, tilordne en "vekt" til ordet, noe som ytterligere vil bidra til å utstede søkeoppføringer (resultater) basert på vektrangeringen for dette ordet, tar hensyn til plasseringen (i lenker, metakoder, sidetittel) og så videre.). Hver kommersiell søkemotor har sin egen formel for å beregne "vekten" av søkeord ved indeksering. Dette er en av grunnene til det samme søkeord Søkemotorer gir svært forskjellige resultater.

Neste viktig poeng når du behandler den funnet informasjonen - dens koding for å redusere mengden diskplass for lagringen. For eksempel, i den originale Google-artikkelen, er det beskrevet at 2 byte (8 biter hver) brukes til å lagre vektdata for ord - dette tar hensyn til typen av ordet (store eller store bokstaver), størrelsen på bokstavene selv (skriftstørrelse), og annen informasjon, som hjelper til med å rangere nettstedet. Hver slik "bit" informasjon krever 2-3 biter med data i et komplett sett på 2 byte. Som et resultat kan en enorm mengde informasjon lagres i en svært kompakt form. Etter at informasjonen er "komprimert", er det på tide å begynne å indeksere.

Målet med indeksering er det samme: å gi maksimalt raskt søk nødvendig informasjon. Det er flere måter å bygge indekser på, men den mest effektive er å bygge hasjtabeller(hash-tabell). Hashing bruker en formel som tildeler en numerisk verdi til hvert ord.

På alle språk er det bokstaver som begynner med mange flere ord enn med resten av bokstavene i alfabetet. For eksempel er det betydelig flere ord som begynner med bokstavene "M" i den engelske ordbokdelen enn de som begynner med bokstaven "X". Dette betyr at det vil ta lengre tid å søke etter et ord som begynner med den mest populære bokstaven enn noe annet ord. hashing(Hashing) utjevner denne forskjellen og reduserer den gjennomsnittlige oppslagstiden, og skiller også selve indeksen fra de virkelige dataene. Hash-tabellen inneholder hash-verdiene sammen med en peker til dataene som tilsvarer den verdien. Effektiv indeksering + effektiv plassering gir sammen høy søkehastighet, selv om brukeren setter et svært komplekst søk.

Fremtiden til søkemotorer

Et søk basert på boolske operatorer ("og", "eller", "ikke") er et bokstavelig søk -- søkemotoren henter søkeordene nøyaktig slik de skrives inn. Dette kan forårsake et problem når for eksempel det angitte ordet har flere betydninger. «Nøkkel» kan for eksempel bety «betyr å åpne en dør», eller det kan bety «passord» for å gå inn på en server. Hvis du bare er interessert i én betydning av et ord, trenger du åpenbart ikke data om dets andre betydning. Du kan selvfølgelig bygge en bokstavelig spørring som lar deg ekskludere utdata om den unødvendige betydningen av ordet, men det ville vært fint om søkemotoren kunne hjelpe deg.

Et forskningsområde i fremtidige søkemotoralgoritmer er konseptuell informasjonsinnhenting. Dette er algoritmer der statistisk analyse av sider som inneholder et gitt søkeord eller frase brukes for å finne relevante data. Det er klart at en slik "konseptuell søkemotor" vil trenge mye mer lagringsplass for hver side og mer tid til å behandle hver forespørsel. Mange forskere jobber for tiden med dette problemet.

Det jobbes ikke mindre intensivt med å utvikle søkealgoritmer basert på søk. naturlig språk(Naturlig-språk-spørring).

Tanken bak naturlige spørringer er at du kan skrive en spørring som om du spør en kollega som sitter overfor deg. Du trenger ikke bekymre deg for boolske operatorer eller bry deg med å komponere komplekst søk. Det mest populære søkenettstedet for naturlig søkespråk i dag er AskJeeves.com. Den konverterer spørringen til nøkkelord, som den deretter bruker når den indekserer nettsteder. Denne tilnærmingen fungerer bare for enkle spørsmål. Fremgangen står imidlertid ikke stille, det er mulig at vi ganske snart vil "snakke" med søkemotorer på vårt eget, "menneskelige språk".

Venner, jeg hilser dere igjen! Nå skal vi analysere hva søkeroboter er og snakke i detalj om google-søkeroboten og hvordan bli venner med dem.

Først må du forstå hva søkeroboter er generelt, de kalles også edderkopper. Hvilken jobb gjør søkemotoredderkopper?

Dette er programmer som sjekker nettsider. De ser gjennom alle innlegg og sider på bloggen din, samler inn informasjon, som de deretter overfører til databasen til søkemotoren de jobber for.

Du trenger ikke å kunne hele listen over søkeroboter, det viktigste er å vite at Google nå har to hovededderkopper, som kalles «panda» og «pingvin». De kjemper med innhold av lav kvalitet og søppelkoblinger, og du må vite hvordan du kan avvise angrepene deres.

Søkeroboten google panda ble opprettet for kun å promotere materiale av høy kvalitet i søket. Alle nettsteder med lavkvalitetsinnhold senkes i søkeresultatene.

Første gang denne edderkoppen dukket opp i 2011. Før det dukket opp, var det mulig å markedsføre et hvilket som helst nettsted ved å publisere en stor mengde tekst i artikler og bruke en enorm mengde søkeord. Sammen førte ikke disse to teknikkene innhold av høy kvalitet til toppen av søkeresultatene, men gode sider gikk ned i søkeresultatene.

«Panda» satte umiddelbart i orden ved å sjekke alle nettstedene og sette alle på sine rettmessige steder. Selv om hun sliter med innhold av lav kvalitet, kan selv små nettsteder med kvalitetsartikler markedsføres nå. Selv om det var nytteløst å promotere slike sider før, kunne de ikke konkurrere med gigantene som har en stor mengde innhold.

Nå skal vi finne ut hvordan vi unngår "panda"-sanksjonene. Vi må først forstå hva hun ikke liker. Jeg skrev allerede ovenfor at hun sliter med dårlig innhold, men hva slags tekst er dårlig for henne, la oss finne ut av det for ikke å publisere dette på siden hennes.

Google-søkeroboten streber etter å sikre at kun materialer av høy kvalitet for søkere utstedes i denne søkemotoren. Hvis du har artikler der det er lite informasjon og de ikke er attraktive i utseende, må du snarest skrive om disse tekstene slik at "pandaen" ikke kommer til deg.

Kvalitetsinnhold kan være både stort og smått, men hvis edderkoppen ser en lang artikkel med mye informasjon, vil det gagne leseren mer.

Da bør det bemerkes duplisering, med andre ord plagiat. Hvis du tror at du vil omskrive andres artikler til bloggen din, kan du umiddelbart sette en stopper for nettstedet ditt. Kopiering straffes hardt ved å bruke et filter, og plagiering kontrolleres veldig enkelt, jeg skrev en artikkel om emnet hvordan sjekke tekster for unike.

Den neste tingen å legge merke til er overmetningen av teksten med nøkkelord. Den som tror at han vil skrive en artikkel fra de samme søkeordene og ta førsteplassen i søkeresultatene tar veldig feil. Jeg har en artikkel om hvordan du sjekker sider for relevans, sørg for å lese den.

Og det som ellers kan tiltrekke en "panda" til deg er gamle artikler som er moralsk utdaterte og ikke bringer trafikk til nettstedet. De må oppdateres.

Det er også en google søkerobot "pingvin". Denne edderkoppen bekjemper spam og søppelkoblinger på nettstedet ditt. Den beregner også kjøpte lenker fra andre ressurser. For ikke å være redd for denne søkeroboten bør du derfor ikke kjøpe linker, men publisere innhold av høy kvalitet slik at folk linker til deg selv.

La oss nå formulere hva som må gjøres for å få nettstedet til å se perfekt ut gjennom øynene til en søkerobot:

For å lage kvalitetsinnhold bør du først studere emnet godt før du skriver en artikkel. Da må du forstå at folk virkelig er interessert i dette emnet.

Bruk konkrete eksempler og bilder, dette vil gjøre artikkelen livlig og interessant. Del teksten i små avsnitt for å gjøre den lett å lese. For eksempel, hvis du åpner en side med vitser i en avis, hvilke vil du lese først? Hver person leser naturligvis først korte tekster, så lengre og sist men ikke minst lange fottøy.

Pandas favoritt-nitpick er ikke relevansen til en artikkel som inneholder utdatert informasjon. Følg med for oppdateringer og endre tekster.

Se tettheten av søkeord, jeg skrev ovenfor hvordan du bestemmer denne tettheten, i tjenesten jeg snakket om vil du motta det nøyaktige antallet nøkler som kreves.

Ikke plagier, alle vet at du ikke kan stjele andres ting eller tekst – det er det samme. Du vil være ansvarlig for tyveri ved å komme under filteret.

Skriv tekster på minst to tusen ord, så vil en slik artikkel se informativ ut gjennom øynene til søkemotorroboter.

Ikke gå utenfor emnet på bloggen din. Hvis du driver en blogg om å tjene penger på Internett, trenger du ikke skrive ut artikler om luftvåpen. Dette kan redusere vurderingen av ressursen din.

Design artikler vakkert, del dem inn i avsnitt og legg til bilder for å gjøre det behagelig å lese og ikke vil raskt forlate nettstedet.

Når du kjøper lenker, gjør dem til de mest interessante og nyttige artiklene som folk faktisk vil lese.

Vel, nå vet du hva slags arbeid søkemotorroboter gjør, og du kan være venner med dem. Og viktigst av alt, google-søkeroboten og "panda" og "pingvin" har blitt studert i detalj av deg.

Populær i kategorien: