Hvilket arbeid gjør søkemotoredderkopper? Hva er en søkerobot? Funksjoner til søkeroboten "Yandex" og Google. Hva gjør en søkerobot?

I motsetning til hva mange tror, ​​er ikke roboten direkte involvert i noen behandling av skannede dokumenter. Den leser og lagrer dem bare, deretter behandles de av andre programmer. Visuell bekreftelse kan oppnås ved å analysere loggene til et nettsted som blir indeksert for første gang. Ved det første besøket ber roboten først om robots.txt-filen, deretter hovedsiden til nettstedet. Det vil si at han følger den eneste lenken han kjenner til. Det er her botens første besøk alltid slutter. Etter en tid (vanligvis neste dag), ber boten om følgende sider - ved å bruke lenker som finnes på siden som allerede er lest. Deretter fortsetter prosessen i samme rekkefølge: forespørsel om sider som allerede er funnet lenker til - en pause for å behandle de leste dokumentene - neste økt med forespørsel om lenker som er funnet.

Å analysere sider i farten vil bety betydelig mer O større ressursforbruk av roboten og tap av tid. Hver skanneserver kjører flere bot-prosesser parallelt. De må handle så raskt som mulig for å få tid til å lese nye sider og gjenlese eksisterende. Derfor leser og lagrer roboter kun dokumenter. Det de lagrer står i kø for behandling (kodeparsing). Lenker funnet under sidebehandling plasseres i en oppgavekø for roboter. Slik skannes hele nettverket kontinuerlig. Det eneste som en robot kan og bør analysere umiddelbart er robots.txt-filen, for ikke å be om adresser som er forbudt i den. Under hver gjennomsøkingsøkt ber roboten først om denne filen, og etter den står alle sidene i kø for gjennomsøking.

Typer søkeroboter

Hver søkemotor har sitt eget sett med roboter for forskjellige formål.
I utgangspunktet er de forskjellige i deres funksjonelle formål, selv om grensene er veldig vilkårlige, og hver søkemotor forstår dem på sin egen måte. For systemer kun for fulltekstsøk er én robot nok for alle anledninger. For de søkemotorene som ikke bare er engasjert i tekst, er roboter delt inn i minst to kategorier: for tekster og tegninger. Det finnes også separate roboter dedikert til spesifikke typer innhold – mobil, blogg, nyheter, video, etc.

Google Robots

Alle Google-roboter kalles samlet Googlebot. Hovedrobotindekseren "introduserer seg selv" slik:

Mozilla/5.0 (kompatibel; Googlebot/2.1; +http://www.google.com/bot.html)

Denne boten er opptatt med å skanne HTML-sider og andre dokumenter Google søk. Den leser også av og til CSS- og JS-filer - dette kan hovedsakelig merkes på et tidlig stadium av nettstedindeksering, mens boten gjennomsøker nettstedet for første gang. Aksepterte innholdstyper er alle (Godta: */*).

Den andre av hovedrobotene er opptatt med å skanne bilder fra nettstedet. Den "introduserer seg selv" ganske enkelt:

Googlebot-Image/1.0

Minst tre roboter ble også sett i loggene, opptatt med å samle innhold for mobilversjon Søk. Brukeragent-feltet for alle tre ender med linjen:

(kompatibel; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Før denne linjen er modellen mobiltelefon, som denne boten er kompatibel med. De flekkete robotene har modeller Nokia-telefoner, Samsung og iPhone. Godkjente innholdstyper er alle, men med prioriteringer angitt:

Godta: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Yandex-roboter

Av søkemotorene som er aktive på RuNet, har Yandex den største samlingen av roboter. I hjelpeseksjonen for nettredaktører kan du finne en offisiell liste over alt edderkopppersonell. Det er ingen vits i å presentere det her i sin helhet, siden endringer skjer med jevne mellomrom i denne listen.
Imidlertid må de viktigste Yandex-robotene for oss nevnes separat.
Grunnleggende indekseringsrobot for øyeblikket kalt

Mozilla/5.0 (kompatibel; YandexBot/3.0; +http://yandex.com/bots)

Tidligere representert som

Yandex/1.01.001 (kompatibel; Win16; I)

Leser nettsidens HTML-sider og andre dokumenter for indeksering. Listen over aksepterte medietyper var tidligere begrenset:

Godta: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

Siden 31. juli 2009 har det blitt lagt merke til en betydelig utvidelse i denne listen (antall typer er nesten doblet), og siden 10. november 2009 er listen forkortet til */* (alle typer).
Denne roboten er sterkt interessert i et veldig spesifikt sett med språk: russisk, litt mindre ukrainsk og hviterussisk, litt mindre engelsk, og veldig lite - alle andre språk.

Accept-Language: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Robot bildeskanner har følgende linje i User-agent-feltet:

Mozilla/5.0 (kompatibel; YandexImages/3.0; +http://yandex.com/bots)

Engasjert i å skanne grafikk i ulike formater for å søke i bilder.

I motsetning til Google, har Yandex separate roboter for å betjene noen spesielle funksjoner generelt søk.
Robot "speil"

Mozilla/5.0 (kompatibel; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Det gjør ikke noe spesielt komplisert - det vises med jevne mellomrom og sjekker om hovedsiden til nettstedet samsvarer når du får tilgang til domenet med www. og uten. Sjekker også parallelle "speil"-domener for treff. Tilsynelatende håndteres speil og den kanoniske formen for domener i Yandex separat Software pakke, ikke direkte relatert til indeksering. Ellers er det absolutt ingenting som forklarer eksistensen av en egen bot for dette formålet.

Ikonsamler favicon.ico

Mozilla/5.0 (kompatibel; YandexFavicons/1.0; +http://yandex.com/bots)

Den vises med jevne mellomrom og ber om favicon.ico-ikonet, som deretter vises i søkeresultatene ved siden av lenken til nettstedet. Av hvilke grunner bildesamleren ikke deler dette ansvaret er ukjent. Tilsynelatende er det også en egen programvarepakke på spill.

Verifiseringsrobot for nye nettsteder, fungerer når det legges til i AddURL-skjemaet

Mozilla/5.0 (kompatibel; YandexWebmaster/2.0; +http://yandex.com/bots)

Denne boten sjekker nettstedets svar ved å sende en HEAD-forespørsel til rot-URLen. På denne måten sjekker vi eksistensen hjemmeside i domenet og HTTP-hodene på denne siden analyseres. Boten ber også om robots.txt-filen i roten til nettstedet. Etter å ha sendt inn lenken til AddURL, fastslås det at nettstedet eksisterer, og verken robots.txt eller HTTP-hoder forbyr tilgang til hovedsiden.

Rambler robot

Fungerer ikke lenger, siden Rambler nå bruker Yandex-søk
Rambler-indekseringsroboten kan enkelt identifiseres i loggene ved hjelp av User-agent-feltet

StackRambler/2.0 (MSIE-inkompatibel)

Sammenlignet med sine "kolleger" fra andre søkemotorer, virker denne boten ganske enkel: den indikerer ikke en liste over medietyper (følgelig mottar den det forespurte dokumentet av enhver type), feltet Godta-språk mangler i forespørselen, og If-Modified-siden-feltet finnes ikke i botens forespørsler .

Robot Mail.Ru

Lite er kjent om denne roboten ennå. Mail.Ru-portalen har utviklet sitt eget søk i lang tid, men den har fortsatt ikke kommet seg rundt til å starte dette søket. Derfor er bare navnet på boten i User-agenten kjent med sikkerhet - Mail.Ru/2.0 (tidligere - Mail.Ru/1.0). Navnet på boten for direktivene til robors.txt-filen har ikke blitt publisert noe sted; det er en antagelse om at boten skal hete Mail.Ru.

Andre roboter

Internett-søk er selvfølgelig ikke begrenset til to søkemotorer. Derfor finnes det andre roboter – for eksempel Bing-roboten – søkemotoren fra Microsoft og andre roboter. Så spesielt i Kina er det en nasjonal søkemotor Baidu - men roboten vil neppe nå midten av elven og nå det russiske nettstedet.

I tillegg har mange tjenester nylig spredt seg - spesielt solomono - som, selv om de ikke er søkemotorer, også skanner nettsteder. Ofte er verdien av å overføre nettstedsinformasjon til slike systemer tvilsom, og derfor kan robotene deres utestenges

Hvordan søkemotorroboter fungerer

En søkerobot (edderkopp, bot) er et lite program som kan besøke millioner av nettsteder og skanne gigabyte med tekst uten operatørintervensjon. Å lese sider og lagre tekstkopier av dem er den første fasen av indeksering av nye dokumenter. Det skal bemerkes at søkemotorroboter ikke utfører noen behandling av de mottatte dataene. Deres oppgave er bare å bevare tekstinformasjon.

Flere videoer på kanalen vår - lær internettmarkedsføring med SEMANTICA

Liste over søkeroboter

Av alle søkemotorene som skanner Runet, har Yandex den største samlingen av roboter. Følgende roboter er ansvarlige for indeksering:

  • den viktigste indekseringsroboten som samler inn data fra nettsider;
  • en bot som kan gjenkjenne speil;
  • Yandex søkerobot, som indekserer bilder;
  • en edderkopp som skanner sidene til nettsteder akseptert av YAN;
  • robot skanning favicon ikoner;
  • flere edderkopper som bestemmer tilgjengeligheten til nettstedssider.

Googles hovedsøkerobot samler inn tekstinformasjon. I utgangspunktet ser den HTML-filer og analyserer JS og CSS med visse intervaller. Kan godta alle typer innhold som er tillatt for indeksering. PS Google har en edderkopp som kontrollerer indeksering av bilder. Det er også en søkerobot - et program som støtter funksjonen til mobilversjonen av søket.

Se nettstedet gjennom øynene til en søkerobot

For å rette opp kodefeil og andre mangler kan webmaster finne ut hvordan søkeroboten ser på siden. Denne muligheten tilbys av Google PS. Du må gå til verktøy for nettredaktører, og deretter klikke på "gjennomgang"-fanen. I vinduet som åpnes, må du velge linjen "vis som Googlebot". Deretter må du skrive inn adressen til siden du undersøker i søkeskjemaet (uten å spesifisere domenet og http://-protokollen).

Ved å velge "hent og vis"-kommandoen, vil nettredaktøren være i stand til visuelt å vurdere tilstanden til siden på nettstedet. For å gjøre dette, må du klikke på avmerkingsboksen "forespørsel om visning". Et vindu åpnes med to versjoner av nettdokumentet. Nettredaktøren lærer hvordan en vanlig besøkende ser siden, og i hvilken form den er tilgjengelig for søkeedderkoppen.

Tips!Hvis nettdokumentet du analyserer ennå ikke er indeksert, kan du bruke kommandoen "legg til i indeks" >> "skann bare denne URL". Edderkoppen vil analysere dokumentet om noen minutter, og i nær fremtid vil nettsiden vises i søkeresultatene. Den månedlige grensen for indekseringsforespørsler er 500 dokumenter.

Hvordan påvirke indekseringshastigheten

Etter å ha funnet ut hvordan søkeroboter fungerer, vil en webmaster kunne markedsføre nettstedet sitt mye mer effektivt. Et av hovedproblemene til mange unge nettprosjekter er dårlig indeksering. Søkemotorroboter er motvillige til å besøke uautoriserte Internett-ressurser.
Det er fastslått at indekseringshastigheten direkte avhenger av intensiteten som nettstedet oppdateres med. Regelmessig å legge til unikt tekstmateriale vil tiltrekke seg oppmerksomheten til søkemotorene.

For å få fart på indekseringen kan du bruke sosiale bokmerker og twittertjenesten. Det anbefales å lage et områdekart og laste det opp til rotkatalogen til webprosjektet.

Søk robot kalt spesialprogram enhver søkemotor som er designet for å gå inn i en database (indeks) nettsteder og deres sider funnet på Internett. Navn som også brukes: crawler, spider, bot, automaticindexer, maur, webcrawler, bot, webscutter, webrobots, webspider.

Prinsipp for operasjon

En søkerobot er et nettleserprogram. Den skanner hele tiden nettverket: besøker indekserte (allerede kjente) nettsteder, følger koblinger fra dem og finner nye ressurser. Når en ny ressurs blir oppdaget, legger prosedyreroboten den til i søkemotorindeksen. Søkeroboten indekserer også oppdateringer på nettsteder, hvor frekvensen er fast. For eksempel vil et nettsted som oppdateres en gang i uken bli besøkt av en edderkopp med denne frekvensen, og innhold på nyhetssider kan indekseres innen minutter etter publisering. Hvis ingen lenker fra andre ressurser fører til nettstedet, må ressursen legges til via et spesielt skjema (Google Webmaster Center, Yandex Webmaster Panel, etc.) for å tiltrekke søkeroboter.

Typer søkeroboter

Yandex edderkopper:

  • Yandex/1.01.001 I - hovedroboten som er involvert i indeksering,
  • Yandex/1.01.001 (P) - indekserer bilder,
  • Yandex/1.01.001 (H) - finner speilsider,
  • Yandex/1.03.003 (D) - bestemmer om siden som er lagt til fra nettredaktørpanelet oppfyller indekseringsparametrene,
  • YaDirectBot/1.0 (I) - indekserer ressurser fra annonsenettverk Yandex,
  • Yandex/1.02.000 (F) - indekserer nettstedfavikoner.

Google Edderkopper:

  • Googlebot er hovedroboten
  • Googlebot News – skanner og indekserer nyheter,
  • Google Mobile – indekserer nettsteder for mobile enheter,
  • Googlebot Images – søker og indekserer bilder,
  • Googlebot Video - indekserer videoer,
  • Google AdsBot – kontrollerer kvaliteten på landingssiden,
  • Google Mobile AdSense og Google AdSense— indekserer nettsteder i Googles annonsenettverk.

Andre søkemotorer bruker også flere typer roboter som er funksjonelt lik de som er oppført.

Hvordan fungerer søkemotorer? Noe av det fantastiske med Internett er at det er hundrevis av millioner av nettressurser som venter og er klare til å bli presentert for oss. Men det dårlige er at det er de samme millioner sidene som, selv om vi trenger dem, ikke vil vises foran oss, fordi... rett og slett ukjent for oss. Hvordan finne ut hva og hvor du kan finne på Internett? For å gjøre dette, henvender vi oss vanligvis til søkemotorer.

Internett-søkemotorer er spesielle nettsteder i globalt nettverk, som er laget for å hjelpe folk å finne verdensveven informasjonen de trenger. Det er forskjeller i måten søkemotorer utfører funksjonene sine på, men generelt er det 3 hovedfunksjoner og identiske funksjoner:

Alle "søker" på Internett (eller en del av Internett) - basert på gitte nøkkelord;
- alle søkemotorer indekserer ordene de søker etter og stedene de finner dem;
- alle søkemotorer lar brukere søke etter ord eller kombinasjoner av nøkkelord basert på nettsider som allerede er indeksert og inkludert i databasene deres.

De aller første søkemotorene indekserte opptil flere hundre tusen sider og mottok 1000 - 2000 forespørsler per dag. I dag har de beste søkemotorene indeksert og indekserer kontinuerlig hundrevis av millioner sider og behandler titalls millioner forespørsler per dag. Nedenfor vil vi snakke om hvordan søkemotorer fungerer og hvordan de "setter sammen" all informasjonen som er funnet for å kunne svare på spørsmål som interesserer oss.

La oss se på nettet

Når folk snakker om Internett-søkemotorer maskiner, betyr de faktisk søkemotorer Verdensveven. Før nettet ble den mest synlige delen av Internett, eksisterte søkemotorer allerede for å hjelpe folk med å finne informasjon på Internett. Programmer kalt "gopher" og "Archie" var i stand til å indeksere filer plassert på forskjellige servere koblet til Internett Internett og reduserte tiden brukt på søk betraktelig nødvendige programmer eller dokumenter. På slutten av 80-tallet av forrige århundre var et synonym for "evnen til å jobbe på Internett" muligheten til å bruke gopher, Archie, Veronica, etc. søkeprogrammer. I dag begrenser de fleste Internett-brukere søket til kun verdensomspennende nettverk, eller WWW.

En liten begynnelse

Før vi kan fortelle deg hvor du finner det nødvendige dokumentet eller filen, må filen eller dokumentet allerede være funnet. For å finne informasjon om hundrevis av millioner av eksisterende WEB-sider, bruker søkemotoren et spesielt robotprogram. Dette programmet kalles også edderkopp ("edderkopp") og brukes til å bygge en liste over ord som finnes på siden. Prosessen med å konstruere en slik liste kalles nettgjennomgang(Webcrawling). For ytterligere å konstruere og fange en "nyttig" (meningsfull) liste med ord, søk edderkopp må "se gjennom" massevis av andre sider.

Hvordan begynner noen? edderkopp(edderkopp) din reise på nettet? Vanligvis er utgangspunktet verdens største servere og svært populære nettsider. Edderkoppen begynner sin reise fra et slikt nettsted, indekserer alle ordene som er funnet og fortsetter sin bevegelse videre, etter lenker til andre nettsteder. Dermed begynner edderkopproboten å dekke stadig større "biter" av nettplass. Google.com begynte som en akademisk søkemotor. I en artikkel som beskriver hvordan denne søkemotoren ble opprettet, ga Sergey Brin og Lawrence Page (grunnleggerne og eierne av Google) et eksempel på hvor raskt Googles edderkopper fungerer. Det er flere av dem og vanligvis begynner søket med bruk av 3 edderkopper. Hver edderkopp støtter opptil 300 samtidig åpne tilkoblinger til nettsider. Ved toppbelastning, ved bruk av 4 edderkopper, er Google-systemet i stand til å behandle 100 sider per sekund, og generere trafikk på rundt 600 kilobyte/sek.

For å gi edderkoppene dataene de trengte å behandle, pleide Google å ha en server som ikke gjorde noe mer enn å mate edderkoppene flere og flere nettadresser. For ikke å være avhengig av Internett-leverandører når det gjelder domenenavnservere (DNS) som oversetter URL-er til IP-adresser, kjøpte Google sine egne DNS-server, noe som reduserer all tid brukt på indeksering av sider til et minimum.

Når Google Robot besøker HTML-side, den tar hensyn til 2 ting:

Ord (tekst) per side;
- deres plassering (i hvilken del av hoveddelen av siden).

Ord som ligger med tjenesteseksjoner som f.eks tittel, undertekster, metakoder og andre ble flagget som spesielt viktige for brukersøk. Google Spider ble bygget for å indeksere hvert lignende ord på en side, med unntak av interjeksjoner som "a", "an" og "the." Andre søkemotorer har en litt annen tilnærming til indeksering.

Alle søkemotortilnærminger og algoritmer er til syvende og sist rettet mot å få edderkopproboter til å jobbe raskere og mer effektivt. Noen søkeroboter sporer for eksempel ord i tittelen, lenker og opptil 100 mest brukte ord på en side under indeksering, og til og med hvert av ordene i de første 20 linjene med tekstinnhold på siden. Dette er spesielt indekseringsalgoritmen til Lycos.

Andre søkemotorer, som AltaVista, går i den andre retningen, og indekserer hvert eneste ord på en side, inkludert "a", "en", "den" og andre uviktige ord.

Meta-tagger

Metakoder lar eieren av en nettside spesifisere nøkkelord og konsepter som definerer essensen av innholdet. Dette er et veldig nyttig verktøy, spesielt når disse søkeordene kan gjentas opptil 2-3 ganger i teksten på siden. I dette tilfellet kan metatagger "dirigere" søkeroboten til ønsket utvalg av nøkkelord for å indeksere siden. Det er en mulighet for å "jukse" metatagger med populære søk og konsepter som på ingen måte er relatert til innholdet på selve siden. Søkeroboter er i stand til å bekjempe dette ved for eksempel å analysere sammenhengen mellom metatagger og innholdet på en nettside, og «kaste ut» fra betraktning de metataggene (henholdsvis nøkkelord) som ikke samsvarer med innholdet på sidene.

Alt dette gjelder de tilfellene hvor eieren av en nettressurs virkelig ønsker å bli inkludert i søkeresultatene for de ønskede søkeordene. Men det skjer ofte at eieren ikke ønsker å bli indeksert av roboten i det hele tatt. Men slike tilfeller er ikke temaet for artikkelen vår.

Indekskonstruksjon

Når edderkoppene er ferdige med arbeidet med å finne nye nettsider, må søkemotorene plassere all informasjonen som finnes slik at det er praktisk å bruke den i fremtiden. Det er 2 nøkkelkomponenter som betyr noe her:

Informasjon lagret med data;
- metoden som denne informasjonen er indeksert på.

I det enkleste tilfellet kan en søkemotor ganske enkelt plassere ordet og nettadressen der det er funnet. Men dette vil gjøre søkemotoren til et helt primitivt verktøy, siden det ikke er informasjon om hvilken del av dokumentet dette ordet er i (metakoder, eller i ren tekst), om dette ordet brukes én gang eller gjentatte ganger, og om det er inneholdt i en lenke til en annen viktig og relatert ressurs. Med andre ord, denne metoden vil ikke rangere nettsteder, vil ikke gi relevante resultater til brukere osv.

For å gi oss nyttige data lagrer søkemotorer ikke bare informasjon fra ordet og dets URL. En søkemotor kan lagre data om antall (hyppighet) av omtale av et ord på en side, tilordne en "vekt" til ordet, som deretter vil bidra til å produsere søkeoppføringer (resultater) basert på den vektede rangeringen for dette ordet, med ta hensyn til plasseringen (i lenker, metakoder, sidetittel og så videre.). Hver kommersiell søkemotor har sin egen formel for å beregne "vekten" av søkeord under indeksering. Dette er en av grunnene til det samme søkeord søkemotorer gir helt andre resultater.

Neste viktig poeng når du behandler funnet informasjon - dens koding for å redusere mengden diskplass for lagring av den. For eksempel beskriver den originale Google-artikkelen at 2 byte (8 biter hver) brukes til å lagre vektdata til ord - dette tar hensyn til typen ord (med store bokstaver), størrelsen på selve bokstavene (Skriftstørrelse) ), og annen informasjon som hjelper til med å rangere nettstedet. Hver slik "bit" informasjon krever 2-3 biter med data i et komplett sett på 2 byte. Som et resultat kan en enorm mengde informasjon lagres i en svært kompakt form. Når informasjonen er "komprimert", er det på tide å begynne å indeksere.

Indeksering har ett mål: å sikre maksimalt raskt søk nødvendig informasjon. Det er flere måter å bygge indekser på, men den mest effektive er å bygge hasjtabeller(hash-tabell). Hashing bruker en spesifikk formel for å tilordne en numerisk verdi til hvert ord.

På alle språk er det bokstaver som mange flere ord begynner med enn med resten av bokstavene i alfabetet. For eksempel er det betydelig flere ord som begynner med bokstaven "M" i den engelske ordbokdelen enn de som begynner med bokstaven "X". Dette betyr at det vil ta lengre tid å søke etter et ord som begynner med den mest populære bokstaven enn noe annet ord. Hashing(Hashing) utjevner denne forskjellen og reduserer den gjennomsnittlige søketiden, og skiller også selve indeksen fra de virkelige dataene. En hash-tabell inneholder hash-verdier sammen med en peker til dataene som tilsvarer den verdien. Effektiv indeksering + effektiv plassering gir sammen høy søkehastighet, selv om brukeren stiller et svært komplekst søk.

Fremtiden til søkemotorer

Et søk basert på boolske operatorer ("og", "eller", "ikke") er et bokstavelig søk - søkemotoren mottar søkeordene nøyaktig slik de ble skrevet inn. Dette kan forårsake et problem når for eksempel det angitte ordet har flere betydninger. «Nøkkel» kan for eksempel bety «et middel for å åpne en dør», eller det kan bety et «passord» for å logge på en server. Hvis du bare er interessert i én betydning av et ord, trenger du selvsagt ikke data om dets andre betydning. Du kan selvfølgelig bygge en bokstavelig spørring som vil ekskludere utdataene basert på den unødvendige betydningen av et ord, men det ville vært fint om selve søkemotoren kunne hjelpe deg.

Et område for forskning i fremtidige søkemotoralgoritmer er konseptuell informasjonsinnhenting. Dette er algoritmer som bruker statistisk analyse av sider som inneholder et gitt søkeord eller frase for å finne relevante data. Det er klart at en slik "konseptuell søkemotor" ville kreve mye mer lagringsplass for hver side og mer tid til å behandle hver forespørsel. For tiden jobber mange forskere med dette problemet.

Det jobbes ikke mindre intensivt med å utvikle søkealgoritmer basert på søk. naturlig språk(Naturlig-språk-spørring).

Tanken bak naturlige spørringer er at du kan skrive spørringen din som om du spør en kollega som sitter overfor deg. Du trenger ikke å bekymre deg for boolske operatorer eller anstrenge deg for å komponere komplekst søk. Dagens mest populære søkenettsted for naturlig språk er AskJeeves.com. Den konverterer spørringen til nøkkelord, som den deretter bruker når den indekserer nettsteder. Denne tilnærmingen fungerer bare for enkle spørsmål. Fremgangen står imidlertid ikke stille; det er mulig at vi veldig snart vil "snakke" med søkemotorer på vårt eget "menneskelige språk".

Venner, jeg ønsker dere velkommen igjen! Nå skal vi se på hva søkeroboter er og snakke i detalj om Googles søkerobot og hvordan vi kan bli venner med dem.

Først må du forstå hva søkeroboter faktisk er; de kalles også edderkopper. Hvilket arbeid gjør søkemotoredderkopper?

Dette er programmer som sjekker nettsteder. De ser gjennom alle innleggene og sidene på bloggen din, samler inn informasjon, som de deretter overfører til databasen til søkemotoren de jobber for.

Du trenger ikke å kjenne hele listen over søkeroboter, det viktigste er å vite at Google nå har to hovededderkopper, kalt "panda" og "pingvin". De kjemper mot innhold av lav kvalitet og søppelkoblinger, og du må vite hvordan du kan avvise angrepene deres.

Google Panda-søkeroboten ble laget for å markedsføre kun materiale av høy kvalitet i søk. Alle nettsteder med lavkvalitetsinnhold blir senket i søkeresultatene.

Denne edderkoppen dukket opp første gang i 2011. Før det dukket opp, var det mulig å markedsføre et hvilket som helst nettsted ved å publisere en stor mengde tekst i artikler og bruke en enorm mengde søkeord. Sammen brakte disse to teknikkene innhold som ikke er av kvalitet, til toppen av søkeresultatene, og gode nettsteder ble redusert i søkeresultatene.

"Panda" satte umiddelbart ting i orden ved å sjekke alle nettstedene og sette alle på sine rettmessige steder. Selv om det sliter med innhold av lav kvalitet, er det nå mulig å promotere selv små nettsteder med artikler av høy kvalitet. Selv om det tidligere var ubrukelig å promotere slike sider, kunne de ikke konkurrere med giganter som har en stor mengde innhold.

Nå skal vi finne ut hvordan du kan unngå "panda"-sanksjonene. Du må først forstå hva hun ikke liker. Jeg har allerede skrevet ovenfor at hun sliter med dårlig innhold, men hva slags tekst er dårlig for henne, la oss finne ut av det slik at vi ikke publiserer det på nettsiden vår.

Googles søkerobot streber etter å sikre at denne søkemotoren kun gir høykvalitetsmateriale til jobbsøkere. Hvis du har artikler som inneholder lite informasjon og som ikke er attraktive i utseende, må du snarest skrive om disse tekstene slik at "pandaen" ikke kommer til deg.

Innhold av høy kvalitet kan være både stort og lite, men hvis edderkoppen ser en lang artikkel med mye informasjon, vil den være mer nyttig for leseren.

Da må du notere duplisering, med andre ord plagiat. Hvis du tror at du vil omskrive andres artikler på bloggen din, kan du umiddelbart sette en stopper for nettstedet ditt. Kopiering straffes strengt ved å bruke et filter, og Plagiat er sjekket veldig enkelt, jeg skrev en artikkel om emnet hvordan sjekke tekster for unike.

Den neste tingen å legge merke til er overmetningen av teksten med nøkkelord. Alle som tror at de kan skrive en artikkel med kun nøkkelord og ta førsteplassen i søkeresultatene tar veldig feil. Jeg har en artikkel om hvordan du sjekker sider for relevans, sørg for å lese den.

Og en annen ting som kan tiltrekke deg en "panda" er gamle artikler som er moralsk utdaterte og ikke bringer trafikk til nettstedet. De må definitivt oppdateres.

Det er også en Google-søkerobot "pingvin". Denne edderkoppen bekjemper spam og søppelkoblinger på nettstedet ditt. Den beregner også kjøpte lenker fra andre ressurser. For ikke å være redd for denne søkeroboten bør du derfor ikke kjøpe lenker, men publisere innhold av høy kvalitet slik at folk lenker til deg selv.

La oss nå formulere hva som må gjøres for å få nettstedet til å se perfekt ut gjennom øynene til en søkerobot:

  • For å lage kvalitetsinnhold bør du først undersøke emnet godt før du skriver artikkelen. Da må du forstå at folk virkelig er interessert i dette emnet.
  • Bruk spesifikke eksempler og bilder, dette vil gjøre artikkelen livlig og interessant. Del teksten i små avsnitt for å gjøre den lett å lese. For eksempel, hvis du åpner en side med vitser i en avis, hvilke vil du lese først? Naturligvis leser hver person først korte tekster, deretter lengre, og til slutt lange fotinnpakninger.
  • "Pandaens" favoritt uenighet er mangelen på relevans til en artikkel som inneholder utdatert informasjon. Følg oppdateringene og endre tekstene.
  • Hold styr på søkeordtettheten; Jeg skrev ovenfor hvordan du bestemmer denne tettheten; i tjenesten jeg beskrev, vil du motta det nøyaktige nødvendige antallet søkeord.
  • Ikke plagier, alle vet at du ikke kan stjele andres ting eller tekst – det er det samme. Du vil bli straffet for tyveri ved å bli fanget i filteret.
  • Skriv tekster på minst to tusen ord, så vil en slik artikkel se informativ ut gjennom øynene til søkemotorroboter.
  • Hold deg oppdatert med bloggen din. Hvis du driver en blogg om å tjene penger på Internett, trenger du ikke å publisere artikler om luftvåpen. Dette kan redusere vurderingen av ressursen din.
  • Design artiklene dine vakkert, del dem inn i avsnitt og legg til bilder slik at du liker å lese og ikke vil forlate nettstedet raskt.
  • Når du kjøper lenker, gjør dem til de mest interessante og nyttige artiklene som folk faktisk vil lese.

Vel, nå vet du hva søkemotorroboter gjør, og du kan være venner med dem. Og viktigst av alt, Googles søkerobot og "panda" og "pingvin" har blitt studert i detalj av deg.




Topp