Ce activitate fac păianjenii motoarelor de căutare? Ce este un robot de căutare? Funcțiile robotului de căutare „Yandex” și Google. Ce face un robot de căutare?

Contrar credinței populare, robotul nu este direct implicat în nicio prelucrare a documentelor scanate. Numai le citește și le salvează, apoi sunt procesate de alte programe. Confirmarea vizuală poate fi obținută prin analiza jurnalelor unui site care este indexat pentru prima dată. La prima vizită, botul solicită mai întâi fișierul robots.txt, apoi pagina principală a site-ului. Adică urmează singura legătură cunoscută de el. Aici se termină întotdeauna prima vizită a botului. După ceva timp (de obicei a doua zi), botul solicită următoarele pagini - folosind link-uri care se găsesc pe pagina care a fost deja citită. Apoi procesul continuă în aceeași ordine: solicitarea paginilor pentru care s-au găsit deja linkuri - o pauză de procesare a documentelor citite - următoarea sesiune cu o cerere de linkuri găsite.

Analizarea paginilor din mers ar însemna mult mai mult O consumul mai mare de resurse al robotului și pierderea de timp. Fiecare server de scanare rulează mai multe procese bot în paralel. Ei trebuie să acționeze cât mai repede posibil pentru a avea timp să citească paginile noi și să le recitească pe cele existente. Prin urmare, roboții citesc și salvează doar documente. Orice salvează ei este pus în coadă pentru procesare (analizarea codului). Linkurile găsite în timpul procesării paginii sunt plasate într-o coadă de activități pentru roboți. Acesta este modul în care întreaga rețea este scanată continuu. Singurul lucru pe care un bot îl poate și ar trebui să îl analizeze din mers este fișierul robots.txt, pentru a nu solicita adrese care sunt interzise în el. În timpul fiecărei sesiuni de accesare cu crawlere a site-ului, robotul solicită mai întâi acest fișier, iar după acesta, toate paginile sunt puse în coadă pentru accesare cu crawlere.

Tipuri de roboți de căutare

Fiecare motor de căutare are propriul său set de roboți pentru scopuri diferite.
Practic, ele diferă prin scopul lor funcțional, deși limitele sunt foarte arbitrare, iar fiecare motor de căutare le înțelege în felul său. Pentru sistemele doar pentru căutarea textului integral, un robot este suficient pentru toate ocaziile. Pentru acele motoare de căutare care sunt angajate nu numai în text, roboții sunt împărțiți în cel puțin două categorii: pentru texte și desene. Există, de asemenea, boți separati dedicați unor tipuri specifice de conținut - mobil, blog, știri, video etc.

Roboti Google

Toți roboții Google sunt numiți în mod colectiv Googlebot. Principalul robot de indexare „se prezintă” astfel:

Mozilla/5.0 (compatibil; Googlebot/2.1; +http://www.google.com/bot.html)

Acest bot este ocupat să scaneze pagini HTML și alte documente pentru principal cautare Google. De asemenea, citește ocazional fișiere CSS și JS - acest lucru poate fi observat în principal în stadiul incipient al indexării site-ului, în timp ce botul accesează site-ul pentru prima dată. Tipurile de conținut acceptate sunt toate (Accept: */*).

Al doilea dintre roboții principali este ocupat cu scanarea imaginilor de pe site. Se „se prezintă” simplu:

Googlebot-Image/1.0

Cel puțin trei roboți au fost de asemenea văzuți în jurnale, ocupați să colecteze conținut pentru versiune mobila căutare. Câmpul User-agent al tuturor celor trei se termină cu linia:

(compatibil; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Înainte de această linie este modelul telefon mobil, cu care acest bot este compatibil. Boții reperați au modele telefoane Nokia, Samsung și iPhone. Tipurile de conținut acceptate sunt toate, dar cu prioritățile indicate:

Accept: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

roboți Yandex

Dintre motoarele de căutare active pe RuNet, Yandex are cea mai mare colecție de roboți. În secțiunea de ajutor pentru webmasteri, puteți găsi o listă oficială a întregului personal spider. Nu are rost să-l prezentăm aici în întregime, deoarece în această listă apar periodic modificări.
Cu toate acestea, cei mai importanți roboți Yandex pentru noi trebuie menționați separat.
Robot de indexare de bază numit în prezent

Mozilla/5.0 (compatibil; YandexBot/3.0; +http://yandex.com/bots)

Reprezentat anterior ca

Yandex/1.01.001 (compatibil; Win16; I)

Citește paginile HTML ale site-ului web și alte documente pentru indexare. Lista tipurilor de media acceptate a fost limitată anterior:

Accept: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

Din 31 iulie 2009 s-a observat o extindere semnificativă în această listă (numărul de tipuri aproape s-a dublat), iar din 10 noiembrie 2009, lista a fost scurtată la */* (toate tipurile).
Acest robot este foarte interesat de un set foarte specific de limbi: rusă, puțin mai puțin ucraineană și belarusă, puțin mai puțin engleză și foarte puțin - toate celelalte limbi.

Limba de acceptare: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Scaner de imagini robot poartă următoarea linie în câmpul User-agent:

Mozilla/5.0 (compatibil; YandexImages/3.0; +http://yandex.com/bots)

Angajat în scanarea graficelor de diferite formate pentru a căuta în imagini.

Spre deosebire de Google, Yandex are roboți separați pentru a servi unii funcții speciale căutare generală.
„oglindă” robot

Mozilla/5.0 (compatibil; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Nu face nimic deosebit de complicat - apare periodic și verifică dacă pagina principală a site-ului se potrivește la accesarea domeniului cu www. si fara. Verifică, de asemenea, domeniile „oglindă” paralele pentru potriviri. Aparent, oglinzile și forma canonică a domeniilor din Yandex sunt tratate separat pachete software, care nu are legătură directă cu indexarea. În caz contrar, nu există absolut nimic care să explice existența unui bot separat în acest scop.

Colector de pictograme favicon.ico

Mozilla/5.0 (compatibil; YandexFavicons/1.0; +http://yandex.com/bots)

Apare periodic și solicită pictograma favicon.ico, care apare apoi în rezultatele căutării lângă linkul către site. Din ce motive colecționarul de imagini nu împărtășește această responsabilitate este necunoscut. Se pare că există și un pachet software separat în joc.

Botul de verificare pentru site-uri noi, funcționează atunci când este adăugat la formularul AddURL

Mozilla/5.0 (compatibil; YandexWebmaster/2.0; +http://yandex.com/bots)

Acest bot verifică răspunsul site-ului trimițând o solicitare HEAD la adresa URL rădăcină. Astfel, se verifică existența paginii principale în domeniu și se analizează anteturile HTTP ale acestei pagini. Botul solicită și fișierul robots.txt din rădăcina site-ului. Astfel, după trimiterea link-ului către AddURL, se stabilește că site-ul există și nici anteturile robots.txt, nici HTTP nu interzic accesul la pagina principală.

Robot Rambler

Momentan nu mai funcționează, deoarece Rambler folosește acum căutarea Yandex
Robotul indexator Rambler poate fi identificat cu ușurință în jurnal prin câmpul User-agent

StackRambler/2.0 (MSIE incompatibil)

În comparație cu „colegii” de la alții motoare de căutare acest bot pare destul de simplu: nu specifică o listă de tipuri de media (în consecință, primește documentul solicitat de orice tip), câmpul Accept-Language lipsește din cerere, iar câmpul If-Modified-since nu este găsit în cererile botului.

Robot Mail.Ru

Se știu puține lucruri despre acest robot încă. Portalul Mail.Ru și-a dezvoltat propria căutare de mult timp, dar încă nu a ajuns să lanseze această căutare. Prin urmare, numai numele botului din User-agent este cunoscut cu siguranță - Mail.Ru/2.0 (anterior - Mail.Ru/1.0). Numele botului pentru directivele fișierului robors.txt nu a fost publicat nicăieri; se presupune că botul ar trebui să se numească Mail.Ru.

Alți roboți

Căutarea pe Internet nu se limitează, desigur, la două motoare de căutare. Prin urmare, există și alți roboți - de exemplu, robotul Bing - motorul de căutare de la Microsoft și alți roboți. Deci, în special, în China există un motor național de căutare Baidu - dar este puțin probabil ca robotul său să ajungă la mijlocul râului și să ajungă la site-ul rusesc.

În plus, în ultima perioadă au proliferat multe servicii - în special solomono - care, deși nu sunt motoare de căutare, scanează și site-uri. Adesea, valoarea transmiterii informațiilor despre site către astfel de sisteme este discutabilă și, prin urmare, roboții lor pot fi interziși

Cum funcționează roboții motoarelor de căutare

Un robot de căutare (păianjen, bot) este un program mic care poate vizita milioane de site-uri web și poate scana gigaocteți de text fără intervenția operatorului. Citirea paginilor și stocarea copiilor text ale acestora este prima etapă a indexării documentelor noi. Trebuie remarcat faptul că roboții motoarelor de căutare nu efectuează nicio prelucrare a datelor primite. Sarcina lor este doar să păstreze informații text.

Mai multe videoclipuri pe canalul nostru - învață marketingul pe internet cu SEMANTICA

Lista roboților de căutare

Dintre toate motoarele de căutare care scanează Runet, Yandex are cea mai mare colecție de roboți. Următorii roboți sunt responsabili de indexare:

  • robotul principal de indexare care colectează date de pe paginile site-ului web;
  • un bot care poate recunoaște oglinzile;
  • Robot de căutare Yandex, care indexează imagini;
  • un păianjen care scanează paginile site-urilor acceptate de YAN;
  • robot care scanează pictograme favicon;
  • mai mulți păianjeni care determină accesibilitatea paginilor site-ului.

Robotul principal de căutare al Google colectează informații textuale. Practic, vizualizează fișierele HTML și analizează JS și CSS la anumite intervale. Capabil să accepte orice tip de conținut permis pentru indexare. PS Google are un păianjen care controlează indexarea imaginilor. Există și un robot de căutare - un program care susține funcționarea versiunii mobile a căutării.

Vedeți site-ul prin ochii unui robot de căutare

Pentru a corecta erorile de cod și alte deficiențe, webmasterul poate afla cum vede site-ul robotul de căutare. Această oportunitate este oferită de Google PS. Va trebui să accesați instrumentele pentru webmasteri, apoi să faceți clic pe fila „crawling”. În fereastra care se deschide, trebuie să selectați linia „Afișați ca Googlebot”. Apoi, trebuie să introduceți adresa paginii pe care o căutați în formularul de căutare (fără a specifica domeniul și protocolul http://).

Prin selectarea comenzii „obține și afișa”, webmasterul va putea evalua vizual starea paginii site-ului. Pentru a face acest lucru, trebuie să faceți clic pe caseta de selectare „Solicitare de afișare”. Se va deschide o fereastră cu două versiuni ale documentului web. Webmasterul află cum vede un vizitator obișnuit pagina și sub ce formă este disponibilă pentru păianjenul de căutare.

Sfat: Dacă documentul web pe care îl analizați nu este încă indexat, puteți utiliza comanda „adăugați la index” >> „scanați numai această adresă URL”. Păianjenul va analiza documentul în câteva minute, iar în viitorul apropiat pagina web va apărea în rezultatele căutării. Limita lunară pentru cererile de indexare este de 500 de documente.

Cum să influențezi viteza de indexare

După ce și-a dat seama cum funcționează roboții de căutare, un webmaster va putea să-și promoveze site-ul mult mai eficient. Una dintre principalele probleme ale multor proiecte web tinere este indexarea slabă. Roboții motoarelor de căutare sunt reticenți în a vizita resurse neautorizate de pe Internet.
S-a stabilit că viteza de indexare depinde direct de intensitatea cu care este actualizat site-ul. Adăugarea regulată de materiale text unice va atrage atenția motoarelor de căutare.

Pentru a accelera indexarea, puteți utiliza marcajele sociale și serviciul twitter. Se recomandă să creați un Sitemap și să îl încărcați în directorul rădăcină al proiectului web.

Robot de căutare numit program special orice motor de căutare care este conceput pentru a intra într-o bază de date (index) site-uri și paginile acestora găsite pe Internet. Se mai folosesc nume: crawler, spider, bot, automaticindexer, furnică, webcrawler, bot, webscutter, webroboți, webspider.

Principiul de funcționare

Un robot de căutare este un program de tip browser. Scanează în mod constant rețeaua: vizitează site-uri indexate (deja cunoscute de el), urmărește link-uri de la acestea și găsește noi resurse. Când o nouă resursă este descoperită, robotul de procedură o adaugă la indexul motorului de căutare. Robotul de căutare indexează și actualizările pe site-uri, a căror frecvență este fixă. De exemplu, un site care este actualizat o dată pe săptămână va fi vizitat de un păianjen cu această frecvență, iar conținutul de pe site-urile de știri poate fi indexat în câteva minute de la publicare. Dacă niciun link din alte resurse nu duce la site, atunci pentru a atrage roboți de căutare, resursa trebuie adăugată printr-un formular special (Google Webmaster Center, Yandex Webmaster Panel etc.).

Tipuri de roboți de căutare

păianjeni Yandex:

  • Yandex/1.01.001 I - botul principal implicat în indexare,
  • Yandex/1.01.001 (P) - indexează imagini,
  • Yandex/1.01.001 (H) - găsește site-uri oglindă,
  • Yandex/1.03.003 (D) - determină dacă pagina adăugată din panoul webmaster îndeplinește parametrii de indexare,
  • YaDirectBot/1.0 (I) - indexează resursele din retea de publicitate Yandex,
  • Yandex/1.02.000 (F) - indexează favicon-urile site-ului.

Google Spiders:

  • Googlebot este robotul principal
  • Știri Googlebot - scanează și indexează știrile,
  • Google Mobile - indexează site-urile pentru dispozitive mobile,
  • Imagini Googlebot - caută și indexează imagini,
  • Googlebot Video - indexează videoclipuri,
  • Google AdsBot - verifică calitatea paginii de destinație,
  • Google Mobile AdSense și Google AdSense— indexează site-urile rețelei de publicitate Google.

Alte motoare de căutare folosesc, de asemenea, mai multe tipuri de roboți care sunt similari din punct de vedere funcțional cu cei enumerați.

Cum funcționează motoarele de căutare? Unul dintre lucrurile minunate despre Internet este că există sute de milioane de resurse web care așteaptă și sunt gata să ne fie prezentate. Dar răul este că există aceleași milioane de pagini care, chiar dacă avem nevoie de ele, nu vor apărea în fața noastră, pentru că... pur și simplu necunoscut nouă. Cum să afli ce și unde poți găsi pe internet? Pentru a face acest lucru, de obicei apelăm la motoarele de căutare.

Motoarele de căutare pe Internet sunt site-uri speciale în retea globala, care sunt concepute pentru a ajuta oamenii să găsească world wide web informatiile de care au nevoie. Există diferențe în modul în care motoarele de căutare își îndeplinesc funcțiile, dar în general există 3 funcții principale și identice:

Toți „căută” pe Internet (sau un anumit sector al Internetului) - pe baza unor cuvinte cheie date;
- toate motoarele de căutare indexează cuvintele pe care le caută și locurile în care le găsesc;
- toate motoarele de căutare permit utilizatorilor să caute cuvinte sau combinații de cuvinte cheie pe baza paginilor web deja indexate și incluse în bazele lor de date.

Primele motoare de căutare au indexat până la câteva sute de mii de pagini și au primit 1.000 - 2.000 de solicitări pe zi. Astăzi, motoarele de căutare de top au indexat și indexează continuu sute de milioane de pagini și procesează zeci de milioane de solicitări pe zi. Mai jos vom vorbi despre modul în care funcționează motoarele de căutare și despre modul în care „adună” toate informațiile găsite pentru a putea răspunde la orice întrebare care ne interesează.

Să ne uităm la Web

Când oamenii vorbesc despre Motoarele de căutare pe internet mașini, ele înseamnă de fapt motoarele de căutare World wide web. Înainte ca Web-ul să devină cea mai vizibilă parte a Internetului, motoarele de căutare existau deja pentru a ajuta oamenii să găsească informații pe Internet. Programele numite „gopher” și „Archie” au putut indexa fișierele aflate pe diferite servere conectate Internet Internetși a redus semnificativ timpul petrecut căutării programele necesare sau documente. La sfârșitul anilor 80 ai secolului trecut, un sinonim pentru „capacitatea de a lucra pe internet” era capacitatea de a folosi gopher, Archie, Veronica etc. programe de căutare. Astăzi, majoritatea utilizatorilor de internet își limitează căutarea doar la retea mondiala, sau WWW.

Un mic început

Înainte să vă putem spune unde puteți găsi documentul sau dosarul solicitat, fișierul sau documentul trebuie să fi fost deja găsit. Pentru a găsi informații despre sute de milioane de pagini WEB existente, motorul de căutare folosește un program special de robot. Acest program se mai numește și spider („păianjen”) și este folosit pentru a construi o listă de cuvinte găsite pe pagină. Procesul de construire a unei astfel de liste este numit crawling pe web(Crawling pe web). Pentru a construi și a capta în continuare o listă de cuvinte „utilă” (cu sens), păianjen de căutare trebuie să „privească” o mulțime de alte pagini.

Cum începe cineva? păianjen(păianjen) călătoria ta pe web? De obicei, punctul de plecare sunt cele mai mari servere din lume și pagini web foarte populare. Păianjenul își începe călătoria de pe un astfel de site, indexează toate cuvintele găsite și își continuă mișcarea mai departe, urmărind link-uri către alte site-uri. Astfel, robotul păianjen începe să acopere „bucăți” din ce în ce mai mari de spațiu web. Google.com a început ca un motor de căutare academic. Într-un articol care descrie modul în care a fost creat acest motor de căutare, Sergey Brin și Lawrence Page (fondatorii și proprietarii Google) au dat un exemplu despre cât de repede funcționează păianjenii Google. Există mai multe dintre ele și de obicei căutarea începe cu utilizarea a 3 păianjeni. Fiecare păianjen acceptă până la 300 de conexiuni deschise simultan la pagini web. La sarcina maximă, folosind 4 spider, sistemul Google este capabil să proceseze 100 de pagini pe secundă, generând un trafic de aproximativ 600 kilobytes/sec.

Pentru a oferi păianjenilor datele pe care trebuie să le proceseze, Google obișnuia să aibă un server care nu făcea altceva decât să hrănească păianjenii din ce în ce mai multe adrese URL. Pentru a nu depinde de furnizorii de servicii de internet în ceea ce privește serverele de nume de domeniu (DNS) care traduc URL-urile în adrese IP, Google și-a achiziționat propriul server DNS, reducând la minimum timpul petrecut în indexarea paginilor.

Când robotul Google vizitează Pagina HTML, ține cont de 2 lucruri:

Cuvinte (text) pe pagină;
- locația lor (în ce parte a corpului paginii).

Cuvinte situate cu secțiuni de serviciu precum titlu, subtitrări, metaetichete iar altele au fost marcate ca fiind deosebit de importante pentru interogările de căutare ale utilizatorilor. Google Spider a fost creat pentru a indexa fiecare cuvânt similar de pe o pagină, cu excepția interjecțiilor precum „a”, „an” și „the”. Alte motoare de căutare au o abordare ușor diferită a indexării.

Toate abordările și algoritmii motoarelor de căutare sunt în cele din urmă menite să facă roboții păianjen să funcționeze mai rapid și mai eficient. De exemplu, unii roboți de căutare urmăresc cuvintele din titlu, linkuri și până la 100 de cuvinte cele mai frecvent utilizate pe o pagină în timpul indexării și chiar fiecare dintre cuvintele din primele 20 de rânduri de conținut text de pe pagină. Acesta este algoritmul de indexare, în special, al Lycos.

Alte motoare de căutare, cum ar fi AltaVista, merg în cealaltă direcție, indexând fiecare cuvânt dintr-o pagină, inclusiv „a”, „an”, „the” și alte cuvinte neimportante.

Meta etichete

Metaetichetele permit proprietarului unei pagini web să specifice cuvintele cheie și conceptele care definesc esența conținutului acesteia. Acesta este un instrument foarte util, mai ales când aceste cuvinte cheie pot fi repetate de până la 2-3 ori în textul paginii. În acest caz, metaetichetele pot „direcționa” robotul de căutare către selecția dorită de cuvinte cheie pentru indexarea paginii. Există posibilitatea de a „înșela” meta-etichete cu interogări de căutare populare și concepte care nu au nicio legătură cu conținutul paginii în sine. Roboții de căutare sunt capabili să combată acest lucru, de exemplu, analizând corelația meta-etichetelor și conținutul unei pagini web, „aruncând” din considerare acele meta-etichete (respectiv cuvinte cheie) care nu corespund conținutului paginilor.

Toate acestea se aplică în acele cazuri în care proprietarul unei resurse web dorește cu adevărat să fie inclus în rezultatele căutării pentru cuvintele de căutare dorite. Dar se întâmplă adesea ca proprietarul să nu dorească deloc să fie indexat de robot. Dar astfel de cazuri nu sunt subiectul articolului nostru.

Construcția indexului

Odată ce păianjenii și-au terminat munca de a găsi noi pagini web, motoarele de căutare trebuie să plaseze toate informațiile găsite astfel încât să fie convenabil să le folosească în viitor. Există 2 componente cheie care contează aici:

Informații stocate cu date;
- metoda prin care se indexează aceste informații.

În cel mai simplu caz, un motor de căutare ar putea pur și simplu să plaseze cuvântul și adresa URL unde este găsit. Dar acest lucru ar face din motorul de căutare un instrument complet primitiv, deoarece nu există informații despre ce parte a documentului se află acest cuvânt (meta tag-uri sau în text simplu), dacă acest cuvânt este folosit o dată sau în mod repetat și dacă este conținute într-un link către o altă resursă importantă și conexe. Cu alte cuvinte, această metodă nu va clasa site-urile, nu va oferi rezultate relevante utilizatorilor etc.

Pentru a ne oferi date utile, motoarele de căutare stochează nu numai informații din cuvânt și URL-ul acestuia. Un motor de căutare poate salva date despre numărul (frecvența) de mențiuni ale unui cuvânt pe o pagină, poate atribui o „greutate” cuvântului, ceea ce va ajuta apoi la producerea listelor de căutare (rezultate) pe baza clasamentului ponderat pentru acest cuvânt, luând luați în considerare locația sa (în linkuri, meta-etichete, titlul paginii și așa mai departe.). Fiecare motor de căutare comercial are propria formulă pentru calcularea „greutății” cuvintelor cheie în timpul indexării. Acesta este unul dintre motivele pentru aceeași interogare de căutare motoarele de căutare produc rezultate complet diferite.

Următorul punct important la procesarea informațiilor găsite - codificarea acesteia pentru a reduce cantitatea de spațiu pe disc pentru stocarea acesteia. De exemplu, articolul original Google descrie că 2 octeți (8 biți fiecare) sunt utilizați pentru a stoca datele de greutate ale cuvintelor - acest lucru ia în considerare tipul de cuvânt (majuscule sau majuscule), dimensiunea literelor în sine (Font- Dimensiunea) și alte informații.care ajută la clasarea site-ului. Fiecare astfel de „informație” necesită 2-3 biți de date într-un set complet de 2 octeți. Ca rezultat, o cantitate imensă de informații poate fi stocată într-o formă foarte compactă. Odată ce informațiile sunt „comprimate”, este timpul să începeți indexarea.

Indexarea are un singur scop: asigurarea maximului cautare rapida informatiile necesare. Există mai multe moduri de a construi indici, dar cea mai eficientă este construirea tabele de hash(tabel hash). Hashing folosește o formulă specifică pentru a atribui o valoare numerică fiecărui cuvânt.

În orice limbă, există litere cu care încep mult mai multe cuvinte decât cu restul literelor alfabetului. De exemplu, în secțiunea dicționarului englez există mult mai multe cuvinte care încep cu litera „M” decât cele care încep cu litera „X”. Aceasta înseamnă că căutarea unui cuvânt care începe cu cea mai populară literă va dura mai mult decât orice alt cuvânt. Hashing(Hashing) egalizează această diferență și reduce timpul mediu de căutare și, de asemenea, separă indexul însuși de datele reale. Un tabel hash conține valori hash împreună cu un pointer către datele corespunzătoare acelei valori. Indexarea eficientă + plasarea eficientă împreună oferă o viteză mare de căutare, chiar dacă utilizatorul solicită o interogare de căutare foarte complexă.

Viitorul motoarelor de căutare

O căutare bazată pe operatori booleeni ("și", "sau", "nu") este o căutare literală - motorul de căutare primește cuvintele de căutare exact așa cum au fost introduse. Acest lucru poate cauza o problemă atunci când, de exemplu, cuvântul introdus are mai multe semnificații. „Cheie”, de exemplu, poate însemna „un mijloc de a deschide o ușă” sau poate însemna o „parolă” pentru conectarea la un server. Dacă sunteți interesat doar de un singur sens al unui cuvânt, atunci evident că nu veți avea nevoie de date despre cel de-al doilea sens al acestuia. Puteți, desigur, să construiți o interogare literală care va exclude ieșirea de date pe baza semnificației inutile a unui cuvânt, dar ar fi bine dacă motorul de căutare însuși v-ar putea ajuta.

Un domeniu de cercetare a viitorilor algoritmi pentru motoarele de căutare este regăsirea informațiilor conceptuale. Aceștia sunt algoritmi care utilizează analiza statistică a paginilor care conțin un anumit cuvânt cheie sau o expresie de căutare pentru a găsi date relevante. Este clar că un astfel de „motor de căutare conceptual” ar necesita mult mai mult spațiu de stocare pentru fiecare pagină și mai mult timp pentru procesarea fiecărei cereri. În prezent, mulți cercetători lucrează la această problemă.

Nu se lucrează mai puțin intens în domeniul dezvoltării algoritmilor de căutare bazați pe interogări. limbaj natural(Interogare în limbaj natural).

Ideea din spatele interogărilor naturale este că îți poți scrie interogarea ca și cum ai întreba un coleg care stă în fața ta. Nu trebuie să vă faceți griji cu privire la operatorii booleeni sau pentru a compune interogare complexă. Cel mai popular site de căutare în limbaj natural de astăzi este AskJeeves.com. Acesta convertește interogarea în cuvinte cheie, pe care apoi le folosește atunci când indexează site-urile. Această abordare funcționează numai pentru interogări simple. Totuși, progresul nu stă pe loc; este posibil ca foarte curând să „vorbim” cu motoarele de căutare în propria noastră „limbă umană”.

Prieteni, vă urez bun venit din nou! Acum ne vom uita la ce sunt roboții de căutare și vom vorbi în detaliu despre robotul de căutare Google și despre cum să fim prieteni cu ei.

Mai întâi trebuie să înțelegeți ce sunt de fapt roboții de căutare; aceștia sunt numiți și păianjeni. Ce activitate fac păianjenii motoarelor de căutare?

Acestea sunt programe care verifică site-urile. Ei caută prin toate postările și paginile de pe blogul tău, colectează informații, pe care apoi le transmit în baza de date a motorului de căutare pentru care lucrează.

Nu trebuie să cunoașteți întreaga listă de roboți de căutare, cel mai important lucru este să știți că Google are acum doi păianjeni principali, numiți „panda” și „pinguin”. Ei luptă împotriva conținutului de calitate scăzută și a linkurilor nedorite și trebuie să știi cum să respingi atacurile lor.

Robotul de căutare Google Panda a fost creat pentru a promova numai materiale de înaltă calitate în căutări. Toate site-urile cu conținut de calitate scăzută sunt reduse în rezultatele căutării.

Acest păianjen a apărut pentru prima dată în 2011. Înainte de apariția sa, a fost posibilă promovarea oricărui site web prin publicarea unei cantități mari de text în articole și folosind o cantitate imensă de cuvinte cheie. Împreună, aceste două tehnici au adus conținut necalitativ în partea de sus a rezultatelor căutării, iar site-urile bune au fost reduse în rezultatele căutării.

„Panda” a pus imediat ordinea în ordine, verificând toate site-urile și punând pe toți la locul lor. Deși se luptă cu conținut de calitate scăzută, acum este posibil să promovezi chiar și site-uri mici cu articole de înaltă calitate. Deși anterior era inutil să promoveze astfel de site-uri, acestea nu puteau concura cu giganții care au o cantitate mare de conținut.

Acum ne vom da seama cum poți evita sancțiunile „panda”. Mai întâi trebuie să înțelegi ce nu-i place. Am scris deja mai sus că se luptă cu conținutul prost, dar ce fel de text este rău pentru ea, să ne dăm seama ca să nu-l publicăm pe site-ul nostru.

Robotul de căutare Google se străduiește să se asigure că acest motor de căutare oferă doar materiale de înaltă calitate pentru cei care caută un loc de muncă. Dacă aveți articole care conțin puține informații și nu sunt atractive ca aspect, atunci rescrieți urgent aceste texte pentru ca „panda” să nu ajungă la dvs.

Conținutul de înaltă calitate poate fi atât mare, cât și mic, dar dacă păianjenul vede un articol lung cu multe informații, atunci acesta va fi mai util cititorului.

Apoi trebuie să rețineți dublarea, cu alte cuvinte, plagiatul. Dacă credeți că veți rescrie articolele altora pe blogul dvs., atunci puteți pune capăt imediat site-ului dvs. Copierea este strict pedepsită prin aplicarea unui filtru, și Plagiatul este verificat foarte usor, am scris un articol pe aceasta tema cum să verificați textele pentru unicitate.

Următorul lucru de observat este suprasaturarea textului cu cuvinte cheie. Oricine crede că poate scrie un articol folosind doar cuvinte cheie și ocupă primul loc în rezultatele căutării se înșală foarte mult. Am un articol despre cum să verificați relevanța paginilor, asigurați-vă că îl citiți.

Și un alt lucru care poate atrage un „panda” la tine sunt articolele vechi care sunt depășite din punct de vedere moral și nu aduc trafic pe site. Cu siguranță trebuie actualizate.

Există, de asemenea, un robot de căutare Google „pinguin”. Acest păianjen luptă împotriva spamului și a linkurilor nedorite de pe site-ul tău. De asemenea, calculează linkurile achiziționate din alte resurse. Prin urmare, pentru a nu vă teme de acest robot de căutare, nu ar trebui să cumpărați link-uri, ci să publicați conținut de înaltă calitate, astfel încât oamenii să facă legătura cu dvs.

Acum să formulăm ce trebuie făcut pentru ca site-ul să arate perfect prin ochii unui robot de căutare:

  • Pentru a crea conținut de calitate, mai întâi cercetează bine subiectul înainte de a scrie articolul. Atunci trebuie să înțelegeți că oamenii sunt cu adevărat interesați de acest subiect.
  • Utilizare exemple concreteși imagini, acest lucru va face articolul plin de viață și interesant. Împărțiți textul în paragrafe mici pentru a fi ușor de citit. De exemplu, dacă deschideți o pagină de glume într-un ziar, pe care le veți citi mai întâi? Desigur, fiecare persoană citește mai întâi texte scurte, apoi mai lungi și, în sfârșit, împachetări lungi pentru picioare.
  • Problema preferată a „pandei” este lipsa de relevanță a unui articol care conține informații învechite. Urmăriți actualizările și modificați textele.
  • Urmăriți densitatea cuvintelor cheie; am scris mai sus cum să determinați această densitate; în serviciul pe care l-am descris, veți primi numărul exact necesar de cuvinte cheie.
  • Nu plagiați, toată lumea știe că nu puteți fura lucrurile sau textul altor persoane - este același lucru. Vei fi pedepsit pentru furt prin faptul că vei fi prins în filtru.
  • Scrieți texte de cel puțin două mii de cuvinte, apoi un astfel de articol va părea informativ prin ochii roboților motoarelor de căutare.
  • Rămâneți la subiect cu blogul dvs. Dacă rulați un blog despre câștigarea de bani pe internet, atunci nu trebuie să publicați articole despre pistoale cu aer comprimat. Acest lucru poate reduce ratingul resursei dvs.
  • Proiectați-vă frumos articolele, împărțiți-le în paragrafe și adăugați imagini, astfel încât să vă bucurați să citiți și să nu doriți să părăsiți site-ul rapid.
  • Când cumpărați linkuri, faceți-le către cele mai interesante și utile articole pe care oamenii le vor citi cu adevărat.

Ei bine, acum știi ce muncă fac roboții motoarelor de căutare și poți fi prieten cu ei. Și cel mai important, robotul de căutare Google și „panda” și „pinguinul” au fost studiate în detaliu de dvs.




Top