Che lavoro fanno gli spider dei motori di ricerca? Cos'è un robot di ricerca? Funzioni del robot di ricerca "Yandex" e Google. Cosa fa un robot di ricerca?

Contrariamente a quanto si crede, il robot non è direttamente coinvolto nell'elaborazione dei documenti scansionati. Si limita a leggerli e salvarli; poi vengono elaborati da altri programmi. La conferma visiva può essere ottenuta analizzando i log di un sito che viene indicizzato per la prima volta. Alla prima visita, il bot richiede prima il file robots.txt, poi la pagina principale del sito. Cioè, segue l'unico collegamento a lui noto. È qui che finisce sempre la prima visita del bot. Dopo un po' di tempo (di solito il giorno successivo), il bot richiede le pagine seguenti, utilizzando i collegamenti che si trovano nella pagina che è già stata letta. Quindi il processo continua nello stesso ordine: richiesta delle pagine per le quali sono già stati trovati i collegamenti - una pausa nell'elaborazione dei documenti letti - la sessione successiva con la richiesta dei collegamenti trovati.

Analizzare le pagine al volo significherebbe molto di più O maggiore consumo di risorse del robot e perdita di tempo. Ciascun server di scansione esegue più processi bot in parallelo. Devono agire il più rapidamente possibile per avere il tempo di leggere nuove pagine e rileggere quelle esistenti. Pertanto, i bot leggono e salvano solo documenti. Tutto ciò che salvano viene messo in coda per l'elaborazione (analisi del codice). I collegamenti trovati durante l'elaborazione della pagina vengono inseriti in una coda di attività per i bot. In questo modo l'intera rete viene continuamente scansionata. L'unica cosa che un bot può e deve analizzare al volo è il file robots.txt, per non richiedere indirizzi in esso vietati. Durante ogni sessione di scansione del sito, il robot richiede prima questo file e, successivamente, tutte le pagine in coda per la scansione.

Tipi di robot di ricerca

Ogni motore di ricerca ha il proprio set di robot per scopi diversi.
Fondamentalmente differiscono nel loro scopo funzionale, sebbene i confini siano molto arbitrari e ogni motore di ricerca li comprende a modo suo. Nei sistemi per la sola ricerca full-text è sufficiente un robot per tutte le occasioni. Per quei motori di ricerca che si occupano non solo di testo, i bot sono divisi in almeno due categorie: per testi e disegni. Esistono anche bot separati dedicati a tipi specifici di contenuti: dispositivi mobili, blog, notizie, video, ecc.

Robot di Google

Tutti i robot di Google sono collettivamente chiamati Googlebot. L’indicizzatore principale del robot “si presenta” in questo modo:

Mozilla/5.0 (compatibile; Googlebot/2.1; +http://www.google.com/bot.html)

Questo bot è impegnato nella scansione di pagine HTML e altri documenti per la maggior parte ricerca Google. Occasionalmente legge anche file CSS e JS: ciò può essere notato principalmente nella fase iniziale dell'indicizzazione del sito, mentre il bot esegue la scansione del sito per la prima volta. I tipi di contenuto accettati sono tutti (Accetta: */*).

Il secondo dei bot principali è impegnato nella scansione delle immagini dal sito. Si “presenta” semplicemente:

Immagine Googlebot/1.0

Nei registri sono stati rilevati anche almeno tre bot, impegnati a raccogliere contenuti per versione mobile ricerca. Il campo User-agent di tutti e tre termina con la riga:

(compatibile; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Prima di questa linea c'è il modello cellulare, con cui questo bot è compatibile. I robot avvistati hanno dei modelli Telefoni Nokia, Samsung e iPhone. I tipi di contenuto accettati sono tutti, ma con le priorità indicate:

Accetta: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Robot Yandex

Tra i motori di ricerca attivi su RuNet, Yandex ha la più grande raccolta di bot. Nella sezione aiuto webmaster puoi trovare l'elenco ufficiale di tutto il personale spider. Non ha senso presentarlo qui per intero, poiché i cambiamenti si verificano periodicamente in questo elenco.
Tuttavia, i robot Yandex più importanti per noi devono essere menzionati separatamente.
Robot di indicizzazione di base attualmente chiamato

Mozilla/5.0 (compatibile; YandexBot/3.0; +http://yandex.com/bots)

Precedentemente rappresentato come

Yandex/1.01.001 (compatibile; Win16; I)

Legge le pagine HTML del sito Web e altri documenti per l'indicizzazione. L'elenco dei tipi di media accettati era precedentemente limitato:

Accetta: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

Dal 31 luglio 2009 in questo elenco si è notato un notevole ampliamento (il numero dei tipi è quasi raddoppiato) e dal 10 novembre 2009 l'elenco è stato abbreviato in */* (tutti i tipi).
Questo robot è molto interessato a un insieme di lingue molto specifico: russo, un po' meno ucraino e bielorusso, un po' meno inglese e molto poco tutte le altre lingue.

Accetta lingua: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Scanner di immagini robotizzato porta la seguente riga nel campo User-agent:

Mozilla/5.0 (compatibile; YandexImages/3.0; +http://yandex.com/bots)

Impegnato nella scansione di grafica di vari formati per la ricerca nelle immagini.

A differenza di Google, Yandex dispone di bot separati per servirne alcuni funzioni speciali ricerca generale.
Robot "specchio"

Mozilla/5.0 (compatibile; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Non fa nulla di particolarmente complicato: appare periodicamente e controlla se la pagina principale del sito corrisponde quando si accede al dominio con www. e senza. Controlla anche le corrispondenze nei domini paralleli "mirror". A quanto pare, i mirror e la forma canonica dei domini in Yandex vengono gestiti separatamente pacchetto software, non direttamente correlato all'indicizzazione. Altrimenti non c’è assolutamente nulla che possa spiegare l’esistenza di un bot separato per questo scopo.

Collezionista di icone favicon.ico

Mozilla/5.0 (compatibile; YandexFavicons/1.0; +http://yandex.com/bots)

Appare periodicamente e richiede l'icona favicon.ico, che poi appare nei risultati di ricerca accanto al collegamento al sito. Non è noto per quali ragioni il collezionista di immagini non condivida questa responsabilità. Apparentemente c'è anche un pacchetto software separato in gioco.

Bot di verifica per i nuovi siti, funziona se aggiunto al modulo AddURL

Mozilla/5.0 (compatibile; YandexWebmaster/2.0; +http://yandex.com/bots)

Questo bot controlla la risposta del sito inviando una richiesta HEAD all'URL radice. In questo modo viene verificata l'esistenza della pagina principale nel dominio e vengono analizzati gli header HTTP di questa pagina. Il bot richiede anche il file robots.txt nella root del sito. Pertanto, dopo aver inviato il collegamento ad AddURL, viene stabilito che il sito esiste e né il file robots.txt né le intestazioni HTTP vietano l'accesso alla pagina principale.

Robot vagabondo

Attualmente non più funzionante, poiché Rambler ora utilizza la ricerca Yandex
Il robot indicizzatore Rambler può essere facilmente identificato nei log dal campo User-agent

StackRambler/2.0 (incompatibile con MSIE)

Rispetto ai “colleghi” degli altri motori di ricerca questo bot sembra abbastanza semplice: non specifica un elenco di tipi di media (di conseguenza, riceve il documento richiesto di qualsiasi tipo), nella richiesta manca il campo Accept-Language e il campo If-Modified-since non viene trovato nelle richieste del bot.

Robot Mail.Ru

Si sa ancora poco di questo robot. Il portale Mail.Ru sviluppa da tempo la propria ricerca, ma non è ancora riuscita ad avviarla. Pertanto, è noto con certezza solo il nome del bot nello User-agent: Mail.Ru/2.0 (in precedenza: Mail.Ru/1.0). Il nome del bot per le direttive del file robors.txt non è stato pubblicato da nessuna parte, si presume che il bot dovrebbe chiamarsi Mail.Ru.

Altri robot

La ricerca su Internet, ovviamente, non è limitata a due motori di ricerca. Esistono quindi altri robot, ad esempio il robot Bing, il motore di ricerca di Microsoft, e altri robot. Quindi, in particolare, in Cina esiste un motore di ricerca nazionale Baidu, ma è improbabile che il suo robot raggiunga il centro del fiume e raggiunga il sito russo.

Inoltre recentemente sono proliferati molti servizi - in particolare solomono - che, pur non essendo motori di ricerca, scansionano anche i siti. Spesso il valore della trasmissione delle informazioni del sito a tali sistemi è discutibile e pertanto i loro robot possono essere vietati

Come funzionano i robot dei motori di ricerca

Un robot di ricerca (spider, bot) è un piccolo programma in grado di visitare milioni di siti Web ed eseguire la scansione di gigabyte di testo senza l'intervento dell'operatore. Leggere le pagine e memorizzarne copie di testo è la prima fase dell'indicizzazione di nuovi documenti. Va notato che i robot dei motori di ricerca non eseguono alcuna elaborazione dei dati ricevuti. Il loro compito è solo preservare informazioni di testo.

Altri video sul nostro canale: impara l'internet marketing con SEMANTICA

Elenco dei robot di ricerca

Di tutti i motori di ricerca che scansionano la Runet, Yandex ha la più grande raccolta di bot. I seguenti bot sono responsabili dell'indicizzazione:

  • il principale robot di indicizzazione che raccoglie dati dalle pagine del sito web;
  • un bot in grado di riconoscere gli specchi;
  • Robot di ricerca Yandex, che indicizza le immagini;
  • uno spider che scansiona le pagine dei siti accettati da YAN;
  • icone delle favicon di scansione del robot;
  • diversi spider che determinano l'accessibilità delle pagine del sito.

Il robot di ricerca principale di Google raccoglie informazioni testuali. Fondamentalmente visualizza file HTML e analizza JS e CSS a determinati intervalli. In grado di accettare qualsiasi tipo di contenuto consentito per l'indicizzazione. PS Google ha uno spider che controlla l'indicizzazione delle immagini. Esiste anche un robot di ricerca, un programma che supporta il funzionamento della versione mobile della ricerca.

Guarda il sito attraverso gli occhi di un robot di ricerca

Per correggere errori di codice e altre carenze, il webmaster può scoprire come il robot di ricerca vede il sito. Questa opportunità è fornita da Google PS. Dovrai accedere agli Strumenti per i webmaster e quindi fare clic sulla scheda "Scansione". Nella finestra che si apre, è necessario selezionare la riga “visualizza come Googlebot”. Successivamente, devi inserire nel modulo di ricerca l'indirizzo della pagina che stai cercando (senza specificare il dominio e il protocollo http://).

Selezionando il comando “ottieni e visualizza”, il webmaster potrà valutare visivamente lo stato della pagina del sito. Per fare ciò, è necessario fare clic sulla casella di controllo "richiesta di visualizzazione". Si aprirà una finestra con due versioni del documento web. Il webmaster apprende come un visitatore abituale vede la pagina e in quale forma è disponibile per lo spider di ricerca.

Suggerimento: Se il documento web che stai analizzando non è ancora indicizzato, puoi utilizzare il comando “aggiungi all'indice” >> “scansiona solo questo URL”. Lo spider analizzerà il documento in pochi minuti e nel prossimo futuro la pagina web apparirà nei risultati della ricerca. Il limite mensile per le richieste di indicizzazione è di 500 documenti.

Come influenzare la velocità di indicizzazione

Dopo aver capito come funzionano i robot di ricerca, un webmaster sarà in grado di promuovere il suo sito in modo molto più efficace. Uno dei problemi principali di molti giovani progetti web è la scarsa indicizzazione. I robot dei motori di ricerca sono riluttanti a visitare risorse Internet non autorizzate.
È stato accertato che la velocità di indicizzazione dipende direttamente dall'intensità con cui viene aggiornato il sito. L'aggiunta regolare di materiali testuali unici attirerà l'attenzione dei motori di ricerca.

Per velocizzare l'indicizzazione è possibile utilizzare il social bookmarking e il servizio Twitter. Si consiglia di creare una Sitemap e caricarla nella directory principale del progetto web.

Cerca robot chiamato programma speciale qualsiasi motore di ricerca progettato per inserire in un database (indice) i siti e le relative pagine trovate su Internet. Nomi utilizzati anche: crawler, spider, bot, automaticindexer, formica, webcrawler, bot, webscutter, webrobots, webspider.

Principio di funzionamento

Un robot di ricerca è un programma di tipo browser. Esegue costantemente la scansione della rete: visita i siti indicizzati (già noti), ne segue i collegamenti e trova nuove risorse. Quando viene scoperta una nuova risorsa, il robot della procedura la aggiunge all'indice del motore di ricerca. Il robot di ricerca indicizza anche gli aggiornamenti sui siti, la cui frequenza è fissa. Ad esempio, un sito aggiornato una volta alla settimana verrà visitato da uno spider con questa frequenza e il contenuto dei siti di notizie potrà essere indicizzato entro pochi minuti dalla pubblicazione. Se nessun collegamento da altre risorse porta al sito, per attirare i robot di ricerca, la risorsa deve essere aggiunta tramite un modulo speciale (Google Webmaster Center, Yandex Webmaster Panel, ecc.).

Tipi di robot di ricerca

Ragni Yandex:

  • Yandex/1.01.001 I - il bot principale coinvolto nell'indicizzazione,
  • Yandex/1.01.001 (P) - indicizza immagini,
  • Yandex/1.01.001 (H) - trova siti mirror,
  • Yandex/1.03.003 (D) - determina se la pagina aggiunta dal pannello webmaster soddisfa i parametri di indicizzazione,
  • YaDirectBot/1.0 (I) - indicizza le risorse da rete pubblicitaria Yandex,
  • Yandex/1.02.000 (F) - indicizza le favicon del sito.

Ragni di Google:

  • Googlebot è il robot principale
  • Googlebot News: analizza e indicizza notizie,
  • Google Mobile: indicizza i siti per dispositivi mobili,
  • Googlebot Images: cerca e indicizza immagini,
  • Googlebot Video: indicizza video,
  • Google AdsBot: controlla la qualità della pagina di destinazione,
  • Google Mobile AdSense e Google Adsense— indicizza i siti della rete pubblicitaria di Google.

Anche altri motori di ricerca utilizzano diversi tipi di robot funzionalmente simili a quelli elencati.

Come funzionano i motori di ricerca? Una delle cose meravigliose di Internet è che ci sono centinaia di milioni di risorse web in attesa e pronte per essere presentate a noi. Ma la cosa brutta è che ci sono gli stessi milioni di pagine che, anche se ne avessimo bisogno, non appariranno davanti a noi, perché... semplicemente sconosciuto a noi. Come scoprire cosa e dove puoi trovare su Internet? Per fare questo, solitamente ci rivolgiamo ai motori di ricerca.

I motori di ricerca Internet sono siti speciali in rete globale, progettati per aiutare le persone a trovare World Wide Web le informazioni di cui hanno bisogno. Esistono differenze nel modo in cui i motori di ricerca svolgono le loro funzioni, ma in generale ci sono 3 funzioni principali e identiche:

Tutti “cercano” in Internet (o in qualche settore di Internet) in base a determinate parole chiave;
- tutti i motori di ricerca indicizzano le parole che cercano e i luoghi in cui le trovano;
- tutti i motori di ricerca consentono agli utenti di ricercare parole o combinazioni di parole chiave sulla base di pagine web già indicizzate e inserite nei propri database.

I primissimi motori di ricerca indicizzavano fino a diverse centinaia di migliaia di pagine e ricevevano 1.000 - 2.000 richieste al giorno. Oggi, i principali motori di ricerca hanno indicizzato e indicizzano continuamente centinaia di milioni di pagine ed elaborano decine di milioni di richieste al giorno. Di seguito parleremo di come funzionano i motori di ricerca e di come “mettono insieme” tutte le informazioni trovate per poter rispondere a qualsiasi domanda che ci interessa.

Diamo un'occhiata al Web

Quando la gente parla Motori di ricerca su Internet macchine, in realtà significano motori di ricerca World Wide Web. Prima che il Web diventasse la parte più visibile di Internet, esistevano già i motori di ricerca per aiutare le persone a trovare informazioni su Internet. I programmi chiamati "gopher" e "Archie" erano in grado di indicizzare i file situati su diversi server collegati InternetInternet e ridotto significativamente il tempo dedicato alla ricerca programmi necessari o documenti. Alla fine degli anni '80 del secolo scorso, un sinonimo di "capacità di lavorare su Internet" era la capacità di utilizzare gopher, Archie, Veronica, ecc. programmi di ricerca. Oggi, la maggior parte degli utenti Internet limita la ricerca solo a rete mondiale o WWW.

Un piccolo inizio

Prima di poterti dire dove trovare il documento o il file richiesto, il file o il documento deve essere già stato trovato. Per trovare informazioni su centinaia di milioni di pagine WEB esistenti, il motore di ricerca utilizza uno speciale programma robot. Questo programma è anche chiamato spider ("spider") e viene utilizzato per creare un elenco di parole trovate nella pagina. Il processo di costruzione di tale elenco viene chiamato scansione del web(Scansione del Web). Per costruire e catturare ulteriormente un elenco di parole “utili” (significative), ragno di ricerca deve “sfogliare” un sacco di altre pagine.

Come si inizia? ragno(spider) il tuo viaggio nel web? Di solito il punto di partenza sono i server più grandi del mondo e le pagine web più popolari. Lo spider inizia il suo viaggio da un sito di questo tipo, indicizza tutte le parole trovate e prosegue ulteriormente il suo movimento, seguendo i collegamenti ad altri siti. Il robot ragno inizia così a coprire “pezzi” di spazio web sempre più grandi. Google.com è iniziato come motore di ricerca accademico. In un articolo che descrive come è stato creato questo motore di ricerca, Sergey Brin e Lawrence Page (fondatori e proprietari di Google) hanno fornito un esempio della velocità con cui funzionano gli spider di Google. Ce ne sono diversi e solitamente la ricerca inizia con l'utilizzo di 3 spider. Ogni spider supporta fino a 300 connessioni aperte simultaneamente a pagine web. Ai picchi di carico, utilizzando 4 spider, il sistema Google è in grado di elaborare 100 pagine al secondo, generando un traffico di circa 600 kilobyte/sec.

Per fornire agli spider i dati da elaborare, Google disponeva di un server che non faceva altro che fornire agli spider sempre più URL. Per non dipendere dai fornitori di servizi Internet in termini di server dei nomi di dominio (DNS) che traducono gli URL in indirizzi IP, Google ha acquisito un proprio Server DNS, riducendo al minimo il tempo dedicato all'indicizzazione delle pagine.

Quando Google Robot visita Pagina HTML, tiene conto di 2 cose:

Parole (testo) per pagina;
- la loro posizione (in quale parte del corpo della pagina).

Parole situate con sezioni di servizio come titolo, sottotitoli, meta tag e altri sono stati contrassegnati come particolarmente importanti per le query di ricerca degli utenti. Google Spider è stato creato per indicizzare ogni parola simile presente in una pagina, ad eccezione delle interiezioni come "a", "an" e "the". Altri motori di ricerca hanno un approccio leggermente diverso all’indicizzazione.

Tutti gli approcci e gli algoritmi dei motori di ricerca mirano in definitiva a far funzionare i robot spider in modo più rapido ed efficiente. Ad esempio, alcuni robot di ricerca tengono traccia delle parole nel titolo, nei collegamenti e fino a 100 parole utilizzate più frequentemente in una pagina durante l'indicizzazione e persino ciascuna delle parole nelle prime 20 righe di contenuto di testo della pagina. Questo è l'algoritmo di indicizzazione, in particolare, di Lycos.

Altri motori di ricerca, come AltaVista, vanno nella direzione opposta, indicizzando ogni singola parola in una pagina, incluse "a", "un", "il" e altre parole non importanti.

Meta tags

I meta tag consentono al proprietario di una pagina web di specificare parole chiave e concetti che definiscono l'essenza del suo contenuto. Questo è uno strumento molto utile, soprattutto quando queste parole chiave possono essere ripetute fino a 2-3 volte nel testo della pagina. In questo caso, i meta tag possono "indirizzare" il robot di ricerca alla selezione desiderata di parole chiave per l'indicizzazione della pagina. Esiste la possibilità di "imbrogliare" i meta tag con query di ricerca e concetti popolari che non sono in alcun modo correlati al contenuto della pagina stessa. I robot di ricerca sono in grado di contrastare questo fenomeno, ad esempio analizzando la correlazione tra meta tag e contenuto di una pagina web, “escludendo” dalla considerazione quei meta tag (rispettivamente parole chiave) che non corrispondono al contenuto delle pagine.

Tutto ciò vale nei casi in cui il proprietario di una risorsa web desidera davvero essere incluso nei risultati di ricerca per le parole di ricerca desiderate. Ma capita spesso che il proprietario non voglia affatto essere indicizzato dal robot. Ma questi casi non sono l'argomento del nostro articolo.

Costruzione dell'indice

Una volta che gli spider hanno terminato il loro lavoro di ricerca di nuove pagine web, i motori di ricerca devono posizionare tutte le informazioni trovate in modo che sia conveniente utilizzarle in futuro. Ci sono 2 componenti chiave che contano qui:

Informazioni archiviate con i dati;
- il metodo con cui tali informazioni vengono indicizzate.

Nel caso più semplice, un motore di ricerca potrebbe semplicemente inserire la parola e l'URL nel punto in cui si trova. Ma questo renderebbe il motore di ricerca uno strumento completamente primitivo, poiché non ci sono informazioni su in quale parte del documento si trova questa parola (meta tag o testo semplice), se questa parola viene utilizzata una o più volte e se è contenuto in un collegamento a un'altra risorsa importante e correlata. In altre parole, questo metodo non classificherà i siti, non fornirà risultati rilevanti agli utenti, ecc.

Per fornirci dati utili, i motori di ricerca memorizzano non solo le informazioni della parola e il suo URL. Un motore di ricerca può salvare i dati sul numero (frequenza) delle menzioni di una parola su una pagina, assegnare un "peso" alla parola, che aiuterà quindi a produrre elenchi di ricerca (risultati) in base alla classifica ponderata per questa parola, prendendo in considerazione la sua posizione (nei link, nei meta tag, nel titolo della pagina e così via). Ogni motore di ricerca commerciale ha una propria formula per calcolare il “peso” delle parole chiave durante l'indicizzazione. Questo è uno dei motivi per cui lo stesso query di ricerca i motori di ricerca producono risultati completamente diversi.

Prossimo punto importante durante l'elaborazione delle informazioni trovate: la loro codifica per ridurre la quantità di spazio su disco per archiviarle. Ad esempio, l'articolo originale di Google descrive che 2 byte (8 bit ciascuno) vengono utilizzati per memorizzare i dati sul peso delle parole: ciò tiene conto del tipo di parola (lettere maiuscole o maiuscole), della dimensione delle lettere stesse (Font- Dimensioni) e altre informazioni che aiutano a classificare il sito. Ciascuno di questi "pezzi" di informazione richiede 2-3 bit di dati in un set completo di 2 byte. Di conseguenza, è possibile archiviare un'enorme quantità di informazioni in una forma molto compatta. Una volta che le informazioni sono “compresse”, è il momento di iniziare l’indicizzazione.

L'indicizzazione ha un obiettivo: garantire il massimo ricerca rapida le informazioni necessarie. Esistono diversi modi per creare indici, ma il più efficace è creare tabelle hash(tabella hash). L'hashing utilizza una formula specifica per assegnare un valore numerico a ciascuna parola.

In qualsiasi lingua ci sono lettere con cui iniziano molte più parole che con il resto delle lettere dell'alfabeto. Ad esempio, nella sezione del dizionario inglese ci sono molte più parole che iniziano con la lettera "M" rispetto a quelle che iniziano con la lettera "X". Ciò significa che la ricerca di una parola che inizia con la lettera più popolare richiederà più tempo rispetto a qualsiasi altra parola. Hashing(Hashing) equalizza questa differenza e riduce il tempo medio di ricerca, oltre a separare l'indice stesso dai dati reali. Una tabella hash contiene valori hash insieme a un puntatore ai dati corrispondenti a quel valore. L'indicizzazione efficace e il posizionamento efficace insieme forniscono un'elevata velocità di ricerca, anche se l'utente pone una query di ricerca molto complessa.

Il futuro dei motori di ricerca

Una ricerca basata sugli operatori booleani ("e", "o", "non") è una ricerca letterale: il motore di ricerca riceve le parole da cercare esattamente come sono state inserite. Ciò può causare problemi quando, ad esempio, la parola inserita ha più significati. "Chiave", ad esempio, può significare "un mezzo per aprire una porta" oppure una "password" per accedere a un server. Se sei interessato solo a un significato di una parola, ovviamente non avrai bisogno di dati sul suo secondo significato. Ovviamente puoi creare una query letterale che escluda l'output di dati in base al significato non necessario di una parola, ma sarebbe carino se il motore di ricerca stesso potesse aiutarti.

Un'area di ricerca sui futuri algoritmi dei motori di ricerca è il recupero concettuale delle informazioni. Si tratta di algoritmi che utilizzano l'analisi statistica delle pagine contenenti una determinata parola chiave o frase di ricerca per trovare dati pertinenti. È chiaro che un simile "motore di ricerca concettuale" richiederebbe molto più spazio di archiviazione per ogni pagina e più tempo per elaborare ogni richiesta. Attualmente molti ricercatori stanno lavorando su questo problema.

Un lavoro non meno intenso viene svolto nel campo dello sviluppo di algoritmi di ricerca basati su query. linguaggio naturale(Query in linguaggio naturale).

L'idea alla base delle query naturali è che puoi scrivere la tua query come se la stessi chiedendo a un collega seduto di fronte a te. Non c'è bisogno di preoccuparsi degli operatori booleani o di sforzarsi per comporre interrogazione complessa. Il sito di ricerca in linguaggio naturale più popolare di oggi è AskJeeves.com. Converte la query in parole chiave, che poi utilizza durante l'indicizzazione dei siti. Questo approccio funziona solo per query semplici. Tuttavia, il progresso non si ferma; è possibile che molto presto “parleremo” ai motori di ricerca nella nostra “lingua umana”.

Amici, vi do il benvenuto di nuovo! Ora vedremo cosa sono i robot di ricerca e parleremo in dettaglio del robot di ricerca di Google e di come diventarne amici.

Per prima cosa devi capire cosa sono realmente i robot di ricerca; sono anche chiamati spider. Che lavoro fanno gli spider dei motori di ricerca?

Questi sono programmi che controllano i siti. Esaminano tutti i post e le pagine del tuo blog, raccolgono informazioni che poi trasmettono al database del motore di ricerca per il quale lavorano.

Non è necessario conoscere l’intera lista dei robot di ricerca, la cosa più importante è sapere che Google ora ha due spider principali, chiamati “panda” e “penguin”. Combattono i contenuti di bassa qualità e i link spazzatura e devi sapere come respingere i loro attacchi.

Il robot di ricerca di Google Panda è stato creato per promuovere solo materiale di alta qualità nelle ricerche. Tutti i siti con contenuti di bassa qualità vengono abbassati nei risultati di ricerca.

Questo ragno è apparso per la prima volta nel 2011. Prima della sua comparsa, era possibile promuovere qualsiasi sito web pubblicando una grande quantità di testo negli articoli e utilizzando un'enorme quantità di parole chiave. Insieme, queste due tecniche hanno portato i contenuti di scarsa qualità in cima ai risultati di ricerca e i siti validi sono stati abbassati nei risultati di ricerca.

“Panda” ha subito messo le cose in ordine controllando tutti i siti e mettendo ognuno al posto che gli spetta. Sebbene abbia difficoltà con contenuti di bassa qualità, ora è possibile promuovere anche siti di piccole dimensioni con articoli di alta qualità. Sebbene prima fosse inutile promuovere tali siti, non potevano competere con i giganti che hanno una grande quantità di contenuti.

Ora scopriremo come evitare le sanzioni “panda”. Devi prima capire cosa non le piace. Ho già scritto sopra che lei lotta con contenuti scadenti, ma che tipo di testo è dannoso per lei, scopriamolo in modo da non pubblicarlo sul nostro sito web.

Il robot di ricerca di Google si impegna a garantire che questo motore di ricerca fornisca solo materiali di alta qualità per chi cerca lavoro. Se hai articoli che contengono poche informazioni e non hanno un aspetto attraente, riscrivi urgentemente questi testi in modo che il "panda" non ti arrivi.

I contenuti di alta qualità possono essere sia grandi che piccoli, ma se lo spider vede un lungo articolo con molte informazioni, sarà più utile al lettore.

Quindi è necessario notare la duplicazione, in altre parole, il plagio. Se pensi che riscriverai gli articoli di altre persone sul tuo blog, puoi immediatamente chiudere il tuo sito. La copia è severamente punita applicando un filtro, e Il plagio viene controllato molto semplice, ho scritto un articolo sull'argomento come verificare l'unicità dei testi.

La prossima cosa da notare è l’eccessiva saturazione del testo con parole chiave. Chi pensa di poter scrivere un articolo utilizzando solo parole chiave e di poter arrivare al primo posto nei risultati di ricerca si sbaglia di grosso. Ho un articolo su come controllare la pertinenza delle pagine, assicurati di leggerlo.

E un'altra cosa che può attrarre un "panda" sono i vecchi articoli che sono moralmente obsoleti e non portano traffico al sito. Hanno sicuramente bisogno di essere aggiornati.

C'è anche un robot di ricerca di Google "pinguino". Questo spider combatte lo spam e i link spazzatura sul tuo sito. Calcola anche i collegamenti acquistati da altre risorse. Pertanto, per non aver paura di questo robot di ricerca, non dovresti acquistare collegamenti, ma pubblicare contenuti di alta qualità in modo che le persone si colleghino a te stesse.

Ora formuliamo cosa è necessario fare per rendere il sito perfetto agli occhi di un robot di ricerca:

  • Per creare contenuti di qualità, ricerca bene l’argomento prima di scrivere l’articolo. Quindi devi capire che le persone sono davvero interessate a questo argomento.
  • Utilizzo esempi specifici e immagini, questo renderà l'articolo vivace e interessante. Suddividi il testo in piccoli paragrafi per facilitarne la lettura. Ad esempio, se apri una pagina di barzellette su un giornale, quali leggerai per prima? Naturalmente ognuno legge prima i testi brevi, poi quelli più lunghi e infine i lunghi bendaggi per i piedi.
  • Il cavillo preferito del “panda” è la mancanza di pertinenza di un articolo che contiene informazioni obsolete. Segui gli aggiornamenti e modifica i testi.
  • Tieni traccia della densità delle parole chiave; ho scritto sopra come determinare questa densità; nel servizio che ho descritto riceverai esattamente il numero richiesto di parole chiave.
  • Non plagiare, lo sanno tutti che non puoi rubare le cose o i messaggi degli altri: è la stessa cosa. Verrai punito per furto se rimarrai intrappolato nel filtro.
  • Scrivi testi di almeno duemila parole, quindi un articolo del genere sembrerà informativo agli occhi dei robot dei motori di ricerca.
  • Rimani in tema con il tuo blog. Se gestisci un blog su come guadagnare su Internet, non è necessario pubblicare articoli sulle armi ad aria compressa. Ciò potrebbe abbassare la valutazione della tua risorsa.
  • Progetta magnificamente i tuoi articoli, dividili in paragrafi e aggiungi immagini in modo che ti piaccia la lettura e non voglia lasciare il sito velocemente.
  • Quando acquisti collegamenti, indirizzali agli articoli più interessanti e utili che le persone leggeranno effettivamente.

Bene, ora sai cosa fanno i robot dei motori di ricerca e puoi diventare loro amico. E, soprattutto, il robot di ricerca di Google, “panda” e “pinguino” sono stati studiati in dettaglio da te.




Superiore