Che tipo di lavoro svolgono i robot ragno? I motori di ricerca sono i loro robot e spider. Chi sono i robot di ricerca

Robot di ricerca (bot, spider, spider, crawler)- Questo programma speciale motore di ricerca progettato per scansionare siti su Internet.

Molte persone non sanno che i robot di scansione raccolgono e archiviano semplicemente informazioni. Non lo elaborano. Altri programmi lo fanno.

Se vuoi guardare il sito attraverso gli occhi di un robot di ricerca, puoi farlo tramite il pannello webmaster.

Puoi vedere come funziona Google attraverso il pannello webmaster. Lì devi aggiungere il tuo sito e poi puoi guardare la pagina:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru

Puoi visualizzare Yandex tramite una copia salvata della pagina. Per fare ciò, trova la pagina desiderata nella ricerca Yandex, fai clic su "copia salvata" e quindi su "visualizza versione testuale".

Di seguito è riportato un elenco dei robot di ricerca che visitano i nostri siti. Alcuni indicizzano i siti, altri li monitorano pubblicità contestuale. Esistono robot specializzati che eseguono determinati compiti ristretti. Ad esempio, indicizzano immagini o notizie.

Conoscendo il robot di vista, puoi vietargli o consentirgli di strisciare nel sito, riducendo così il carico sul server. Bene, o proteggi le tue informazioni dall'entrare nella rete.

Robot di ricerca Yandex

Il motore di ricerca Yandex ha una dozzina e mezza di robot di ricerca a noi noti. Di seguito è riportato l'elenco dei bot che sono riuscito a scovare, anche dall'aiuto ufficiale.

YandexBot è il principale robot di indicizzazione;
YandexMedia è un robot che indicizza dati multimediali;
YandexImages - Indicizzatore Yandex.Images;
YandexCatalog - uno strumento di "tapping" per Yandex.Catalog, utilizzato per rimuovere temporaneamente i siti non disponibili dalla pubblicazione nel Catalogo;
YaDirectFetcher - Robot Yandex.Direct;
YandexBlogs è un robot di ricerca blog che indicizza post e commenti;
YandexNews - Robot Yandex.News;
YandexWebmaster – arriva quando si aggiunge un sito tramite il forum AddURL;
YandexPagechecker - validatore di micro markup;
YandexFavicons - indicizzatore di favicon
YandexMetrika - Robot Yandex.Metrica;
YandexMarket - Robot Yandex.Market;
YandexCalendar è un robot Yandex.Calendar.

Robot di ricerca di Google (bot)

Googlebot è il principale robot di indicizzazione;
Googlebot Nes - indicizzatore di notizie;
Googlebot Images: indicizzatore di immagini;
Googlebot Video - robot per dati video;
Google Mobile: indicizzatore di contenuti mobili;
Google Mobile AdSense: robot AdSense per dispositivi mobili
Google Adsense- Robot AdSense
Google AdsBot: bot per il controllo della qualità della pagina di destinazione
Mediapartners-Google - Robot AdSense

Robot di altri motori di ricerca

Inoltre, nei log del tuo sito, potresti imbatterti in alcuni robot di altri motori di ricerca.

Rambler - StackRambler
Mail.ru - Mail.Ru
Yahoo! — Slurp (o Yahoo! Slurp)
AOL - Bere
MSN - MSNBot
Dal vivo - MSNBot
Chiedi - Teoma
Alexa - ia_archiver
Lycos - Lycos
Aporto - Aporto
WebAlta - WebAlta (WebAlta Crawler/2.0)

Oltre ai robot dei motori di ricerca, nei siti c'è un enorme esercito di tutti i tipi di spider di sinistra. Si tratta di vari parser che raccolgono informazioni dai siti, solitamente per gli scopi egoistici dei loro creatori.

Alcuni rubano contenuti, altri rubano immagini, altri ancora hackerano siti Web e inseriscono segretamente collegamenti. Se noti che un parser di questo tipo si è collegato al tuo sito, blocca l’accesso ad esso a tutti modi possibili, anche tramite il file robots.txt.

Ciao amici! Oggi imparerai come funzionano i robot di ricerca Yandex e Google e quale funzione svolgono nella promozione del sito web. Quindi andiamo!

I motori di ricerca eseguono questa azione per trovare dieci progetti WEB su un milione di siti che hanno una risposta pertinente e di alta qualità alla richiesta dell’utente. Perché solo dieci? Perché è composto da sole dieci posizioni.

I robot di ricerca sono amici sia dei webmaster che degli utenti

Perché è importante che i robot di ricerca visitino un sito è già diventato chiaro, ma perché l'utente ne ha bisogno? Esatto, affinché l'utente possa vedere solo quei siti che risponderanno pienamente alla sua richiesta.

Cerca robot- uno strumento molto flessibile, è in grado di trovare un sito, anche appena creato, e il proprietario di questo sito non ci ha ancora lavorato. Ecco perché questo bot è stato chiamato ragno; può sgranchirsi le gambe e arrivare ovunque nella rete virtuale.

È possibile controllare un robot di ricerca a proprio vantaggio?

Ci sono casi in cui alcune pagine non sono incluse nella ricerca. Ciò è dovuto principalmente al fatto che questa pagina non è stata ancora indicizzata da un robot di ricerca. Naturalmente, prima o poi un robot di ricerca noterà questa pagina. Ma ci vuole tempo, e a volte parecchio tempo. Ma qui puoi aiutare il robot di ricerca a visitare questa pagina più velocemente.

Per fare ciò, puoi inserire il tuo sito web in directory o elenchi speciali, social network. In generale, su tutti i siti in cui vive semplicemente il robot di ricerca. Ad esempio, i social network si aggiornano ogni secondo. Prova a pubblicizzare il tuo sito e il robot di ricerca arriverà sul tuo sito molto più velocemente.

Da ciò segue una regola principale. Se desideri che i bot dei motori di ricerca visitino il tuo sito, devi fornire loro nuovi contenuti su base regolare. Se notano che il contenuto viene aggiornato e il sito si sta sviluppando, inizieranno a visitare il tuo progetto Internet molto più spesso.

Ogni robot di ricerca può ricordare quanto spesso cambiano i tuoi contenuti. Valuta non solo la qualità, ma gli intervalli di tempo. E se il materiale sul sito viene aggiornato una volta al mese, verrà sul sito una volta al mese.

Pertanto, se il sito viene aggiornato una volta alla settimana, il robot di ricerca arriverà una volta alla settimana. Se aggiorni il sito ogni giorno, il robot di ricerca visiterà il sito ogni giorno o a giorni alterni. Ci sono siti che vengono indicizzati entro pochi minuti dall'aggiornamento. Questo mezzi di comunicazione sociale, aggregatori di notizie e siti che pubblicano diversi articoli al giorno.

Come dare un compito a un robot e proibirgli di fare qualsiasi cosa?

Fin dall’inizio abbiamo appreso che i motori di ricerca hanno più robot che eseguono compiti diversi. Alcuni cercano immagini, altri collegamenti e così via.

Puoi controllare qualsiasi robot utilizzando un file speciale robots.txt . È da questo file che il robot inizia a conoscere il sito. In questo file puoi specificare se il robot può indicizzare il sito e, in tal caso, quali sezioni. Tutte queste istruzioni possono essere create per uno o tutti i robot.

Formazione sulla promozione del sito web

Maggiori dettagli sulla saggezza Promozione SEO siti nei motori di ricerca Sistemi Google e Yandex, parlo da solo su Skype. Ho portato tutti i miei progetti WEB ad avere più traffico e da questo ho ottenuto ottimi risultati. Posso insegnarlo anche a te, se ti interessa!

Cerca robot è un programma speciale di un motore di ricerca progettato per inserire in un database (indice) i siti e le relative pagine trovate su Internet. Nomi utilizzati anche: crawler, spider, bot, automaticindexer, formica, webcrawler, bot, webscutter, webrobots, webspider.

Principio di funzionamento

Un robot di ricerca è un programma di tipo browser. Esegue costantemente la scansione della rete: visita i siti indicizzati (già noti), ne segue i collegamenti e trova nuove risorse. Quando viene scoperta una nuova risorsa, il robot della procedura la aggiunge all'indice del motore di ricerca. Il robot di ricerca indicizza anche gli aggiornamenti sui siti, la cui frequenza è fissa. Ad esempio, un sito aggiornato una volta alla settimana verrà visitato da uno spider con questa frequenza e il contenuto dei siti di notizie potrà essere indicizzato entro pochi minuti dalla pubblicazione. Se nessun collegamento da altre risorse porta al sito, per attirare i robot di ricerca, la risorsa deve essere aggiunta tramite un modulo speciale (Google Webmaster Center, Yandex Webmaster Panel, ecc.).

Tipi di robot di ricerca

Ragni Yandex:

  • Yandex/1.01.001 I - il bot principale coinvolto nell'indicizzazione,
  • Yandex/1.01.001 (P) - indicizza immagini,
  • Yandex/1.01.001 (H) - trova siti mirror,
  • Yandex/1.03.003 (D) - determina se la pagina aggiunta dal pannello webmaster soddisfa i parametri di indicizzazione,
  • YaDirectBot/1.0 (I) - indicizza le risorse da rete pubblicitaria Yandex,
  • Yandex/1.02.000 (F) - indicizza le favicon del sito.

Ragni di Google:

  • Googlebot è il robot principale
  • Googlebot News: analizza e indicizza notizie,
  • Google Mobile: indicizza i siti per dispositivi mobili,
  • Googlebot Images: cerca e indicizza immagini,
  • Googlebot Video: indicizza video,
  • Google AdsBot: controlla la qualità della pagina di destinazione,
  • Google Mobile AdSense e Google AdSense: indicizza i siti della rete pubblicitaria di Google.

Anche altri motori di ricerca utilizzano diversi tipi di robot funzionalmente simili a quelli elencati.

Cerca robot è un programma speciale di un motore di ricerca progettato per inserire in un database (indice) i siti e le relative pagine trovate su Internet. Nomi utilizzati anche: crawler, spider, bot, automaticindexer, formica, webcrawler, bot, webscutter, webrobots, webspider.

Principio di funzionamento

Un robot di ricerca è un programma di tipo browser. Esegue costantemente la scansione della rete: visita i siti indicizzati (già noti), ne segue i collegamenti e trova nuove risorse. Quando viene scoperta una nuova risorsa, il robot della procedura la aggiunge all'indice del motore di ricerca. Il robot di ricerca indicizza anche gli aggiornamenti sui siti, la cui frequenza è fissa. Ad esempio, un sito aggiornato una volta alla settimana verrà visitato da uno spider con questa frequenza e il contenuto dei siti di notizie potrà essere indicizzato entro pochi minuti dalla pubblicazione. Se nessun collegamento da altre risorse porta al sito, per attirare i robot di ricerca, la risorsa deve essere aggiunta tramite un modulo speciale (Google Webmaster Center, Yandex Webmaster Panel, ecc.).

Tipi di robot di ricerca

Ragni Yandex:

  • Yandex/1.01.001 I - il bot principale coinvolto nell'indicizzazione,
  • Yandex/1.01.001 (P) - indicizza immagini,
  • Yandex/1.01.001 (H) - trova siti mirror,
  • Yandex/1.03.003 (D) - determina se la pagina aggiunta dal pannello webmaster soddisfa i parametri di indicizzazione,
  • YaDirectBot/1.0 (I) - indicizza le risorse della rete pubblicitaria Yandex,
  • Yandex/1.02.000 (F) - indicizza le favicon del sito.

Ragni di Google:

  • Googlebot è il robot principale
  • Googlebot News: analizza e indicizza notizie,
  • Google Mobile: indicizza i siti per dispositivi mobili,
  • Googlebot Images: cerca e indicizza immagini,
  • Googlebot Video: indicizza video,
  • Google AdsBot: controlla la qualità della pagina di destinazione,
  • Google Mobile AdSense e Google AdSense: indicizza i siti della rete pubblicitaria di Google.

Anche altri motori di ricerca utilizzano diversi tipi di robot funzionalmente simili a quelli elencati.

Contrariamente a quanto si crede, il robot non è direttamente coinvolto nell'elaborazione dei documenti scansionati. Si limita a leggerli e salvarli; poi vengono elaborati da altri programmi. La conferma visiva può essere ottenuta analizzando i log di un sito che viene indicizzato per la prima volta. Alla prima visita, il bot richiede prima il file robots.txt, poi la pagina principale del sito. Cioè, segue l'unico collegamento a lui noto. È qui che finisce sempre la prima visita del bot. Dopo un po' di tempo (di solito il giorno successivo), il bot richiede le pagine seguenti, utilizzando i collegamenti che si trovano nella pagina che è già stata letta. Quindi il processo continua nello stesso ordine: richiesta delle pagine per le quali sono già stati trovati i collegamenti - una pausa nell'elaborazione dei documenti letti - la sessione successiva con la richiesta dei collegamenti trovati.

Analizzare le pagine al volo significherebbe molto di più O maggiore consumo di risorse del robot e perdita di tempo. Ciascun server di scansione esegue più processi bot in parallelo. Devono agire il più rapidamente possibile per avere il tempo di leggere nuove pagine e rileggere quelle esistenti. Pertanto, i bot leggono e salvano solo documenti. Tutto ciò che salvano viene messo in coda per l'elaborazione (analisi del codice). I collegamenti trovati durante l'elaborazione della pagina vengono inseriti in una coda di attività per i bot. In questo modo l'intera rete viene continuamente scansionata. L'unica cosa che un bot può e deve analizzare al volo è il file robots.txt, per non richiedere indirizzi in esso vietati. Durante ogni sessione di scansione del sito, il robot richiede prima questo file e, successivamente, tutte le pagine in coda per la scansione.

Tipi di robot di ricerca

Ogni motore di ricerca ha il proprio set di robot per scopi diversi.
Fondamentalmente differiscono nel loro scopo funzionale, sebbene i confini siano molto arbitrari e ogni motore di ricerca li comprende a modo suo. Nei sistemi per la sola ricerca full-text è sufficiente un robot per tutte le occasioni. Per quei motori di ricerca che si occupano non solo di testo, i bot sono divisi in almeno due categorie: per testi e disegni. Esistono anche bot separati dedicati a tipi specifici di contenuti: dispositivi mobili, blog, notizie, video, ecc.

Robot di Google

Tutti i robot di Google sono collettivamente chiamati Googlebot. L’indicizzatore principale del robot “si presenta” in questo modo:

Mozilla/5.0 (compatibile; Googlebot/2.1; +http://www.google.com/bot.html)

Questo bot è impegnato nella scansione di pagine HTML e altri documenti per la maggior parte ricerca Google. Occasionalmente legge anche file CSS e JS: ciò può essere notato principalmente nella fase iniziale dell'indicizzazione del sito, mentre il bot esegue la scansione del sito per la prima volta. I tipi di contenuto accettati sono tutti (Accetta: */*).

Il secondo dei bot principali è impegnato nella scansione delle immagini dal sito. Si “presenta” semplicemente:

Immagine Googlebot/1.0

Nei registri sono stati rilevati anche almeno tre bot, impegnati a raccogliere contenuti per versione mobile ricerca. Il campo User-agent di tutti e tre termina con la riga:

(compatibile; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Prima di questa linea c'è il modello cellulare, con cui questo bot è compatibile. I robot avvistati hanno dei modelli Telefoni Nokia, Samsung e iPhone. I tipi di contenuto accettati sono tutti, ma con le priorità indicate:

Accetta: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Robot Yandex

Tra i motori di ricerca attivi su RuNet, Yandex ha la più grande raccolta di bot. Nella sezione aiuto webmaster puoi trovare l'elenco ufficiale di tutto il personale spider. Non ha senso presentarlo qui per intero, poiché i cambiamenti si verificano periodicamente in questo elenco.
Tuttavia, i robot Yandex più importanti per noi devono essere menzionati separatamente.
Robot di indicizzazione di base attualmente chiamato

Mozilla/5.0 (compatibile; YandexBot/3.0; +http://yandex.com/bots)

Precedentemente rappresentato come

Yandex/1.01.001 (compatibile; Win16; I)

Legge Pagine HTML sito web e altri documenti per l'indicizzazione. L'elenco dei tipi di media accettati era precedentemente limitato:

Accetta: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

Dal 31 luglio 2009 in questo elenco si è notato un notevole ampliamento (il numero dei tipi è quasi raddoppiato) e dal 10 novembre 2009 l'elenco è stato abbreviato in */* (tutti i tipi).
Questo robot è molto interessato a un insieme di lingue molto specifico: russo, un po' meno ucraino e bielorusso, un po' meno inglese e molto poco tutte le altre lingue.

Accetta lingua: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Scanner di immagini robotizzato porta la seguente riga nel campo User-agent:

Mozilla/5.0 (compatibile; YandexImages/3.0; +http://yandex.com/bots)

Impegnato nella scansione di grafica di vari formati per la ricerca nelle immagini.

A differenza di Google, Yandex dispone di bot separati per servirne alcuni funzioni speciali ricerca generale.
Robot "specchio"

Mozilla/5.0 (compatibile; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Non fa nulla di particolarmente complicato: appare periodicamente e controlla se la pagina principale del sito corrisponde quando si accede al dominio con www. e senza. Controlla anche le corrispondenze nei domini paralleli "mirror". A quanto pare, i mirror e la forma canonica dei domini in Yandex vengono gestiti separatamente pacchetto software, non direttamente correlato all'indicizzazione. Altrimenti non c’è assolutamente nulla che possa spiegare l’esistenza di un bot separato per questo scopo.

Collezionista di icone favicon.ico

Mozilla/5.0 (compatibile; YandexFavicons/1.0; +http://yandex.com/bots)

Appare periodicamente e richiede l'icona favicon.ico, che poi appare nei risultati di ricerca accanto al collegamento al sito. Non è noto per quali ragioni il collezionista di immagini non condivida questa responsabilità. Apparentemente c'è anche un pacchetto software separato in gioco.

Bot di verifica per i nuovi siti, funziona se aggiunto al modulo AddURL

Mozilla/5.0 (compatibile; YandexWebmaster/2.0; +http://yandex.com/bots)

Questo bot controlla la risposta del sito inviando una richiesta HEAD all'URL radice. In questo modo ne verifichiamo l'esistenza pagina iniziale nel dominio e vengono analizzati gli header HTTP di questa pagina. Il bot richiede anche il file robots.txt nella root del sito. Pertanto, dopo aver inviato il collegamento ad AddURL, viene stabilito che il sito esiste e né il file robots.txt né le intestazioni HTTP vietano l'accesso alla pagina principale.

Robot vagabondo

Attualmente non più funzionante, poiché Rambler ora utilizza la ricerca Yandex
Il robot indicizzatore Rambler può essere facilmente identificato nei log dal campo User-agent

StackRambler/2.0 (incompatibile con MSIE)

Rispetto ai suoi “colleghi” di altri motori di ricerca, questo bot sembra abbastanza semplice: non indica un elenco di tipi di media (di conseguenza, riceve il documento richiesto di qualsiasi tipo), nella richiesta manca il campo Accept-Language, e il campo If-Modified-since non viene trovato nelle richieste del bot.

Robot Mail.Ru

Si sa ancora poco di questo robot. Il portale Mail.Ru sviluppa da tempo la propria ricerca, ma non è ancora riuscita ad avviarla. Pertanto, è noto con certezza solo il nome del bot nello User-agent: Mail.Ru/2.0 (in precedenza: Mail.Ru/1.0). Il nome del bot per le direttive del file robors.txt non è stato pubblicato da nessuna parte, si presume che il bot dovrebbe chiamarsi Mail.Ru.

Altri robot

La ricerca su Internet, ovviamente, non è limitata a due motori di ricerca. Esistono quindi altri robot, ad esempio il robot Bing, il motore di ricerca di Microsoft, e altri robot. Quindi, in particolare, in Cina esiste un motore di ricerca nazionale Baidu, ma è improbabile che il suo robot raggiunga il centro del fiume e raggiunga il sito russo.

Inoltre recentemente sono proliferati molti servizi - in particolare solomono - che, pur non essendo motori di ricerca, scansionano anche i siti. Spesso il valore della trasmissione delle informazioni del sito a tali sistemi è discutibile e pertanto i loro robot possono essere vietati


Superiore