¿Qué tipo de trabajo hacen los robots araña? Los motores de búsqueda son sus robots y arañas. ¿Quiénes son los robots de búsqueda?

Robot de búsqueda (bot, araña, araña, rastreador)- Este programa especial Motor de búsqueda diseñado para escanear sitios en Internet.

Mucha gente no sabe que los robots de escaneo simplemente recopilan y almacenan información. No lo procesan. Otros programas hacen esto.

Si desea ver el sitio a través de los ojos de un robot de búsqueda, puede hacerlo a través del panel para webmasters.

Puedes ver cómo funciona Google a través del panel para webmasters. Allí debe agregar su sitio y luego podrá mirar la página:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru

Puede ver Yandex a través de una copia guardada de la página. Para hacer esto, busque la página deseada en la búsqueda de Yandex, haga clic en "copia guardada" y luego en "ver versión de texto".

A continuación se muestra una lista de robots de búsqueda que visitan nuestros sitios. Algunos de ellos indexan sitios, otros monitorean publicidad contextual. Hay robots especializados que realizan determinadas tareas específicas. Por ejemplo, indexan fotografías o noticias.

Conociendo al robot de vista, puede prohibir o permitir que se arrastre por el sitio, reduciendo así la carga en el servidor. Bueno, o proteja su información para que no ingrese a la red.

Robots de búsqueda Yandex

El motor de búsqueda Yandex tiene una docena y media de robots de búsqueda que conocemos. La lista de bots que logré desenterrar, incluida la ayuda oficial, se encuentra a continuación.

YandexBot es el principal robot de indexación;
YandexMedia es un robot que indexa datos multimedia;
YandexImages: indexador de Yandex.Images;
YandexCatalog: una herramienta de "tapping" para Yandex.Catalog, que se utiliza para eliminar temporalmente sitios no disponibles de la publicación en el Catálogo;
YaDirectFetcher - robot Yandex.Direct;
YandexBlogs es un robot de búsqueda de blogs que indexa publicaciones y comentarios;
YandexNews - robot Yandex.News;
YandexWebmaster: aparece al agregar un sitio a través del foro AddURL;
YandexPagechecker: validador de micromarcado;
YandexFavicons - indexador de favicon
YandexMetrika - robot Yandex.Metrica;
YandexMarket - robot Yandex.Market;
YandexCalendar es un robot Yandex.Calendar.

Robots de búsqueda de Google (bots)

Googlebot es el principal robot de indexación;
Googlebot Nes: indexador de noticias;
Imágenes del robot de Google: indexador de imágenes;
Googlebot Video: robot para datos de vídeo;
Google Mobile: indexador de contenido móvil;
Google Mobile AdSense - robot de AdSense móvil
Publicidad de Google- robot de AdSense
Google AdsBot: robot de control de calidad de la página de destino
Mediapartners-Google - Robot de AdSense

Robots de otros motores de búsqueda.

Además, en los registros de su sitio, puede toparse con algunos robots de otros motores de búsqueda.

Rambler - StackRambler
Mail.ru - Mail.Ru
Yahoo! — Slurp (o Yahoo! Slurp)
AOL - sorber
MSN-MSNBot
En vivo - MSNBot
Preguntar - Teoma
Alexa - ia_archiver
Lycos - Lycos
Puerto - Puerto
Webalta - WebAlta (rastreador WebAlta/2.0)

Además de los robots de los motores de búsqueda, hay un enorme ejército de todo tipo de arañas de izquierdas recorriendo los sitios. Se trata de varios analizadores que recopilan información de sitios, generalmente para fines egoístas de sus creadores.

Algunos roban contenido, otros roban imágenes, otros piratean sitios web y colocan enlaces en secreto. Si nota que dicho analizador se ha adjuntado a su sitio, bloquee el acceso de todos a él. formas posibles, incluso a través del archivo robots.txt.

¡Hola amigos! Hoy aprenderá cómo funcionan los robots de búsqueda de Yandex y Google y qué función desempeñan en la promoción de sitios web. ¡Entonces vamos!

Los motores de búsqueda realizan esta acción para encontrar diez proyectos WEB entre un millón de sitios que tengan una respuesta relevante y de alta calidad a la solicitud del usuario. ¿Por qué sólo diez? Porque consta de sólo diez posiciones.

Los robots de búsqueda son amigos tanto de los webmasters como de los usuarios

Ya ha quedado claro por qué es importante que los robots de búsqueda visiten un sitio, pero ¿por qué el usuario lo necesita? Así es, para que el usuario vea sólo aquellos sitios que respondan completamente a su solicitud.

robot de búsqueda- una herramienta muy flexible, es capaz de encontrar un sitio, incluso uno que acaba de ser creado y el propietario de este sitio aún no ha trabajado en él. Por eso a este robot lo llamaron araña; puede estirar las patas y llegar a cualquier lugar de la red virtual.

¿Es posible controlar un robot de búsqueda a tu favor?

Hay casos en los que algunas páginas no se incluyen en la búsqueda. Esto se debe principalmente a que esta página aún no ha sido indexada por ningún robot de búsqueda. Por supuesto, tarde o temprano un robot de búsqueda notará esta página. Pero lleva tiempo y, a veces, bastante tiempo. Pero aquí puedes ayudar al robot de búsqueda a visitar esta página más rápido.

Para hacer esto, puede colocar su sitio web en directorios o listas especiales, redes sociales. En general, en todos los sitios donde simplemente vive el robot de búsqueda. Por ejemplo, las redes sociales se actualizan cada segundo. Intente anunciar su sitio y el robot de búsqueda llegará a su sitio mucho más rápido.

De esto se desprende una regla principal. Si desea que los robots de los motores de búsqueda visiten su sitio, debe proporcionarles contenido nuevo de forma regular. Si notan que el contenido se está actualizando y el sitio se está desarrollando, comenzarán a visitar su proyecto de Internet con mucha más frecuencia.

Cada robot de búsqueda puede recordar con qué frecuencia cambia su contenido. Evalúa no sólo la calidad, sino también los intervalos de tiempo. Y si el material del sitio se actualiza una vez al mes, él vendrá al sitio una vez al mes.

Por lo tanto, si el sitio se actualiza una vez por semana, el robot de búsqueda llegará una vez por semana. Si actualiza el sitio todos los días, el robot de búsqueda visitará el sitio todos los días o cada dos días. Hay sitios que se indexan a los pocos minutos de la actualización. Este medios de comunicación social, agregadores de noticias y sitios que publican varios artículos al día.

¿Cómo darle una tarea a un robot y prohibirle que haga algo?

Desde el principio aprendimos que los motores de búsqueda tienen varios robots que realizan diferentes tareas. Algunos buscan imágenes, otros enlaces, etc.

Puedes controlar cualquier robot usando un archivo especial. robots.txt . Es a partir de este archivo que el robot comienza a familiarizarse con el sitio. En este archivo puede especificar si el robot puede indexar el sitio y, de ser así, qué secciones. Todas estas instrucciones se pueden crear para uno o todos los robots.

Capacitación en promoción de sitios web.

Más detalles sobre la sabiduría Promoción SEO sitios en motores de búsqueda sistemas de google y Yandex, hablo solo por Skype. Llevé todos mis proyectos WEB a más tráfico y obtuve excelentes resultados con esto. ¡Puedo enseñarte esto también, si estás interesado!

robot de búsqueda es un programa especial de un motor de búsqueda que está diseñado para ingresar en una base de datos (índice) sitios y sus páginas encontradas en Internet. Nombres también utilizados: rastreador, araña, bot, indexador automático, hormiga, webcrawler, bot, webscutter, webrobots, webspider.

Principio de funcionamiento

Un robot de búsqueda es un programa de tipo navegador. Escanea constantemente la red: visita sitios indexados (ya conocidos), sigue enlaces de ellos y encuentra nuevos recursos. Cuando se descubre un nuevo recurso, el robot de procedimientos lo agrega al índice del motor de búsqueda. El robot de búsqueda también indexa las actualizaciones de los sitios cuya frecuencia es fija. Por ejemplo, un sitio que se actualiza una vez por semana será visitado por una araña con esta frecuencia, y el contenido de los sitios de noticias se puede indexar a los pocos minutos de su publicación. Si ningún enlace de otros recursos conduce al sitio, para atraer robots de búsqueda, el recurso debe agregarse a través de un formulario especial (Centro para webmasters de Google, Panel para webmasters de Yandex, etc.).

Tipos de robots de búsqueda

Arañas yandex:

  • Yandex/1.01.001 I - el robot principal involucrado en la indexación,
  • Yandex/1.01.001 (P) - indexa imágenes,
  • Yandex/1.01.001 (H) - busca sitios espejo,
  • Yandex/1.03.003 (D): determina si la página agregada desde el panel para webmasters cumple con los parámetros de indexación,
  • YaDirectBot/1.0 (I) - indexa recursos de red publicitaria Yandex,
  • Yandex/1.02.000 (F): indexa los favicons del sitio.

Arañas de Google:

  • Googlebot es el robot principal
  • Googlebot News: escanea e indexa noticias,
  • Google Mobile: indexa sitios para dispositivos móviles,
  • Imágenes del robot de Google: busca e indexa imágenes,
  • Vídeo del robot de Google: indexa vídeos,
  • Google AdsBot: comprueba la calidad de la página de destino,
  • Google Mobile AdSense y Google AdSense: indexa sitios de la red publicitaria de Google.

Otros motores de búsqueda también utilizan varios tipos de robots que son funcionalmente similares a los enumerados.

robot de búsqueda es un programa especial de un motor de búsqueda que está diseñado para ingresar en una base de datos (índice) sitios y sus páginas encontradas en Internet. Nombres también utilizados: rastreador, araña, bot, indexador automático, hormiga, webcrawler, bot, webscutter, webrobots, webspider.

Principio de funcionamiento

Un robot de búsqueda es un programa de tipo navegador. Escanea constantemente la red: visita sitios indexados (ya conocidos), sigue enlaces de ellos y encuentra nuevos recursos. Cuando se descubre un nuevo recurso, el robot de procedimientos lo agrega al índice del motor de búsqueda. El robot de búsqueda también indexa las actualizaciones de los sitios cuya frecuencia es fija. Por ejemplo, un sitio que se actualiza una vez por semana será visitado por una araña con esta frecuencia, y el contenido de los sitios de noticias se puede indexar a los pocos minutos de su publicación. Si ningún enlace de otros recursos conduce al sitio, para atraer robots de búsqueda, el recurso debe agregarse a través de un formulario especial (Centro para webmasters de Google, Panel para webmasters de Yandex, etc.).

Tipos de robots de búsqueda

Arañas yandex:

  • Yandex/1.01.001 I - el robot principal involucrado en la indexación,
  • Yandex/1.01.001 (P) - indexa imágenes,
  • Yandex/1.01.001 (H) - busca sitios espejo,
  • Yandex/1.03.003 (D): determina si la página agregada desde el panel para webmasters cumple con los parámetros de indexación,
  • YaDirectBot/1.0 (I) - indexa recursos de la red publicitaria de Yandex,
  • Yandex/1.02.000 (F): indexa los favicons del sitio.

Arañas de Google:

  • Googlebot es el robot principal
  • Googlebot News: escanea e indexa noticias,
  • Google Mobile: indexa sitios para dispositivos móviles,
  • Imágenes del robot de Google: busca e indexa imágenes,
  • Vídeo del robot de Google: indexa vídeos,
  • Google AdsBot: comprueba la calidad de la página de destino,
  • Google Mobile AdSense y Google AdSense: indexa sitios de la red publicitaria de Google.

Otros motores de búsqueda también utilizan varios tipos de robots que son funcionalmente similares a los enumerados.

Contrariamente a la creencia popular, el robot no participa directamente en el procesamiento de documentos escaneados. Sólo los lee y los guarda; luego son procesados ​​por otros programas. Se puede obtener una confirmación visual analizando los registros de un sitio que se indexa por primera vez. En la primera visita, el bot solicita primero el archivo robots.txt y luego la página principal del sitio. Es decir, sigue el único vínculo que conoce. Aquí es donde siempre termina la primera visita del bot. Después de un tiempo (generalmente al día siguiente), el bot solicita las siguientes páginas, utilizando enlaces que se encuentran en la página que ya ha sido leída. Luego el proceso continúa en el mismo orden: solicitud de páginas para las que ya se han encontrado enlaces - una pausa para procesar los documentos leídos - la siguiente sesión con una solicitud de enlaces encontrados.

Analizar páginas sobre la marcha significaría mucho más oh mayor consumo de recursos del robot y pérdida de tiempo. Cada servidor de análisis ejecuta varios procesos de bot en paralelo. Deben actuar lo más rápido posible para tener tiempo de leer páginas nuevas y releer las existentes. Por tanto, los bots sólo leen y guardan documentos. Todo lo que guardan se pone en cola para su procesamiento (análisis de código). Los enlaces encontrados durante el procesamiento de la página se colocan en una cola de tareas para bots. Así es como se escanea continuamente toda la red. Lo único que un bot puede y debe analizar sobre la marcha es el archivo robots.txt, para no solicitar direcciones que están prohibidas en él. Durante cada sesión de rastreo de un sitio, el robot primero solicita este archivo y, después, todas las páginas se ponen en cola para rastrear.

Tipos de robots de búsqueda

Cada motor de búsqueda tiene su propio conjunto de robots para diferentes propósitos.
Básicamente, se diferencian en su finalidad funcional, aunque los límites son muy arbitrarios y cada motor de búsqueda los entiende a su manera. Para sistemas que solo buscan texto completo, un robot es suficiente para todas las ocasiones. Para aquellos motores de búsqueda que se ocupan no sólo de texto, los bots se dividen en al menos dos categorías: para textos y dibujos. También hay bots separados dedicados a tipos específicos de contenido: móviles, blogs, noticias, vídeos, etc.

Robots de Google

Todos los robots de Google se denominan colectivamente Googlebot. El robot indexador principal “se presenta” así:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Este robot está ocupado escaneando páginas HTML y otros documentos para la página principal. búsqueda de Google. Ocasionalmente también lee archivos CSS y JS; esto se puede notar principalmente en la etapa inicial de indexación del sitio, mientras el bot rastrea el sitio por primera vez. Los tipos de contenido aceptados son todos (Aceptar: */*).

El segundo de los robots principales está ocupado escaneando imágenes del sitio. Se “presenta” simplemente:

Imagen del robot de Google/1.0

También se vieron al menos tres robots en los registros, ocupados recopilando contenido para version móvil buscar. El campo User-agent de los tres termina con la línea:

(compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Antes de esta línea está el modelo. teléfono móvil, con el que este bot es compatible. Los bots detectados tienen modelos. teléfonos nokia, Samsung y iPhone. Los tipos de contenido aceptados son todos, pero con las prioridades indicadas:

Aceptar: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

robots yandex

De los motores de búsqueda activos en RuNet, Yandex tiene la mayor colección de bots. En la sección de ayuda para webmasters puede encontrar una lista oficial de todo el personal de Spider. No tiene sentido presentarlo aquí completo, ya que periódicamente se producen cambios en esta lista.
Sin embargo, los robots Yandex más importantes para nosotros deben mencionarse por separado.
Robot indexador básico actualmente llamado

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Anteriormente representado como

Yandex/1.01.001 (compatible; Win16; I)

Lee páginas HTML sitio web y otros documentos para indexación. La lista de tipos de medios aceptados anteriormente era limitada:

Aceptar: texto/html, aplicación/pdf;q=0.1, aplicación/rtf;q=0.1, texto/rtf;q=0.1, aplicación/msword;q=0.1, aplicación/x-shockwave-flash;q=0.1, aplicación/vnd.ms-excel;q=0.1, aplicación/vnd.ms-powerpoint;q=0.1

Desde el 31 de julio de 2009, se ha observado una expansión significativa en esta lista (el número de tipos casi se ha duplicado) y desde el 10 de noviembre de 2009, la lista se ha reducido a */* (todos los tipos).
Este robot está muy interesado en un conjunto muy específico de idiomas: ruso, un poco menos de ucraniano y bielorruso, un poco menos de inglés y muy poco de todos los demás idiomas.

Idioma aceptado: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Escáner de imágenes robótico lleva la siguiente línea en el campo Usuario-agente:

Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)

Se dedica a escanear gráficos de varios formatos para buscar imágenes.

A diferencia de Google, Yandex tiene bots separados para atender algunos funciones especiales búsqueda generalizada.
Robot "espejo"

Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

No hace nada particularmente complicado: aparece periódicamente y comprueba si la página principal del sitio coincide al acceder al dominio con www. y sin. También comprueba dominios "espejo" paralelos en busca de coincidencias. Aparentemente, los espejos y la forma canónica de dominios en Yandex se manejan por separado. paquete de software, no directamente relacionado con la indexación. De lo contrario, no hay absolutamente nada que explique la existencia de un bot independiente para este fin.

Coleccionista de iconos favicon.ico

Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)

Aparece periódicamente y solicita el icono favicon.ico, que luego aparece en los resultados de búsqueda junto al enlace al sitio. Se desconoce por qué el coleccionista de cuadros no comparte esta responsabilidad. Aparentemente también hay un paquete de software separado en juego.

robot de verificación para sitios nuevos, funciona cuando se agrega al formulario AddURL

Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)

Este bot verifica la respuesta del sitio enviando una solicitud HEAD a la URL raíz. De esta manera comprobamos la existencia. pagina de inicio en el dominio y se analizan los encabezados HTTP de esta página. El bot también solicita el archivo robots.txt en la raíz del sitio. Así, después de enviar el enlace a AddURL, se determina que el sitio existe y que ni el archivo robots.txt ni los encabezados HTTP prohíben el acceso a la página principal.

robot caminante

Actualmente ya no funciona, ya que Rambler ahora usa la búsqueda de Yandex
El robot indexador Rambler se puede identificar fácilmente en los registros mediante el campo Usuario-agente

StackRambler/2.0 (incompatible con MSIE)

En comparación con sus "colegas" de otros motores de búsqueda, este robot parece bastante simple: no indica una lista de tipos de medios (en consecuencia, recibe el documento solicitado de cualquier tipo), falta el campo Aceptar-Idioma en la solicitud, y el campo If-Modified-since no se encuentra en las solicitudes del bot.

Robot Mail.Ru

Todavía se sabe poco sobre este robot. El portal Mail.Ru lleva mucho tiempo desarrollando su propia búsqueda, pero aún no ha conseguido lanzarla. Por lo tanto, solo se conoce con certeza el nombre del bot en el User-agent: Mail.Ru/2.0 (anteriormente Mail.Ru/1.0). El nombre del bot para las directivas del archivo robors.txt no se ha publicado en ninguna parte, se supone que el bot debería llamarse Mail.Ru.

Otros robots

Por supuesto, la búsqueda en Internet no se limita a dos motores de búsqueda. Por lo tanto, existen otros robots, por ejemplo, el robot Bing, el motor de búsqueda de Microsoft y otros robots. Así, en particular, en China existe el motor de búsqueda nacional Baidu, pero es poco probable que su robot llegue al centro del río y llegue al sitio ruso.

Además, últimamente han proliferado numerosos servicios, en particular Solomono, que, aunque no son motores de búsqueda, también escanean sitios. A menudo, el valor de transmitir información del sitio a dichos sistemas es cuestionable y, por lo tanto, sus robots pueden prohibirse en


Arriba