¿Qué trabajo hacen las arañas de los motores de búsqueda? ¿Qué es un robot de búsqueda? Funciones del robot de búsqueda "Yandex" y Google. ¿Qué hace un robot de búsqueda?

Contrariamente a la creencia popular, el robot no participa directamente en el procesamiento de documentos escaneados. Sólo los lee y los guarda; luego son procesados ​​por otros programas. Se puede obtener una confirmación visual analizando los registros de un sitio que se indexa por primera vez. En la primera visita, el bot solicita primero el archivo robots.txt y luego la página principal del sitio. Es decir, sigue el único vínculo que conoce. Aquí es donde siempre termina la primera visita del bot. Después de un tiempo (generalmente al día siguiente), el bot solicita las siguientes páginas, utilizando enlaces que se encuentran en la página que ya ha sido leída. Luego el proceso continúa en el mismo orden: solicitud de páginas para las que ya se han encontrado enlaces - una pausa para procesar los documentos leídos - la siguiente sesión con una solicitud de enlaces encontrados.

Analizar páginas sobre la marcha significaría mucho más oh mayor consumo de recursos del robot y pérdida de tiempo. Cada servidor de análisis ejecuta varios procesos de bot en paralelo. Deben actuar lo más rápido posible para tener tiempo de leer páginas nuevas y releer las existentes. Por tanto, los bots sólo leen y guardan documentos. Todo lo que guardan se pone en cola para su procesamiento (análisis de código). Los enlaces encontrados durante el procesamiento de la página se colocan en una cola de tareas para bots. Así es como se escanea continuamente toda la red. Lo único que un bot puede y debe analizar sobre la marcha es el archivo robots.txt, para no solicitar direcciones que están prohibidas en él. Durante cada sesión de rastreo del sitio, el robot primero solicita este archivo y, después, todas las páginas se ponen en cola para el rastreo.

Tipos de robots de búsqueda

Cada motor de búsqueda tiene su propio conjunto de robots para diferentes propósitos.
Básicamente, se diferencian en su finalidad funcional, aunque los límites son muy arbitrarios y cada motor de búsqueda los entiende a su manera. Para sistemas que solo buscan texto completo, un robot es suficiente para todas las ocasiones. Para aquellos motores de búsqueda que se ocupan no sólo de texto, los bots se dividen en al menos dos categorías: para textos y dibujos. También hay bots separados dedicados a tipos específicos de contenido: móviles, blogs, noticias, vídeos, etc.

Robots de Google

Todos los robots de Google se denominan colectivamente Googlebot. El robot indexador principal “se presenta” así:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Este robot está ocupado escaneando páginas HTML y otros documentos para la página principal. búsqueda de Google. Ocasionalmente también lee archivos CSS y JS; esto se puede notar principalmente en la etapa inicial de indexación del sitio, mientras el bot rastrea el sitio por primera vez. Los tipos de contenido aceptados son todos (Aceptar: */*).

El segundo de los robots principales está ocupado escaneando imágenes del sitio. Se “presenta” simplemente:

Imagen del robot de Google/1.0

También se vieron al menos tres robots en los registros, ocupados recopilando contenido para version móvil buscar. El campo User-agent de los tres termina con la línea:

(compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Antes de esta línea está el modelo. teléfono móvil, con el que este bot es compatible. Los bots detectados tienen modelos. teléfonos nokia, Samsung y iPhone. Los tipos de contenido aceptados son todos, pero con las prioridades indicadas:

Aceptar: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

robots yandex

De los motores de búsqueda activos en RuNet, Yandex tiene la mayor colección de bots. En la sección de ayuda para webmasters puede encontrar una lista oficial de todo el personal de Spider. No tiene sentido presentarlo aquí completo, ya que periódicamente se producen cambios en esta lista.
Sin embargo, los robots Yandex más importantes para nosotros deben mencionarse por separado.
Robot indexador básico actualmente llamado

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Anteriormente representado como

Yandex/1.01.001 (compatible; Win16; I)

Lee páginas HTML de sitios web y otros documentos para indexar. La lista de tipos de medios aceptados anteriormente era limitada:

Aceptar: texto/html, aplicación/pdf;q=0.1, aplicación/rtf;q=0.1, texto/rtf;q=0.1, aplicación/msword;q=0.1, aplicación/x-shockwave-flash;q=0.1, aplicación/vnd.ms-excel;q=0.1, aplicación/vnd.ms-powerpoint;q=0.1

Desde el 31 de julio de 2009, se ha observado una expansión significativa en esta lista (el número de tipos casi se ha duplicado) y desde el 10 de noviembre de 2009, la lista se ha reducido a */* (todos los tipos).
Este robot está muy interesado en un conjunto muy específico de idiomas: ruso, un poco menos de ucraniano y bielorruso, un poco menos de inglés y muy poco de todos los demás idiomas.

Idioma aceptado: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Escáner de imágenes robótico lleva la siguiente línea en el campo Usuario-agente:

Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)

Se dedica a escanear gráficos de varios formatos para buscar imágenes.

A diferencia de Google, Yandex tiene bots separados para atender algunos funciones especiales búsqueda generalizada.
Robot "espejo"

Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

No hace nada particularmente complicado: aparece periódicamente y comprueba si la página principal del sitio coincide al acceder al dominio con www. y sin. También comprueba dominios "espejo" paralelos en busca de coincidencias. Aparentemente, los espejos y la forma canónica de dominios en Yandex se manejan por separado. paquete de software, no directamente relacionado con la indexación. De lo contrario, no hay absolutamente nada que explique la existencia de un bot independiente para este fin.

Coleccionista de iconos favicon.ico

Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)

Aparece periódicamente y solicita el icono favicon.ico, que luego aparece en los resultados de búsqueda junto al enlace al sitio. Se desconoce por qué el coleccionista de cuadros no comparte esta responsabilidad. Aparentemente también hay un paquete de software separado en juego.

robot de verificación para sitios nuevos, funciona cuando se agrega al formulario AddURL

Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)

Este bot verifica la respuesta del sitio enviando una solicitud HEAD a la URL raíz. De esta forma se comprueba la existencia de la página principal en el dominio y se analizan las cabeceras HTTP de esta página. El bot también solicita el archivo robots.txt en la raíz del sitio. Así, después de enviar el enlace a AddURL, se determina que el sitio existe y que ni el archivo robots.txt ni los encabezados HTTP prohíben el acceso a la página principal.

robot caminante

Actualmente ya no funciona, ya que Rambler ahora usa la búsqueda de Yandex
El robot indexador Rambler se puede identificar fácilmente en los registros mediante el campo Usuario-agente

StackRambler/2.0 (incompatible con MSIE)

Comparado con “colegas” de otros los motores de búsqueda este robot parece bastante simple: no especifica una lista de tipos de medios (en consecuencia, recibe el documento solicitado de cualquier tipo), falta el campo Aceptar-Idioma en la solicitud y no se encuentra el campo Si-Modificado-since en las solicitudes del bot.

Robot Mail.Ru

Todavía se sabe poco sobre este robot. El portal Mail.Ru lleva mucho tiempo desarrollando su propia búsqueda, pero aún no ha conseguido lanzarla. Por lo tanto, solo se conoce con certeza el nombre del bot en el User-agent: Mail.Ru/2.0 (anteriormente Mail.Ru/1.0). El nombre del bot para las directivas del archivo robors.txt no se ha publicado en ninguna parte, se supone que el bot debería llamarse Mail.Ru.

Otros robots

Por supuesto, la búsqueda en Internet no se limita a dos motores de búsqueda. Por lo tanto, existen otros robots, por ejemplo, el robot Bing, el motor de búsqueda de Microsoft y otros robots. Así, en particular, en China existe el motor de búsqueda nacional Baidu, pero es poco probable que su robot llegue al centro del río y llegue al sitio ruso.

Además, últimamente han proliferado numerosos servicios, en particular Solomono, que, aunque no son motores de búsqueda, también escanean sitios. A menudo, el valor de transmitir información del sitio a dichos sistemas es cuestionable y, por lo tanto, sus robots pueden prohibirse en

Cómo funcionan los robots de los motores de búsqueda

Un robot de búsqueda (spider, bot) es un pequeño programa que puede visitar millones de sitios web y escanear gigabytes de texto sin la intervención de un operador. Leer páginas y almacenar copias de texto de ellas es la primera etapa de la indexación de nuevos documentos. Cabe señalar que los robots de los motores de búsqueda no realizan ningún procesamiento de los datos recibidos. Su tarea es sólo preservar información de texto.

Más vídeos en nuestro canal - aprende marketing en internet con SEMANTICA

Lista de robots de búsqueda

De todos los motores de búsqueda que escanean Runet, Yandex tiene la mayor colección de bots. Los siguientes bots son responsables de la indexación:

  • el robot de indexación principal que recopila datos de las páginas del sitio web;
  • un robot que puede reconocer espejos;
  • Robot de búsqueda Yandex, que indexa imágenes;
  • una araña que escanea las páginas de los sitios aceptados por YAN;
  • iconos de favicon de escaneo de robots;
  • Varias arañas que determinan la accesibilidad de las páginas del sitio.

El principal robot de búsqueda de Google recopila información textual. Básicamente, ve archivos HTML y analiza JS y CSS en ciertos intervalos. Capaz de aceptar cualquier tipo de contenido permitido para indexación. PD: Google tiene una araña que controla la indexación de imágenes. También hay un robot de búsqueda, un programa que apoya el funcionamiento de la versión móvil de búsqueda.

Vea el sitio a través de los ojos de un robot de búsqueda

Para corregir errores de código y otras deficiencias, el webmaster puede averiguar cómo ve el sitio el robot de búsqueda. Esta oportunidad la brinda Google PS. Deberá ir a las herramientas para webmasters y luego hacer clic en la pestaña "rastreo". En la ventana que se abre, debe seleccionar la línea "ver como Googlebot". A continuación, debe ingresar la dirección de la página que está investigando en el formulario de búsqueda (sin especificar el dominio ni el protocolo http://).

Al seleccionar el comando "obtener y mostrar", el webmaster podrá evaluar visualmente el estado de la página del sitio. Para hacer esto, debe hacer clic en la casilla de verificación "solicitar visualización". Se abrirá una ventana con dos versiones del documento web. El webmaster aprende cómo ve la página un visitante habitual y en qué forma está disponible para la araña de búsqueda.

Sugerencia: Si el documento web que está analizando aún no está indexado, puede usar el comando “agregar al índice” >> “escanear solo esta URL”. La araña analizará el documento en unos minutos y, en un futuro próximo, la página web aparecerá en los resultados de búsqueda. El límite mensual para solicitudes de indexación es de 500 documentos.

Cómo influir en la velocidad de indexación

Habiendo descubierto cómo funcionan los robots de búsqueda, un webmaster podrá promocionar su sitio de manera mucho más eficaz. Uno de los principales problemas de muchos proyectos web jóvenes es la mala indexación. Los robots de los motores de búsqueda son reacios a visitar recursos de Internet no autorizados.
Se ha establecido que la velocidad de indexación depende directamente de la intensidad con la que se actualiza el sitio. Agregar periódicamente materiales de texto únicos atraerá la atención de los motores de búsqueda.

Para acelerar la indexación, puede utilizar los marcadores sociales y el servicio de Twitter. Se recomienda crear un Sitemap y subirlo al directorio raíz del proyecto web.

robot de búsqueda llamado programa especial cualquier motor de búsqueda que esté diseñado para ingresar en una base de datos (índice) de sitios y sus páginas encontradas en Internet. Nombres también utilizados: rastreador, araña, bot, indexador automático, hormiga, webcrawler, bot, webscutter, webrobots, webspider.

Principio de funcionamiento

Un robot de búsqueda es un programa de tipo navegador. Escanea constantemente la red: visita sitios indexados (ya conocidos), sigue enlaces de ellos y encuentra nuevos recursos. Cuando se descubre un nuevo recurso, el robot de procedimientos lo agrega al índice del motor de búsqueda. El robot de búsqueda también indexa las actualizaciones de los sitios cuya frecuencia es fija. Por ejemplo, un sitio que se actualiza una vez por semana será visitado por una araña con esta frecuencia, y el contenido de los sitios de noticias se puede indexar a los pocos minutos de su publicación. Si ningún enlace de otros recursos conduce al sitio, para atraer robots de búsqueda, el recurso debe agregarse a través de un formulario especial (Centro para webmasters de Google, Panel para webmasters de Yandex, etc.).

Tipos de robots de búsqueda

Arañas yandex:

  • Yandex/1.01.001 I - el robot principal involucrado en la indexación,
  • Yandex/1.01.001 (P) - indexa imágenes,
  • Yandex/1.01.001 (H) - busca sitios espejo,
  • Yandex/1.03.003 (D): determina si la página agregada desde el panel para webmasters cumple con los parámetros de indexación,
  • YaDirectBot/1.0 (I) - indexa recursos de red publicitaria Yandex,
  • Yandex/1.02.000 (F): indexa los favicons del sitio.

Arañas de Google:

  • Googlebot es el robot principal
  • Googlebot News: escanea e indexa noticias,
  • Google Mobile: indexa sitios para dispositivos móviles,
  • Imágenes del robot de Google: busca e indexa imágenes,
  • Vídeo del robot de Google: indexa vídeos,
  • Google AdsBot: comprueba la calidad de la página de destino,
  • AdSense para móviles de Google y Publicidad de Google— indexa sitios de la red publicitaria de Google.

Otros motores de búsqueda también utilizan varios tipos de robots que son funcionalmente similares a los enumerados.

¿Cómo funcionan los motores de búsqueda? Una de las cosas maravillosas de Internet es que hay cientos de millones de recursos web esperando y listos para ser presentados. Pero lo malo es que existen los mismos millones de páginas que, aunque las necesitemos, no aparecerán ante nosotros, porque… simplemente desconocido para nosotros. ¿Cómo saber qué y dónde puedes encontrar en Internet? Para ello solemos recurrir a los buscadores.

Los motores de búsqueda de Internet son sitios especiales en red global, que están diseñados para ayudar a las personas a encontrar World Wide Web la información que necesitan. Existen diferencias en la forma en que los motores de búsqueda realizan sus funciones, pero en general existen 3 funciones principales e idénticas:

Todos ellos “buscan” en Internet (o en algún sector de Internet), basándose en palabras clave determinadas;
- todos los motores de búsqueda indexan las palabras que buscan y los lugares donde las encuentran;
- todos los motores de búsqueda permiten a los usuarios buscar palabras o combinaciones de palabras clave a partir de páginas web ya indexadas e incluidas en sus bases de datos.

Los primeros motores de búsqueda indexaron hasta varios cientos de miles de páginas y recibieron entre 1.000 y 2.000 solicitudes al día. Hoy en día, los principales motores de búsqueda han indexado y indexan continuamente cientos de millones de páginas y procesan decenas de millones de solicitudes por día. A continuación hablaremos de cómo funcionan los buscadores y de cómo “juntan” toda la información encontrada para poder responder a cualquier pregunta que nos interese.

Miremos la web

Cuando la gente habla de motores de búsqueda en internet máquinas, en realidad se refieren a motores de búsqueda World Wide Web. Antes de que la Web se convirtiera en la parte más visible de Internet, ya existían motores de búsqueda para ayudar a las personas a encontrar información en Internet. Los programas llamados "gopher" y "Archie" pudieron indexar archivos ubicados en diferentes servidores conectados a internetinternet y redujo significativamente el tiempo dedicado a la búsqueda programas necesarios o documentos. A finales de los años 80 del siglo pasado, un sinónimo de "la capacidad de trabajar en Internet" era la capacidad de utilizar Gopher, Archie, Veronica, etc. programas de búsqueda. Hoy en día, la mayoría de los usuarios de Internet limitan su búsqueda únicamente a red mundial o WWW.

Un pequeño comienzo

Antes de que podamos decirle dónde encontrar el documento o archivo requerido, el archivo o documento ya debe haber sido encontrado. Para encontrar información sobre cientos de millones de páginas WEB existentes, el motor de búsqueda utiliza un programa robótico especial. Este programa también se llama araña ("spider") y se utiliza para crear una lista de palabras que se encuentran en la página. El proceso de construcción de dicha lista se llama rastreo web(Rastreo web). Para construir y capturar aún más una lista de palabras "útiles" (significativas), araña de búsqueda Debe “revisar” un montón de otras páginas.

¿Cómo empieza alguien? araña(araña) ¿tu viaje en la web? Normalmente, el punto de partida son los servidores más grandes del mundo y las páginas web más populares. La araña comienza su viaje desde dicho sitio, indexa todas las palabras encontradas y continúa su movimiento, siguiendo enlaces a otros sitios. Así, el robot araña comienza a cubrir “trozos” de espacio web cada vez más grandes. Google.com comenzó como un motor de búsqueda académico. En un artículo que describe cómo se creó este motor de búsqueda, Sergey Brin y Lawrence Page (fundadores y propietarios de Google) dieron un ejemplo de la rapidez con la que funcionan las arañas de Google. Hay varios y normalmente la búsqueda comienza con el uso de 3 arañas. Cada araña admite hasta 300 conexiones abiertas simultáneamente a páginas web. En carga máxima, utilizando 4 arañas, el sistema de Google es capaz de procesar 100 páginas por segundo, generando un tráfico de aproximadamente 600 kilobytes/seg.

Para proporcionar a las arañas los datos que necesitaban procesar, Google solía tener un servidor que no hacía más que alimentar a las arañas con más y más URL. Para no depender de los proveedores de servicios de Internet en términos de servidores de nombres de dominio (DNS) que traducen las URL en direcciones IP, Google adquirió su propio servidor DNS, reduciendo al mínimo todo el tiempo dedicado a indexar páginas.

Cuando el robot de Google nos visita página HTML, tiene en cuenta 2 cosas:

Palabras (texto) por página;
- su ubicación (en qué parte del cuerpo de la página).

Palabras ubicadas con secciones de servicio como título, subtítulos, metaetiquetas y otros fueron marcados como particularmente importantes para las consultas de búsqueda de los usuarios. Google Spider se creó para indexar todas las palabras similares en una página, con la excepción de interjecciones como "a", "an" y "the". Otros motores de búsqueda tienen un enfoque de indexación ligeramente diferente.

Todos los enfoques y algoritmos de los motores de búsqueda tienen como objetivo, en última instancia, hacer que los robots araña funcionen de manera más rápida y eficiente. Por ejemplo, algunos robots de búsqueda rastrean palabras en el título, enlaces y hasta 100 palabras utilizadas con mayor frecuencia en una página durante la indexación, e incluso cada una de las palabras en las primeras 20 líneas del contenido de texto de la página. Este es el algoritmo de indexación, en particular, de Lycos.

Otros motores de búsqueda, como AltaVista, van en la dirección contraria, indexando cada palabra de una página, incluidas "a", "an", "the" y otras palabras sin importancia.

Metaetiquetas

Las metaetiquetas permiten al propietario de una página web especificar palabras clave y conceptos que definen la esencia de su contenido. Esta es una herramienta muy útil, especialmente cuando estas palabras clave se pueden repetir hasta 2-3 veces en el texto de la página. En este caso, las metaetiquetas pueden "dirigir" al robot de búsqueda a la selección deseada de palabras clave para indexar la página. Existe la posibilidad de "hacer trampa" en metaetiquetas con consultas de búsqueda populares y conceptos que no están relacionados de ninguna manera con el contenido de la página en sí. Los robots de búsqueda pueden combatir esto, por ejemplo, analizando la correlación de las metaetiquetas y el contenido de una página web, "desechando" de la consideración aquellas metaetiquetas (o palabras clave) que no se corresponden con el contenido de las páginas.

Todo esto se aplica a aquellos casos en los que el propietario de un recurso web realmente quiere aparecer en los resultados de búsqueda con las palabras de búsqueda deseadas. Pero a menudo sucede que el propietario no quiere que el robot lo indexe en absoluto. Pero estos casos no son el tema de nuestro artículo.

Construcción de índice

Una vez que las arañas han terminado su trabajo de encontrar nuevas páginas web, los buscadores deben colocar toda la información encontrada para que sea conveniente utilizarla en el futuro. Hay 2 componentes clave que importan aquí:

Información almacenada con datos;
- el método por el cual se indexa esta información.

En el caso más sencillo, un motor de búsqueda podría simplemente colocar la palabra y la URL donde se encuentra. Pero esto convertiría al motor de búsqueda en una herramienta completamente primitiva, ya que no hay información sobre en qué parte del documento se encuentra esta palabra (metaetiquetas o en texto plano), si esta palabra se usa una o varias veces y si es contenido en un enlace a otro recurso importante y relacionado. En otras palabras, este método no clasificará los sitios, no proporcionará resultados relevantes a los usuarios, etc.

Para proporcionarnos datos útiles, los motores de búsqueda no sólo almacenan información de la palabra y su URL. Un motor de búsqueda puede guardar datos sobre el número (frecuencia) de menciones de una palabra en una página, asignar un "peso" a la palabra, lo que luego ayudará a producir listados de búsqueda (resultados) basados ​​en la clasificación ponderada de esta palabra, tomando en cuenta su ubicación (en enlaces, metaetiquetas, título de página, etc.). Cada motor de búsqueda comercial tiene su propia fórmula para calcular el “peso” de las palabras clave durante la indexación. Esta es una de las razones por las que por lo mismo consulta de busqueda Los motores de búsqueda producen resultados completamente diferentes.

Próximo punto importante al procesar información encontrada: su codificación para reducir la cantidad de espacio en disco para almacenarla. Por ejemplo, el artículo original de Google describe que se utilizan 2 bytes (8 bits cada uno) para almacenar los datos de peso de las palabras; esto tiene en cuenta el tipo de palabra (mayúsculas o letras mayúsculas), el tamaño de las letras mismas (fuente). Tamaño) y otra información que ayuda a clasificar el sitio. Cada "pieza" de información requiere de 2 a 3 bits de datos en un conjunto completo de 2 bytes. Como resultado, se puede almacenar una gran cantidad de información en un formato muy compacto. Una vez que la información está "comprimida", es hora de comenzar a indexar.

La indexación tiene un objetivo: garantizar el máximo búsqueda rápida la información necesaria. Hay varias formas de crear índices, pero la más eficaz es crear tablas hash(tabla de picadillo). Hashing utiliza una fórmula específica para asignar un valor numérico a cada palabra.

En cualquier idioma hay letras con las que comienzan muchas más palabras que con el resto de letras del alfabeto. Por ejemplo, hay muchas más palabras que comienzan con la letra "M" en la sección del diccionario de inglés que aquellas que comienzan con la letra "X". Esto significa que buscar una palabra que comience con la letra más popular llevará más tiempo que cualquier otra palabra. hash(Hashing) iguala esta diferencia y reduce el tiempo promedio de búsqueda, y también separa el índice en sí de los datos reales. Una tabla hash contiene valores hash junto con un puntero a los datos correspondientes a ese valor. La indexación eficaz y la ubicación eficaz juntas proporcionan una alta velocidad de búsqueda, incluso si el usuario realiza una consulta de búsqueda muy compleja.

El futuro de los motores de búsqueda

Una búsqueda basada en operadores booleanos ("y", "o", "no") es una búsqueda literal: el motor de búsqueda recibe las palabras de búsqueda exactamente como fueron ingresadas. Esto puede causar un problema cuando, por ejemplo, la palabra ingresada tiene múltiples significados. "Clave", por ejemplo, puede significar "un medio para abrir una puerta" o puede significar una "contraseña" para iniciar sesión en un servidor. Si sólo está interesado en un significado de una palabra, obviamente no necesitará datos sobre su segundo significado. Por supuesto, puede crear una consulta literal que excluya la salida de datos basándose en el significado innecesario de una palabra, pero sería bueno si el motor de búsqueda pudiera ayudarlo.

Un área de investigación sobre los futuros algoritmos de los motores de búsqueda es la recuperación de información conceptual. Se trata de algoritmos que utilizan análisis estadístico de páginas que contienen una frase o palabra clave de búsqueda determinada para encontrar datos relevantes. Está claro que un "motor de búsqueda conceptual" de este tipo requeriría mucho más espacio de almacenamiento para cada página y más tiempo para procesar cada solicitud. Actualmente, muchos investigadores están trabajando en este problema.

No menos intenso es el trabajo que se está llevando a cabo en el campo del desarrollo de algoritmos de búsqueda basados ​​en consultas. lenguaje natural(Consulta en Lenguaje Natural).

La idea detrás de las consultas naturales es que puede escribir su consulta como si se la estuviera preguntando a un colega sentado frente a usted. No hay necesidad de preocuparse por los operadores booleanos ni por esforzarse al componer consulta compleja. El sitio de búsqueda de lenguaje natural más popular en la actualidad es AskJeeves.com. Convierte la consulta en palabras clave, que luego utiliza al indexar sitios. Este enfoque sólo funciona para consultas simples. Sin embargo, el progreso no se detiene, es posible que muy pronto "hablemos" con los motores de búsqueda en nuestro propio "lenguaje humano".

Amigos, ¡les doy la bienvenida nuevamente! Ahora veremos qué son los robots de búsqueda y hablaremos en detalle sobre el robot de búsqueda de Google y cómo ser amigo de ellos.

Primero hay que entender qué son realmente los robots de búsqueda, también llamados arañas. ¿Qué trabajo hacen las arañas de los motores de búsqueda?

Estos son programas que revisan sitios. Revisan todas las publicaciones y páginas de su blog, recopilan información y luego la transmiten a la base de datos del motor de búsqueda para el que trabajan.

No es necesario conocer la lista completa de robots de búsqueda, lo más importante es saber que Google ahora tiene dos arañas principales, llamadas “panda” y “pingüino”. Luchan contra el contenido de baja calidad y los enlaces basura, y es necesario saber cómo repeler sus ataques.

El robot de búsqueda Google Panda fue creado para promocionar únicamente material de alta calidad en las búsquedas. Todos los sitios con contenido de baja calidad aparecen rebajados en los resultados de búsqueda.

Esta araña apareció por primera vez en 2011. Antes de su aparición, era posible promocionar cualquier sitio web publicando una gran cantidad de texto en artículos y utilizando una gran cantidad de palabras clave. Juntas, estas dos técnicas llevaron el contenido de mala calidad a la cima de los resultados de búsqueda, y los sitios buenos quedaron rezagados en los resultados de búsqueda.

"Panda" inmediatamente puso las cosas en orden, revisando todos los sitios y colocando a todos en el lugar que les corresponde. Aunque tiene problemas con el contenido de baja calidad, ahora es posible promocionar incluso sitios pequeños con artículos de alta calidad. Aunque antes era inútil promocionar este tipo de sitios, no podían competir con gigantes que tienen una gran cantidad de contenido.

Ahora descubriremos cómo evitar las sanciones "panda". Primero debes entender qué es lo que no le gusta. Ya escribí anteriormente que ella lucha con el mal contenido, pero qué tipo de texto es malo para ella, averigüémoslo para no publicarlo en nuestro sitio web.

El robot de búsqueda de Google se esfuerza por garantizar que este motor de búsqueda proporcione únicamente materiales de alta calidad a quienes buscan empleo. Si tiene artículos que contienen poca información y no son atractivos en apariencia, reescriba urgentemente estos textos para que el "panda" no lo afecte.

El contenido de alta calidad puede ser grande o pequeño, pero si la araña ve un artículo extenso con mucha información, será más útil para el lector.

Entonces hay que tener en cuenta la duplicación, es decir, el plagio. Si cree que reescribirá los artículos de otras personas en su blog, puede poner fin a su sitio de inmediato. La copia está estrictamente castigada con la aplicación de un filtro, y Se controla el plagio muy fácil, escribí un artículo sobre el tema. cómo comprobar la singularidad de los textos.

Lo siguiente que llama la atención es la sobresaturación del texto con palabras clave. Cualquiera que piense que puede escribir un artículo utilizando únicamente palabras clave y ocupar el primer lugar en los resultados de búsqueda, está muy equivocado. Tengo un artículo sobre cómo comprobar la relevancia de las páginas, asegúrese de leerlo.

Y otra cosa que puede atraer a un "panda" son los artículos antiguos que están moralmente desactualizados y no atraen tráfico al sitio. Definitivamente necesitan ser actualizados.

También hay un robot de búsqueda de Google “pingüino”. Esta araña combate el spam y los enlaces basura en su sitio. También calcula enlaces comprados de otros recursos. Por lo tanto, para no tenerle miedo a este robot de búsqueda, no debes comprar enlaces, sino publicar contenido de alta calidad para que las propias personas te enlacen.

Ahora formulemos lo que se debe hacer para que el sitio se vea perfecto a través de los ojos de un robot de búsqueda:

  • Para crear contenido de calidad, primero investiga bien el tema antes de escribir el artículo. Entonces debes entender que la gente está realmente interesada en este tema.
  • Usar ejemplos específicos e imágenes, esto hará que el artículo sea animado e interesante. Divide el texto en párrafos pequeños para que sea fácil de leer. Por ejemplo, si abres una página de chistes en un periódico, ¿cuáles leerás primero? Naturalmente, cada persona lee primero textos cortos, luego textos más largos y, por último, vendas largas para los pies.
  • La objeción favorita del “panda” es la falta de relevancia de un artículo que contiene información desactualizada. Sigue las actualizaciones y cambia los textos.
  • Lleve un registro de la densidad de palabras clave; escribí anteriormente cómo determinar esta densidad; en el servicio que describí, recibirá la cantidad exacta requerida de palabras clave.
  • No plagies, todo el mundo sabe que no se pueden robar cosas ni mensajes de texto de otras personas, es lo mismo. Serás castigado por robo al quedar atrapado en el filtro.
  • Escriba textos de al menos dos mil palabras, entonces dicho artículo parecerá informativo a través de los ojos de los robots de los motores de búsqueda.
  • Manténgase en el tema con su blog. Si tiene un blog sobre cómo ganar dinero en Internet, no es necesario que publique artículos sobre armas de aire comprimido. Esto puede reducir la calificación de su recurso.
  • Diseñe sus artículos bellamente, divídalos en párrafos y agregue imágenes para que disfrute leyendo y no quiera abandonar el sitio rápidamente.
  • Cuando compre enlaces, conviértalos en los artículos más interesantes y útiles que la gente realmente leerá.

Bueno, ahora sabes qué hacen los robots de los motores de búsqueda y puedes ser amigo de ellos. Y lo más importante: usted ha estudiado en detalle el robot de búsqueda de Google, el "panda" y el "pingüino".




Arriba