Örümcek robotlar ne tür işler yapar? Arama motorları onların robotları ve örümcekleridir. Arama robotları kimlerdir?

Arama robotu (bot, örümcek, örümcek, paletli)- Bu özel programİnternet'teki siteleri taramak için tasarlanmış arama motoru.

Pek çok kişi, tarama robotlarının yalnızca bilgi toplayıp sakladığını bilmiyor. İşlem yapmıyorlar. Bunu diğer programlar yapıyor.

Siteye bir arama robotunun gözüyle bakmak istiyorsanız bunu webmaster paneli üzerinden yapabilirsiniz.

Google'ın nasıl çalıştığını web yöneticisi panelinden görebilirsiniz. Orada sitenizi eklemeniz gerekir ve ardından sayfaya bakabilirsiniz:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru

Yandex'i sayfanın kayıtlı bir kopyası aracılığıyla görüntüleyebilirsiniz. Bunu yapmak için, Yandex aramasında istediğiniz sayfayı bulun, "kaydedilmiş kopya"ya ve ardından "metin sürümünü görüntüle"ye tıklayın.

Aşağıda sitelerimizi ziyaret eden arama robotlarının bir listesi bulunmaktadır. Bazıları siteleri indeksliyor, bazıları izliyor içeriğe dayalı reklamcılık. Belirli dar görevleri yerine getiren özel robotlar var. Örneğin resimleri veya haberleri dizine eklerler.

Robotu görerek tanıyarak, sitede gezinmesini yasaklayabilir veya buna izin verebilir, böylece sunucudaki yükü azaltabilirsiniz. Peki ya da bilgilerinizi ağa girmekten koruyun.

Yandex arama robotları

Yandex arama motorunda bildiğimiz bir düzine buçuk arama robotu var. Resmi yardım da dahil olmak üzere araştırmayı başardığım botların listesi aşağıdadır.

YandexBot ana indeksleme robotudur;
YandexMedia, multimedya verilerini indeksleyen bir robottur;
YandexImages - Yandex.Görüntüler dizin oluşturucusu;
YandexKatalog - kullanılamayan siteleri Katalogda yayından geçici olarak kaldırmak için kullanılan, Yandex.Katalog için bir “dokunma” aracı;
YaDirectFetcher - Yandex.Direct robotu;
YandexBlogs, yazıları ve yorumları indeksleyen bir blog arama robotudur;
YandexHaberler - Yandex.Haberler robotu;
YandexWebmaster – AddURL forumu aracılığıyla bir site eklenirken gelir;
YandexPagechecker - mikro işaretleme doğrulayıcı;
YandexFavicons - favicon dizinleyici
YandexMetrika - Yandex.Metrica robotu;
YandexMarket - Yandex.Market robotu;
YandexTakvim bir Yandex.Takvim robotudur.

Google arama robotları (botlar)

Googlebot ana indeksleme robotudur;
Googlebot Nes - haber indeksleyici;
Googlebot Görseller - resim dizinleyici;
Googlebot Video - video verileri için robot;
Google Mobil - mobil içerik indeksleyici;
Google Mobil AdSense - mobil AdSense robotu
Google AdSense- AdSense robotu
Google AdsBot – açılış sayfası kalite kontrol botu
Mediapartners-Google - AdSense robotu

Diğer arama motorlarının robotları

Ayrıca sitenizin günlüklerinde diğer arama motorlarının bazı robotlarına rastlayabilirsiniz.

Rambler - StackRambler
Mail.ru - Mail.Ru
Yahoo! - Slurp (veya Yahoo! Slurp)
AOL - Slurp
MSN - MSNBot
Canlı - MSNBot
Sor - Teoma
Alexa - ia_archiver
Lycos - Lycos
Aport - Aport
Webalta - WebAlta (WebAlta Tarayıcı/2.0)

Arama motoru botlarının yanı sıra sitelerde her türden solcu örümcekten oluşan devasa bir ordu dolaşıyor. Bunlar, genellikle yaratıcılarının bencil amaçları doğrultusunda sitelerden bilgi toplayan çeşitli ayrıştırıcılardır.

Bazıları içeriği çalar, diğerleri resimleri çalar, diğerleri web sitelerini hackler ve gizlice bağlantılar yerleştirir. Böyle bir ayrıştırıcının kendisini sitenize eklediğini fark ederseniz herkesin ona erişimini engelleyin olası yollar robots.txt dosyası aracılığıyla da dahil olmak üzere.

Merhaba arkadaşlar! Bugün Yandex ve Google arama robotlarının nasıl çalıştığını ve web sitesi tanıtımında hangi işlevi yerine getirdiklerini öğreneceksiniz. O zaman hadi gidelim!

Arama motorları bu eylemi, kullanıcının isteğine yüksek kaliteli ve alakalı yanıt veren bir milyon siteden on WEB projesini bulmak için yapar. Neden sadece on tane? Çünkü sadece on pozisyondan oluşuyor.

Arama robotları hem web yöneticilerinin hem de kullanıcıların arkadaşıdır

Arama robotlarının bir siteyi ziyaret etmesinin neden önemli olduğu zaten netleşti, ancak kullanıcının buna neden ihtiyacı var? Kullanıcının yalnızca isteğine tam olarak yanıt verecek siteleri görebilmesi için bu doğru.

Arama robotu- çok esnek bir araç, yeni oluşturulmuş olsa bile bir siteyi bulabilir ve bu sitenin sahibi henüz üzerinde çalışmamıştır. Bu bota bu yüzden örümcek adı verildi; bacaklarını uzatarak sanal ağ üzerinde her yere gidebiliyor.

Bir arama robotunu kendi avantajınıza göre kontrol etmek mümkün mü?

Bazı sayfaların aramaya dahil edilmediği durumlar vardır. Bunun temel nedeni bu sayfanın henüz bir arama robotu tarafından dizine eklenmemiş olmasıdır. Elbette er ya da geç bir arama robotu bu sayfayı fark edecektir. Ancak zaman alır ve bazen oldukça fazla zaman alır. Ancak burada arama robotunun bu sayfayı daha hızlı ziyaret etmesine yardımcı olabilirsiniz.

Bunu yapmak için web sitenizi özel dizinlere veya listelere, sosyal ağlara yerleştirebilirsiniz. Genel olarak, arama robotunun yaşadığı tüm sitelerde. Örneğin sosyal ağlar her saniye güncellenmektedir. Sitenizin reklamını yapmaya çalışın, arama robotu sitenize çok daha hızlı gelecektir.

Bundan bir ana kural çıkar. Arama motoru botlarının sitenizi ziyaret etmesini istiyorsanız onlara düzenli olarak yeni içerik beslemeniz gerekir. İçeriğin güncellendiğini ve sitenin geliştiğini fark ederlerse İnternet projenizi çok daha sık ziyaret etmeye başlayacaklardır.

Her arama robotu içeriğinizin ne sıklıkta değiştiğini hatırlayabilir. Sadece kaliteyi değil, zaman aralıklarını da değerlendiriyor. Ve sitedeki materyal ayda bir güncelleniyorsa siteye ayda bir gelecektir.

Yani site haftada bir güncelleniyorsa arama robotu da haftada bir kez gelecektir. Siteyi her gün güncellerseniz, arama robotu siteyi her gün veya günaşırı ziyaret edecektir. Güncellemeden birkaç dakika sonra indekslenen siteler var. Bu sosyal medya, haber toplayıcılar ve günde birkaç makale yayınlayan siteler.

Bir robota görev nasıl verilir ve herhangi bir şey yapması yasaklanır?

Başlangıçta, arama motorlarının farklı görevleri yerine getiren birden fazla robota sahip olduğunu öğrendik. Bazıları resimler arıyor, bazıları bağlantılar vb. arıyor.

Özel bir dosya kullanarak herhangi bir robotu kontrol edebilirsiniz robots.txt . Bu dosyadan robot siteyi tanımaya başlar. Bu dosyada robotun siteyi indeksleyip indeksleyemeyeceğini, eğer indeksliyorsa hangi bölümleri belirtebileceğinizi belirtebilirsiniz. Tüm bu talimatlar bir veya tüm robotlar için oluşturulabilir.

Web sitesi tanıtım eğitimi

Bilgelik hakkında daha fazla ayrıntı SEO tanıtımı arama motorlarındaki siteler Google sistemleri ve Yandex, Skype'ta kendi başıma konuşuyorum. Tüm WEB projelerimi daha fazla trafiğe taşıdım ve bundan mükemmel sonuçlar aldım. Eğer ilgileniyorsanız bunu size de öğretebilirim!

Arama robotu İnternette bulunan sitelere ve sayfalara veritabanı (indeks) girmek için tasarlanmış özel bir arama motoru programıdır. Ayrıca kullanılan isimler: paletli, örümcek, bot, otomatik indeksleyici, karınca, web tarayıcısı, bot, ağ kesici, web robotları, web örümcek.

Çalışma prensibi

Arama robotu tarayıcı tipi bir programdır. Ağı sürekli olarak tarar: indekslenmiş (zaten kendisi tarafından bilinen) siteleri ziyaret eder, onlardan gelen bağlantıları takip eder ve yeni kaynaklar bulur. Yeni bir kaynak keşfedildiğinde prosedür robotu bunu arama motoru dizinine ekler. Arama robotu ayrıca sitelerdeki sıklığı sabit olan güncellemeleri de indeksler. Örneğin haftada bir kez güncellenen bir site, bu sıklıkta bir örümcek tarafından ziyaret edilecek ve haber sitelerindeki içerikler yayınlandıktan birkaç dakika sonra indekslenebilecektir. Diğer kaynaklardan hiçbir bağlantı siteye yönlendirmiyorsa, arama robotlarını çekmek için kaynağın özel bir form (Google Web Yöneticisi Merkezi, Yandex Web Yöneticisi Paneli vb.) aracılığıyla eklenmesi gerekir.

Arama robotu türleri

Yandex örümcekleri:

  • Yandex/1.01.001 I - indekslemeye katılan ana bot,
  • Yandex/1.01.001 (P) - resimleri indeksler,
  • Yandex/1.01.001 (H) - yansıma sitelerini bulur,
  • Yandex/1.03.003 (D) - web yöneticisi panelinden eklenen sayfanın indeksleme parametrelerini karşılayıp karşılamadığını belirler,
  • YaDirectBot/1.0 (I) - kaynakları indeksler reklam ağı yandex,
  • Yandex/1.02.000 (F) - site favicon'larını indeksler.

Google Örümcekleri:

  • Googlebot ana robottur
  • Googlebot News - haberleri tarar ve dizine ekler,
  • Google Mobil - siteleri mobil cihazlara göre dizine ekler,
  • Googlebot Görseller - görselleri arar ve dizine ekler,
  • Googlebot Video - videoları indeksler,
  • Google AdsBot - açılış sayfasının kalitesini kontrol eder,
  • Google Mobile AdSense ve Google AdSense - Google reklam ağının sitelerini indeksler.

Diğer arama motorları da işlevsel olarak listelenenlere benzeyen çeşitli robot türleri kullanır.

Arama robotu İnternette bulunan sitelere ve sayfalara veritabanı (indeks) girmek için tasarlanmış özel bir arama motoru programıdır. Ayrıca kullanılan isimler: paletli, örümcek, bot, otomatik indeksleyici, karınca, web tarayıcısı, bot, ağ kesici, web robotları, web örümcek.

Çalışma prensibi

Arama robotu tarayıcı tipi bir programdır. Ağı sürekli olarak tarar: indekslenmiş (zaten kendisi tarafından bilinen) siteleri ziyaret eder, onlardan gelen bağlantıları takip eder ve yeni kaynaklar bulur. Yeni bir kaynak keşfedildiğinde prosedür robotu bunu arama motoru dizinine ekler. Arama robotu ayrıca sitelerdeki sıklığı sabit olan güncellemeleri de indeksler. Örneğin haftada bir kez güncellenen bir site, bu sıklıkta bir örümcek tarafından ziyaret edilecek ve haber sitelerindeki içerikler yayınlandıktan birkaç dakika sonra indekslenebilecektir. Diğer kaynaklardan hiçbir bağlantı siteye yönlendirmiyorsa, arama robotlarını çekmek için kaynağın özel bir form (Google Web Yöneticisi Merkezi, Yandex Web Yöneticisi Paneli vb.) aracılığıyla eklenmesi gerekir.

Arama robotu türleri

Yandex örümcekleri:

  • Yandex/1.01.001 I - indekslemeye katılan ana bot,
  • Yandex/1.01.001 (P) - resimleri indeksler,
  • Yandex/1.01.001 (H) - yansıma sitelerini bulur,
  • Yandex/1.03.003 (D) - web yöneticisi panelinden eklenen sayfanın indeksleme parametrelerini karşılayıp karşılamadığını belirler,
  • YaDirectBot/1.0 (I) - Yandex reklam ağındaki kaynakları indeksler,
  • Yandex/1.02.000 (F) - site favicon'larını indeksler.

Google Örümcekleri:

  • Googlebot ana robottur
  • Googlebot News - haberleri tarar ve dizine ekler,
  • Google Mobil - siteleri mobil cihazlara göre dizine ekler,
  • Googlebot Görseller - görselleri arar ve dizine ekler,
  • Googlebot Video - videoları indeksler,
  • Google AdsBot - açılış sayfasının kalitesini kontrol eder,
  • Google Mobile AdSense ve Google AdSense - Google reklam ağının sitelerini indeksler.

Diğer arama motorları da işlevsel olarak listelenenlere benzeyen çeşitli robot türleri kullanır.

Yaygın inanışın aksine robot, taranan belgelerin işlenmesinde doğrudan yer almıyor. Yalnızca bunları okur ve kaydeder; daha sonra diğer programlar tarafından işlenirler. İlk kez indekslenen bir sitenin logları analiz edilerek görsel doğrulama elde edilebilir. İlk ziyarette bot önce robots.txt dosyasını, ardından sitenin ana sayfasını ister. Yani bildiği tek bağlantıyı takip ediyor. Burası botun ilk ziyaretinin her zaman bittiği yerdir. Bir süre sonra (genellikle ertesi gün), bot, daha önce okunmuş olan sayfada bulunan bağlantıları kullanarak aşağıdaki sayfaları ister. Daha sonra süreç aynı sırayla devam eder: zaten bağlantıların bulunduğu sayfaların talep edilmesi - okunan belgelerin işlenmesi için bir duraklama - bulunan bağlantıların talep edildiği bir sonraki oturum.

Sayfaları anında ayrıştırmak çok daha anlamlı olacaktır Ö robotun daha fazla kaynak tüketmesi ve zaman kaybı. Her tarama sunucusu birden fazla bot işlemini paralel olarak çalıştırır. Yeni sayfaları okumaya ve mevcut sayfaları yeniden okumaya zaman ayırabilmek için mümkün olduğunca çabuk hareket etmeleri gerekiyor. Bu nedenle botlar yalnızca belgeleri okur ve kaydeder. Kaydettikleri her şey işlenmek üzere sıraya alınır (kod ayrıştırma). Sayfa işleme sırasında bulunan bağlantılar, botlar için bir görev kuyruğuna yerleştirilir. Bu şekilde tüm ağ sürekli olarak taranır. Bir botun anında analiz edebileceği ve analiz etmesi gereken tek şey, içinde yasak olan adresleri istememek için robots.txt dosyasıdır. Her site tarama oturumu sırasında, robot önce bu dosyayı ister ve ardından tüm sayfalar taranmak üzere sıraya alınır.

Arama robotu türleri

Her arama motorunun farklı amaçlara yönelik kendi robot seti vardır.
Temel olarak, sınırlar çok keyfi olsa da ve her arama motoru bunları kendi yöntemiyle anlasa da, işlevsel amaçları bakımından farklılık gösterirler. Yalnızca tam metin araması yapan sistemlerde tüm durumlar için bir robot yeterlidir. Yalnızca metinle uğraşmayan arama motorları için botlar en az iki kategoriye ayrılır: metinler ve çizimler için. Ayrıca belirli içerik türlerine (mobil, blog, haberler, video vb.) ayrılmış ayrı botlar da vardır.

Google Robotları

Tüm Google robotlarına toplu olarak Googlebot adı verilir. Ana robot indeksleyici şu şekilde “kendini tanıtıyor”:

Mozilla/5.0 (uyumlu; Googlebot/2.1; +http://www.google.com/bot.html)

Bu bot ana amaç için HTML sayfalarını ve diğer belgeleri taramakla meşgul Google arama. Ayrıca ara sıra CSS ve JS dosyalarını da okur; bu, çoğunlukla site indekslemenin ilk aşamasında, bot siteyi ilk kez tararken fark edilebilir. Kabul edilen içerik türlerinin tümü (Kabul Et: */*).

Ana botlardan ikincisi sitedeki görselleri taramakla meşgul. Basitçe “kendini tanıtır”:

Googlebot-Resim/1.0

Günlüklerde en az üç botun da içerik toplamakla meşgul olduğu görüldü. mobil versiyon aramak. Üçünün de Kullanıcı aracısı alanı şu satırla biter:

(uyumlu; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Bu çizgiden önceki model cep telefonu, bu botun uyumlu olduğu. Tespit edilen botların modelleri var Nokia telefonları, Samsung ve iPhone. Kabul edilen içerik türlerinin tümü aşağıda belirtilen önceliklerle birlikte verilmiştir:

Kabul et: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Yandex robotları

RuNet'te aktif olan arama motorları arasında Yandex, en geniş bot koleksiyonuna sahiptir. Web yöneticisi yardım bölümünde tüm örümcek personelinin resmi bir listesini bulabilirsiniz. Bu listede periyodik olarak değişiklikler meydana geldiğinden, burada tam olarak sunmanın bir anlamı yok.
Ancak bizim için en önemli Yandex robotlarından ayrıca bahsetmek gerekiyor.
Temel indeksleme robotuşu anda aranıyor

Mozilla/5.0 (uyumlu; YandexBot/3.0; +http://yandex.com/bots)

Daha önce şu şekilde temsil ediliyordu:

Yandex/1.01.001 (uyumlu; Win16; I)

Okur HTML sayfaları web sitesi ve indeksleme için diğer belgeler. Kabul edilen medya türlerinin listesi daha önce sınırlıydı:

Kabul et: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0,1, application/vnd.ms-powerpoint;q=0,1

31 Temmuz 2009'dan bu yana bu listede önemli bir genişleme fark edildi (tür sayısı neredeyse iki katına çıktı) ve 10 Kasım 2009'dan bu yana liste */* (tüm türler) olarak kısaltıldı.
Bu robot çok spesifik bir dil grubuyla yakından ilgileniyor: Rusça, biraz daha az Ukraynaca ve Belarusça, biraz daha az İngilizce ve çok az diğer tüm diller.

Kabul-Dil: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Robot görüntü tarayıcı Kullanıcı aracısı alanında aşağıdaki satırı taşır:

Mozilla/5.0 (uyumlu; YandexImages/3.0; +http://yandex.com/bots)

Resimlerde arama yapmak için çeşitli formatlardaki grafikleri taramakla meşgul.

Google'ın aksine, Yandex'in bazı hizmetlere hizmet etmek için ayrı botları vardır. özel fonksiyonlar genel arama.
Robot "ayna"

Mozilla/5.0 (uyumlu; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Özellikle karmaşık bir şey yapmaz - periyodik olarak görünür ve www ile alan adına erişirken sitenin ana sayfasının eşleşip eşleşmediğini kontrol eder. Ve olmadan. Ayrıca eşleşmeler için paralel "ayna" etki alanlarını da kontrol eder. Görünüşe göre, Yandex'deki aynalar ve kanonik alan adları ayrı ayrı ele alınıyor yazılım paketi, indekslemeyle doğrudan ilgili değildir. Aksi halde bu amaç için ayrı bir botun varlığını açıklayacak hiçbir şey kesinlikle yoktur.

Simge toplayıcı favicon.ico

Mozilla/5.0 (uyumlu; YandexFavicons/1.0; +http://yandex.com/bots)

Belirli aralıklarla belirir ve favicon.ico simgesini ister; bu simge daha sonra arama sonuçlarında site bağlantısının yanında görünür. Resim koleksiyoncusunun hangi nedenlerle bu sorumluluğu paylaşmadığı bilinmemektedir. Görünüşe göre oyunda ayrı bir yazılım paketi de var.

Doğrulama botu yeni siteler için AddURL formuna eklendiğinde çalışır

Mozilla/5.0 (uyumlu; YandexWebmaster/2.0; +http://yandex.com/bots)

Bu bot, kök URL'ye bir HEAD isteği göndererek sitenin yanıtını kontrol eder. Bu şekilde varlığını kontrol ediyoruz ana sayfa etki alanındaki ve bu sayfanın HTTP üstbilgileri analiz edilir. Bot ayrıca sitenin kökündeki robots.txt dosyasını da ister. Böylece AddURL'e bağlantı gönderildikten sonra sitenin var olduğu ve ne robots.txt ne de HTTP başlıklarının ana sayfaya erişimi engellemediği tespit edilir.

başıboş robot

Şu anda artık çalışmıyor Rambler artık Yandex aramasını kullandığından
Rambler indeksleyici robot, günlüklerde Kullanıcı aracısı alanıyla kolayca tanımlanabilir

StackRambler/2.0 (MSIE uyumsuz)

Diğer arama motorlarındaki "meslektaşları" ile karşılaştırıldığında, bu bot oldukça basit görünüyor: medya türlerinin bir listesini belirtmiyor (buna göre istenen herhangi bir belgeyi alıyor), istekte Dil Kabul alanı eksik, ve If-Modified-since alanı botun request'lerinde bulunamadı.

Robot Mail.Ru

Bu robot hakkında henüz çok az şey biliniyor. Mail.Ru portalı uzun süredir kendi aramasını geliştiriyor ancak henüz bu aramayı başlatmayı başaramadı. Bu nedenle, yalnızca Kullanıcı aracısındaki botun adı kesin olarak biliniyor - Mail.Ru/2.0 (daha önce - Mail.Ru/1.0). Robors.txt dosyasının direktifleri için botun adı hiçbir yerde yayınlanmadı, botun Mail.Ru olarak adlandırılması gerektiği varsayımı var.

Diğer robotlar

İnternet araması elbette iki arama motoruyla sınırlı değildir. Bu nedenle, Microsoft'un arama motoru ve diğer robotlar gibi başka robotlar da vardır - örneğin Bing robotu. Yani, özellikle Çin'de Baidu ulusal arama motoru var - ancak robotunun nehrin ortasına ulaşması ve Rus sitesine ulaşması pek mümkün değil.

Buna ek olarak, arama motorları olmasa da siteleri tarayan pek çok hizmet (özellikle solomono) son zamanlarda hızla çoğaldı. Çoğu zaman site bilgilerini bu tür sistemlere aktarmanın değeri sorgulanabilir ve bu nedenle robotları yasaklanabilir.


Tepe