Arama motoru örümcekleri ne iş yapar? Arama robotu nedir? Arama robotu "Yandex" ve Google'ın işlevleri. Arama robotu ne yapar?

Yaygın inanışın aksine robot, taranan belgelerin işlenmesinde doğrudan yer almıyor. Yalnızca bunları okur ve kaydeder; daha sonra diğer programlar tarafından işlenirler. İlk kez indekslenen bir sitenin logları analiz edilerek görsel doğrulama elde edilebilir. İlk ziyarette bot önce robots.txt dosyasını, ardından sitenin ana sayfasını ister. Yani bildiği tek bağlantıyı takip ediyor. Burası botun ilk ziyaretinin her zaman bittiği yerdir. Bir süre sonra (genellikle ertesi gün), bot, daha önce okunmuş olan sayfada bulunan bağlantıları kullanarak aşağıdaki sayfaları ister. Daha sonra süreç aynı sırayla devam eder: zaten bağlantıların bulunduğu sayfaların talep edilmesi - okunan belgelerin işlenmesi için bir duraklama - bulunan bağlantıların talep edildiği bir sonraki oturum.

Sayfaları anında ayrıştırmak çok daha anlamlı olacaktır Ö robotun daha fazla kaynak tüketmesi ve zaman kaybı. Her tarama sunucusu birden fazla bot işlemini paralel olarak çalıştırır. Yeni sayfaları okumaya ve mevcut sayfaları yeniden okumaya zaman ayırabilmek için mümkün olduğunca çabuk hareket etmeleri gerekiyor. Bu nedenle botlar yalnızca belgeleri okur ve kaydeder. Kaydettikleri her şey işlenmek üzere sıraya alınır (kod ayrıştırma). Sayfa işleme sırasında bulunan bağlantılar, botlar için bir görev kuyruğuna yerleştirilir. Bu şekilde tüm ağ sürekli olarak taranır. Bir botun anında analiz edebileceği ve analiz etmesi gereken tek şey, içinde yasak olan adresleri istememek için robots.txt dosyasıdır. Her site tarama oturumu sırasında, robot önce bu dosyayı ister ve ardından tüm sayfalar taranmak üzere sıraya alınır.

Arama robotu türleri

Her arama motorunun farklı amaçlara yönelik kendi robot seti vardır.
Temel olarak, sınırlar çok keyfi olsa da ve her arama motoru bunları kendi yöntemiyle anlasa da, işlevsel amaçları bakımından farklılık gösterirler. Yalnızca tam metin araması yapan sistemlerde tüm durumlar için bir robot yeterlidir. Yalnızca metinle uğraşmayan arama motorları için botlar en az iki kategoriye ayrılır: metinler ve çizimler için. Ayrıca belirli içerik türlerine (mobil, blog, haberler, video vb.) ayrılmış ayrı botlar da vardır.

Google Robotları

Tüm Google robotlarına toplu olarak Googlebot adı verilir. Ana robot indeksleyici şu şekilde “kendini tanıtıyor”:

Mozilla/5.0 (uyumlu; Googlebot/2.1; +http://www.google.com/bot.html)

Bu bot ana amaç için HTML sayfalarını ve diğer belgeleri taramakla meşgul Google arama. Ayrıca ara sıra CSS ve JS dosyalarını da okur; bu, çoğunlukla site indekslemenin ilk aşamasında, bot siteyi ilk kez tararken fark edilebilir. Kabul edilen içerik türlerinin tümü (Kabul Et: */*).

Ana botlardan ikincisi sitedeki görselleri taramakla meşgul. Basitçe “kendini tanıtır”:

Googlebot-Resim/1.0

Günlüklerde en az üç botun da içerik toplamakla meşgul olduğu görüldü. mobil versiyon aramak. Üçünün de Kullanıcı aracısı alanı şu satırla biter:

(uyumlu; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Bu çizgiden önceki model cep telefonu, bu botun uyumlu olduğu. Tespit edilen botların modelleri var Nokia telefonları, Samsung ve iPhone. Kabul edilen içerik türlerinin tümü aşağıda belirtilen önceliklerle birlikte verilmiştir:

Kabul et: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Yandex robotları

RuNet'te aktif olan arama motorları arasında Yandex, en geniş bot koleksiyonuna sahiptir. Web yöneticisi yardım bölümünde tüm örümcek personelinin resmi bir listesini bulabilirsiniz. Bu listede periyodik olarak değişiklikler meydana geldiğinden, burada tam olarak sunmanın bir anlamı yok.
Ancak bizim için en önemli Yandex robotlarından ayrıca bahsetmek gerekiyor.
Temel indeksleme robotuşu anda aranıyor

Mozilla/5.0 (uyumlu; YandexBot/3.0; +http://yandex.com/bots)

Daha önce şu şekilde temsil ediliyordu:

Yandex/1.01.001 (uyumlu; Win16; I)

İndeksleme için web sitesi HTML sayfalarını ve diğer belgeleri okur. Kabul edilen medya türlerinin listesi daha önce sınırlıydı:

Kabul et: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0,1, application/vnd.ms-powerpoint;q=0,1

31 Temmuz 2009'dan bu yana bu listede önemli bir genişleme fark edildi (tür sayısı neredeyse iki katına çıktı) ve 10 Kasım 2009'dan bu yana liste */* (tüm türler) olarak kısaltıldı.
Bu robot çok spesifik bir dil grubuyla yakından ilgileniyor: Rusça, biraz daha az Ukraynaca ve Belarusça, biraz daha az İngilizce ve çok az diğer tüm diller.

Kabul-Dil: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Robot görüntü tarayıcı Kullanıcı aracısı alanında aşağıdaki satırı taşır:

Mozilla/5.0 (uyumlu; YandexImages/3.0; +http://yandex.com/bots)

Resimlerde arama yapmak için çeşitli formatlardaki grafikleri taramakla meşgul.

Google'ın aksine, Yandex'in bazı hizmetlere hizmet etmek için ayrı botları vardır. özel fonksiyonlar genel arama.
Robot "ayna"

Mozilla/5.0 (uyumlu; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Özellikle karmaşık bir şey yapmaz - periyodik olarak görünür ve www ile alan adına erişirken sitenin ana sayfasının eşleşip eşleşmediğini kontrol eder. Ve olmadan. Ayrıca eşleşmeler için paralel "ayna" etki alanlarını da kontrol eder. Görünüşe göre, Yandex'deki aynalar ve kanonik alan adları ayrı ayrı ele alınıyor yazılım paketi, indekslemeyle doğrudan ilgili değildir. Aksi halde bu amaç için ayrı bir botun varlığını açıklayacak hiçbir şey kesinlikle yoktur.

Simge toplayıcı favicon.ico

Mozilla/5.0 (uyumlu; YandexFavicons/1.0; +http://yandex.com/bots)

Belirli aralıklarla belirir ve favicon.ico simgesini ister; bu simge daha sonra arama sonuçlarında site bağlantısının yanında görünür. Resim koleksiyoncusunun hangi nedenlerle bu sorumluluğu paylaşmadığı bilinmemektedir. Görünüşe göre oyunda ayrı bir yazılım paketi de var.

Doğrulama botu yeni siteler için AddURL formuna eklendiğinde çalışır

Mozilla/5.0 (uyumlu; YandexWebmaster/2.0; +http://yandex.com/bots)

Bu bot, kök URL'ye bir HEAD isteği göndererek sitenin yanıtını kontrol eder. Bu şekilde varlığını kontrol ediyoruz ana sayfa etki alanındaki ve bu sayfanın HTTP üstbilgileri analiz edilir. Bot ayrıca sitenin kökündeki robots.txt dosyasını da ister. Böylece AddURL'e bağlantı gönderildikten sonra sitenin var olduğu ve ne robots.txt ne de HTTP başlıklarının ana sayfaya erişimi engellemediği tespit edilir.

başıboş robot

Şu anda artık çalışmıyor Rambler artık Yandex aramasını kullandığından
Rambler indeksleyici robot, günlüklerde Kullanıcı aracısı alanıyla kolayca tanımlanabilir

StackRambler/2.0 (MSIE uyumsuz)

Diğer arama motorlarındaki "meslektaşları" ile karşılaştırıldığında, bu bot oldukça basit görünüyor: medya türlerinin bir listesini belirtmiyor (buna göre istenen herhangi bir belgeyi alıyor), istekte Dil Kabul alanı eksik, ve If-Modified-since alanı botun request'lerinde bulunamadı.

Robot Mail.Ru

Bu robot hakkında henüz çok az şey biliniyor. Mail.Ru portalı uzun süredir kendi aramasını geliştiriyor ancak henüz bu aramayı başlatmayı başaramadı. Bu nedenle, yalnızca Kullanıcı aracısındaki botun adı kesin olarak biliniyor - Mail.Ru/2.0 (daha önce - Mail.Ru/1.0). Robors.txt dosyasının direktifleri için botun adı hiçbir yerde yayınlanmadı, botun Mail.Ru olarak adlandırılması gerektiği varsayımı var.

Diğer robotlar

İnternet araması elbette iki arama motoruyla sınırlı değildir. Bu nedenle, Microsoft'un arama motoru ve diğer robotlar gibi başka robotlar da vardır - örneğin Bing robotu. Yani, özellikle Çin'de ulusal bir arama motoru olan Baidu var - ancak robotunun nehrin ortasına ulaşması ve Rus sitesine ulaşması pek mümkün değil.

Buna ek olarak, son zamanlarda arama motorları olmasa da siteleri tarayan pek çok hizmet (özellikle solomono) çoğaldı. Çoğu zaman site bilgilerini bu tür sistemlere aktarmanın değeri sorgulanabilir ve bu nedenle robotları yasaklanabilir.

Arama motoru robotları nasıl çalışır?

Arama robotu (örümcek, bot), operatör müdahalesi olmadan milyonlarca web sitesini ziyaret edebilen ve gigabaytlarca metni tarayabilen küçük bir programdır. Sayfaları okumak ve metin kopyalarını saklamak, yeni belgeleri indekslemenin ilk aşamasıdır. Arama motoru robotlarının alınan veriler üzerinde herhangi bir işlem yapmadığını belirtmek gerekir. Görevleri yalnızca korumaktır metin bilgisi.

Kanalımızda daha fazla video - SEMANTICA ile internet pazarlamasını öğrenin

Arama robotlarının listesi

Runet'i tarayan tüm arama motorları arasında Yandex, en geniş bot koleksiyonuna sahiptir. Aşağıdaki botlar indekslemeden sorumludur:

  • web sitesi sayfalarından veri toplayan ana indeksleme robotu;
  • aynaları tanıyabilen bir bot;
  • Görselleri indeksleyen Yandex arama robotu;
  • YAN tarafından kabul edilen sitelerin sayfalarını tarayan bir örümcek;
  • robot favicon simgelerini tarıyor;
  • site sayfalarının erişilebilirliğini belirleyen birkaç örümcek.

Google'ın ana arama robotu metinsel bilgileri toplar. Temel olarak HTML dosyalarını görüntüler ve belirli aralıklarla JS ve CSS'yi analiz eder. Dizine eklenmesine izin verilen her türlü içeriği kabul edebilir. PS Google, görsellerin indekslenmesini kontrol eden bir örümceğe sahiptir. Ayrıca bir arama robotu da var - aramanın mobil versiyonunun işleyişini destekleyen bir program.

Siteyi bir arama robotunun gözünden görün

Kod hatalarını ve diğer eksiklikleri düzeltmek için web yöneticisi, arama robotunun siteyi nasıl gördüğünü öğrenebilir. Bu fırsat Google PS tarafından sağlanmaktadır. Web yöneticisi araçlarına gitmeniz ve ardından "tarama" sekmesine tıklamanız gerekecektir. Açılan pencerede “Googlebot olarak görüntüle” satırını seçmeniz gerekiyor. Daha sonra araştırma yaptığınız sayfanın adresini arama formuna girmeniz gerekmektedir (domain ve http:// protokolü belirtmeden).

Web yöneticisi, "al ve görüntüle" komutunu seçerek site sayfasının durumunu görsel olarak değerlendirebilecektir. Bunu yapmak için “görüntüleme isteği” onay kutusuna tıklamanız gerekir. Web belgesinin iki sürümünü içeren bir pencere açılacaktır. Web yöneticisi, normal bir ziyaretçinin sayfayı nasıl gördüğünü ve sayfanın arama örümceğinin kullanımına hangi biçimde sunulduğunu öğrenir.

İpucu: Analiz ettiğiniz web belgesi henüz dizine eklenmemişse, “dizine ekle” >> “yalnızca bu URL'yi tara” komutunu kullanabilirsiniz. Örümcek birkaç dakika içinde belgeyi analiz edecek ve yakın gelecekte web sayfası arama sonuçlarında görünecektir. Dizin oluşturma istekleri için aylık sınır 500 belgedir.

İndeksleme hızı nasıl etkilenir?

Arama robotlarının nasıl çalıştığını anlayan bir web yöneticisi, sitesini çok daha etkili bir şekilde tanıtabilecektir. Birçok genç web projesinin temel sorunlarından biri zayıf indekslemedir. Arama motoru robotları, yetkisiz İnternet kaynaklarını ziyaret etme konusunda isteksizdir.
İndeksleme hızının doğrudan sitenin güncellenme yoğunluğuna bağlı olduğu tespit edilmiştir. Düzenli olarak benzersiz metin materyalleri eklemek, arama motorlarının dikkatini çekecektir.

İndekslemeyi hızlandırmak için sosyal yer imlerini ve Twitter hizmetini kullanabilirsiniz. Bir Site Haritası oluşturmanız ve bunu web projesinin kök dizinine yüklemeniz önerilir.

Arama robotu isminde özel programİnternette bulunan veritabanı (indeks) sitelerine ve sayfalarına girmek üzere tasarlanmış herhangi bir arama motoru. Ayrıca kullanılan isimler: paletli, örümcek, bot, otomatik indeksleyici, karınca, web tarayıcısı, bot, ağ kesici, web robotları, web örümcek.

Çalışma prensibi

Arama robotu tarayıcı tipi bir programdır. Ağı sürekli olarak tarar: indekslenmiş (zaten kendisi tarafından bilinen) siteleri ziyaret eder, onlardan gelen bağlantıları takip eder ve yeni kaynaklar bulur. Yeni bir kaynak keşfedildiğinde prosedür robotu bunu arama motoru dizinine ekler. Arama robotu ayrıca sitelerdeki sıklığı sabit olan güncellemeleri de indeksler. Örneğin haftada bir kez güncellenen bir site, bu sıklıkta bir örümcek tarafından ziyaret edilecek ve haber sitelerindeki içerikler yayınlandıktan birkaç dakika sonra indekslenebilecektir. Diğer kaynaklardan hiçbir bağlantı siteye yönlendirmiyorsa, arama robotlarını çekmek için kaynağın özel bir form (Google Web Yöneticisi Merkezi, Yandex Web Yöneticisi Paneli vb.) aracılığıyla eklenmesi gerekir.

Arama robotu türleri

Yandex örümcekleri:

  • Yandex/1.01.001 I - indekslemeye katılan ana bot,
  • Yandex/1.01.001 (P) - resimleri indeksler,
  • Yandex/1.01.001 (H) - yansıma sitelerini bulur,
  • Yandex/1.03.003 (D) - web yöneticisi panelinden eklenen sayfanın indeksleme parametrelerini karşılayıp karşılamadığını belirler,
  • YaDirectBot/1.0 (I) - kaynakları indeksler reklam ağı yandex,
  • Yandex/1.02.000 (F) - site favicon'larını indeksler.

Google Örümcekleri:

  • Googlebot ana robottur
  • Googlebot News - haberleri tarar ve dizine ekler,
  • Google Mobil - siteleri mobil cihazlara göre dizine ekler,
  • Googlebot Görseller - görselleri arar ve dizine ekler,
  • Googlebot Video - videoları indeksler,
  • Google AdsBot - açılış sayfasının kalitesini kontrol eder,
  • Google Mobil AdSense ve Google AdSense— Google reklam ağının sitelerini indeksler.

Diğer arama motorları da işlevsel olarak listelenenlere benzeyen çeşitli robot türleri kullanır.

Arama motorları nasıl çalışır? İnternetin harika yanlarından biri de yüz milyonlarca web kaynağının bize sunulmayı bekleyen ve hazır olmasıdır. Ama kötü olan şey şu ki, ihtiyacımız olsa bile önümüze çıkmayacak milyonlarca sayfa var, çünkü... bizim için bilinmiyor. İnternette neyi ve nerede bulabileceğinizi nasıl öğrenebilirim? Bunu yapmak için genellikle arama motorlarına yöneliriz.

İnternet arama motorları özel sitelerdir. küresel ağ insanların bulmasına yardımcı olmak için tasarlanmıştır. Dünya çapında Ağ ihtiyaç duydukları bilgiler. Arama motorlarının işlevlerini yerine getirme şekillerinde farklılıklar vardır ancak genel olarak 3 ana ve aynı işlev vardır:

Hepsi verilen anahtar kelimelere göre İnternet'te (veya İnternet'in bazı sektörlerinde) "arama yapar";
- tüm arama motorları aradıkları kelimeleri ve buldukları yerleri indeksler;
- tüm arama motorları, kullanıcıların halihazırda indekslenmiş ve veritabanlarında yer alan web sayfalarına dayalı olarak kelimeleri veya anahtar kelime kombinasyonlarını aramasına olanak tanır.

İlk arama motorları birkaç yüz bin sayfayı indeksliyordu ve günde 1.000 - 2.000 istek alıyordu. Bugün, en iyi arama motorları yüz milyonlarca sayfayı indekslemiş ve sürekli olarak indeksliyor ve her gün on milyonlarca isteği işliyor. Aşağıda arama motorlarının nasıl çalıştığından ve ilgimizi çeken herhangi bir soruyu yanıtlayabilmek için bulunan tüm bilgi parçalarını nasıl "bir araya getirdiğinden" bahsedeceğiz.

Hadi Web'e bakalım

İnsanlar hakkında konuştuğunda İnternet arama motorları makineler, aslında arama motorlarını kastediyorlar Dünya çapında Ağ. Web, İnternet'in en görünür kısmı haline gelmeden önce, insanların İnternet'te bilgi bulmasına yardımcı olan arama motorları zaten mevcuttu. "Gopher" ve "Archie" adlı programlar, birbirine bağlı farklı sunucularda bulunan dosyaları indeksleyebildi. İnternet İnterneti ve arama için harcanan süreyi önemli ölçüde azalttı gerekli programlar veya belgeler. Geçen yüzyılın 80'li yıllarının sonlarında, "İnternette çalışma yeteneği" ile eşanlamlı olan, gopher, Archie, Veronica vb. kullanma yeteneğiydi. programları arayın. Günümüzde çoğu İnternet kullanıcısı aramalarını yalnızca Dünya çapında ağ veya WWW.

Küçük bir başlangıç

Gerekli belgeyi veya dosyayı nerede bulacağınızı size söyleyebilmemiz için, dosyanın veya belgenin zaten bulunmuş olması gerekir. Yüz milyonlarca mevcut WEB sayfası hakkında bilgi bulmak için arama motoru özel bir robot programı kullanır. Bu program aynı zamanda örümcek ("örümcek") olarak da adlandırılır ve sayfada bulunan kelimelerin bir listesini oluşturmak için kullanılır. Böyle bir liste oluşturma sürecine denir web taraması(Web taraması). Daha fazla “faydalı” (anlamlı) bir kelime listesi oluşturmak ve yakalamak için, arama örümceği tonlarca başka sayfayı “gözden geçirmek” zorunda.

Birisi nasıl başlar? örümcek(örümcek) internetteki yolculuğunuz? Genellikle başlangıç ​​noktası dünyanın en büyük sunucuları ve çok popüler web sayfalarıdır. Örümcek yolculuğuna böyle bir siteden başlıyor, bulduğu tüm kelimeleri indeksliyor ve diğer sitelere olan bağlantıları takip ederek hareketine devam ediyor. Böylece örümcek robot giderek daha büyük ağ alanı "parçalarını" kaplamaya başlar. Google.com akademik bir arama motoru olarak başladı. Bu arama motorunun nasıl oluşturulduğunu anlatan bir makalede Sergey Brin ve Lawrence Page (Google'ın kurucuları ve sahipleri), Google örümceklerinin ne kadar hızlı çalıştığına dair bir örnek verdiler. Bunlardan birkaç tane var ve genellikle arama 3 örümceğin kullanılmasıyla başlıyor. Her örümcek, web sayfalarına aynı anda 300'e kadar açık bağlantıyı destekler. En yüksek yükte, 4 örümcek kullanarak Google sistemi saniyede 100 sayfayı işleyebilir ve yaklaşık 600 kilobayt/sn trafik oluşturabilir.

Örümceklere işlemeleri gereken verileri sağlamak için Google'ın, örümceklere giderek daha fazla URL beslemekten başka bir şey yapmayan bir sunucusu vardı. URL'leri IP adreslerine çeviren alan adı sunucuları (DNS) konusunda İnternet servis sağlayıcılarına bağımlı kalmamak için Google kendi sunucularını satın aldı. Dns sunucusu, sayfaları dizine eklemek için harcanan tüm süreyi minimuma indirir.

Google Robot Ziyaret Ettiğinde HTML sayfası 2 şeyi dikkate alır:

Sayfa başına kelimeler (metin);
- konumları (sayfanın gövdesinin hangi bölümünde).

Gibi servis bölümleriyle birlikte bulunan kelimeler başlık, altyazılar, meta etiketler ve diğerleri, kullanıcı arama sorguları için özellikle önemli olarak işaretlendi. Google Spider, "a", "an" ve "the" gibi ünlemler hariç, bir sayfadaki her benzer kelimeyi dizine eklemek için tasarlandı. Diğer arama motorlarının indeksleme konusunda biraz farklı bir yaklaşımı vardır.

Tüm arama motoru yaklaşımları ve algoritmaları sonuçta örümcek robotların daha hızlı ve daha verimli çalışmasını amaçlamaktadır. Örneğin, bazı arama robotları başlıktaki kelimeleri, bağlantıları ve indeksleme sırasında sayfada en sık kullanılan 100'e kadar kelimeyi ve hatta sayfadaki metin içeriğinin ilk 20 satırındaki kelimelerin her birini izler. Bu özellikle Lycos'un indeksleme algoritmasıdır.

AltaVista gibi diğer arama motorları ise diğer yöne giderek "a", "an", "the" ve diğer önemsiz kelimeler de dahil olmak üzere bir sayfadaki her kelimeyi indeksler.

Meta etiketleri

Meta etiketleri, bir web sayfasının sahibinin, içeriğinin özünü tanımlayan anahtar kelimeleri ve kavramları belirlemesine olanak tanır. Bu, özellikle bu anahtar kelimeler sayfanın metninde 2-3 defaya kadar tekrarlanabildiğinde çok kullanışlı bir araçtır. Bu durumda meta etiketler, arama robotunu sayfayı dizine eklemek için istenen anahtar kelime seçimine "yönlendirebilir". Sayfanın içeriğiyle hiçbir şekilde ilgisi olmayan popüler arama sorguları ve kavramlarla meta etiketlerin "aldatılması" olasılığı vardır. Arama robotları, örneğin meta etiketler ile bir web sayfasının içeriği arasındaki korelasyonu analiz ederek, sayfaların içeriğine karşılık gelmeyen meta etiketleri (sırasıyla anahtar sözcükleri) dikkate almayarak bununla mücadele edebilir.

Bütün bunlar, bir web kaynağının sahibinin gerçekten istenen arama kelimeleri için arama sonuçlarına dahil edilmek istediği durumlar için geçerlidir. Ancak çoğu zaman sahibinin robot tarafından indekslenmesini hiç istemediği görülür. Ancak bu gibi durumlar yazımızın konusu değil.

Dizin yapısı

Örümcekler yeni web sayfaları bulma çalışmalarını tamamladıktan sonra, arama motorları buldukları tüm bilgileri gelecekte kullanılabilecek şekilde yerleştirmelidir. Burada önemli olan 2 temel bileşen vardır:

Verilerle birlikte saklanan bilgiler;
- bu bilginin indekslenme yöntemi.

En basit durumda, bir arama motoru kelimeyi ve URL'yi bulunduğu yere yerleştirebilir. Ancak bu, arama motorunu tamamen ilkel bir araç haline getirecektir, çünkü bu kelimenin belgenin hangi bölümünde (meta etiketlerde veya düz metinde) yer aldığına, bu kelimenin bir kez mi yoksa tekrar tekrar mı kullanıldığına ve tekrar tekrar kullanılıp kullanılmadığına dair hiçbir bilgi yoktur. başka bir önemli ve ilgili kaynağa bağlantıda bulunur. Başka bir deyişle, bu yöntem siteleri sıralamayacaktır, kullanıcılara alakalı sonuçlar sunmayacaktır vb.

Bize yararlı veriler sağlamak için, arama motorları yalnızca kelimeden ve URL'sinden gelen bilgileri depolamaz. Bir arama motoru, bir sayfadaki bir kelimenin bahsedilme sayısına (sıklığına) ilişkin verileri kaydedebilir, kelimeye bir "ağırlık" atayabilir ve bu daha sonra bu kelimenin ağırlıklı sıralamasına dayalı olarak arama listeleri (sonuçlar) oluşturulmasına yardımcı olabilir. konumunu dikkate alın (bağlantılarda, meta etiketlerde, sayfa başlığında vb.). Her ticari arama motorunun, indeksleme sırasında anahtar kelimelerin “ağırlığını” hesaplamak için kendi formülü vardır. Aynı şeyin nedenlerinden biri de bu arama sorgusu arama motorları tamamen farklı sonuçlar üretir.

Sonraki önemli nokta Bulunan bilgileri işlerken - depolamak için disk alanı miktarını azaltmak amacıyla kodlanması. Örneğin, orijinal Google makalesi, kelimelerin ağırlık verilerini depolamak için 2 baytın (her biri 8 bit) kullanıldığını açıklar - bu, kelimenin türünü (büyük veya büyük harfler), harflerin boyutunu (Yazı tipi-) dikkate alır. Boyut) ve sitenin sıralamasına yardımcı olan diğer bilgiler. Bu tür her bilgi "parçası", 2 baytlık tam bir sette 2-3 bit veri gerektirir. Sonuç olarak, çok büyük miktarda bilgi çok kompakt bir biçimde saklanabilir. Bilgiler "sıkıştırıldıktan" sonra indekslemeye başlama zamanı gelir.

Endekslemenin tek bir hedefi vardır: maksimumu sağlamak hızlı arama gerekli bilgiler. Dizin oluşturmanın birkaç yolu vardır, ancak en etkili olanı karma tabloları(karma tablosu). Hashing, her kelimeye sayısal bir değer atamak için özel bir formül kullanır.

Herhangi bir dilde, alfabenin geri kalan harflerine göre çok daha fazla kelimenin başladığı harfler vardır. Örneğin İngilizce sözlük bölümünde "M" harfiyle başlayan kelimelerin sayısı, "X" harfiyle başlayan kelimelere göre çok daha fazladır. Bu, en popüler harfle başlayan bir kelimeyi aramanın diğer kelimelere göre daha uzun süreceği anlamına gelir. karma(Hashing) bu farkı eşitleyerek ortalama arama süresini azaltır ve ayrıca endeksin kendisini gerçek verilerden ayırır. Bir karma tablosu, karma değerlerinin yanı sıra o değere karşılık gelen verilere yönelik bir işaretçi içerir. Etkili indeksleme + etkili yerleştirme, kullanıcı çok karmaşık bir arama sorgusu sorsa bile yüksek arama hızı sağlar.

Arama motorlarının geleceği

Boole operatörlerini ("ve", "veya", "değil") temel alan bir arama, gerçek bir aramadır; arama motoru, arama sözcüklerini tam olarak girildiği gibi alır. Bu, örneğin girilen kelimenin birden fazla anlamı olduğunda sorun yaratabilir. Örneğin "anahtar", "bir kapıyı açmanın bir yolu" anlamına gelebilir veya bir sunucuya giriş yapmak için kullanılan bir "şifre" anlamına gelebilir. Bir kelimenin yalnızca bir anlamı ile ilgileniyorsanız, o zaman ikinci anlamı ile ilgili verilere de ihtiyacınız olmayacaktır. Elbette, bir kelimenin gereksiz anlamına dayalı olarak veri çıktısını hariç tutacak gerçek bir sorgu oluşturabilirsiniz, ancak arama motorunun kendisi size yardımcı olabilirse güzel olur.

Gelecekteki arama motoru algoritmalarına yönelik araştırma alanlarından biri kavramsal bilgi erişimidir. Bunlar, alakalı verileri bulmak için belirli bir arama anahtar kelimesini veya kelime öbeğini içeren sayfaların istatistiksel analizini kullanan algoritmalardır. Böyle bir "kavramsal arama motorunun" her sayfa için çok daha fazla depolama alanı ve her isteği işlemek için daha fazla zaman gerektireceği açıktır. Şu anda birçok araştırmacı bu sorun üzerinde çalışıyor.

Sorgulara dayalı arama algoritmalarının geliştirilmesi alanında daha az yoğun bir çalışma yapılmamaktadır. Doğal lisan(Doğal Dil sorgusu).

Doğal sorguların ardındaki fikir, sorgunuzu sanki karşınızda oturan bir iş arkadaşınıza soruyormuş gibi yazabilmenizdir. Boolean operatörleri hakkında endişelenmenize veya oluşturma konusunda zorlanmanıza gerek yok karmaşık sorgu. Günümüzün en popüler doğal dil arama sitesi AskJeeves.com'dur. Sorguyu anahtar kelimelere dönüştürür ve daha sonra siteleri dizine eklerken bunları kullanır. Bu yaklaşım yalnızca basit sorgular için işe yarar. Ancak ilerleme durmuyor, çok yakında arama motorlarıyla kendi “insan dilimizde” “konuşmamız” mümkün.

Arkadaşlar, tekrar hoş geldiniz! Şimdi arama robotlarının ne olduğuna bakıp Google arama robotu ve onlarla nasıl arkadaş olunacağı hakkında detaylı olarak konuşacağız.

Öncelikle arama robotlarının gerçekte ne olduğunu anlamalısınız; onlara örümcek de denir. Arama motoru örümcekleri ne iş yapar?

Bunlar siteleri kontrol eden programlardır. Blogunuzdaki tüm yazıları ve sayfaları incelerler, bilgi toplarlar ve daha sonra bunları çalıştıkları arama motorunun veri tabanına iletirler.

Arama robotlarının tam listesini bilmenize gerek yok, en önemli şey Google'ın artık "panda" ve "penguen" adında iki ana örümceğin olduğunu bilmek. Düşük kaliteli içeriğe ve önemsiz bağlantılara karşı savaşırlar ve onların saldırılarını nasıl püskürteceğinizi bilmeniz gerekir.

Google Panda arama robotu, aramalarda yalnızca yüksek kaliteli materyalleri tanıtmak için oluşturuldu. Düşük kaliteli içeriğe sahip tüm siteler arama sonuçlarında alt sıralarda yer alır.

Bu örümcek ilk olarak 2011'de ortaya çıktı. Ortaya çıkmadan önce, makalelerde büyük miktarda metin yayınlayarak ve çok miktarda anahtar kelime kullanarak herhangi bir web sitesini tanıtmak mümkündü. Bu iki teknik birlikte, kaliteli olmayan içeriği arama sonuçlarının en üstüne çıkardı ve iyi siteler, arama sonuçlarında alt sıralarda yer aldı.

“Panda” hemen tüm siteleri kontrol edip herkesi hak ettiği yere yerleştirerek işleri yoluna koyuyor. Her ne kadar düşük kaliteli içeriklerle uğraşsa da artık küçük sitelerin bile kaliteli yazılarla tanıtımını yapmak mümkün. Daha önce bu tür sitelerin tanıtımını yapmak faydasız olsa da, büyük miktarda içeriğe sahip devlerle rekabet edemiyorlardı.

Şimdi “panda” yaptırımlarından nasıl kaçınabileceğinizi çözeceğiz. İlk önce neyi sevmediğini anlamalısın. Zaten yukarıda kötü içerikle boğuştuğunu yazmıştım ama ne tür bir metin onun için kötüyse onu çözelim ve web sitemizde yayınlamayalım.

Google arama robotu, bu arama motorunun iş arayanlara yalnızca yüksek kaliteli materyaller sunmasını sağlamaya çalışır. Çok az bilgi içeren ve görünüşte çekici olmayan makaleleriniz varsa, o zaman bu metinleri "panda" nın size ulaşmaması için acilen yeniden yazın.

Yüksek kaliteli içerik hem büyük hem de küçük olabilir, ancak örümcek çok fazla bilgi içeren uzun bir makale görürse okuyucu için daha yararlı olacaktır.

O zaman çoğaltmayı, yani intihalleri not etmeniz gerekir. Blogunuzda başkalarının yazılarını yeniden yazacağınızı düşünüyorsanız o zaman sitenize hemen son verebilirsiniz. Kopyalama, filtre uygulanarak kesinlikle cezalandırılır ve İntihal kontrol ediliyorçok kolay, konuyla ilgili bir makale yazdım metinlerin benzersiz olup olmadığı nasıl kontrol edilir.

Dikkat edilmesi gereken bir sonraki şey, metnin anahtar kelimelerle aşırı doygunluğudur. Sadece anahtar kelimeler kullanarak makale yazıp arama sonuçlarında ilk sıralarda yer alabileceğini düşünen herkes çok yanılıyor. Sayfaların alaka düzeyinin nasıl kontrol edileceğine dair bir makalem var, mutlaka okuyun.

Ve bir "pandayı" kendinize çekebilecek bir diğer şey de ahlaki açıdan güncel olmayan ve siteye trafik getirmeyen eski makalelerdir. Kesinlikle güncellenmeleri gerekiyor.

Bir de Google arama robotu “penguen” var. Bu örümcek sitenizdeki spam ve önemsiz bağlantılarla savaşır. Ayrıca diğer kaynaklardan satın alınan bağlantıları da hesaplar. Bu nedenle, bu arama robotundan korkmamak için bağlantı satın almamalı, yüksek kaliteli içerik yayınlayarak insanların size bağlantı vermesini sağlamalısınız.

Şimdi sitenin bir arama robotunun gözünden mükemmel görünmesi için yapılması gerekenleri formüle edelim:

  • Kaliteli içerik üretebilmek için öncelikle yazıyı yazmadan önce konuyu iyice araştırın. O zaman insanların bu konuyla gerçekten ilgilendiğini anlamalısınız.
  • Kullanmak spesifik örnekler ve resimler, bu makaleyi canlı ve ilginç hale getirecektir. Okunmasını kolaylaştırmak için metni küçük paragraflara bölün.Örneğin, bir gazetede esprilerle dolu bir sayfa açtığınızda ilk önce hangisini okursunuz? Doğal olarak her insan önce kısa metinleri, sonra uzun metinleri ve son olarak da uzun ayak bandajlarını okur.
  • "Pandanın" en sevdiği kelime oyunu, güncelliğini kaybetmiş bilgiler içeren bir makalenin konuyla ilgisinin olmamasıdır. Güncellemeleri takip edin ve metinleri değiştirin.
  • Anahtar kelime yoğunluğunu takip edin; bu yoğunluğun nasıl belirleneceğini yukarıda yazdım; anlattığım hizmette tam olarak gerekli sayıda anahtar kelimeyi alacaksınız.
  • İntihal yapmayın, herkes başkalarının eşyalarını veya mesajlarını çalamayacağınızı bilir; bu aynı şeydir. Filtreye takılıp hırsızlık suçundan cezalandırılacaksınız.
  • En az iki bin kelimelik metinler yazın, o zaman böyle bir makale arama motoru robotlarının gözünden bilgilendirici görünecektir.
  • Blogunuzla konuya devam edin. İnternetten para kazanmayla ilgili bir blog yayınlıyorsanız havalı silahlarla ilgili makaleler yayınlamanıza gerek yoktur. Bu, kaynağınızın derecelendirmesini düşürebilir.
  • Yazılarınızı güzelce tasarlayın, paragraflara bölün ve resimler ekleyin ki okumaktan keyif alın ve siteden hemen ayrılmak istemeyin.
  • Bağlantıları satın alırken, onları insanların gerçekten okuyacağı en ilginç ve yararlı makalelere yönlendirin.

Artık arama motoru robotlarının ne iş yaptığını biliyorsunuz ve onlarla arkadaş olabilirsiniz. Ve en önemlisi Google arama robotu ile “panda” ve “penguen” sizin tarafınızdan detaylı bir şekilde incelenmiştir.




Tepe