ev › Problemlər › Axtarış motoru hörümçəkləri hansı işləri görür? Axtarış robotu nədir? "Yandex" və Google axtarış robotunun funksiyaları. Axtarış robotu nə edir?

Axtarış motoru hörümçəkləri hansı işləri görür? Axtarış robotu nədir? "Yandex" və Google axtarış robotunun funksiyaları. Axtarış robotu nə edir?

Məşhur inancın əksinə olaraq, robot skan edilmiş sənədlərin heç bir emalında birbaşa iştirak etmir. O, yalnız onları oxuyur və saxlayır, sonra digər proqramlar tərəfindən işlənir. Vizual təsdiqi ilk dəfə indeksləşdirilən saytın qeydlərini təhlil etməklə əldə etmək olar. İlk ziyarətdə bot əvvəlcə robots.txt faylını, sonra saytın əsas səhifəsini tələb edir. Yəni ona məlum olan yeganə linki izləyir. Bu, botun ilk ziyarətinin həmişə bitdiyi yerdir. Bir müddət sonra (adətən ertəsi gün) bot artıq oxunmuş səhifədə tapılan keçidlərdən istifadə edərək növbəti səhifələri tələb edir. Sonra proses eyni ardıcıllıqla davam edir: linkləri artıq tapılmış səhifələrin sorğulanması - oxunmuş sənədlərin işlənməsi üçün fasilə - tapılmış bağlantılar üçün sorğu ilə növbəti sessiya.

Səhifələri tez təhlil etmək əhəmiyyətli dərəcədə daha çox şey deməkdir O robotun daha çox resurs istehlakı və vaxt itkisi. Hər bir skan serveri paralel olaraq bir neçə bot prosesini həyata keçirir. Onlar mümkün qədər tez hərəkət etməlidirlər ki, yeni səhifələri oxumağa və mövcud olanları yenidən oxumağa vaxt tapsınlar. Buna görə botlar yalnız sənədləri oxuyur və saxlayır. Saxladıqları hər şey emal üçün növbəyə qoyulur (kod təhlili). Səhifənin işlənməsi zamanı tapılan keçidlər botlar üçün tapşırıq növbəsinə yerləşdirilir. Beləliklə, bütün şəbəkə davamlı olaraq skan edilir. Bir botun tez təhlil edə biləcəyi və etməli olduğu yeganə şey robots.txt faylıdır ki, orada qadağan olunmuş ünvanları tələb etməsin. Hər saytın tarama sessiyası zamanı robot əvvəlcə bu faylı tələb edir və ondan sonra bütün səhifələr tarama üçün növbəyə durur.

Axtarış robotlarının növləri

Hər bir axtarış motorunun müxtəlif məqsədlər üçün öz robot dəsti var.
Əsasən, onlar funksional məqsədlərinə görə fərqlənirlər, baxmayaraq ki, sərhədlər çox ixtiyaridir və hər bir axtarış sistemi onları özünəməxsus şəkildə başa düşür. Yalnız tam mətn axtarış sistemləri üçün bir robot bütün hallar üçün kifayətdir. Yalnız mətnlə məşğul olmayan axtarış motorları üçün botlar ən azı iki kateqoriyaya bölünür: mətnlər və rəsmlər üçün. Xüsusi məzmun növlərinə həsr olunmuş ayrıca botlar da var - mobil, blog, xəbərlər, video və s.

Google Robotlar

Bütün Google robotları birlikdə Googlebot adlanır. Əsas robot indeksatoru belə "özünü təqdim edir":

Mozilla/5.0 (uyğundur; Googlebot/2.1; +http://www.google.com/bot.html)

Bu bot əsas üçün HTML səhifələrini və digər sənədləri skan etməklə məşğuldur Google axtarış. O, həmçinin vaxtaşırı CSS və JS fayllarını oxuyur - bu, əsasən saytın indeksləşdirilməsinin ilkin mərhələsində, bot saytı ilk dəfə gəzərkən müşahidə edilə bilər. Qəbul edilən məzmun növləri hamısıdır (Qəbul edirəm: */*).

Əsas botlardan ikincisi saytdan şəkilləri skan etməklə məşğuldur. Sadəcə olaraq “özünü təqdim edir”:

Googlebot-Image/1.0

Ən azı üç bot da məzmun toplamaqla məşğul olan qeydlərdə görüldü mobil versiya axtarış. Hər üçünün İstifadəçi-agent sahəsi sətirlə bitir:

(uyğundur; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Bu xəttdən əvvəl modeldir mobil telefon, bu botun uyğun olduğu. Ləkəli botların modelləri var Nokia telefonları, Samsung və iPhone. Qəbul edilən məzmun növləri hamısıdır, lakin prioritetləri qeyd olunur:

Qəbul edin: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Yandex robotları

RuNet-də aktiv olan axtarış sistemlərindən Yandex ən böyük bot kolleksiyasına malikdir. Webmaster yardım bölməsində siz bütün hörümçək işçilərinin rəsmi siyahısını tapa bilərsiniz. Onu burada tam təqdim etməyin mənası yoxdur, çünki bu siyahıda vaxtaşırı dəyişikliklər baş verir.
Ancaq bizim üçün ən vacib olan Yandex robotlarını ayrıca qeyd etmək lazımdır.
Əsas indeksləşdirmə robotu hal hazırda çağırılır

Mozilla/5.0 (uyğundur; YandexBot/3.0; +http://yandex.com/bots)

Əvvəllər kimi təmsil olunurdu

Yandex/1.01.001 (uyğundur; Win16; I)

İndeksləmə üçün vebsaytın HTML səhifələrini və digər sənədləri oxuyur. Qəbul edilən media növlərinin siyahısı əvvəllər məhdud idi:

Qəbul edin: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

31 iyul 2009-cu il tarixindən etibarən bu siyahıda əhəmiyyətli genişlənmə müşahidə edilmişdir (növlərin sayı demək olar ki, iki dəfə artmışdır), 10 noyabr 2009-cu ildən isə siyahı */* (bütün növlər) kimi qısaldılmışdır.
Bu robot çox xüsusi dillər dəstinə böyük maraq göstərir: rus, bir az daha az ukrayna və belarus, bir az daha az ingilis və çox az - bütün digər dillər.

Qəbul dili: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Robot şəkil skaneri User-agent sahəsində aşağıdakı sətri daşıyır:

Mozilla/5.0 (uyğundur; YandexImages/3.0; +http://yandex.com/bots)

Şəkillərdə axtarış etmək üçün müxtəlif formatlı qrafiklərin skan edilməsi ilə məşğul olur.

Google-dan fərqli olaraq, Yandex-in bəzilərinə xidmət etmək üçün ayrıca botları var xüsusi funksiyalarümumi axtarış.
Robot "güzgü"

Mozilla/5.0 (uyğundur; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Bu, xüsusilə mürəkkəb bir şey etmir - vaxtaşırı görünür və www ilə domenə daxil olan zaman saytın əsas səhifəsinin uyğun olub olmadığını yoxlayır. və onsuz. Həmçinin uyğunluqlar üçün paralel "güzgü" domenlərini yoxlayır. Göründüyü kimi, Yandex-də güzgülər və domenlərin kanonik forması ayrıca işlənir proqram paketi, indeksləşdirmə ilə birbaşa əlaqəli deyil. Əks təqdirdə, bu məqsəd üçün ayrıca bir botun mövcudluğunu izah edəcək heç bir şey yoxdur.

Favicon.ico nişanı kolleksiyaçısı

Mozilla/5.0 (uyğundur; YandexFavicons/1.0; +http://yandex.com/bots)

O, vaxtaşırı görünür və favicon.ico ikonasını tələb edir, daha sonra axtarış nəticələrində sayta keçidin yanında görünür. Şəkil kolleksiyaçısının hansı səbəbdən bu məsuliyyəti paylaşmadığı məlum deyil. Görünür, oyunda ayrıca bir proqram paketi də var.

Doğrulama botu yeni saytlar üçün AddURL formasına əlavə edildikdə işləyir

Mozilla/5.0 (uyğundur; YandexWebmaster/2.0; +http://yandex.com/bots)

Bu bot kök URL-ə HEAD sorğusu göndərməklə saytın cavabını yoxlayır. Beləliklə, domendə əsas səhifənin mövcudluğu yoxlanılır və bu səhifənin HTTP başlıqları təhlil edilir. Bot saytın kökündəki robots.txt faylını da tələb edir. Beləliklə, linki AddURL-ə təqdim etdikdən sonra saytın mövcud olduğu və nə robots.txt, nə də HTTP başlıqlarının əsas səhifəyə girişi qadağan etmədiyi müəyyən edilir.

Rambler robotu

Hal-hazırda artıq işləmir, çünki Rambler indi Yandex axtarışından istifadə edir
Rambler indeksləşdirici robotu İstifadəçi-agent sahəsi ilə qeydlərdə asanlıqla müəyyən etmək olar

StackRambler/2.0 (MSIE uyğun gəlmir)

Başqalarından olan "həmkarları" ilə müqayisədə Axtarış motorları bu bot olduqca sadə görünür: o, media növlərinin siyahısını göstərmir (müvafiq olaraq, istənilən növ tələb olunan sənədi alır), sorğuda Qəbul et-Dil sahəsi yoxdur və Əgər-Modified-ci ildən sahəsi tapılmamışdır. botun sorğularında.

Robot Mail.Ru

Bu robot haqqında hələ çox az şey məlumdur. Mail.Ru portalı uzun müddətdir ki, öz axtarışını inkişaf etdirir, lakin hələ də bu axtarışı işə sala bilməyib. Buna görə də, İstifadəçi-agentdə yalnız botun adı dəqiq məlumdur - Mail.Ru/2.0 (əvvəllər - Mail.Ru/1.0). robors.txt faylının direktivləri üçün botun adı heç yerdə dərc olunmayıb, botun Mail.Ru adlandırılmasına dair fərziyyə var.

Digər robotlar

İnternet axtarışı, əlbəttə ki, iki axtarış sistemi ilə məhdudlaşmır. Buna görə də, başqa robotlar var - məsələn, Bing robotu - Microsoft-un axtarış sistemi və digər robotlar. Beləliklə, xüsusən də Çində milli axtarış sistemi Baidu var - lakin onun robotu çətin ki, çayın ortasına çatsın və Rusiya saytına çatsın.

Bundan əlavə, bu yaxınlarda bir çox xidmətlər - xüsusən də solomono - onlar axtarış motorları olmasalar da, saytları skan edirlər. Çox vaxt sayt məlumatlarının bu cür sistemlərə ötürülməsinin dəyəri şübhə doğurur və buna görə də onların robotları qadağan edilə bilər.

Axtarış motoru robotları necə işləyir

Axtarış robotu (hörümçək, bot) operatorun müdaxiləsi olmadan milyonlarla vebsayta baş çəkə və gigabayt mətni skan edə bilən kiçik proqramdır. Səhifələrin oxunması və onların mətn nüsxələrinin saxlanması yeni sənədlərin indeksləşdirilməsinin ilk mərhələsidir. Qeyd edək ki, axtarış motoru robotları alınan məlumatların heç bir emalını həyata keçirmir. Onların vəzifəsi yalnız qorumaqdır mətn məlumatı.

Kanalımızda daha çox video - SEMANTICA ilə internet marketinqini öyrənin

Axtarış robotlarının siyahısı

Runet-i skan edən bütün axtarış sistemləri arasında Yandex ən böyük bot kolleksiyasına malikdir. Aşağıdakı botlar indeksləşdirməyə cavabdehdir:

veb sayt səhifələrindən məlumat toplayan əsas indeksləşdirmə robotu;
güzgüləri tanıya bilən bot;
Şəkilləri indeksləşdirən Yandex axtarış robotu;
YAN tərəfindən qəbul edilən saytların səhifələrini skan edən hörümçək;
robot skan edən favikon nişanları;
sayt səhifələrinin əlçatanlığını müəyyən edən bir neçə hörümçək.

Google-un əsas axtarış robotu mətn məlumatları toplayır. Əsasən, o, HTML fayllarına baxır və müəyyən fasilələrlə JS və CSS-ni təhlil edir. İndeksləmə üçün icazə verilən istənilən məzmun növlərini qəbul edə bilir. PS Google-da şəkillərin indeksləşdirilməsinə nəzarət edən hörümçək var. Axtarış robotu da var - axtarışın mobil versiyasının işləməsini dəstəkləyən proqram.

Sayta axtarış robotunun gözü ilə baxın

Kod səhvlərini və digər çatışmazlıqları düzəltmək üçün vebmaster axtarış robotunun saytı necə gördüyünü öyrənə bilər. Bu fürsət Google PS tərəfindən təmin edilir. Veb ustası alətlərinə getməli və sonra "taranan" sekmesini vurmalı olacaqsınız. Açılan pəncərədə “Googlebot kimi bax” xəttini seçməlisiniz. Daha sonra axtarış formasına (domen və http:// protokolunu göstərmədən) araşdırdığınız səhifənin ünvanını daxil etməlisiniz.

“Al və göstər” əmrini seçməklə vebmaster sayt səhifəsinin vəziyyətini vizual olaraq qiymətləndirə biləcək. Bunu etmək üçün "göstərmək üçün sorğu" qutusunu vurmalısınız. Veb sənədin iki versiyası olan bir pəncərə açılacaqdır. Veb ustası müntəzəm ziyarətçinin səhifəni necə gördüyünü və axtarış hörümçəyinin hansı formada olduğunu öyrənir.

Məsləhət Əgər təhlil etdiyiniz veb-sənəd hələ indekslənməyibsə, siz “indeks əlavə et” >> “yalnız bu URL-i skan et” əmrindən istifadə edə bilərsiniz. Hörümçək bir neçə dəqiqə ərzində sənədi təhlil edəcək və yaxın gələcəkdə axtarış nəticələrində veb səhifə görünəcək. İndeksləşdirmə sorğuları üçün aylıq limit 500 sənəddir.

İndeksləmə sürətinə necə təsir etmək olar

Axtarış robotlarının necə işlədiyini anlayan veb ustası öz saytını daha effektiv şəkildə təbliğ edə biləcək. Bir çox gənc veb layihələrin əsas problemlərindən biri zəif indeksləşdirmədir. Axtarış motoru robotları icazəsiz internet resurslarına baş çəkməkdən çəkinirlər.
Müəyyən edilmişdir ki, indeksləşdirmə sürəti birbaşa saytın yenilənməsinin intensivliyindən asılıdır. Unikal mətn materiallarının müntəzəm olaraq əlavə edilməsi axtarış motorlarının diqqətini cəlb edəcəkdir.

İndeksləşdirməni sürətləndirmək üçün siz sosial əlfəcinlərdən və twitter xidmətindən istifadə edə bilərsiniz. Saytın xəritəsini yaratmaq və veb layihənin kök kataloquna yükləmək tövsiyə olunur.

Axtarış robotu çağırdı xüsusi proqramİnternetdə tapılan saytlar və onların səhifələri verilənlər bazasına (indeks) daxil olmaq üçün nəzərdə tutulmuş hər hansı bir axtarış sistemi. Adlar da istifadə olunur: sürünən, hörümçək, bot, avtomatik indeksləşdirici, qarışqa, veb-tarayıcı, bot, webscutter, webrobotlar, webspider.

Əməliyyat prinsipi

Axtarış robotu brauzer tipli proqramdır. O, daim şəbəkəni skan edir: indeksləşdirilmiş (onlara artıq məlum olan) saytlara baş çəkir, onlardan bağlantıları izləyir və yeni resurslar tapır. Yeni resurs aşkar edildikdə, prosedur robot onu axtarış motoru indeksinə əlavə edir. Axtarış robotu həmçinin tezliyi sabit olan saytlarda yeniləmələri indeksləşdirir. Məsələn, həftədə bir dəfə yenilənən sayta bu tezlikdə hörümçək baş çəkəcək və xəbər saytlarındakı məzmun dərc olunduqdan bir neçə dəqiqə sonra indeksləşdirilə bilər. Digər mənbələrdən heç bir keçid sayta aparmırsa, axtarış robotlarını cəlb etmək üçün resurs xüsusi forma (Google Webmaster Center, Yandex Webmaster Panel və s.) vasitəsilə əlavə edilməlidir.

Axtarış robotlarının növləri

Yandex hörümçəkləri:

Yandex/1.01.001 I - indeksləşdirmə ilə məşğul olan əsas bot,
Yandex/1.01.001 (P) - şəkilləri indeksləşdirir,
Yandex/1.01.001 (H) - güzgü saytlarını tapır,
Yandex/1.03.003 (D) - vebmaster panelindən əlavə edilmiş səhifənin indeksləşdirmə parametrlərinə uyğun olub olmadığını müəyyən edir,
YaDirectBot/1.0 (I) - mənbələri indeksləşdirir reklam şəbəkəsi Yandex,
Yandex/1.02.000 (F) - sayt favikonlarını indeksləşdirir.

Google Hörümçəklər:

Googlebot əsas robotdur
Googlebot News - xəbərləri skan edir və indeksləşdirir,
Google Mobile - mobil cihazlar üçün saytları indeksləşdirir,
Googlebot Şəkilləri - şəkilləri axtarır və indeksləşdirir,
Googlebot Video - videoları indeksləşdirir,
Google AdsBot - açılış səhifəsinin keyfiyyətini yoxlayır,
Google Mobil AdSense və Google AdSense— Google reklam şəbəkəsinin saytlarını indeksləşdirir.

Digər axtarış motorları da funksional olaraq sadalananlara bənzər bir neçə növ robotdan istifadə edir.

Axtarış motorları necə işləyir? İnternetlə bağlı gözəl cəhətlərdən biri odur ki, gözləyən və bizə təqdim olunmağa hazır olan yüz milyonlarla veb resurs var. Amma pis odur ki, eyni milyonlarla səhifələr var ki, bizə lazım olsa belə, qarşımızda görünməyəcək, çünki... sadəcə bizə məlum deyil. İnternetdə nəyi və harada tapa biləcəyinizi necə tapmaq olar? Bunun üçün biz adətən axtarış sistemlərinə müraciət edirik.

İnternet axtarış motorları xüsusi saytlardır qlobal şəbəkə insanların tapmasına kömək etmək üçün nəzərdə tutulmuşdur dünya geniş şəbəkəsi onlara lazım olan məlumat. Axtarış motorlarının öz funksiyalarını yerinə yetirmə tərzində fərqlər var, lakin ümumilikdə 3 əsas və eyni funksiya var:

Onların hamısı İnternetdə (və ya İnternetin hansısa sektorunda) “axtarır” - verilmiş açar sözlərə əsasən;
- bütün axtarış sistemləri axtardıqları sözləri və onları tapdıqları yerləri indeksləşdirir;
- bütün axtarış sistemləri istifadəçilərə artıq indekslənmiş və verilənlər bazalarına daxil edilmiş veb səhifələr əsasında sözlər və ya açar söz birləşmələri axtarmağa imkan verir.

İlk axtarış motorları bir neçə yüz min səhifəyə qədər indeksləşdirdi və gündə 1000-2000 sorğu aldı. Bu gün ən yaxşı axtarış motorları yüz milyonlarla səhifəni indeksləşdirib və davamlı olaraq indeksləşdirir və gündə on milyonlarla sorğunu emal edir. Aşağıda axtarış motorlarının necə işlədiyi və bizi maraqlandıran istənilən suala cavab verə bilmək üçün tapılan bütün məlumatları necə “bir yerə yığdıqları” barədə danışacağıq.

Gəlin Vebə baxaq

İnsanlar haqqında danışanda İnternet axtarış motorları maşınlar, əslində axtarış motorları deməkdir World Wide Web. İnternet İnternetin ən görünən hissəsinə çevrilməzdən əvvəl, insanlara İnternetdə məlumat tapmağa kömək etmək üçün axtarış motorları artıq mövcud idi. "Gopher" və "Archie" adlı proqramlar, qoşulmuş müxtəlif serverlərdə yerləşən faylları indeksləşdirə bilirdi. İnternet İnternet və axtarışa sərf olunan vaxtı əhəmiyyətli dərəcədə azaldıb zəruri proqramlar və ya sənədlər. Keçən əsrin 80-ci illərinin sonlarında "İnternetdə işləmək bacarığı" sözünün sinonimi gopher, Archie, Veronika və s. istifadə etmək bacarığı idi. axtarış proqramları. Bu gün əksər İnternet istifadəçiləri axtarışlarını yalnız bununla məhdudlaşdırırlar dünya şəbəkəsi, və ya WWW.

Kiçik bir başlanğıc

Biz sizə tələb olunan sənədi və ya faylı haradan tapacağınızı söyləməzdən əvvəl, fayl və ya sənəd artıq tapılmış olmalıdır. Yüz milyonlarla mövcud WEB səhifələri haqqında məlumat tapmaq üçün axtarış sistemi xüsusi robot proqramından istifadə edir. Bu proqram hörümçək ("hörümçək") adlanır və səhifədə tapılan sözlərin siyahısını yaratmaq üçün istifadə olunur. Belə bir siyahının qurulması prosesi adlanır veb tarama(Veb tarama). Sözlərin "faydalı" (mənalı) siyahısını daha da qurmaq və tutmaq üçün, axtarış hörümçək bir ton başqa səhifəyə "baxmaq" lazımdır.

Kim necə başlayır? hörümçək(hörümçək) internetdə səyahətiniz? Adətən başlanğıc nöqtəsi dünyanın ən böyük serverləri və çox məşhur veb səhifələridir. Hörümçək səyahətinə belə bir saytdan başlayır, tapılan bütün sözləri indeksləşdirir və digər saytlara keçidləri izləyərək hərəkətini daha da davam etdirir. Beləliklə, hörümçək robotu internet məkanının getdikcə daha böyük “parçalarını” əhatə etməyə başlayır. Google.com akademik axtarış mühərriki kimi başladı. Bu axtarış sisteminin necə yaradıldığını izah edən məqalədə Sergey Brin və Lourens Peyc (Google-un qurucuları və sahibləri) Google hörümçəklərinin nə qədər tez işlədiyinə dair bir nümunə verdilər. Onlardan bir neçəsi var və adətən axtarış 3 hörümçəkdən istifadə etməklə başlayır. Hər bir hörümçək veb səhifələrə eyni vaxtda 300-ə qədər açıq əlaqəni dəstəkləyir. Ən yüksək yükdə 4 hörümçəkdən istifadə edərək, Google sistemi saniyədə 100 səhifəni emal etməyə qadirdir, təxminən 600 kilobayt/san trafik yaradır.

Hörümçəkləri emal etmələri üçün lazım olan məlumatları təmin etmək üçün Google, hörümçəkləri getdikcə daha çox URL-lərlə qidalandırmaqdan başqa bir şey etməyən bir serverə sahib idi. URL-ləri IP ünvanlarına çevirən domen adı serverləri (DNS) baxımından İnternet xidmət provayderlərindən asılı olmamaq üçün Google özünün DNS server, səhifələrin indeksləşdirilməsinə sərf olunan bütün vaxtı minimuma endirmək.

Google Robot Ziyarət Etdikdə HTML səhifəsi, 2 şeyi nəzərə alır:

Səhifə başına sözlər (mətn);
- onların yeri (səhifənin gövdəsinin hansı hissəsində).

kimi xidmət bölmələri ilə yerləşən sözlər başlıq, subtitrlər, meta teqlər və digərləri istifadəçi axtarış sorğuları üçün xüsusilə vacib olaraq qeyd edildi. Google Spider, "a", "an" və "the" kimi interjections istisna olmaqla, bir səhifədəki hər oxşar sözü indeksləşdirmək üçün qurulmuşdur. Digər axtarış motorları indeksləşdirməyə bir az fərqli yanaşmaya malikdir.

Bütün axtarış sistemi yanaşmaları və alqoritmləri son nəticədə hörümçək robotlarının daha sürətli və daha səmərəli işləməsinə yönəlib. Məsələn, bəzi axtarış robotları indeksləşdirmə zamanı başlıqdakı sözləri, keçidləri və səhifədə ən çox istifadə olunan 100-ə qədər sözü, hətta səhifədəki mətn məzmununun ilk 20 sətirindəki sözlərin hər birini izləyir. Bu, xüsusən Lycos-un indeksləşdirmə alqoritmidir.

AltaVista kimi digər axtarış motorları səhifədəki hər bir sözü, o cümlədən "a", "an", "the" və digər əhəmiyyətsiz sözləri indeksləşdirərək başqa istiqamətə gedir.

Meta Teqlər

Meta teqlər veb-səhifənin sahibinə onun məzmununun mahiyyətini müəyyən edən açar sözlər və konsepsiyaları müəyyən etməyə imkan verir. Bu, xüsusilə bu açar sözlər səhifənin mətnində 2-3 dəfəyə qədər təkrarlana bildiyi zaman çox faydalı vasitədir. Bu halda, meta teqlər axtarış robotunu səhifənin indeksləşdirilməsi üçün istədiyiniz açar sözlər seçiminə “yönləndirə” bilər. Populyar axtarış sorğuları və səhifənin məzmunu ilə heç bir əlaqəsi olmayan anlayışlarla meta teqləri “aldatmaq” ehtimalı var. Axtarış robotları bununla, məsələn, meta teqlərin və veb-səhifənin məzmununun korrelyasiyasını təhlil etməklə, səhifələrin məzmununa uyğun gəlməyən meta teqləri (müvafiq olaraq açar sözlər) nəzərə almaqdan “çıxararaq” mübarizə apara bilirlər.

Bütün bunlar veb resurs sahibinin həqiqətən istədiyiniz axtarış sözləri üçün axtarış nəticələrinə daxil olmaq istədiyi hallara aiddir. Ancaq tez-tez olur ki, sahibi robot tərəfindən ümumiyyətlə indekslənmək istəmir. Amma belə hallar yazımızın mövzusu deyil.

İndeksin qurulması

Hörümçəklər yeni veb səhifələr tapmaq işini bitirdikdən sonra axtarış motorları tapılan bütün məlumatları elə yerləşdirməlidir ki, gələcəkdə ondan istifadə etmək rahat olsun. Burada vacib olan 2 əsas komponent var:

Məlumatlarla saxlanılan məlumat;
- bu məlumatın indeksləşdirilməsi üsulu.

Ən sadə halda, axtarış motoru sadəcə sözü və URL-i tapıldığı yerə yerləşdirə bilər. Lakin bu, axtarış sistemini tamamilə primitiv alətə çevirəcək, çünki bu sözün sənədin hansı hissəsində (meta teqlər və ya düz mətndə), bu sözün bir dəfə və ya təkrar istifadə edilib-edilmədiyi və bu sözdən istifadə edilib-edilmədiyi barədə heç bir məlumat yoxdur. digər mühüm və əlaqəli mənbəyə keçiddə yer alır. Başqa sözlə, bu üsul saytları sıralamayacaq, istifadəçilərə müvafiq nəticələr verməyəcək və s.

Bizi faydalı məlumatlarla təmin etmək üçün axtarış motorları təkcə sözdən və onun URL-dən məlumatları saxlamır. Axtarış motoru səhifədə sözün qeyd olunma sayı (tezliyi) haqqında məlumatları saxlaya bilər, sözə “çəki” təyin edə bilər, bu isə daha sonra bu sözün ölçülmüş reytinqi əsasında axtarış siyahılarının (nəticələrinin) hazırlanmasına kömək edəcək. yerini nəzərə alaraq (linklərdə, meta teqlərdə, səhifə başlığında və s.). Hər bir kommersiya axtarış motorunun indeksləşdirmə zamanı açar sözlərin “çəkisi”ni hesablamaq üçün öz düsturu var. Bu, eyni şeyin səbəblərindən biridir axtarış sorğusu axtarış motorları tamamilə fərqli nəticələr verir.

Sonrakı vacib məqam tapılmış məlumatları emal edərkən - saxlanması üçün disk sahəsinin miqdarını azaltmaq üçün onun kodlaşdırılması. Məsələn, orijinal Google məqaləsi sözlərin çəki məlumatlarını saxlamaq üçün 2 baytdan (hər biri 8 bit) istifadə edildiyini təsvir edir - bu, sözün növünü (böyük hərflərlə), hərflərin öz ölçüsünü (Şrift ölçüsü) nəzərə alır. ) və digər məlumatlar. saytı sıralamağa kömək edir. Hər bir belə “parça” informasiya tam 2 baytlıq dəstdə 2-3 bit məlumat tələb edir. Nəticədə, böyük miqdarda məlumat çox yığcam formada saxlanıla bilər. Məlumat "sıxıldıqdan" sonra indeksləşdirməyə başlamağın vaxtı gəldi.

İndeksləşmənin bir məqsədi var: maksimum təmin etmək cəld axtarış lazımi məlumat. İndekslərin qurulmasının bir neçə yolu var, lakin ən təsirlisi qurmaqdır hash cədvəlləri(hash cədvəli). Hashing hər bir sözə ədədi dəyər təyin etmək üçün xüsusi düsturdan istifadə edir.

İstənilən dildə əlifbanın qalan hərflərindən daha çox sözün başladığı hərflər var. Məsələn, ingilis dilinin lüğət bölməsində “M” hərfi ilə başlayan sözlər “X” hərfi ilə başlayanlardan xeyli çoxdur. Bu o deməkdir ki, ən populyar hərflə başlayan sözün axtarışı digər sözlərdən daha uzun çəkəcək. Hashing(Hashing) bu fərqi bərabərləşdirir və orta axtarış vaxtını azaldır, həmçinin indeksin özünü real məlumatlardan ayırır. Hash cədvəli bu dəyərə uyğun olan məlumatlara işarə ilə birlikdə hash dəyərlərini ehtiva edir. Effektiv indeksləşdirmə + effektiv yerləşdirmə birlikdə yüksək axtarış sürətini təmin edir, hətta istifadəçi çox mürəkkəb axtarış sorğusu tələb etsə belə.

Axtarış motorlarının gələcəyi

Boolean operatorlarına ("və", "və ya", "deyil") əsaslanan axtarış hərfi axtarışdır - axtarış sistemi axtarış sözlərini daxil edildiyi kimi alır. Bu, məsələn, daxil edilmiş sözün birdən çox mənası olduqda problem yarada bilər. Məsələn, "açar" "qapını açmaq üçün vasitə" mənasını verə bilər və ya serverə daxil olmaq üçün "parol" mənasını verə bilər. Əgər bir sözün yalnız bir mənası ilə maraqlanırsınızsa, onun ikinci mənası haqqında məlumatlara ehtiyacınız olmayacaq. Siz, əlbəttə ki, sözün lazımsız mənasına əsaslanaraq məlumatların çıxışını istisna edəcək hərfi sorğu qura bilərsiniz, lakin axtarış sisteminin özü sizə kömək etsə yaxşı olardı.

Gələcək axtarış motoru alqoritmləri ilə bağlı tədqiqatların bir sahəsi konseptual məlumat axtarışıdır. Bunlar müvafiq məlumatları tapmaq üçün verilmiş axtarış açar sözü və ya ifadəsi olan səhifələrin statistik təhlilindən istifadə edən alqoritmlərdir. Aydındır ki, belə bir "konseptual axtarış sistemi" hər səhifə üçün daha çox yaddaş sahəsi və hər sorğunun işlənməsi üçün daha çox vaxt tələb edəcəkdir. Hazırda bir çox tədqiqatçılar bu problem üzərində işləyirlər.

Sorğular əsasında axtarış alqoritmlərinin işlənib hazırlanması sahəsində də az intensiv iş aparılmır. təbii dil(Təbii dil sorğusu).

Təbii sorğuların arxasında duran ideya ondan ibarətdir ki, sorğunuzu sanki qarşınızda oturan həmkarınızdan soruşurmuş kimi yaza bilərsiniz. Boolean operatorları və ya tərtib etmək üçün gərginlik barədə narahat olmağa ehtiyac yoxdur mürəkkəb sorğu. Bu gün ən məşhur təbii dil axtarış saytı AskJeeves.com-dur. O, sorğunu açar sözlərə çevirir, sonra saytları indeksləşdirərkən istifadə edir. Bu yanaşma yalnız sadə sorğular üçün işləyir. Bununla belə, tərəqqi hələ də dayanmır, ola bilsin ki, tezliklə axtarış sistemləri ilə öz “insan dilimizdə” “danışacağıq”.

Dostlar, sizi bir daha salamlayıram! İndi biz axtarış robotlarının nə olduğuna baxacağıq və Google axtarış robotu və onlarla necə dost olmaq barədə ətraflı danışacağıq.

Əvvəlcə axtarış robotlarının əslində nə olduğunu başa düşməlisiniz; onlara hörümçəklər də deyilir. Axtarış motoru hörümçəkləri hansı işləri görür?

Bunlar saytları yoxlayan proqramlardır. Onlar bloqunuzdakı bütün yazıları və səhifələri nəzərdən keçirir, məlumatları toplayır və sonra işlədikləri axtarış sisteminin məlumat bazasına ötürürlər.

Axtarış robotlarının bütün siyahısını bilmək lazım deyil, ən başlıcası, Google-da indi “panda” və “pinqvin” adlı iki əsas hörümçək olduğunu bilməkdir. Onlar aşağı keyfiyyətli məzmuna və lazımsız linklərə qarşı mübarizə aparır və siz onların hücumlarını necə dəf edəcəyinizi bilməlisiniz.

Google Panda axtarış robotu axtarışlarda yalnız yüksək keyfiyyətli materialı tanıtmaq üçün yaradılmışdır. Aşağı keyfiyyətli məzmunu olan bütün saytlar axtarış nəticələrində aşağı salınır.

Bu hörümçək ilk dəfə 2011-ci ildə peyda olub. Yaranmazdan əvvəl məqalələrdə böyük həcmdə mətn dərc etməklə və çoxlu açar sözlərdən istifadə etməklə istənilən veb saytı tanıtmaq mümkün idi. Bu iki üsul birlikdə keyfiyyətli olmayan məzmunu axtarış nəticələrinin üstünə çıxardı və yaxşı saytlar axtarış nəticələrində aşağı salındı.

“Panda” bütün saytları yoxlayaraq və hər kəsi öz layiqli yerinə qoyub dərhal hər şeyi qaydasına salır. Keyfiyyətsiz məzmunla mübarizə aparsa da, indi yüksək keyfiyyətli məqalələrlə kiçik saytları belə tanıtmaq mümkündür. Əvvəllər bu cür saytları tanıtmaq faydasız olsa da, məzmunu böyük olan nəhənglərlə rəqabət apara bilmirdilər.

İndi biz “panda” sanksiyalarından necə qaça biləcəyinizi anlayacağıq. Əvvəlcə onun nəyi sevmədiyini başa düşməlisiniz. Artıq yuxarıda yazdım ki, o, pis məzmunla mübarizə aparır, amma hansı mətn onun üçün pisdir, gəlin bunu anlayaq ki, onu saytımızda dərc etməyək.

Google axtarış robotu çalışır ki, bu axtarış motoru iş axtaranlar üçün yalnız yüksək keyfiyyətli materiallar təqdim etsin. Əgər az məlumat ehtiva edən və görünüşü cəlbedici olmayan məqalələriniz varsa, "panda" sizə çatmaması üçün təcili olaraq bu mətnləri yenidən yazın.

Yüksək keyfiyyətli məzmun həm böyük, həm də kiçik ola bilər, lakin hörümçək çoxlu məlumatı olan uzun məqalə görsə, o zaman oxucu üçün daha faydalı olar.

Sonra təkrarlama, başqa sözlə, plagiatlığı qeyd etmək lazımdır. Bloqunuzda başqalarının məqalələrini yenidən yazacağınızı düşünürsünüzsə, dərhal saytınıza son qoya bilərsiniz. Kopyalama bir filtr tətbiq etməklə ciddi şəkildə cəzalandırılır və Plagiat yoxlanılırçox asan, mövzu ilə bağlı məqalə yazdım mətnlərin unikallığını necə yoxlamaq olar.

Diqqət yetirməli olan növbəti şey mətnin açar sözlərlə həddindən artıq doymasıdır. Yalnız açar sözlərdən istifadə edərək məqalə yaza biləcəyini və axtarış nəticələrində birinci yeri tuta biləcəyini düşünən hər kəs çox yanılır. Səhifələrin uyğunluğunu yoxlamaq haqqında bir məqaləm var, oxuyun.

Sizə "panda" cəlb edə biləcək başqa bir şey, mənəvi cəhətdən köhnəlmiş və sayta trafik gətirməyən köhnə məqalələrdir. Onlar mütləq yenilənməlidir.

Google axtarış robotu “pinqvin” də var. Bu hörümçək saytınızdakı spam və lazımsız bağlantılarla mübarizə aparır. O, həmçinin digər mənbələrdən alınmış bağlantıları hesablayır. Buna görə də, bu axtarış robotundan qorxmamaq üçün linklər almamalı, yüksək keyfiyyətli məzmun dərc etməlisiniz ki, insanlar özləri sizinlə əlaqə saxlasınlar.

İndi saytın axtarış robotunun gözü ilə mükəmməl görünməsi üçün nə edilməli olduğunu formalaşdıraq:

Keyfiyyətli məzmun yaratmaq üçün məqaləni yazmadan əvvəl mövzunu yaxşı araşdırın. Onda başa düşmək lazımdır ki, insanlar həqiqətən bu mövzuya maraq göstərirlər.

istifadə edin konkret misallar və şəkillər, bu məqaləni canlı və maraqlı edəcək. Oxumağı asanlaşdırmaq üçün mətni kiçik abzaslara bölün.Məsələn, qəzetdə zarafatlar səhifəsini açsanız, ilk olaraq hansını oxuyacaqsınız? Təbii ki, hər bir insan əvvəlcə qısa mətnləri, sonra daha uzun mətnləri, nəhayət, uzun ayaq sarğılarını oxuyur.

"Pandanın" ən çox sevdiyi söz köhnəlmiş məlumatları ehtiva edən məqalənin aktuallığının olmamasıdır. Yeniləmələri izləyin və mətnləri dəyişdirin.

Açar söz sıxlığını izləyin; bu sıxlığı necə təyin edəcəyimi yuxarıda yazdım; təsvir etdiyim xidmətdə siz lazım olan açar sözlərin dəqiq sayını alacaqsınız.

Plagiat etməyin, hamı bilir ki, siz başqalarının əşyalarını və ya mətnlərini oğurlaya bilməzsiniz - bu eyni şeydir. Filtrdə yaxalanaraq oğurluğa görə cəzalandırılacaqsınız.

Ən azı iki min sözdən ibarət mətnlər yazın, onda belə bir məqalə axtarış motoru robotlarının gözü ilə informativ görünəcək.

Bloqunuzla mövzuda qalın. İnternetdə pul qazanmaq haqqında bir blog işlədirsinizsə, o zaman pnevmatik silahlar haqqında məqalələr dərc etməyə ehtiyac yoxdur. Bu, resursunuzun reytinqini aşağı sala bilər.

Məqalələrinizi gözəl dizayn edin, onları abzaslara bölün və şəkillər əlavə edin ki, oxumaqdan həzz alasınız və saytı tez tərk etmək istəməyəsiniz.

Bağlantılar alarkən, onları insanların həqiqətən oxuyacaqları ən maraqlı və faydalı məqalələrə çevirin.

Yaxşı, indi siz axtarış motoru robotlarının nə işlə məşğul olduğunu bilirsiniz və onlarla dost ola bilərsiniz. Ən əsası isə Google axtarış robotu və “panda” və “pinqvin” sizin tərəfinizdən ətraflı şəkildə öyrənilib.

Kateqoriyada məşhur: