මකුළු රොබෝවරු කරන්නේ මොන වගේ වැඩද? සෙවුම් යන්ත්‍ර යනු ඔවුන්ගේ රොබෝවරුන් සහ මකුළුවන් ය. සෙවුම් රොබෝවරු කවුද

සෙවුම් රොබෝ (bot, spider, spider, crawler)- මෙය විශේෂ වැඩසටහනඅන්තර්ජාලයේ අඩවි පරිලෝකනය කිරීමට නිර්මාණය කර ඇති සෙවුම් යන්ත්‍රය.

ස්කෑනිං බොට්ස් සරලව තොරතුරු රැස්කර ගබඩා කරන බව බොහෝ අය නොදනිති. ඔවුන් එය සකසන්නේ නැත. වෙනත් වැඩසටහන් මෙය සිදු කරයි.

ඔබට සෙවුම් රොබෝවරයෙකුගේ ඇසින් වෙබ් අඩවිය දෙස බැලීමට අවශ්‍ය නම්, ඔබට මෙය වෙබ්මාස්ටර් පැනලය හරහා කළ හැකිය.

වෙබ්මාස්ටර් පැනලය හරහා ගූගල් ක්‍රියා කරන ආකාරය ඔබට දැක ගත හැක. එහිදී ඔබට ඔබේ වෙබ් අඩවිය එක් කිරීමට අවශ්‍ය වන අතර පසුව ඔබට පිටුව දෙස බැලිය හැකිය:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru

පිටුවේ සුරකින ලද පිටපතක් හරහා ඔබට Yandex නැරඹිය හැකිය. මෙය සිදු කිරීම සඳහා, Yandex සෙවුමේ අපේක්ෂිත පිටුව සොයා ගන්න, "සුරකින ලද පිටපත" ක්ලික් කර "පෙළ අනුවාදය බලන්න" ක්ලික් කරන්න.

පහත දැක්වෙන්නේ අපගේ වෙබ් අඩවි වෙත පැමිණෙන සෙවුම් රොබෝවරුන්ගේ ලැයිස්තුවකි. ඒවායින් සමහරක් දර්ශක අඩවි, අනෙක් ඒවා නිරීක්ෂණය කරයි සන්දර්භීය වෙළඳ දැන්වීම්. ඇතැම් පටු කාර්යයන් ඉටු කරන විශේෂිත රොබෝවරු ඇත. උදාහරණයක් ලෙස, ඔවුන් පින්තූර හෝ පුවත් සුචිගත කරයි.

රොබෝව දර්ශනයෙන් දැන ගැනීමෙන්, ඔබට එය වෙබ් අඩවිය වටා බඩගා යාම තහනම් කිරීමට හෝ ඉඩ දීමට හැකි වන අතර එමඟින් සේවාදායකයේ බර අඩු වේ. හොඳයි, නැතහොත් ඔබේ තොරතුරු ජාලයට ඇතුල් වීමෙන් ආරක්ෂා කරන්න.

Yandex සෙවුම් රොබෝවරු

Yandex සෙවුම් යන්ත්‍රයේ අප දන්නා සෙවුම් රොබෝවරු දුසිම් හමාරක් ඇත. නිල උපකාර ඇතුළුව මම හාරා ගැනීමට සමත් වූ බොට් ලැයිස්තුව පහත දැක්වේ.

YandexBot යනු ප්රධාන සුචිගත කිරීමේ රොබෝ ය;
YandexMedia යනු බහුමාධ්‍ය දත්ත සුචිගත කරන රොබෝවෙකි;
YandexImages - Yandex.Images indexer;
YandexCatalog - Yandex.Catalog සඳහා "තට්ටු කිරීමේ" මෙවලමක්, නාමාවලියෙහි ප්‍රකාශනයෙන් ලබා ගත නොහැකි අඩවි තාවකාලිකව ඉවත් කිරීමට භාවිතා කරයි;
YaDirectFetcher - Yandex.Direct රොබෝ;
YandexBlogs යනු සටහන් සහ අදහස් සුචිගත කරන බ්ලොග් සෙවුම් රොබෝවකි;
YandexNews - Yandex.News රොබෝ;
YandexWebmaster - AddURL සංසදය හරහා අඩවියක් එකතු කරන විට පැමිණේ;
YandexPagechecker - ක්ෂුද්ර සලකුණු වලංගුකාරකය;
YandexFavicons - favicon දර්ශක
YandexMetrika - Yandex.Metrica රොබෝ;
YandexMarket - Yandex.Market රොබෝ;
YandexCalendar යනු Yandex.Calendar රොබෝවෙකි.

ගූගල් සෙවුම් රොබෝවරු (බොට්)

Googlebot යනු ප්‍රධාන සුචිගත කිරීමේ රොබෝ ය;
Googlebot Nes - පුවත් දර්ශක;
Googlebot පින්තූර - රූප සුචිය;
Googlebot වීඩියෝ - වීඩියෝ දත්ත සඳහා රොබෝ;
Google Mobile - ජංගම අන්තර්ගත දර්ශක;
ගූගල් ජංගම ඇඩ්සෙන්ස් - ජංගම ඇඩ්සෙන්ස් රොබෝ
ගූගල් ඇඩ්සෙන්ස්- ඇඩ්සෙන්ස් රොබෝ
Google AdsBot - ගොඩබෑමේ පිටු තත්ත්ව පරීක්ෂා කිරීමේ බොට්
Mediapartners-Google - AdSense රොබෝ

වෙනත් සෙවුම් යන්ත්‍රවල රොබෝවරු

එසේම, ඔබේ වෙබ් අඩවියේ ලඝු-සටහන් වලදී, ඔබට වෙනත් සෙවුම් යන්ත්‍රවල සමහර රොබෝවරුන් මත පැකිලීමට ඉඩ ඇත.

රැම්බ්ලර් - StackRambler
Mail.ru - Mail.Ru
යාහූ! — Slurp (හෝ Yahoo! Slurp)
AOL - Slurp
MSN - MSNBot
සජීවී - MSNBot
අසන්න - ටියෝමා
ඇලෙක්සා - ia_archiver
ලයිකොස් - ලයිකොස්
Aport - Aport
Webalta - WebAlta (WebAlta Crawler/2.0)

සෙවුම් යන්ත්‍ර බොට් වලට අමතරව, වෙබ් අඩවි වටා දිවෙන සියලු වර්ගවල වාමාංශික මකුළුවන්ගේ විශාල හමුදාවක් ඇත. මේවා සාමාන්‍යයෙන් ඔවුන්ගේ නිර්මාණකරුවන්ගේ ආත්මාර්ථකාමී අරමුණු සඳහා අඩවි වලින් තොරතුරු රැස් කරන විවිධ විග්‍රහ කරන්නන් වේ.

සමහරු අන්තර්ගතය සොරකම් කරති, තවත් සමහරු පින්තූර සොරකම් කරති, තවත් සමහරු වෙබ් අඩවි හැක් කරති, රහසිගතව සබැඳි තබති. එවැනි විග්‍රහකයක් ඔබේ වෙබ් අඩවියට සම්බන්ධ වී ඇති බව ඔබ දුටුවහොත්, එයට සියලු දෙනාගේ ප්‍රවේශය අවහිර කරන්න හැකි ක්රම, robots.txt ගොනුව හරහා ඇතුළුව.

ආයුබෝවන් මිත්‍රවරුනි! Yandex සහ Google සෙවුම් රොබෝවරු ක්‍රියා කරන ආකාරය සහ වෙබ් අඩවි ප්‍රවර්ධනයේදී ඔවුන් ඉටු කරන කාර්යය කුමක්ද යන්න අද ඔබ ඉගෙන ගනු ඇත. ඉතින් අපි යමු!

සෙවුම් යන්ත්‍ර මෙම ක්‍රියාව සිදු කරන්නේ පරිශීලකයාගේ ඉල්ලීමට උසස් තත්ත්වයේ සහ අදාළ පිළිතුරක් ඇති වෙබ් අඩවි මිලියනයකින් WEB ව්‍යාපෘති දහයක් සොයා ගැනීම සඳහා ය. ඇයි දහයක් විතරක්? මක්නිසාද යත් එය සමන්විත වන්නේ තනතුරු දහයකින් පමණි.

සෙවුම් රොබෝවරු වෙබ්මාස්ටර්වරුන්ට සහ පරිශීලකයින්ට මිතුරන් වේ

සෙවුම් රොබෝවරුන්ට වෙබ් අඩවියකට පිවිසීම වැදගත් වන්නේ මන්ද යන්න දැනටමත් පැහැදිලි වී ඇත, නමුත් පරිශීලකයාට මෙය අවශ්‍ය වන්නේ ඇයි? එය හරි, පරිශීලකයාට ඔහුගේ ඉල්ලීමට සම්පූර්ණයෙන් ප්‍රතිචාර දක්වන වෙබ් අඩවි පමණක් දැකීමට.

සෙවුම් රොබෝ- ඉතා නම්‍යශීලී මෙවලමක්, එයට වෙබ් අඩවියක් සොයා ගැනීමට හැකියාව ඇත, එය දැන් නිර්මාණය කර ඇති අතර, මෙම වෙබ් අඩවියේ හිමිකරු තවමත් එය මත වැඩ කර නොමැත. මෙම බොට් මකුළුවා ලෙස හැඳින්වූයේ එබැවිනි; එයට තම කකුල් දිගු කර අතථ්‍ය ජාලයේ ඕනෑම තැනකට යා හැකිය.

ඔබේ වාසියට සෙවුම් රොබෝව පාලනය කළ හැකිද?

සමහර පිටු සෙවුමට ඇතුළත් නොවන අවස්ථා තිබේ. මෙයට ප්‍රධාන වශයෙන් හේතු වී ඇත්තේ මෙම පිටුව තවමත් සෙවුම් රොබෝවක් විසින් සුචිගත කර නොමැති වීමයි. ඇත්ත වශයෙන්ම, ඉක්මනින් හෝ පසුව සෙවුම් රොබෝවක් මෙම පිටුව දකිනු ඇත. නමුත් එය කාලය ගත වේ, සමහර විට බොහෝ කාලයක් ගත වේ. නමුත් මෙහිදී ඔබට සෙවුම් රොබෝවරයාට මෙම පිටුවට වේගයෙන් පිවිසීමට උදවු කළ හැක.

මෙය සිදු කිරීම සඳහා, ඔබට ඔබේ වෙබ් අඩවිය විශේෂ නාමාවලි හෝ ලැයිස්තු, සමාජ ජාල තුළ තැබිය හැකිය. පොදුවේ, සෙවුම් රොබෝවරයා සරලව ජීවත් වන සියලුම වෙබ් අඩවි වල. උදාහරණයක් ලෙස, සමාජ ජාල සෑම තත්පරයකම යාවත්කාලීන වේ. ඔබේ වෙබ් අඩවිය ප්‍රචාරණය කිරීමට උත්සාහ කරන්න, එවිට සෙවුම් රොබෝවරයා ඔබේ වෙබ් අඩවියට වඩා වේගයෙන් පැමිණෙනු ඇත.

මෙයින් එක් ප්‍රධාන රීතියක් අනුගමනය කරයි. ඔබට සෙවුම් යන්ත්‍ර බොට් ඔබේ වෙබ් අඩවියට පැමිණීමට අවශ්‍ය නම්, ඔබ ඔවුන්ට නිතිපතා නව අන්තර්ගතයන් පෝෂණය කළ යුතුය. අන්තර්ගතය යාවත්කාලීන වන බව සහ වෙබ් අඩවිය සංවර්ධනය වෙමින් පවතින බව ඔවුන් දුටුවහොත්, ඔවුන් ඔබේ අන්තර්ජාල ව්‍යාපෘතියට නිතර නිතර පැමිණීමට පටන් ගනී.

සෑම සෙවුම් රොබෝවරයෙකුටම ඔබේ අන්තර්ගතය වෙනස් වන ආකාරය මතක තබා ගත හැක. ඔහු ගුණාත්මකභාවය පමණක් නොව, කාල පරතරයන් ඇගයීමට ලක් කරයි. තවද වෙබ් අඩවියේ ඇති ද්රව්ය මසකට වරක් යාවත්කාලීන කරන්නේ නම්, ඔහු මසකට වරක් වෙබ් අඩවියට පැමිණෙනු ඇත.

මේ අනුව, වෙබ් අඩවිය සතියකට වරක් යාවත්කාලීන කරන්නේ නම්, සෙවුම් රොබෝවරයා සතියකට වරක් පැමිණේ. ඔබ දිනපතා වෙබ් අඩවිය යාවත්කාලීන කරන්නේ නම්, සෙවුම් රොබෝවරයා සෑම දිනකම හෝ සෑම දිනකම වෙබ් අඩවියට පිවිසෙනු ඇත. යාවත්කාලීන කිරීමෙන් පසු මිනිත්තු කිහිපයක් ඇතුළත සුචිගත කරන ලද අඩවි තිබේ. මෙය සමාජ මාධ්ය, ප්‍රවෘත්ති එකතු කරන්නන් සහ දිනකට ලිපි කිහිපයක් පළ කරන අඩවි.

රොබෝට කාර්යයක් ලබා දී එය කිසිවක් කිරීම තහනම් කරන්නේ කෙසේද?

සෙවුම් යන්ත්‍රවල විවිධ කාර්යයන් ඉටු කරන බහු රොබෝවරු ඇති බව අපි මුලදී දැන ගත්තෙමු. සමහරු පින්තූර සොයති, සමහරු සබැඳි සඳහා යනාදිය.

ඔබට විශේෂ ගොනුවක් භාවිතයෙන් ඕනෑම රොබෝවක් පාලනය කළ හැකිය robots.txt . රොබෝවරයා වෙබ් අඩවිය සමඟ දැන හඳුනා ගැනීමට පටන් ගන්නේ මෙම ගොනුවෙන් ය. මෙම ගොනුව තුළ ඔබට රොබෝවරයාට වෙබ් අඩවිය සුචිගත කළ හැකිද, එසේ නම්, කුමන කොටස්ද යන්න සඳහන් කළ හැකිය. මෙම සියලු උපදෙස් රොබෝවරුන් එකක් හෝ සියල්ලම නිර්මාණය කළ හැකිය.

වෙබ් අඩවි ප්‍රවර්ධන පුහුණුව

ප්රඥාව පිළිබඳ වැඩි විස්තර SEO ප්‍රවර්ධනයසෙවුම් යන්ත්‍රවල අඩවි ගූගල් පද්ධතිසහ Yandex, මම Skype මත තනිවම කතා කරමි. මම මගේ සියලුම WEB ව්‍යාපෘති වැඩි තදබදයකට ගෙනැවිත් මෙයින් විශිෂ්ට ප්‍රතිඵල ලබා ගත්තෙමි. ඔබ කැමති නම් මට මෙය ඔබටත් කියා දිය හැකියි!

සෙවුම් රොබෝ යනු සෙවුම් යන්ත්‍රයක විශේෂ වැඩසටහනක් වන අතර එය දත්ත සමුදාය (දර්ශක) අඩවි සහ අන්තර්ජාලයේ ඇති ඒවායේ පිටු වලට ඇතුළු වීමට සැලසුම් කර ඇත. නම් ද භාවිතා වේ: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

මෙහෙයුම් මූලධර්මය

සෙවුම් රොබෝ යනු බ්‍රවුසර ආකාරයේ වැඩසටහනකි. එය නිරන්තරයෙන් ජාලය පරිලෝකනය කරයි: සුචිගත (දැනටමත් එය දන්නා) අඩවි වෙත ගොස්, ඔවුන්ගෙන් සබැඳි අනුගමනය කර නව සම්පත් සොයා ගනී. නව සම්පතක් සොයාගත් විට, ක්‍රියා පටිපාටිය රොබෝ එය සෙවුම් යන්ත්‍ර දර්ශකයට එක් කරයි. සෙවුම් රොබෝවරයා අඩවි වල යාවත්කාලීන කිරීම් ද සුචිගත කරයි, එහි සංඛ්‍යාතය ස්ථාවර වේ. උදාහරණයක් ලෙස, සතියකට වරක් යාවත්කාලීන කරන වෙබ් අඩවියක් මෙම සංඛ්‍යාතය සහිත මකුළුවෙකු විසින් නරඹනු ලබන අතර, ප්‍රවෘත්ති වෙබ් අඩවි වල අන්තර්ගතය ප්‍රකාශනයෙන් මිනිත්තු කිහිපයකින් සුචිගත කළ හැක. වෙනත් සම්පත් වලින් කිසිදු සබැඳියක් වෙබ් අඩවියට නොපැමිණෙන්නේ නම්, සෙවුම් රොබෝවරුන් ආකර්ෂණය කර ගැනීම සඳහා, සම්පත විශේෂ පෝරමයක් හරහා එකතු කළ යුතුය (Google Webmaster Center, Yandex Webmaster Panel, ආදිය).

සෙවුම් රොබෝ වර්ග

Yandex මකුළුවන්:

  • Yandex/1.01.001 I - සුචිගත කිරීමට සම්බන්ධ ප්‍රධාන බොට්,
  • Yandex/1.01.001 (P) - දර්ශක පින්තූර,
  • Yandex/1.01.001 (H) - දර්පණ අඩවි සොයා,
  • Yandex/1.03.003 (D) - වෙබ්මාස්ටර් පැනලයෙන් එකතු කරන ලද පිටුව සුචිගත කිරීමේ පරාමිතීන් සපුරාලන්නේද යන්න තීරණය කරයි,
  • YaDirectBot/1.0 (I) - සම්පත් සුචිගත කරයි වෙළඳ දැන්වීම් ජාලය Yandex,
  • Yandex/1.02.000 (F) - දර්ශක අඩවි ෆේවිකොන්.

Google Spiders:

  • Googlebot යනු ප්‍රධාන රොබෝ ය
  • Googlebot News - පුවත් පරිලෝකනය කර සුචිගත කරයි,
  • Google Mobile - ජංගම උපාංග සඳහා දර්ශක අඩවි,
  • Googlebot පින්තූර - සෙවුම් සහ සුචිගත පින්තූර,
  • Googlebot වීඩියෝ - සුචිගත වීඩියෝ,
  • Google AdsBot - ගොඩබෑමේ පිටුවේ ගුණාත්මකභාවය පරීක්ෂා කරයි,
  • Google Mobile AdSense සහ Google AdSense - Google වෙළඳ ප්‍රචාරණ ජාලයේ දර්ශක අඩවි.

අනෙකුත් සෙවුම් යන්ත්‍ර ද ලැයිස්තුගත කර ඇති ඒවාට ක්‍රියාකාරීව සමාන රොබෝ වර්ග කිහිපයක් භාවිතා කරයි.

සෙවුම් රොබෝ යනු සෙවුම් යන්ත්‍රයක විශේෂ වැඩසටහනක් වන අතර එය දත්ත සමුදාය (දර්ශක) අඩවි සහ අන්තර්ජාලයේ ඇති ඒවායේ පිටු වලට ඇතුළු වීමට සැලසුම් කර ඇත. නම් ද භාවිතා වේ: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

මෙහෙයුම් මූලධර්මය

සෙවුම් රොබෝ යනු බ්‍රවුසර ආකාරයේ වැඩසටහනකි. එය නිරන්තරයෙන් ජාලය පරිලෝකනය කරයි: සුචිගත (දැනටමත් එය දන්නා) අඩවි වෙත ගොස්, ඔවුන්ගෙන් සබැඳි අනුගමනය කර නව සම්පත් සොයා ගනී. නව සම්පතක් සොයාගත් විට, ක්‍රියා පටිපාටිය රොබෝ එය සෙවුම් යන්ත්‍ර දර්ශකයට එක් කරයි. සෙවුම් රොබෝවරයා අඩවි වල යාවත්කාලීන කිරීම් ද සුචිගත කරයි, එහි සංඛ්‍යාතය ස්ථාවර වේ. උදාහරණයක් ලෙස, සතියකට වරක් යාවත්කාලීන කරන වෙබ් අඩවියක් මෙම සංඛ්‍යාතය සහිත මකුළුවෙකු විසින් නරඹනු ලබන අතර, ප්‍රවෘත්ති වෙබ් අඩවි වල අන්තර්ගතය ප්‍රකාශනයෙන් මිනිත්තු කිහිපයකින් සුචිගත කළ හැක. වෙනත් සම්පත් වලින් කිසිදු සබැඳියක් වෙබ් අඩවියට නොපැමිණෙන්නේ නම්, සෙවුම් රොබෝවරුන් ආකර්ෂණය කර ගැනීම සඳහා, සම්පත විශේෂ පෝරමයක් හරහා එකතු කළ යුතුය (Google Webmaster Center, Yandex Webmaster Panel, ආදිය).

සෙවුම් රොබෝ වර්ග

Yandex මකුළුවන්:

  • Yandex/1.01.001 I - සුචිගත කිරීමට සම්බන්ධ ප්‍රධාන බොට්,
  • Yandex/1.01.001 (P) - දර්ශක පින්තූර,
  • Yandex/1.01.001 (H) - දර්පණ අඩවි සොයා,
  • Yandex/1.03.003 (D) - වෙබ්මාස්ටර් පැනලයෙන් එකතු කරන ලද පිටුව සුචිගත කිරීමේ පරාමිතීන් සපුරාලන්නේද යන්න තීරණය කරයි,
  • YaDirectBot/1.0 (I) - Yandex වෙළඳ ප්‍රචාරණ ජාලයෙන් සම්පත් සුචිගත කරයි,
  • Yandex/1.02.000 (F) - දර්ශක අඩවි ෆේවිකොන්.

Google Spiders:

  • Googlebot යනු ප්‍රධාන රොබෝ ය
  • Googlebot News - පුවත් පරිලෝකනය කර සුචිගත කරයි,
  • Google Mobile - ජංගම උපාංග සඳහා දර්ශක අඩවි,
  • Googlebot පින්තූර - සෙවුම් සහ සුචිගත පින්තූර,
  • Googlebot වීඩියෝ - සුචිගත වීඩියෝ,
  • Google AdsBot - ගොඩබෑමේ පිටුවේ ගුණාත්මකභාවය පරීක්ෂා කරයි,
  • Google Mobile AdSense සහ Google AdSense - Google වෙළඳ ප්‍රචාරණ ජාලයේ දර්ශක අඩවි.

අනෙකුත් සෙවුම් යන්ත්‍ර ද ලැයිස්තුගත කර ඇති ඒවාට ක්‍රියාකාරීව සමාන රොබෝ වර්ග කිහිපයක් භාවිතා කරයි.

ජනප්‍රිය විශ්වාසයට පටහැනිව, රොබෝවරයා ස්කෑන් කරන ලද ලේඛන සැකසීමට සෘජුවම සම්බන්ධ නොවේ. එය ඒවා කියවා සුරකිනු ඇත; පසුව ඒවා වෙනත් වැඩසටහන් මගින් සකසනු ලැබේ. පළමු වරට සුචිගත කරන වෙබ් අඩවියක ලඝු-සටහන් විශ්ලේෂණය කිරීමෙන් දෘශ්‍ය තහවුරු කිරීමක් ලබා ගත හැකිය. පළමු සංචාරයේදී, බොට් පළමුව robots.txt ගොනුව, පසුව වෙබ් අඩවියේ ප්‍රධාන පිටුව ඉල්ලා සිටී. එනම්, ඔහු ඔහු දන්නා එකම සබැඳිය අනුගමනය කරයි. බොට්ගේ පළමු සංචාරය සෑම විටම අවසන් වන්නේ මෙයයි. ටික වේලාවකට පසු (සාමාන්‍යයෙන් ඊළඟ දවසේ), බොට් පහත පිටු ඉල්ලයි - දැනටමත් කියවා ඇති පිටුවේ ඇති සබැඳි භාවිතා කරමින්. එවිට ක්‍රියාවලිය එකම අනුපිළිවෙලින් සිදු වේ: සබැඳි දැනටමත් සොයාගෙන ඇති පිටු ඉල්ලීම - කියවීමේ ලේඛන සැකසීම සඳහා විරාමයක් - සොයාගත් සබැඳි සඳහා ඉල්ලීමක් සමඟ ඊළඟ සැසිය.

පියාසර කරන විට පිටු විග්‍රහ කිරීම සැලකිය යුතු ලෙස වැඩි අදහස් වනු ඇත රොබෝවරයාගේ වැඩි සම්පත් පරිභෝජනය සහ කාලය අහිමි වීම. සෑම ස්කෑන් සේවාදායකයක්ම සමාන්තරව බහු බොට් ක්‍රියාවලි ක්‍රියාත්මක කරයි. නව පිටු කියවීමට සහ පවතින පිටු නැවත කියවීමට කාලය ලබා ගැනීම සඳහා ඔවුන් හැකි ඉක්මනින් ක්‍රියා කළ යුතුය. එබැවින්, බොට්ස් පමණක් කියවා ලේඛන සුරකින්න. ඔවුන් සුරකින ඕනෑම දෙයක් සැකසීම සඳහා පෝලිම් වේ (කේත විග්‍රහ කිරීම). පිටු සැකසීමේදී සොයාගත් සබැඳි බොට්ස් සඳහා කාර්ය පෝලිමක තබා ඇත. මුළු ජාලයම අඛණ්ඩව ස්කෑන් කරන්නේ එලෙසයි. bot ට පියාසර කිරීමේදී විශ්ලේෂණය කළ හැකි සහ කළ යුතු එකම දෙය robots.txt ගොනුව වේ, එබැවින් එහි තහනම් කර ඇති ලිපින ඉල්ලීම් නොකිරීමට. එක් එක් අඩවි බඩගා යාමේ සැසිය අතරතුර, රොබෝවරයා මුලින්ම මෙම ගොනුව ඉල්ලා සිටින අතර, ඉන් පසුව, සියලුම පිටු බඩගා යාම සඳහා පෝලිම් වේ.

සෙවුම් රොබෝ වර්ග

සෑම සෙවුම් යන්ත්‍රයකම විවිධ අරමුණු සඳහා තමන්ගේම රොබෝවරු කට්ටලයක් ඇත.
මූලික වශයෙන්, ඒවා ඔවුන්ගේ ක්‍රියාකාරී අරමුණෙන් වෙනස් වේ, මායිම් ඉතා අත්තනෝමතික වුවද, සෑම සෙවුම් යන්ත්‍රයක්ම ඒවා තමන්ගේම ආකාරයෙන් තේරුම් ගනී. සම්පූර්ණ පෙළ සෙවීම සඳහා පමණක් පද්ධති සඳහා, සියලු අවස්ථාවන් සඳහා එක් රොබෝවක් ප්රමාණවත් වේ. පෙළ පමණක් නොව නියැලී සිටින සෙවුම් යන්ත්‍ර සඳහා, බොට් අවම වශයෙන් කාණ්ඩ දෙකකට බෙදා ඇත: පෙළ සහ චිත්‍ර සඳහා. ජංගම, බ්ලොග්, පුවත්, වීඩියෝ, ආදිය - විශේෂිත අන්තර්ගත වර්ග සඳහා කැප වූ වෙනම bots ද ඇත.

Google Robots

සියලුම Google රොබෝවරු සාමූහිකව Googlebot ලෙස හැඳින්වේ. ප්‍රධාන රොබෝ දර්ශක “තමන්ම හඳුන්වා දෙයි”:

Mozilla/5.0 (අනුකූල; Googlebot/2.1; +http://www.google.com/bot.html)

මෙම බොට් ප්‍රධාන සඳහා HTML පිටු සහ අනෙකුත් ලේඛන පරිලෝකනය කිරීමේ කාර්යබහුලයි ගූගල් සෙවුම. එය ඉඳහිට CSS සහ JS ගොනු ද කියවයි - මෙය ප්‍රධාන වශයෙන් අඩවි සුචිගත කිරීමේ මුල් අවධියේදී දැකිය හැකි අතර, බොට් පළමු වරට වෙබ් අඩවිය බඩගාමින් සිටී. පිළිගත් අන්තර්ගත වර්ග සියල්ල (පිළිගන්න: */*).

ප්‍රධාන බොට් වලින් දෙවැන්න වෙබ් අඩවියෙන් පින්තූර පරිලෝකනය කිරීමේ කාර්යබහුලයි. එය සරලව "තමන් හඳුන්වා දෙයි":

Googlebot-Image/1.0

ලොග වල අවම වශයෙන් බොට් තුනක්වත් දැකගත හැකි විය ජංගම පිටපතසෙවීම. තුනේම පරිශීලක නියෝජිත ක්ෂේත්‍රය රේඛාවෙන් අවසන් වේ:

(අනුකූල; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

මෙම රේඛාවට පෙර ආකෘතිය වේ ජංගම දුරකථන, මෙම බොට් සමඟ අනුකූල වේ. පැල්ලම් සහිත බොට් වල ආකෘති ඇත Nokia දුරකථන, Samsung සහ iPhone. පිළිගත් අන්තර්ගත වර්ග සියල්ලම, නමුත් ප්‍රමුඛතා දක්වා ඇත:

පිළිගන්න: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Yandex රොබෝවරු

RuNet හි සක්‍රීය සෙවුම් යන්ත්‍ර අතුරින්, Yandex සතුව විශාලතම බොට් එකතුව ඇත. වෙබ්මාස්ටර් උපකාරක කොටසේ ඔබට සියලුම මකුළුවන් පිළිබඳ නිල ලැයිස්තුවක් සොයාගත හැකිය. මෙම ලැයිස්තුවේ වරින් වර වෙනස්කම් සිදු වන බැවින් එය සම්පූර්ණයෙන් මෙහි ඉදිරිපත් කිරීමෙන් පලක් නැත.
කෙසේ වෙතත්, අපට වඩාත්ම වැදගත් Yandex රොබෝවරු වෙන වෙනම සඳහන් කළ යුතුය.
මූලික සුචිගත කිරීමේ රොබෝදැනට හැඳින්වේ

Mozilla/5.0 (අනුකූල; YandexBot/3.0; +http://yandex.com/bots)

ලෙස පෙර නිරූපනය විය

Yandex/1.01.001 (අනුකූල; Win16; I)

කියවනවා HTML පිටුසුචිගත කිරීම සඳහා වෙබ් අඩවිය සහ අනෙකුත් ලේඛන. පිළිගත් මාධ්‍ය වර්ග ලැයිස්තුව කලින් සීමා විය:

පිළිගන්න: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

2009 ජූලි 31 සිට, මෙම ලැයිස්තුවේ සැලකිය යුතු ප්‍රසාරණයක් දක්නට ලැබේ (වර්ග ගණන දෙගුණයකට ආසන්න වී ඇත), සහ 2009 නොවැම්බර් 10 සිට, ලැයිස්තුව */* (සියලු වර්ග) ලෙස කෙටි කර ඇත.
මෙම රොබෝවරයා ඉතා විශේෂිත භාෂා කට්ටලයක් කෙරෙහි දැඩි උනන්දුවක් දක්වයි: රුසියානු, ටිකක් අඩු යුක්රේනියානු සහ බෙලාරුසියානු, ටිකක් අඩු ඉංග්රීසි, සහ ඉතා කුඩා - අනෙකුත් සියලුම භාෂා.

පිළිගන්න-භාෂාව: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

රොබෝ රූප ස්කෑනරයපරිශීලක නියෝජිත ක්ෂේත්‍රයේ පහත පේළිය දරයි:

Mozilla/5.0 (අනුකූල; YandexImages/3.0; +http://yandex.com/bots)

පින්තූර සෙවීම සඳහා විවිධ ආකෘතිවල ග්‍රැෆික්ස් ස්කෑන් කිරීමේ නිරත වේ.

ගූගල් මෙන් නොව, Yandex සතුව සමහරක් සේවය කිරීමට වෙනම bots ඇත විශේෂ කාර්යයන්සාමාන්ය සෙවුම්.
රොබෝ "කැඩපත"

Mozilla/5.0 (අනුකූල; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

එය විශේෂයෙන් සංකීර්ණ කිසිවක් නොකරයි - එය වරින් වර දිස්වන අතර www සමඟ වසම වෙත ප්‍රවේශ වන විට වෙබ් අඩවියේ ප්‍රධාන පිටුව ගැලපේදැයි පරීක්ෂා කරයි. සහ තොරව. තරඟ සඳහා සමාන්තර "කැඩපත්" වසම් ද පරීක්ෂා කරයි. පෙනෙන විදිහට, දර්පණ සහ Yandex හි වසම්වල කැනොනිකල් ස්වරූපය වෙන වෙනම හසුරුවනු ලැබේ මෘදුකාංග පැකේජය, සුචිගත කිරීමට සෘජුව සම්බන්ධ නොවේ. එසේ නොමැති නම්, මෙම කාර්යය සඳහා වෙනම bot එකක් තිබීම පැහැදිලි කිරීමට කිසිවක් නැත.

අයිකන එකතු කරන්නා favicon.ico

Mozilla/5.0 (අනුකූල; YandexFavicons/1.0; +http://yandex.com/bots)

එය වරින් වර දිස්වන අතර favicon.ico නිරූපකය ඉල්ලා සිටින අතර, එය වෙබ් අඩවියට සබැඳිය අසල ඇති සෙවුම් ප්‍රතිඵලවල දිස් වේ. පින්තූර එකතු කරන්නා මෙම වගකීම බෙදා නොගන්නේ කුමන හේතු නිසාද යන්න නොදනී. පෙනෙන විදිහට වෙනම මෘදුකාංග පැකේජයක් ද සෙල්ලම් කරයි.

සත්‍යාපන බොට්නව අඩවි සඳහා, AddURL පෝරමයට එක් කළ විට ක්‍රියා කරයි

Mozilla/5.0 (අනුකූල; YandexWebmaster/2.0; +http://yandex.com/bots)

මෙම බොට් මූල URL වෙත HEAD ඉල්ලීමක් යැවීමෙන් අඩවියේ ප්‍රතිචාරය පරීක්ෂා කරයි. මේ ආකාරයෙන් අපි පැවැත්ම පරීක්ෂා කරමු මුල් පිටුවවසම තුළ සහ මෙම පිටුවේ HTTP ශීර්ෂ විශ්ලේෂණය කෙරේ. බොට් අඩවියේ මූලයේ ඇති robots.txt ගොනුව ද ඉල්ලා සිටී. මේ අනුව, AddURL වෙත සබැඳිය ඉදිරිපත් කිරීමෙන් පසුව, වෙබ් අඩවිය පවතින බව තීරණය කරනු ලබන අතර robots.txt හෝ HTTP ශීර්ෂයන් ප්‍රධාන පිටුවට ප්‍රවේශ වීම තහනම් නොවේ.

රැම්බ්ලර් රොබෝ

දැනට තවදුරටත් වැඩ නොකරයි, Rambler දැන් Yandex සෙවුම භාවිතා කරන බැවින්
පරිශීලක-නියෝජිත ක්ෂේත්‍රය මඟින් ලොග් තුළ රැම්බ්ලර් දර්ශක රොබෝව පහසුවෙන් හඳුනාගත හැකිය

StackRambler/2.0 (MSIE නොගැලපේ)

අනෙකුත් සෙවුම් යන්ත්‍ර වලින් එහි “සගයන්” හා සසඳන විට, මෙම බොට් තරමක් සරල බව පෙනේ: එය මාධ්‍ය වර්ග ලැයිස්තුවක් දක්වන්නේ නැත (ඒ අනුව, එයට ඕනෑම වර්ගයක ඉල්ලූ ලේඛනයක් ලැබේ), ඉල්ලීමෙහි පිළිගන්න-භාෂා ක්ෂේත්‍රය අතුරුදහන් වේ, සහ If-Modified-nce ක්ෂේත්‍රය බොට්ගේ ඉල්ලීම්වල දක්නට නොලැබේ.

රොබෝ Mail.Ru

මෙම රොබෝවරයා ගැන තවමත් දන්නේ අල්ප වශයෙනි. Mail.Ru ද්වාරය දිගු කලක් තිස්සේ තමන්ගේම සෙවීමක් සංවර්ධනය කර ඇත, නමුත් එය තවමත් මෙම සෙවුම දියත් කිරීමට පැමිණ නැත. එබැවින්, පරිශීලක නියෝජිතයා තුළ ඇති බොට්ගේ නම පමණක් නිශ්චිතව දැනගත හැකිය - Mail.Ru/2.0 (පෙර - Mail.Ru/1.0). robors.txt ගොනුවේ විධාන සඳහා බොට් නම කොතැනකවත් ප්‍රකාශයට පත් කර නොමැත; bot Mail.Ru ලෙස හැඳින්විය යුතු බවට උපකල්පනයක් ඇත.

වෙනත් රොබෝවරු

අන්තර්ජාල සෙවුම, ඇත්ත වශයෙන්ම, සෙවුම් යන්ත්ර දෙකකට සීමා නොවේ. එමනිසා, වෙනත් රොබෝවරු ඇත - උදාහරණයක් ලෙස, Bing රොබෝ - මයික්රොසොෆ්ට් සහ අනෙකුත් රොබෝවරුන්ගෙන් සෙවුම් යන්ත්රය. එබැවින්, විශේෂයෙන්, චීනයේ ජාතික සෙවුම් යන්ත්‍රයක් Baidu ඇත - නමුත් එහි රොබෝවරයා ගඟ මැදට ගොස් රුසියානු වෙබ් අඩවියට ළඟා වීමට අපහසුය.

මීට අමතරව, බොහෝ සේවාවන් මෑතකදී ව්‍යාප්ත වී ඇත - විශේෂයෙන් සොලමොනෝ - ඒවා සෙවුම් යන්ත්‍ර නොවුවද, අඩවි පරිලෝකනය කරයි. බොහෝ විට එවැනි පද්ධති වෙත අඩවි තොරතුරු සම්ප්රේෂණය කිරීමේ වටිනාකම සැක සහිත වන අතර, එබැවින් ඔවුන්ගේ රොබෝවරුන් තහනම් කළ හැකිය


ඉහල