ගෙදර › ගැටලු › සෙවුම් යන්ත්‍ර මකුළුවන් කරන කාර්යය කුමක්ද? සෙවුම් රොබෝ යනු කුමක්ද? සෙවුම් රොබෝ "Yandex" සහ Google හි කාර්යයන්. සෙවුම් රොබෝවක් කරන්නේ කුමක්ද?

සෙවුම් යන්ත්‍ර මකුළුවන් කරන කාර්යය කුමක්ද? සෙවුම් රොබෝ යනු කුමක්ද? සෙවුම් රොබෝ "Yandex" සහ Google හි කාර්යයන්. සෙවුම් රොබෝවක් කරන්නේ කුමක්ද?

ජනප්‍රිය විශ්වාසයට පටහැනිව, රොබෝවරයා ස්කෑන් කරන ලද ලේඛන සැකසීමට සෘජුවම සම්බන්ධ නොවේ. එය ඒවා කියවා සුරකිනු ඇත; පසුව ඒවා වෙනත් වැඩසටහන් මගින් සකසනු ලැබේ. පළමු වරට සුචිගත කරන වෙබ් අඩවියක ලඝු-සටහන් විශ්ලේෂණය කිරීමෙන් දෘශ්‍ය තහවුරු කිරීමක් ලබා ගත හැකිය. පළමු සංචාරයේදී, බොට් පළමුව robots.txt ගොනුව, පසුව වෙබ් අඩවියේ ප්‍රධාන පිටුව ඉල්ලා සිටී. එනම්, ඔහු ඔහු දන්නා එකම සබැඳිය අනුගමනය කරයි. බොට්ගේ පළමු සංචාරය සෑම විටම අවසන් වන්නේ මෙයයි. ටික වේලාවකට පසු (සාමාන්‍යයෙන් ඊළඟ දවසේ), බොට් පහත පිටු ඉල්ලයි - දැනටමත් කියවා ඇති පිටුවේ ඇති සබැඳි භාවිතා කරමින්. එවිට ක්‍රියාවලිය එකම අනුපිළිවෙලින් සිදු වේ: සබැඳි දැනටමත් සොයාගෙන ඇති පිටු ඉල්ලීම - කියවීමේ ලේඛන සැකසීම සඳහා විරාමයක් - සොයාගත් සබැඳි සඳහා ඉල්ලීමක් සමඟ ඊළඟ සැසිය.

පියාසර කරන විට පිටු විග්‍රහ කිරීම සැලකිය යුතු ලෙස වැඩි අදහස් වනු ඇත ඕරොබෝවරයාගේ වැඩි සම්පත් පරිභෝජනය සහ කාලය අහිමි වීම. සෑම ස්කෑන් සේවාදායකයක්ම සමාන්තරව බහු බොට් ක්‍රියාවලි ක්‍රියාත්මක කරයි. නව පිටු කියවීමට සහ පවතින පිටු නැවත කියවීමට කාලය ලබා ගැනීම සඳහා ඔවුන් හැකි ඉක්මනින් ක්‍රියා කළ යුතුය. එබැවින්, බොට්ස් පමණක් කියවා ලේඛන සුරකින්න. ඔවුන් සුරකින ඕනෑම දෙයක් සැකසීම සඳහා පෝලිම් වේ (කේත විග්‍රහ කිරීම). පිටු සැකසීමේදී සොයාගත් සබැඳි බොට්ස් සඳහා කාර්ය පෝලිමක තබා ඇත. මුළු ජාලයම අඛණ්ඩව ස්කෑන් කරන්නේ එලෙසයි. bot ට පියාසර කිරීමේදී විශ්ලේෂණය කළ හැකි සහ කළ යුතු එකම දෙය robots.txt ගොනුව වේ, එබැවින් එහි තහනම් කර ඇති ලිපින ඉල්ලීම් නොකිරීමට. එක් එක් අඩවි බඩගා යාමේ සැසිය අතරතුර, රොබෝවරයා මුලින්ම මෙම ගොනුව ඉල්ලා සිටින අතර, ඉන් පසුව, සියලුම පිටු බඩගා යාම සඳහා පෝලිම් වේ.

සෙවුම් රොබෝ වර්ග

සෑම සෙවුම් යන්ත්‍රයකම විවිධ අරමුණු සඳහා තමන්ගේම රොබෝවරු කට්ටලයක් ඇත.
මූලික වශයෙන්, මායිම් ඉතා අත්තනෝමතික වුවද, එක් එක් සෙවුම් යන්ත්‍රය තමන්ගේම ආකාරයෙන් ඒවා තේරුම් ගනී. සම්පූර්ණ පෙළ සෙවීම සඳහා පමණක් පද්ධති සඳහා, සියලු අවස්ථාවන් සඳහා එක් රොබෝවක් ප්රමාණවත් වේ. පෙළ පමණක් නොව නියැලී සිටින සෙවුම් යන්ත්‍ර සඳහා, බොට් අවම වශයෙන් කාණ්ඩ දෙකකට බෙදා ඇත: පෙළ සහ චිත්‍ර සඳහා. ජංගම, බ්ලොග්, පුවත්, වීඩියෝ, ආදිය - විශේෂිත අන්තර්ගත වර්ග සඳහා කැප වූ වෙනම bots ද ඇත.

Google Robots

සියලුම Google රොබෝවරු සාමූහිකව Googlebot ලෙස හැඳින්වේ. ප්‍රධාන රොබෝ දර්ශක “තමන්ම හඳුන්වා දෙයි”:

Mozilla/5.0 (අනුකූල; Googlebot/2.1; +http://www.google.com/bot.html)

මෙම බොට් ප්‍රධාන සඳහා HTML පිටු සහ අනෙකුත් ලේඛන පරිලෝකනය කිරීමේ කාර්යබහුලයි ගූගල් සෙවුම. එය ඉඳහිට CSS සහ JS ගොනු ද කියවයි - මෙය ප්‍රධාන වශයෙන් අඩවි සුචිගත කිරීමේ මුල් අවධියේදී දැකිය හැකි අතර, බොට් පළමු වරට වෙබ් අඩවිය බඩගාමින් සිටී. පිළිගත් අන්තර්ගත වර්ග සියල්ල (පිළිගන්න: */*).

ප්‍රධාන බොට් වලින් දෙවැන්න වෙබ් අඩවියෙන් පින්තූර පරිලෝකනය කිරීමේ කාර්යබහුලයි. එය සරලව "තමන් හඳුන්වා දෙයි":

Googlebot-Image/1.0

ලොග වල අවම වශයෙන් බොට් තුනක්වත් දැකගත හැකි විය ජංගම පිටපතසෙවීම. තුනේම පරිශීලක නියෝජිත ක්ෂේත්‍රය රේඛාවෙන් අවසන් වේ:

(අනුකූල; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

මෙම රේඛාවට පෙර ආකෘතිය වේ ජංගම දුරකථන, මෙම බොට් සමඟ අනුකූල වේ. පැල්ලම් සහිත බොට් වල ආකෘති ඇත Nokia දුරකථන, Samsung සහ iPhone. පිළිගත් අන්තර්ගත වර්ග සියල්ලම, නමුත් ප්‍රමුඛතා දක්වා ඇත:

පිළිගන්න: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Yandex රොබෝවරු

RuNet හි සක්‍රීය සෙවුම් යන්ත්‍ර අතුරින්, Yandex සතුව විශාලතම බොට් එකතුව ඇත. වෙබ්මාස්ටර් උපකාරක කොටසේ ඔබට සියලුම මකුළුවන් පිළිබඳ නිල ලැයිස්තුවක් සොයාගත හැකිය. මෙම ලැයිස්තුවේ වරින් වර වෙනස්කම් සිදු වන බැවින් එය සම්පූර්ණයෙන් මෙහි ඉදිරිපත් කිරීමෙන් පලක් නැත.
කෙසේ වෙතත්, අපට වඩාත්ම වැදගත් Yandex රොබෝවරු වෙන වෙනම සඳහන් කළ යුතුය.
මූලික සුචිගත කිරීමේ රොබෝදැනට හැඳින්වේ

Mozilla/5.0 (අනුකූල; YandexBot/3.0; +http://yandex.com/bots)

ලෙස පෙර නිරූපනය විය

Yandex/1.01.001 (අනුකූල; Win16; I)

සුචිගත කිරීම සඳහා වෙබ් අඩවියේ HTML පිටු සහ අනෙකුත් ලේඛන කියවයි. පිළිගත් මාධ්‍ය වර්ග ලැයිස්තුව කලින් සීමා විය:

පිළිගන්න: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

2009 ජූලි 31 සිට, මෙම ලැයිස්තුවේ සැලකිය යුතු ප්‍රසාරණයක් දක්නට ලැබේ (වර්ග ගණන දෙගුණයකට ආසන්න වී ඇත), සහ 2009 නොවැම්බර් 10 සිට, ලැයිස්තුව */* (සියලු වර්ග) ලෙස කෙටි කර ඇත.
මෙම රොබෝවරයා ඉතා විශේෂිත භාෂා කට්ටලයක් කෙරෙහි දැඩි උනන්දුවක් දක්වයි: රුසියානු, ටිකක් අඩු යුක්රේනියානු සහ බෙලාරුසියානු, ටිකක් අඩු ඉංග්රීසි, සහ ඉතා කුඩා - අනෙකුත් සියලුම භාෂා.

පිළිගන්න-භාෂාව: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

රොබෝ රූප ස්කෑනරයපරිශීලක නියෝජිත ක්ෂේත්‍රයේ පහත පේළිය දරයි:

Mozilla/5.0 (අනුකූල; YandexImages/3.0; +http://yandex.com/bots)

පින්තූර සෙවීම සඳහා විවිධ ආකෘතිවල ග්‍රැෆික්ස් ස්කෑන් කිරීමේ නිරත වේ.

ගූගල් මෙන් නොව, Yandex සතුව සමහරක් සේවය කිරීමට වෙනම bots ඇත විශේෂ කාර්යයන්සාමාන්ය සෙවුම්.
රොබෝ "කැඩපත"

Mozilla/5.0 (අනුකූල; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

එය විශේෂයෙන් සංකීර්ණ කිසිවක් නොකරයි - එය වරින් වර දිස්වන අතර www සමඟ වසම වෙත ප්‍රවේශ වන විට වෙබ් අඩවියේ ප්‍රධාන පිටුව ගැලපේදැයි පරීක්ෂා කරයි. සහ තොරව. තරඟ සඳහා සමාන්තර "කැඩපත්" වසම් ද පරීක්ෂා කරයි. පෙනෙන විදිහට, දර්පණ සහ Yandex හි වසම්වල කැනොනිකල් ස්වරූපය වෙන වෙනම හසුරුවනු ලැබේ මෘදුකාංග පැකේජය, සුචිගත කිරීමට සෘජුව සම්බන්ධ නොවේ. එසේ නොමැති නම්, මෙම කාර්යය සඳහා වෙනම bot එකක් තිබීම පැහැදිලි කිරීමට කිසිවක් නැත.

අයිකන එකතු කරන්නා favicon.ico

Mozilla/5.0 (අනුකූල; YandexFavicons/1.0; +http://yandex.com/bots)

එය වරින් වර දිස්වන අතර favicon.ico නිරූපකය ඉල්ලා සිටින අතර, එය වෙබ් අඩවියට සබැඳිය අසල ඇති සෙවුම් ප්‍රතිඵලවල දිස් වේ. පින්තූර එකතු කරන්නා මෙම වගකීම බෙදා නොගන්නේ කුමන හේතු නිසාද යන්න නොදනී. පෙනෙන විදිහට වෙනම මෘදුකාංග පැකේජයක් ද සෙල්ලම් කරයි.

සත්‍යාපන බොට්නව අඩවි සඳහා, AddURL පෝරමයට එක් කළ විට ක්‍රියා කරයි

Mozilla/5.0 (අනුකූල; YandexWebmaster/2.0; +http://yandex.com/bots)

මෙම බොට් මූල URL වෙත HEAD ඉල්ලීමක් යැවීමෙන් අඩවියේ ප්‍රතිචාරය පරීක්ෂා කරයි. මේ ආකාරයට, වසමේ ප්‍රධාන පිටුවේ පැවැත්ම පරීක්ෂා කර මෙම පිටුවේ HTTP ශීර්ෂ විශ්ලේෂණය කෙරේ. බොට් අඩවියේ මූලයේ ඇති robots.txt ගොනුව ද ඉල්ලා සිටී. මේ අනුව, AddURL වෙත සබැඳිය ඉදිරිපත් කිරීමෙන් පසුව, වෙබ් අඩවිය පවතින බව තීරණය කරනු ලබන අතර robots.txt හෝ HTTP ශීර්ෂයන් ප්‍රධාන පිටුවට ප්‍රවේශ වීම තහනම් නොවේ.

රැම්බ්ලර් රොබෝ

දැනට තවදුරටත් වැඩ නොකරයි, Rambler දැන් Yandex සෙවුම භාවිතා කරන බැවින්
පරිශීලක-නියෝජිත ක්ෂේත්‍රය මඟින් ලොග් තුළ රැම්බ්ලර් දර්ශක රොබෝව පහසුවෙන් හඳුනාගත හැකිය

StackRambler/2.0 (MSIE නොගැලපේ)

අනෙක් අයගෙන් "සගයන්" හා සසඳන විට සෙවුම් යන්ත්රමෙම බොට් ඉතා සරල බව පෙනේ: එය මාධ්‍ය වර්ග ලැයිස්තුවක් සඳහන් නොකරයි (ඒ අනුව, එයට ඕනෑම වර්ගයක ඉල්ලුම් කළ ලේඛනය ලැබේ), ඉල්ලීමෙහි පිළිගන්න-භාෂා ක්ෂේත්‍රය අස්ථානගත වී ඇත, සහ If-Modified-fence යන ක්ෂේත්‍රය සොයාගත නොහැකි විය බොට්ගේ ඉල්ලීම් වල.

රොබෝ Mail.Ru

මෙම රොබෝවරයා ගැන තවමත් දන්නේ අල්ප වශයෙනි. Mail.Ru ද්වාරය දිගු කලක් තිස්සේ තමන්ගේම සෙවීමක් සංවර්ධනය කර ඇත, නමුත් එය තවමත් මෙම සෙවුම දියත් කිරීමට පැමිණ නැත. එබැවින්, පරිශීලක නියෝජිතයා තුළ ඇති බොට්ගේ නම පමණක් නිශ්චිතව දැනගත හැකිය - Mail.Ru/2.0 (පෙර - Mail.Ru/1.0). robors.txt ගොනුවේ විධාන සඳහා බොට් නම කොතැනකවත් ප්‍රකාශයට පත් කර නොමැත; bot Mail.Ru ලෙස හැඳින්විය යුතු බවට උපකල්පනයක් ඇත.

වෙනත් රොබෝවරු

අන්තර්ජාල සෙවුම, ඇත්ත වශයෙන්ම, සෙවුම් යන්ත්ර දෙකකට සීමා නොවේ. එමනිසා, වෙනත් රොබෝවරු ඇත - උදාහරණයක් ලෙස, Bing රොබෝ - මයික්රොසොෆ්ට් සහ අනෙකුත් රොබෝවරුන්ගෙන් සෙවුම් යන්ත්රය. එබැවින්, විශේෂයෙන්, චීනයේ ජාතික සෙවුම් යන්ත්‍රයක් Baidu ඇත - නමුත් එහි රොබෝවරයා ගඟ මැදට ගොස් රුසියානු වෙබ් අඩවියට ළඟා වීමට අපහසුය.

මීට අමතරව, බොහෝ සේවාවන් මෑතකදී ව්‍යාප්ත වී ඇත - විශේෂයෙන් සොලමොනෝ - ඒවා සෙවුම් යන්ත්‍ර නොවුවද, අඩවි පරිලෝකනය කරයි. බොහෝ විට එවැනි පද්ධති වෙත අඩවි තොරතුරු සම්ප්රේෂණය කිරීමේ වටිනාකම සැක සහිත වන අතර, එබැවින් ඔවුන්ගේ රොබෝවරුන් තහනම් කළ හැකිය

සෙවුම් යන්ත්‍ර රොබෝවරු ක්‍රියා කරන ආකාරය

සෙවුම් රොබෝ (spider, bot) යනු ක්‍රියාකරුගේ මැදිහත් වීමකින් තොරව වෙබ් අඩවි මිලියන ගණනකට ගොස් ගිගාබයිට් පෙළ පරිලෝකනය කළ හැකි කුඩා වැඩසටහනකි. පිටු කියවීම සහ ඒවායේ පෙළ පිටපත් ගබඩා කිරීම නව ලේඛන සුචිගත කිරීමේ පළමු අදියරයි. සෙවුම් යන්ත්‍ර රොබෝවරු ලැබුණු දත්තවල කිසිදු සැකසුම් සිදු නොකරන බව සැලකිල්ලට ගත යුතුය. ඔවුන්ගේ කාර්යය වන්නේ සංරක්ෂණය කිරීම පමණි පෙළ තොරතුරු.

අපගේ නාලිකාවේ තවත් වීඩියෝ - SEMANTICA සමඟ අන්තර්ජාල අලෙවිකරණය ඉගෙන ගන්න

සෙවුම් රොබෝ ලැයිස්තුව

Runet පරිලෝකනය කරන සියලුම සෙවුම් යන්ත්‍ර අතුරින්, Yandex සතුව විශාලතම බොට් එකතුව ඇත. සුචිගත කිරීම සඳහා පහත බොට් වගකිව යුතුය:

වෙබ් අඩවි පිටු වලින් දත්ත රැස් කරන ප්‍රධාන සුචිගත කිරීමේ රොබෝවරයා;
දර්පණ හඳුනා ගත හැකි බොට්;
පින්තූර සුචිගත කරන Yandex සෙවුම් රොබෝ;
YAN විසින් පිළිගත් අඩවි පිටු පරිලෝකනය කරන මකුළුවෙක්;
රොබෝ ස්කෑනිං ෆේවිකොන් අයිකන;
අඩවි පිටු වල ප්‍රවේශ්‍යතාවය තීරණය කරන මකුළුවන් කිහිපයක්.

Google හි ප්‍රධාන සෙවුම් රොබෝවරයා පාඨමය තොරතුරු රැස් කරයි. මූලික වශයෙන්, එය HTML ගොනු නරඹන අතර JS සහ CSS නිශ්චිත කාල පරාසයන් තුළ විශ්ලේෂණය කරයි. සුචිගත කිරීම සඳහා අවසර දී ඇති ඕනෑම ආකාරයක අන්තර්ගතයක් පිළිගැනීමට හැකියාව ඇත. PS Google සතුව පින්තූර සුචිගත කිරීම පාලනය කරන මකුළුවෙක් ඇත. සෙවුම් රොබෝවක් ද ඇත - සෙවුම් ජංගම අනුවාදයේ ක්රියාකාරිත්වය සඳහා සහාය වන වැඩසටහනකි.

සෙවුම් රොබෝවරයෙකුගේ ඇස් හරහා වෙබ් අඩවිය බලන්න

කේත දෝෂ සහ අනෙකුත් අඩුපාඩු නිවැරදි කිරීම සඳහා, සෙවුම් රොබෝවරයා වෙබ් අඩවිය දකින ආකාරය වෙබ්මාස්ටර් හට සොයාගත හැකිය. මෙම අවස්ථාව Google PS විසින් සපයනු ලැබේ. ඔබට වෙබ්මාස්ටර් මෙවලම් වෙත යාමට අවශ්‍ය වනු ඇත, ඉන්පසු "බඩගාමින්" ටැබය මත ක්ලික් කරන්න. විවෘත වන කවුළුවෙහි, ඔබට "Googlebot ලෙස බලන්න" යන පේළිය තෝරාගත යුතුය. ඊළඟට, ඔබ සෙවුම් පෝරමයට ඔබ පර්යේෂණ කරන පිටුවේ ලිපිනය ඇතුළත් කළ යුතුය (වසම සහ http:// ප්රොටෝකෝලය සඳහන් නොකර).

"Get and display" විධානය තේරීමෙන්, වෙබ්මාස්ටර් හට වෙබ් අඩවියේ පිටුවේ තත්ත්වය දෘශ්‍යමය වශයෙන් තක්සේරු කිරීමට හැකි වනු ඇත. මෙය සිදු කිරීම සඳහා, ඔබ "දර්ශණය කිරීමට ඉල්ලීම" සලකුණු කොටුව මත ක්ලික් කළ යුතුය. වෙබ් ලේඛනයේ අනුවාද දෙකක් සහිත කවුළුවක් විවෘත වේ. නිත්‍ය අමුත්තෙකු පිටුව දකින ආකාරය සහ එය සෙවුම් මකුළුවාට ලබා ගත හැක්කේ කුමන ආකාරයෙන්ද යන්න වෙබ්මාස්ටර් ඉගෙන ගනී.

ඉඟිය! ඔබ විශ්ලේෂණය කරන වෙබ් ලේඛනය තවමත් සුචිගත කර නොමැති නම්, ඔබට "දර්ශකයට එකතු කරන්න" >> "මෙම URL එක පමණක් පරිලෝකනය කරන්න" විධානය භාවිතා කළ හැක. මකුළුවා මිනිත්තු කිහිපයකින් ලේඛනය විශ්ලේෂණය කරනු ඇති අතර, නුදුරු අනාගතයේ දී වෙබ් පිටුව සෙවුම් ප්රතිඵලවල දිස්වනු ඇත. සුචිගත කිරීමේ ඉල්ලීම් සඳහා මාසික සීමාව ලේඛන 500 කි.

සුචිගත කිරීමේ වේගයට බලපාන ආකාරය

සෙවුම් රොබෝවරු ක්‍රියා කරන ආකාරය සොයා ගැනීමෙන්, වෙබ්මාස්ටර්ට ඔහුගේ වෙබ් අඩවිය වඩාත් ඵලදායී ලෙස ප්‍රවර්ධනය කිරීමට හැකි වනු ඇත. බොහෝ තරුණ වෙබ් ව්‍යාපෘතිවල ප්‍රධාන ගැටළුවක් වන්නේ දුර්වල සුචිගත කිරීමයි. සෙවුම් යන්ත්‍ර රොබෝවරු අනවසර අන්තර්ජාල සම්පත් වෙත පැමිණීමට මැලි වෙති.
සුචිගත කිරීමේ වේගය කෙලින්ම රඳා පවතින්නේ වෙබ් අඩවිය යාවත්කාලීන කර ඇති තීව්‍රතාවය මත බව තහවුරු වී ඇත. අද්විතීය පෙළ ද්‍රව්‍ය නිතිපතා එකතු කිරීම සෙවුම් යන්ත්‍රවල අවධානය ආකර්ෂණය කරයි.

සුචිගත කිරීම වේගවත් කිරීම සඳහා, ඔබට සමාජ පිටු සලකුණු සහ ට්විටර් සේවාව භාවිතා කළ හැකිය. අඩවි සිතියමක් සාදා එය වෙබ් ව්‍යාපෘතියේ මූල නාමාවලියට උඩුගත කිරීම නිර්දේශ කෙරේ.

සෙවුම් රොබෝ කියලා විශේෂ වැඩසටහනදත්ත සමුදා (දර්ශක) අඩවි සහ අන්තර්ජාලයේ ඇති ඒවායේ පිටු වලට ඇතුල් වීමට නිර්මාණය කර ඇති ඕනෑම සෙවුම් යන්ත්‍රයක්. නම් ද භාවිතා වේ: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

මෙහෙයුම් මූලධර්මය

සෙවුම් රොබෝ යනු බ්‍රවුසර ආකාරයේ වැඩසටහනකි. එය නිරන්තරයෙන් ජාලය පරිලෝකනය කරයි: සුචිගත (දැනටමත් එය දන්නා) අඩවි වෙත ගොස්, ඔවුන්ගෙන් සබැඳි අනුගමනය කර නව සම්පත් සොයා ගනී. නව සම්පතක් සොයාගත් විට, ක්‍රියා පටිපාටිය රොබෝ එය සෙවුම් යන්ත්‍ර දර්ශකයට එක් කරයි. සෙවුම් රොබෝවරයා අඩවි වල යාවත්කාලීන කිරීම් ද සුචිගත කරයි, එහි සංඛ්‍යාතය ස්ථාවර වේ. උදාහරණයක් ලෙස, සතියකට වරක් යාවත්කාලීන කරන වෙබ් අඩවියක් මෙම සංඛ්‍යාතය සහිත මකුළුවෙකු විසින් නරඹනු ලබන අතර, ප්‍රවෘත්ති වෙබ් අඩවි වල අන්තර්ගතය ප්‍රකාශනයෙන් මිනිත්තු කිහිපයකින් සුචිගත කළ හැක. වෙනත් සම්පත් වලින් කිසිදු සබැඳියක් වෙබ් අඩවියට නොපැමිණෙන්නේ නම්, සෙවුම් රොබෝවරුන් ආකර්ෂණය කර ගැනීම සඳහා, සම්පත විශේෂ පෝරමයක් හරහා එකතු කළ යුතුය (Google Webmaster Center, Yandex Webmaster Panel, ආදිය).

සෙවුම් රොබෝ වර්ග

Yandex මකුළුවන්:

Yandex/1.01.001 I - සුචිගත කිරීමට සම්බන්ධ ප්‍රධාන බොට්,
Yandex/1.01.001 (P) - දර්ශක පින්තූර,
Yandex/1.01.001 (H) - දර්පණ අඩවි සොයා,
Yandex/1.03.003 (D) - වෙබ්මාස්ටර් පැනලයෙන් එකතු කරන ලද පිටුව සුචිගත කිරීමේ පරාමිතීන් සපුරාලන්නේද යන්න තීරණය කරයි,
YaDirectBot/1.0 (I) - සම්පත් සුචිගත කරයි වෙළඳ දැන්වීම් ජාලය Yandex,
Yandex/1.02.000 (F) - දර්ශක අඩවි ෆේවිකොන්.

Google Spiders:

Googlebot යනු ප්‍රධාන රොබෝ ය
Googlebot News - පුවත් පරිලෝකනය කර සුචිගත කරයි,
Google Mobile - ජංගම උපාංග සඳහා දර්ශක අඩවි,
Googlebot පින්තූර - සෙවුම් සහ සුචිගත පින්තූර,
Googlebot වීඩියෝ - සුචිගත වීඩියෝ,
Google AdsBot - ගොඩබෑමේ පිටුවේ ගුණාත්මකභාවය පරීක්ෂා කරයි,
Google Mobile AdSense සහ ගූගල් ඇඩ්සෙන්ස්- ගූගල් ප්‍රචාරණ ජාලයේ දර්ශක අඩවි.

අනෙකුත් සෙවුම් යන්ත්‍ර ද ලැයිස්තුගත කර ඇති ඒවාට ක්‍රියාකාරීව සමාන රොබෝ වර්ග කිහිපයක් භාවිතා කරයි.

සෙවුම් යන්ත්‍ර ක්‍රියා කරන්නේ කෙසේද? අන්තර්ජාලයේ ඇති අපූරු දෙයක් නම් මිලියන සිය ගණනක් වෙබ් සම්පත් අප වෙත ඉදිරිපත් කිරීමට බලා සිටීමයි. නමුත් නරකම දෙය නම්, අපට අවශ්‍ය වුවද, අප ඉදිරියේ නොපෙන්වන පිටු මිලියන ගණනක් තිබීමයි, මන්ද ... හුදෙක් අප නොදන්නා. අන්තර්ජාලයේ ඔබට සොයාගත හැක්කේ කුමක්ද සහ කොතැනදැයි සොයා ගන්නේ කෙසේද? මෙය සිදු කිරීම සඳහා, අපි සාමාන්යයෙන් සෙවුම් යන්ත්ර වෙත හැරෙමු.

අන්තර්ජාල සෙවුම් යන්ත්‍ර යනු විශේෂිත වෙබ් අඩවි වේ ගෝලීය ජාලය, මිනිසුන්ට සොයා ගැනීමට උපකාර කිරීම සඳහා නිර්මාණය කර ඇත විශ්ව විසිරි වියමනඔවුන්ට අවශ්ය තොරතුරු. සෙවුම් යන්ත්‍ර ඔවුන්ගේ කාර්යයන් ඉටු කරන ආකාරයෙහි වෙනස්කම් ඇත, නමුත් පොදුවේ ප්‍රධාන හා සමාන කාර්යයන් 3 ක් ඇත:

ඔවුන් සියල්ලන්ම අන්තර්ජාලය (හෝ අන්තර්ජාලයේ යම් අංශයක්) "සොයනවා" - ලබා දී ඇති මූල පද මත පදනම්ව;
- සියලුම සෙවුම් යන්ත්‍ර ඔවුන් සොයන වචන සහ ඒවා සොයා ගන්නා ස්ථාන සුචිගත කරයි;
- සියලුම සෙවුම් යන්ත්‍ර පරිශීලකයින්ට දැනටමත් සුචිගත කර ඇති සහ ඔවුන්ගේ දත්ත සමුදායේ ඇතුළත් කර ඇති වෙබ් පිටු මත පදනම්ව වචන හෝ මූල පද සංයෝජන සෙවීමට ඉඩ දෙයි.

පළමු සෙවුම් යන්ත්‍ර පිටු ලක්ෂ කිහිපයක් දක්වා සුචිගත කර දිනකට ඉල්ලීම් 1,000 - 2,000ක් ලබා ගත්තේය. අද, ඉහළම සෙවුම් යන්ත්‍ර සුචිගත කර ඇති අතර අඛණ්ඩව පිටු මිලියන සිය ගණනක් සුචිගත කරමින් දිනකට ඉල්ලීම් මිලියන දස ගනනක් සකසයි. සෙවුම් යන්ත්‍ර ක්‍රියා කරන ආකාරය සහ අපට උනන්දුවක් දක්වන ඕනෑම ප්‍රශ්නයකට පිළිතුරු දීමට හැකි වන පරිදි සොයාගත් සියලුම තොරතුරු “එකතු කරන්නේ” කෙසේද යන්න ගැන අපි පහත කතා කරමු.

අපි බලමු Web එක

මිනිසුන් ගැන කතා කරන විට අන්තර්ජාල සෙවුම් යන්ත්‍රයන්ත්‍ර, ඒවා ඇත්ත වශයෙන්ම සෙවුම් යන්ත්‍ර අදහස් කරයි විශ්ව විසිරි වියමන. අන්තර්ජාලය අන්තර්ජාලයේ වඩාත්ම දෘශ්‍යමාන කොටස බවට පත් වීමට පෙර, අන්තර්ජාලයේ තොරතුරු සොයා ගැනීමට මිනිසුන්ට උපකාර කිරීම සඳහා සෙවුම් යන්ත්‍ර දැනටමත් පැවතුනි. "gopher" සහ "Archie" නම් වැඩසටහන් වලට සම්බන්ධ වූ විවිධ සර්වර් වල ඇති ගොනු සුචිගත කිරීමට හැකි විය. අන්තර්ජාල අන්තර්ජාලයසහ සෙවුම් සඳහා වැය කරන කාලය සැලකිය යුතු ලෙස අඩු කර ඇත අවශ්ය වැඩසටහන්හෝ ලේඛන. පසුගිය ශතවර්ෂයේ 80 ගණන්වල අගභාගයේදී, "අන්තර්ජාලයේ වැඩ කිරීමේ හැකියාව" සඳහා සමාන පදයක් වූයේ gopher, Archie, Veronica, ආදිය භාවිතා කිරීමේ හැකියාවයි. සෙවුම් වැඩසටහන්. අද වන විට බොහෝ අන්තර්ජාල භාවිතා කරන්නන් තම සෙවුමට පමණක් සීමා කරයි ලෝක ව්යාප්ත ජාලය, හෝ WWW.

කුඩා ආරම්භයක්

අවශ්‍ය ලේඛනය හෝ ගොනුව සොයාගත හැක්කේ කොතැනින්දැයි අපට පැවසීමට පෙර, ගොනුව හෝ ලේඛනය දැනටමත් සොයාගෙන තිබිය යුතුය. දැනට පවතින වෙබ් පිටු මිලියන සිය ගණනක තොරතුරු සෙවීම සඳහා සෙවුම් යන්ත්‍රය විශේෂ රොබෝ වැඩසටහනක් භාවිතා කරයි. මෙම වැඩසටහන spider ("spider") ලෙසද හඳුන්වනු ලබන අතර පිටුවේ ඇති වචන ලැයිස්තුවක් තැනීමට භාවිතා කරයි. එවැනි ලැයිස්තුවක් සෑදීමේ ක්රියාවලිය හැඳින්වේ වෙබ් බඩගාමින්(වෙබ් බඩගාමින්). “ප්‍රයෝජනවත්” (අර්ථවත්) වචන ලැයිස්තුවක් තවදුරටත් ගොඩනැගීමට සහ ග්‍රහණය කර ගැනීමට, සෙවීම් මකුළුවාවෙනත් පිටු ටොන් ගණනක් "බැලිය යුතුය".

කවුරුහරි ආරම්භ කරන්නේ කෙසේද? මකුළුවා(මකුළුවා) වෙබයේ ඔබේ ගමන? සාමාන්‍යයෙන් ආරම්භක ලක්ෂ්‍යය ලෝකයේ විශාලතම සේවාදායකයන් සහ ඉතා ජනප්‍රිය වෙබ් පිටු වේ. මකුළුවා එවැනි වෙබ් අඩවියකින් තම ගමන ආරම්භ කරයි, සොයාගත් සියලුම වචන සුචිගත කර අනෙකුත් වෙබ් අඩවි වෙත සබැඳි අනුගමනය කරමින් එහි චලනය තවදුරටත් ඉදිරියට ගෙන යයි. මේ අනුව, මකුළු රොබෝවරයා වෙබ් අවකාශයේ වැඩි වැඩියෙන් විශාල "කෑලි" ආවරණය කිරීමට පටන් ගනී. Google.com ශාස්ත්‍රීය සෙවුම් යන්ත්‍රයක් ලෙස ආරම්භ විය. මෙම සෙවුම් යන්ත්‍රය නිර්මාණය වූ ආකාරය විස්තර කරන ලිපියක, සර්ජි බ්‍රින් සහ ලෝරන්ස් පේජ් (ගූගල් හි නිර්මාතෘවරුන් සහ හිමිකරුවන්) ගූගල් මකුළුවන් කෙතරම් ඉක්මනින් ක්‍රියා කරයිද යන්න පිළිබඳ උදාහරණයක් ලබා දුන්නේය. ඒවායින් කිහිපයක් ඇති අතර සාමාන්යයෙන් සෙවීම ආරම්භ වන්නේ මකුළුවන් 3 ක් භාවිතා කිරීමෙනි. සෑම මකුළුවෙක්ම වෙබ් පිටු වෙත එකවර විවෘත සම්බන්ධතා 300ක් දක්වා සහාය දක්වයි. උපරිම පැටවීමේදී, මකුළුවන් 4ක් භාවිතා කරමින්, Google පද්ධතියට තත්පරයකට පිටු 100ක් සැකසීමට හැකියාව ඇති අතර, තත්පරයට කිලෝබයිට් 600ක පමණ තදබදයක් ජනනය කරයි.

මකුළුවන්ට සැකසීමට අවශ්‍ය දත්ත ලබා දීම සඳහා, Google හට මකුළුවන්ට වැඩි වැඩියෙන් URL පෝෂණය කිරීමට වඩා වැඩි යමක් නොකළ සේවාදායකයක් තිබුණි. URL IP ලිපින බවට පරිවර්තනය කරන ඩොමේන් නාම සේවාදායකයන් (DNS) අනුව අන්තර්ජාල සේවා සපයන්නන් මත රඳා නොසිටීම සඳහා, Google තමන්ගේම අත්පත් කර ගත්තේය. DNS සේවාදායකය, පිටු සුචිගත කිරීම සඳහා ගත කරන සියලු කාලය අවම වශයෙන් අඩු කිරීම.

Google Robot පිවිසෙන විට HTML පිටුව, එය කරුණු 2 ක් සැලකිල්ලට ගනී:

පිටුවකට වචන (පෙළ);
- ඔවුන්ගේ ස්ථානය (පිටුවෙහි ශරීරයේ කුමන කොටසෙහිද).

වැනි සේවා අංශ සහිත වචන පිහිටා ඇත මාතෘකාව, උපසිරැසි, මෙටා ටැග්සහ අනෙකුත් ඒවා පරිශීලක සෙවුම් විමසුම් සඳහා විශේෂයෙන් වැදගත් ලෙස සලකුණු කර ඇත. "a," "an," සහ "the" වැනි අතුරු වචන හැර, පිටුවක ඇති සෑම සමාන වචනයක්ම සුචිගත කිරීමට Google Spider ගොඩනගා ඇත. අනෙකුත් සෙවුම් යන්ත්‍ර සුචිගත කිරීමට තරමක් වෙනස් ප්‍රවේශයක් ඇත.

සියලුම සෙවුම් යන්ත්‍ර ප්‍රවේශයන් සහ ඇල්ගොරිතම අවසානයේ මකුළු රොබෝවරු වේගවත් හා කාර්යක්ෂමව වැඩ කිරීමට ඉලක්ක කර ඇත. උදාහරණයක් ලෙස, සමහර සෙවුම් රොබෝවරු මාතෘකාව, සබැඳි සහ සුචිගත කිරීමේදී පිටුවක නිතර භාවිතා කරන වචන 100ක් දක්වා, සහ පිටුවේ පළමු පෙළ අන්තර්ගත පේළි 20 තුළ ඇති එක් එක් වචන පවා හඹා යයි. මෙය ලයිකොස් හි සුචිගත කිරීමේ ඇල්ගොරිතමයකි.

AltaVista වැනි අනෙකුත් සෙවුම් යන්ත්‍ර, "a," "an," "the" සහ අනෙකුත් නොවැදගත් වචන ඇතුළුව පිටුවක ඇති සෑම වචනයක්ම සුචිගත කරමින් අනෙක් දිශාවට යයි.

මෙටා ටැග්

මෙටා ටැග් වෙබ් පිටුවක හිමිකරුට එහි අන්තර්ගතයේ සාරය නිර්වචනය කරන මූල පද සහ සංකල්ප නියම කිරීමට ඉඩ දෙයි. මෙය ඉතා ප්‍රයෝජනවත් මෙවලමකි, විශේෂයෙන් මෙම මූල පද පිටුවේ පෙළෙහි 2-3 වතාවක් දක්වා පුනරාවර්තනය කළ හැකි විට. මෙම අවස්ථාවෙහිදී, මෙටා ටැග් මඟින් පිටුව සුචිගත කිරීම සඳහා අවශ්‍ය මූල පද තෝරාගැනීමට සෙවුම් රොබෝව "යොමු" කළ හැක. පිටුවේ අන්තර්ගතයට කිසිදු ආකාරයකින් සම්බන්ධ නොවන ජනප්‍රිය සෙවුම් විමසුම් සහ සංකල්ප සහිත මෙටා ටැග් “වංචා” කිරීමේ හැකියාවක් ඇත. සෙවුම් රොබෝවරුන්ට මෙයට එරෙහිව සටන් කිරීමට හැකි වේ, උදාහරණයක් ලෙස, මෙටා ටැග් සහ වෙබ් පිටුවක අන්තර්ගත සහසම්බන්ධය විශ්ලේෂණය කිරීම, පිටුවේ අන්තර්ගතයට අනුරූප නොවන එම මෙටා ටැග් (පිළිවෙලින් මූල පද) සලකා බැලීමෙන් “ඉවත දැමීම”.

වෙබ් සම්පතක හිමිකරු සැබවින්ම අපේක්ෂිත සෙවුම් වචන සඳහා සෙවුම් ප්‍රතිඵලවලට ඇතුළත් කිරීමට අවශ්‍ය වූ විට මේ සියල්ල අදාළ වේ. නමුත් බොහෝ විට සිදුවන්නේ අයිතිකරු රොබෝවරයා විසින් සුචිගත කිරීමට කිසිසේත්ම අකමැති වීමයි. නමුත් එවැනි අවස්ථා අපගේ ලිපියේ මාතෘකාව නොවේ.

දර්ශක ඉදිකිරීම

මකුළුවන් නව වෙබ් පිටු සෙවීමේ කාර්යය අවසන් කළ පසු, සෙවුම් යන්ත්‍ර විසින් සොයාගත් සියලුම තොරතුරු අනාගතයේදී භාවිතා කිරීමට පහසු වන පරිදි ස්ථානගත කළ යුතුය. මෙහි වැදගත් වන ප්‍රධාන කොටස් 2ක් ඇත:

දත්ත සමඟ ගබඩා කර ඇති තොරතුරු;
- මෙම තොරතුරු සුචිගත කර ඇති ක්‍රමය.

සරලම අවස්ථාවෙහිදී, සෙවුම් යන්ත්‍රයකට වචනය සහ URL එය සොයාගත් තැන තැබිය හැකිය. නමුත් මෙය සෙවුම් යන්ත්‍රය සම්පූර්ණයෙන්ම ප්‍රාථමික මෙවලමක් බවට පත් කරනු ඇත, මන්ද මෙම වචනය ලේඛනයේ කුමන කොටසකද යන්න (මෙටා ටැග් හෝ සරල අකුරු), මෙම වචනය එක් වරක් හෝ නැවත නැවත භාවිතා කරන්නේද සහ එයද යන්න පිළිබඳ තොරතුරු නොමැත. තවත් වැදගත් සහ අදාළ සම්පතක් වෙත සබැඳියක අඩංගු වේ. වෙනත් වචන වලින් කිවහොත්, මෙම ක්‍රමය අඩවි ශ්‍රේණිගත නොකරනු ඇත, පරිශීලකයින්ට අදාළ ප්‍රති results ල ලබා නොදේ, යනාදිය.

අපට ප්‍රයෝජනවත් දත්ත ලබා දීමට, සෙවුම් යන්ත්‍ර ගබඩා කරන්නේ වචනයෙන් සහ එහි URL එකෙන් පමණක් නොවේ. සෙවුම් යන්ත්‍රයකට පිටුවක වචනයක් සඳහන් කිරීමේ සංඛ්‍යා (සංඛ්‍යාත) මත දත්ත සුරැකිය හැක, වචනයට "බර" පැවරීම, පසුව මෙම වචනය සඳහා බරිත ශ්‍රේණිගත කිරීම මත පදනම්ව සෙවුම් ලැයිස්තු (ප්‍රතිඵල) නිෂ්පාදනය කිරීමට උපකාරී වනු ඇත. එහි පිහිටීම සැලකිල්ලට ගනිමින් (සබැඳි, මෙටා ටැග්, පිටු මාතෘකාව සහ යනාදී.). සෑම වාණිජ සෙවුම් යන්ත්‍රයක්ම සුචිගත කිරීමේදී මූල පදවල “බර” ගණනය කිරීම සඳහා තමන්ගේම සූත්‍රයක් ඇත. මෙය එකම හේතුවකි සෙවුම් විමසුමසෙවුම් යන්ත්‍ර සම්පූර්ණයෙන්ම වෙනස් ප්‍රතිඵල නිපදවයි.

ඊළඟ වැදගත් කරුණක්සොයාගත් තොරතුරු සැකසීමේදී - එය ගබඩා කිරීම සඳහා තැටි ඉඩ ප්රමාණය අඩු කිරීම සඳහා එහි කේතනය කිරීම. උදාහරණයක් ලෙස, මුල් ගූගල් ලිපිය විස්තර කරන්නේ වචනවල බර දත්ත ගබඩා කිරීම සඳහා බයිට් 2 ක් (බිට් 8 බැගින්) භාවිතා කරන බවයි - මෙය වචනයේ වර්ගය (කැපිටල් හෝ කැපිටල් අකුරු), අකුරුවල ප්‍රමාණය (අකුරු- ප්‍රමාණය) සහ වෙනත් තොරතුරු. වෙබ් අඩවිය ශ්‍රේණිගත කිරීමට උපකාරී වේ. එවැනි එක් එක් "කෑල්ලක්" තොරතුරු සම්පූර්ණ 2-බයිට් කට්ටලයක දත්ත බිටු 2-3 ක් අවශ්ය වේ. එහි ප්රතිඵලයක් වශයෙන්, තොරතුරු විශාල ප්රමාණයක් ඉතා සංයුක්ත ආකාරයෙන් ගබඩා කළ හැකිය. තොරතුරු "සම්පීඩනය" කළ පසු, සුචිගත කිරීම ආරම්භ කිරීමට කාලයයි.

සුචිගත කිරීම සඳහා එක් ඉලක්කයක් ඇත: උපරිම සහතික කිරීම ඉක්මන් සෙවීමඅවශ්ය තොරතුරු. දර්ශක ගොඩනැගීමට ක්රම කිහිපයක් ඇත, නමුත් වඩාත් ඵලදායී වන්නේ ගොඩනැගීමයි හැෂ් වගු(හැෂ් වගුව). Hashing සෑම වචනයකටම සංඛ්‍යාත්මක අගයක් ලබා දීමට නිශ්චිත සූත්‍රයක් භාවිතා කරයි.

ඕනෑම භාෂාවක, හෝඩියේ අනෙක් අක්ෂරවලට වඩා බොහෝ වචන ආරම්භ වන අකුරු තිබේ. උදාහරණයක් ලෙස, ඉංග්‍රීසි ශබ්දකෝෂ කොටසේ "X" අකුරෙන් ආරම්භ වන වචනවලට වඩා "M" අකුරෙන් ආරම්භ වන වචන සැලකිය යුතු ලෙස වැඩිය. මෙයින් අදහස් කරන්නේ වඩාත්ම ජනප්‍රිය අකුරෙන් ආරම්භ වන වචනයක් සෙවීමට වෙනත් ඕනෑම වචනයකට වඩා වැඩි කාලයක් ගත වන බවයි. හෂිං(Hashing) මෙම වෙනස සමාන කර සාමාන්‍ය සෙවුම් කාලය අඩු කරයි, එසේම දර්ශකය සැබෑ දත්ත වලින් වෙන් කරයි. හැෂ් වගුවක හැෂ් අගයන් සහ එම අගයට අනුරූප දත්ත සඳහා දර්ශකයක් අඩංගු වේ. පරිශීලකයා ඉතා සංකීර්ණ සෙවුම් විමසුමක් ඇසුවද, ඵලදායී සුචිගත කිරීම + ඵලදායී ස්ථානගත කිරීම එක්ව ඉහළ සෙවුම් වේගයක් සපයයි.

සෙවුම් යන්ත්‍රවල අනාගතය

බූලියන් ක්‍රියාකරුවන් මත පදනම් වූ සෙවීමක් ("සහ", "හෝ", "නො") යනු වචනාර්ථයෙන් සෙවීමකි - සෙවුම් යන්ත්‍රයට සෙවුම් වචන ඇතුළත් කළ ආකාරයටම ලැබේ. උදාහරණයක් ලෙස, ඇතුළත් කළ වචනයට බහුවිධ අර්ථයන් ඇති විට මෙය ගැටළුවක් ඇති කළ හැකිය. උදාහරණයක් ලෙස "යතුර" යන්නෙන් අදහස් වන්නේ "දොරක් විවෘත කිරීමේ මාධ්‍යයක්" හෝ එය සේවාදායකයකට ලොග් වීම සඳහා "මුරපදය" යන්නයි. ඔබ වචනයක එක් අර්ථයක් ගැන පමණක් උනන්දු වන්නේ නම්, ඔබට පැහැදිලිවම එහි දෙවන අර්ථය පිළිබඳ දත්ත අවශ්‍ය නොවනු ඇත. ඔබට වචනයක අනවශ්‍ය අර්ථය මත පදනම්ව දත්ත ප්‍රතිදානය බැහැර කරන වචනාර්ථ විමසුමක් ගොඩනගා ගත හැකිය, නමුත් සෙවුම් යන්ත්‍රයම ඔබට උදව් කළ හැකි නම් එය හොඳයි.

අනාගත සෙවුම් යන්ත්‍ර ඇල්ගොරිතම පිළිබඳ පර්යේෂණයේ එක් අංශයක් වන්නේ සංකල්පීය තොරතුරු ලබා ගැනීමයි. මේවා අදාළ දත්ත සෙවීමට දී ඇති සෙවුම් මූල පදයක් හෝ වාක්‍ය ඛණ්ඩයක් අඩංගු පිටු සංඛ්‍යානමය විශ්ලේෂණයක් භාවිතා කරන ඇල්ගොරිතම වේ. එවැනි "සංකල්පීය සෙවුම් යන්ත්‍රයක්" සඳහා එක් එක් පිටුව සඳහා වැඩි ගබඩා ඉඩක් සහ එක් එක් ඉල්ලීම සැකසීමට වැඩි කාලයක් අවශ්‍ය වන බව පැහැදිලිය. වර්තමානයේ බොහෝ පර්යේෂකයන් මෙම ගැටලුව සම්බන්ධයෙන් කටයුතු කරයි.

විමසුම් මත පදනම්ව සෙවුම් ඇල්ගොරිතම සංවර්ධනය කිරීමේ ක්ෂේත්‍රයේ අඩු තීව්‍ර කාර්යයක් සිදු නොවේ. ස්වභාවික භාෂාව(ස්වභාවික-භාෂා විමසුම).

ස්වාභාවික විමසුම් පිටුපස ඇති අදහස නම්, ඔබ ඉදිරිපිට වාඩි වී සිටින සගයෙකුගෙන් අසනවාක් මෙන් ඔබට ඔබේ විමසුම ලිවිය හැකි බවයි. බූලියන් ක්‍රියාකරුවන් ගැන කරදර වීමට හෝ රචනා කිරීමට වෙහෙස වීමට අවශ්‍ය නැත සංකීර්ණ විමසුම. අද ජනප්‍රියම ස්වභාවික භාෂා සෙවුම් අඩවිය AskJeeves.com වේ. එය විමසුම මූල පද බවට පරිවර්තනය කරයි, පසුව එය අඩවි සුචිගත කිරීමේදී භාවිතා කරයි. මෙම ප්‍රවේශය ක්‍රියාත්මක වන්නේ සරල විමසුම් සඳහා පමණි. කෙසේ වෙතත්, ප්‍රගතිය නිශ්චල නොවේ; ඉතා ඉක්මනින් අපි අපගේම “මානව භාෂාවෙන්” සෙවුම් යන්ත්‍ර සමඟ “කතා” කිරීමට ඉඩ ඇත.

මිත්රවරුනි, මම ඔබව නැවතත් සාදරයෙන් පිළිගනිමි! දැන් අපි සෙවුම් රොබෝවරුන් යනු කුමක්දැයි සොයා බලා ගූගල් සෙවුම් රොබෝවරයා සහ ඔවුන් සමඟ මිතුරු වන්නේ කෙසේද යන්න පිළිබඳව විස්තරාත්මකව කතා කරමු.

මුලින්ම ඔබ සෙවුම් රොබෝවරු යනු කුමක්දැයි තේරුම් ගත යුතුය; ඔවුන් මකුළුවන් ලෙසද හැඳින්වේ. සෙවුම් යන්ත්‍ර මකුළුවන් කරන කාර්යය කුමක්ද?

මේවා අඩවි පරීක්ෂා කරන වැඩසටහන් වේ. ඔවුන් ඔබේ බ්ලොගයේ ඇති සියලුම පළ කිරීම් සහ පිටු බලා, තොරතුරු රැස්කර, පසුව ඔවුන් වැඩ කරන සෙවුම් යන්ත්‍රයේ දත්ත ගබඩාවට සම්ප්‍රේෂණය කරයි.

ඔබට සෙවුම් රොබෝවරුන්ගේ සම්පූර්ණ ලැයිස්තුව දැන ගැනීමට අවශ්‍ය නැත, වඩාත්ම වැදගත් දෙය නම් ගූගල් දැන් "පැන්ඩා" සහ "පෙන්ගුයින්" ලෙස හඳුන්වන ප්‍රධාන මකුළුවන් දෙදෙනෙකු සිටින බව දැන ගැනීමයි. ඔවුන් අඩු ගුණාත්මක අන්තර්ගතයන් සහ අනවශ්‍ය සබැඳි වලට එරෙහිව සටන් කරන අතර, ඔවුන්ගේ ප්‍රහාර විකර්ෂණය කරන්නේ කෙසේදැයි ඔබ දැන සිටිය යුතුය.

ගූගල් පැන්ඩා සෙවුම් රොබෝ නිර්මාණය කර ඇත්තේ සෙවුම් වලදී උසස් තත්ත්වයේ ද්‍රව්‍ය පමණක් ප්‍රවර්ධනය කිරීම සඳහා ය. අඩු ගුණාත්මක අන්තර්ගතයක් සහිත සියලුම වෙබ් අඩවි සෙවුම් ප්‍රතිඵලවල පහත හෙලනු ලැබේ.

මෙම මකුළුවා මුලින්ම දර්ශනය වූයේ 2011 දී ය. එහි පෙනුමට පෙර, ලිපිවල විශාල පෙළ ප්‍රමාණයක් ප්‍රකාශයට පත් කිරීමෙන් සහ විශාල මූල පද ප්‍රමාණයක් භාවිතා කිරීමෙන් ඕනෑම වෙබ් අඩවියක් ප්‍රවර්ධනය කිරීමට හැකි විය. මෙම ශිල්පීය ක්‍රම දෙක එක්ව සෙවුම් ප්‍රතිඵලවල ගුණාත්මක නොවන අන්තර්ගතයන් ඉහළට ගෙන ආ අතර සෙවුම් ප්‍රතිඵලවල හොඳ අඩවි පහත හෙලන ලදී.

"පැන්ඩා" වහාම සියලුම වෙබ් අඩවි පරීක්ෂා කර සෑම කෙනෙකුම ඔවුන්ගේ නියම ස්ථානවල තැබීමෙන් දේවල් පිළිවෙලට තැබීය. එය අඩු ගුණාත්මක අන්තර්ගතයක් සමඟ අරගල කළත්, උසස් තත්ත්වයේ ලිපි සහිත කුඩා වෙබ් අඩවි පවා ප්‍රවර්ධනය කිරීමට දැන් හැකියාව ඇත. මීට පෙර එවැනි වෙබ් අඩවි ප්රවර්ධනය කිරීම නිෂ්ඵල වුවද, විශාල අන්තර්ගතයක් ඇති දැවැන්තයන් සමඟ තරඟ කිරීමට ඔවුන්ට නොහැකි විය.

දැන් අපි "පැන්ඩා" සම්බාධක වළක්වා ගන්නේ කෙසේදැයි සොයා බලමු. ඇය අකමැති දේ ඔබ මුලින්ම තේරුම් ගත යුතුය. ඇය නරක අන්තර්ගතයන් සමඟ අරගල කරන බව මම දැනටමත් ඉහත ලියා ඇත, නමුත් කුමන ආකාරයේ පෙළ ඇයට නරකද, අපි එය සොයා බලමු, එවිට අපි එය අපගේ වෙබ් අඩවියේ ප්‍රකාශයට පත් නොකරමු.

මෙම සෙවුම් යන්ත්‍රය රැකියා සොයන්නන් සඳහා උසස් තත්ත්වයේ ද්‍රව්‍ය පමණක් සපයන බව සහතික කිරීමට Google සෙවුම් රොබෝවරයා උත්සාහ කරයි. ඔබට කුඩා තොරතුරු අඩංගු සහ පෙනුමෙන් ආකර්ශනීය නොවන ලිපි තිබේ නම්, “පැන්ඩා” ඔබ වෙත නොපැමිණෙන පරිදි ඉක්මනින් මෙම පෙළ නැවත ලියන්න.

උසස් තත්ත්වයේ අන්තර්ගතය විශාල හා කුඩා විය හැකිය, නමුත් මකුළුවා බොහෝ තොරතුරු සහිත දිගු ලිපියක් දකිනවා නම්, එය පාඨකයාට වඩාත් ප්රයෝජනවත් වනු ඇත.

එවිට ඔබ අනුපිටපත් සටහන් කළ යුතුය, වෙනත් වචන වලින් කිවහොත්, කොල්ලකෑම. ඔබ ඔබේ බ්ලොග් අඩවියේ වෙනත් පුද්ගලයින්ගේ ලිපි නැවත ලියන බව ඔබ සිතන්නේ නම්, ඔබට වහාම ඔබේ වෙබ් අඩවිය අවසන් කළ හැකිය. පිටපත් කිරීම පෙරනයක් යෙදීමෙන් දැඩි ලෙස දඬුවම් කරනු ලැබේ, සහ කොල්ලකෑම පරීක්ෂා කෙරේඉතා පහසුයි, මම මාතෘකාව පිළිබඳ ලිපියක් ලිව්වා සුවිශේෂත්වය සඳහා පෙළ පරීක්ෂා කරන්නේ කෙසේද?.

ඊළඟට අවධානය යොමු කළ යුතු දෙය නම් මූල පද සමඟ පෙළ අධික ලෙස සංතෘප්ත වීමයි. මූල පද පමණක් භාවිතා කර ලිපියක් ලියා සෙවුම් ප්‍රතිඵලවල පළමු ස්ථානය ලබා ගත හැකි යැයි සිතන ඕනෑම අයෙකු බොහෝ දුරට වැරදියි. අදාළත්වය සඳහා පිටු පරීක්ෂා කරන්නේ කෙසේද යන්න පිළිබඳ ලිපියක් මා සතුව ඇත, එය කියවීමට වග බලා ගන්න.

“පැන්ඩා” ඔබ වෙත ආකර්ෂණය කර ගත හැකි තවත් දෙයක් නම් සදාචාරාත්මකව යල් පැන ගිය සහ වෙබ් අඩවියට ගමනාගමනය ගෙන නොයන පැරණි ලිපි ය. ඒවා අනිවාර්යයෙන්ම යාවත්කාලීන කළ යුතුයි.

ගූගල් සෙවුම් රොබෝ "පෙන්ගුයින්" ද ඇත. මෙම මකුළුවා ඔබේ වෙබ් අඩවියේ අයාචිත තැපැල් සහ කුණු සබැඳි සමඟ සටන් කරයි. එය වෙනත් සම්පත් වලින් මිලදී ගත් සබැඳි ද ගණනය කරයි. එමනිසා, මෙම සෙවුම් රොබෝවරයාට බිය නොවී සිටීම සඳහා, ඔබ සබැඳි මිලදී නොගත යුතුය, නමුත් මිනිසුන් ඔබටම සම්බන්ධ වන පරිදි උසස් තත්ත්වයේ අන්තර්ගතය පළ කරන්න.

දැන් අපි සෙවුම් රොබෝවරයෙකුගේ ඇස් හරහා වෙබ් අඩවිය පරිපූර්ණ පෙනුමක් ලබා ගැනීමට කළ යුතු දේ සකස් කරමු:

ගුණාත්මක අන්තර්ගතයක් ඇති කිරීම සඳහා, ලිපිය ලිවීමට පෙර මාතෘකාව හොඳින් ගවේෂණය කරන්න. එවිට මිනිසුන් මෙම මාතෘකාව ගැන සැබවින්ම උනන්දු වන බව ඔබ තේරුම් ගත යුතුය.

භාවිත නිශ්චිත උදාහරණසහ පින්තූර, මෙය ලිපිය සජීවී හා රසවත් වනු ඇත. කියවීම පහසු කිරීම සඳහා පෙළ කුඩා ඡේදවලට කඩා දමන්න, උදාහරණයක් ලෙස, ඔබ පුවත්පතක විහිළු පිටුවක් විවෘත කළහොත්, ඔබ මුලින්ම කියවන්නේ කුමන ඒවාද? ස්වාභාවිකවම, එක් එක් පුද්ගලයා මුලින්ම කෙටි පාඨ කියවන අතර, පසුව දිගු ඒවා සහ අවසාන වශයෙන්, දිගු පාද ආවරණය කරයි.

"පැන්ඩාගේ" ප්‍රියතම විහිලුව වන්නේ යල් පැන ගිය තොරතුරු අඩංගු ලිපියක අදාළත්වය නොමැතිකමයි. යාවත්කාලීනයන් අනුගමනය කර පෙළ වෙනස් කරන්න.

මූල පද ඝනත්වය නිරීක්ෂණය කරන්න; මෙම ඝනත්වය තීරණය කරන්නේ කෙසේදැයි මම ඉහත ලියා ඇත; මා විස්තර කළ සේවාවේදී, ඔබට නියම වචන ගණන ලැබෙනු ඇත.

සොරකම් නොකරන්න, ඔබට අන් අයගේ දේවල් හෝ පෙළ සොරකම් කළ නොහැකි බව සියලු දෙනා දනිති - එය එකම දෙයකි. ෆිල්ටරයට හසුවීමෙන් ඔබ සොරකම් කිරීමට දඬුවම් කරනු ඇත.

අවම වශයෙන් වචන දෙදහසක පෙළ ලියන්න, එවිට එවැනි ලිපියක් සෙවුම් යන්ත්‍ර රොබෝවරුන්ගේ ඇස්වලින් තොරතුරු සපයනු ඇත.

ඔබේ බ්ලොගය සමඟ මාතෘකාවේ රැඳී සිටින්න. ඔබ අන්තර්ජාලයෙන් මුදල් ඉපයීම ගැන බ්ලොග් අඩවියක් පවත්වාගෙන යන්නේ නම්, ඔබට එයාර් තුවක්කු ගැන ලිපි පළ කිරීමට අවශ්‍ය නැත. මෙය ඔබගේ සම්පතේ ශ්‍රේණිගත කිරීම අඩු කළ හැක.

ඔබේ ලිපි අලංකාර ලෙස සැලසුම් කරන්න, ඒවා ඡේදවලට බෙදා පින්තූර එකතු කරන්න එවිට ඔබ කියවීමට ප්‍රිය කරන අතර ඉක්මනින් වෙබ් අඩවියෙන් ඉවත් වීමට අවශ්‍ය නොවේ.

සබැඳි මිලදී ගැනීමේදී, මිනිසුන් සැබවින්ම කියවන වඩාත් රසවත් හා ප්‍රයෝජනවත් ලිපි බවට පත් කරන්න.

හොඳයි, දැන් ඔබ සෙවුම් යන්ත්‍ර රොබෝවරුන් කරන්නේ කුමක්දැයි ඔබ දන්නවා ඇති අතර ඔබට ඔවුන් සමඟ මිතුරු විය හැකිය. වැදගත්ම දෙය නම්, ගූගල් සෙවුම් රොබෝ සහ "පැන්ඩා" සහ "පෙන්ගුයින්" ඔබ විසින් විස්තරාත්මකව අධ්‍යයනය කර ඇත.

කාණ්ඩයේ ජනප්‍රිය: