දන්නා දත්තවල නොදන්නා රටා. නවීන දත්ත කැණීම් පිළිබඳ හැඳින්වීම. ළඟම අසල්වැසියා සහ k-ළඟම අසල්වැසි ක්රම

දත්ත කැණීම් මෙවලම්

වර්තමානයේ, Data Mining තාක්ෂණය වාණිජ සහ නිදහසේ බෙදා හරින ලද මෘදුකාංග නිෂ්පාදන ගණනාවකින් නියෝජනය වේ. මෙම නිෂ්පාදනවල තරමක් සම්පූර්ණ සහ නිතිපතා යාවත්කාලීන ලැයිස්තුවක් වෙබ් අඩවියෙන් සොයාගත හැකිය www. kdnuggets. com, Data Mining සඳහා කැපවී ඇත. දත්ත පතල් මෘදුකාංග නිෂ්පාදන තාක්ෂණයම වර්ගීකරණය සඳහා පදනම වන එම මූලධර්ම අනුව වර්ගීකරණය කළ හැක. කෙසේ වෙතත්, එවැනි වර්ගීකරණයක් ප්රායෝගික වටිනාකමක් නොලැබේ. වෙළඳපොලේ ඉහළ තරඟකාරිත්වය සහ තාක්ෂණික විසඳුම්වල සම්පූර්ණත්වය සඳහා ඇති ආශාව හේතුවෙන්, බොහෝ දත්ත කැණීම් නිෂ්පාදන විශ්ලේෂණාත්මක තාක්ෂණයන් භාවිතා කිරීමේ සියලුම අංගයන් ආවරණය කරයි. එබැවින්, දත්ත පතල් නිෂ්පාදන ක්‍රියාත්මක කරන ආකාරය අනුව වර්ගීකරණය කිරීම සහ ඒ අනුව, ඔවුන් සපයන ඒකාබද්ධතාවයේ විභවයන් මොනවාද යන්න වඩාත් තර්කානුකූල ය. නිසැකවම, මෙය ද සම්මුතියකි, මන්ද එවැනි නිර්ණායකයක් නිෂ්පාදන අතර පැහැදිලි සීමාවන් ගෙනහැර දැක්වීමට අපට ඉඩ නොදෙන බැවිනි. කෙසේ වෙතත්, එවැනි වර්ගීකරණයක් එක් නිසැක වාසියක් ඇත. දත්ත විශ්ලේෂණ ක්ෂේත්‍රයේ ව්‍යාපෘති ආරම්භ කිරීමේදී, තීරණ ආධාරක පද්ධති සංවර්ධනය කිරීමේදී, දත්ත ගබඩාවන් නිර්මාණය කිරීමේදී, එකක් හෝ වෙනත් සූදානම් කළ විසඳුමක් තෝරා ගැනීම පිළිබඳව ඉක්මනින් තීරණයක් ගැනීමට එය ඔබට ඉඩ සලසයි.

එබැවින්, දත්ත කැණීම් නිෂ්පාදන විශාල කාණ්ඩ තුනකට බෙදිය හැකිය:

    දත්ත සමුදා කළමනාකරණ පද්ධතිවල අනිවාර්ය අංගයක් ලෙස ඇතුළත් කර ඇත;

    යටිතල පහසුකම් සහිත දත්ත කැණීම් ඇල්ගොරිතම පුස්තකාල;

    කොටු හෝ ඩෙස්ක්ටොප් විසඳුම් ("කළු පෙට්ටි").

පළමු කාණ්ඩ දෙකෙහි නිෂ්පාදන විශාලතම ඒකාබද්ධ කිරීමේ අවස්ථා සපයන අතර ඕනෑම ක්ෂේත්‍රයක ඕනෑම යෙදුමක පාහේ විශ්ලේෂණාත්මක විභවය අවබෝධ කර ගැනීමට ඔබට ඉඩ සලසයි. කොටු යෙදුම්, අනෙක් අතට, දත්ත කැණීම් ක්ෂේත්‍රයේ යම් සුවිශේෂී දියුණුවක් ලබා දීමට හෝ විශේෂිත යෙදුමක් සඳහා විශේෂිත විය හැක. කෙසේ වෙතත්, බොහෝ අවස්ථාවලදී ඔවුන් පුළුල් විසඳුම් වලට ඒකාබද්ධ කිරීම ගැටළුකාරී වේ.

වාණිජ දත්ත සමුදා කළමනාකරණ පද්ධතිවල විශ්ලේෂණාත්මක හැකියාවන් ඇතුළත් කිරීම දැවැන්ත විභවයන් සහිත ස්වභාවික ප්‍රවණතාවයකි. ඇත්ත වශයෙන්ම, දත්ත සංකේන්ද්‍රණය වී ඇති ස්ථානවල නොවේ නම්, එය සැකසීමේ මාධ්‍යයන් ස්ථානගත කිරීම වඩාත් අර්ථවත් කරන්නේ කොහේද? මෙම මූලධර්මය මත පදනම්ව, දත්ත කැණීමේ ක්රියාකාරිත්වය දැනටපහත වාණිජ දත්ත සමුදායන් තුළ ක්‍රියාත්මක වේ:

    Microsoft SQL සේවාදායකය;

ප්රධාන කරුණු

  • දත්ත කැණීම ඔබට ස්වයංක්‍රීයව, සමුච්චිත දත්ත විශාල ප්‍රමාණයක් මත පදනම්ව, වෙනත් විශ්ලේෂණ මෙවලම් මගින් සත්‍යාපනය කළ හැකි උපකල්පන ජනනය කිරීමට ඉඩ සලසයි (උදාහරණයක් ලෙස, OLAP).

    දත්ත පතල් කැණීම යනු කලින් නොදන්නා, සුළු නොවන, ප්‍රායෝගිකව ප්‍රයෝජනවත් සහ මානව අර්ථ නිරූපණයට ප්‍රවේශ විය හැකි අමු දත්තවල සැඟවුණු දැනුම යන්ත්‍රයක් (ඇල්ගොරිතම, කෘතිම බුද්ධි මෙවලම්) මගින් පර්යේෂණ සහ සොයා ගැනීමයි.

    දත්ත කැණීම් ක්‍රම මගින් ප්‍රධාන ගැටළු තුනක් විසඳයි: වර්ගීකරණය සහ ප්‍රතිගමනය පිළිබඳ ගැටළුව, සංගම් රීති සෙවීමේ ගැටළුව සහ පොකුරු සැකසීමේ ගැටළුව. ඔවුන්ගේ අරමුණ අනුව, ඒවා විස්තරාත්මක සහ අනාවැකි ලෙස බෙදා ඇත. ගැටළු විසඳීමේ ක්රම මත පදනම්ව, ඒවා අධීක්ෂණ ඉගෙනීම (ගුරුවරයෙකු සමඟ ඉගෙනීම) සහ අධීක්ෂණ ඉගෙනීම (ගුරුවරයෙකු නොමැතිව ඉගෙනීම) ලෙස බෙදා ඇත.

    වර්ගීකරණයේ සහ ප්‍රතිගාමීත්වයේ කර්තව්‍යය පැමිණෙන්නේ වස්තුවක ස්වාධීන විචල්‍යයන්ගෙන් එහි පරායත්ත විචල්‍යයේ අගය තීරණය කිරීමයි. යැපෙන විචල්‍යය සංඛ්‍යාත්මක අගයන් ගන්නේ නම්, අපි ප්‍රතිගාමී ගැටලුවක් ගැන කතා කරමු, එසේ නොමැතිනම් - වර්ගීකරණ ගැටලුවක් ගැන.

    සංගම් රීති සොයන විට, ඉලක්කය වන්නේ වස්තූන් හෝ සිදුවීම් අතර නිරන්තර යැපීම් (හෝ ආශ්‍ර) සොයා ගැනීමයි. සොයාගත් පරායත්තතා රීති ආකාරයෙන් ඉදිරිපත් කර ඇති අතර විශ්ලේෂණය කරන ලද දත්තවල ස්වභාවය වඩා හොඳින් අවබෝධ කර ගැනීමට සහ සිදුවීම් පුරෝකථනය කිරීමට භාවිතා කළ හැක.

    පොකුරු කිරීමේ කර්තව්යය වන්නේ ස්වාධීන කණ්ඩායම් (පොකුරු) සහ ඒවායේ ලක්ෂණ විශ්ලේෂණය කරන ලද සමස්ත දත්ත කට්ටලය තුළ සෙවීමයි. මෙම ගැටළුව විසඳීම ඔබට දත්ත වඩා හොඳින් තේරුම් ගැනීමට උපකාරී වේ. මීට අමතරව, සමජාතීය වස්තූන් කාණ්ඩගත කිරීම ඔවුන්ගේ සංඛ්යාව අඩු කිරීමට හැකි වන අතර, එබැවින්, විශ්ලේෂණයට පහසුකම් සපයයි.

    දත්ත කැණීම් ක්‍රම හන්දියේ ඇත විවිධ දිශාවන්තොරතුරු තාක්ෂණය: සංඛ්යාලේඛන, ස්නායු ජාල, නොපැහැදිලි කට්ටල, ජාන ඇල්ගොරිතම, ආදිය.

    බුද්ධිමත් විශ්ලේෂණයට පහත අදියර ඇතුළත් වේ: විශ්ලේෂණ ගැටලුව තේරුම් ගැනීම සහ සකස් කිරීම, ස්වයංක්‍රීය විශ්ලේෂණය සඳහා දත්ත සකස් කිරීම, දත්ත කැණීමේ ක්‍රම යෙදීම සහ ආකෘති ගොඩනැගීම, සාදන ලද ආකෘති පරීක්ෂා කිරීම සහ මිනිසුන් විසින් ආකෘති අර්ථ නිරූපණය කිරීම.

    දත්ත කැණීම් ශිල්පීය ක්‍රම යෙදීමට පෙර, මූලාශ්‍ර දත්ත පරිවර්තනය කළ යුතුය. පරිවර්තන වර්ගය භාවිතා කරන ක්රම මත රඳා පවතී.

    දත්ත කැණීම් ක්‍රම මානව ක්‍රියාකාරකම්වල විවිධ ක්ෂේත්‍රවල ඵලදායී ලෙස භාවිතා කළ හැක: ව්‍යාපාර, වෛද්‍ය විද්‍යාව, විදුලි සංදේශ, යනාදිය.

3. පෙළ තොරතුරු විශ්ලේෂණය - Text Mining

දත්ත සමුදායන්හි ගබඩා කර ඇති ව්‍යුහගත තොරතුරු විශ්ලේෂණය සඳහා මූලික සැකසුම් අවශ්‍ය වේ: දත්ත සමුදායක් සැලසුම් කිරීම, යම් නීතිරීතිවලට අනුව තොරතුරු ඇතුළත් කිරීම, විශේෂ ව්‍යුහයන් (උදාහරණයක් ලෙස, සම්බන්ධතා වගු) තුළ තැබීම යනාදිය. මේ අනුව, මෙම තොරතුරු විශ්ලේෂණය කිරීම සහ එයින් නව දැනුම ලබා ගැනීම සඳහා සෘජුවම. අමතර වෑයමක් අවශ්ය වේ. කෙසේ වෙතත්, ඔවුන් සෑම විටම විශ්ලේෂණයට සම්බන්ධ නොවන අතර අවශ්යයෙන්ම අපේක්ෂිත ප්රතිඵලය වෙත යොමු නොවේ. මේ නිසා, ව්යුහගත තොරතුරු විශ්ලේෂණය කිරීමේ කාර්යක්ෂමතාව අඩු වේ. මීට අමතරව, ප්රයෝජනවත් තොරතුරු අහිමි නොවී සියලු වර්ගවල දත්ත ව්යුහගත කළ නොහැකිය. උදාහරණයක් ලෙස, පෙළ ලේඛන පෙළෙහි අර්ථ දැක්වීම් සහ ආයතන අතර සම්බන්ධතා නැති කර නොගෙන වගු නිරූපණයක් බවට පරිවර්තනය කිරීම පාහේ කළ නොහැක්කකි. මෙම හේතුව නිසා, එවැනි ලේඛන පෙළ ක්ෂේත්‍ර (BLOB ක්ෂේත්‍ර) වැනි පරිවර්තනයකින් තොරව දත්ත ගබඩාවේ ගබඩා කර ඇත. ඒ අතරම, විශාල තොරතුරු ප්‍රමාණයක් පෙළ තුළ සැඟවී ඇත, නමුත් එහි ව්‍යුහගත නොවන ස්වභාවය Data Mining ඇල්ගොරිතම භාවිතා කිරීමට ඉඩ නොදේ. ව්‍යුහගත නොකළ පෙළ විශ්ලේෂණය කිරීමේ ක්‍රම මෙම ගැටලුව විසඳයි. බටහිර සාහිත්‍යයේ එවැනි විග්‍රහයන් හඳුන්වන්නේ Text Mining යනුවෙනි.

ව්‍යුහගත නොවන පාඨවල විශ්ලේෂණ ක්‍රම ප්‍රදේශ කිහිපයක මංසන්ධියේ පිහිටා ඇත: දත්ත කැණීම, ස්වාභාවික භාෂා සැකසීම, තොරතුරු ලබා ගැනීම, තොරතුරු ලබා ගැනීම සහ දැනුම කළමනාකරණය කිරීම.

පෙළ පතල් කැණීමේ නිර්වචනය: පෙළ දැනුම සොයා ගැනීම යනු ව්‍යුහගත නොවූ පෙළ දත්තවල සැබවින්ම නව, ප්‍රයෝජනවත් විය හැකි සහ තේරුම්ගත හැකි රටා සොයා ගැනීමේ සුළු නොවන ක්‍රියාවලියකි.

ඔබට පෙනෙන පරිදි, එය දත්ත කැණීමේ නිර්වචනයෙන් වෙනස් වන්නේ "ව්යුහගත නොකළ පෙළ දත්ත" යන නව සංකල්පය තුළ පමණි. එවැනි දැනුමක් එහි ව්යුහයේ කිසිදු සීමාවකින් තොරව තාර්කිකව ඒකාබද්ධ පාඨයක් නියෝජනය කරන ලේඛන සමූහයක් ලෙස වටහාගෙන ඇත. එවැනි ලේඛන සඳහා උදාහරණ වනුයේ: වෙබ් පිටු, ඊමේල්, නියාමන ලේඛන, ආදිය. සාමාන්යයෙන්, එවැනි ලේඛන සංකීර්ණ හා විශාල විය හැකි අතර, පෙළ පමණක් නොව, ග්රැෆික් තොරතුරු ද ඇතුළත් වේ. XML (extensible Markup Language), SGML (Standard Generalized Markup Language) සහ වෙනත් සමාන පෙළ ව්‍යුහ සම්මුතීන් භාවිතා කරන ලේඛන අර්ධ ව්‍යුහගත ලේඛන ලෙස හැඳින්වේ. ඒවා Text Mining ක්‍රම භාවිතයෙන්ද සැකසිය හැක.

පෙළ ලේඛන විශ්ලේෂණය කිරීමේ ක්රියාවලිය පියවර කිහිපයක අනුපිළිවෙලක් ලෙස දැක්විය හැක

    තොරතුරු සොයන්න. පළමු පියවර වන්නේ විශ්ලේෂණය කළ යුතු ලේඛන හඳුනා ගැනීම සහ ඒවායේ ඇති බව සහතික කිරීමයි. රීතියක් ලෙස, පරිශීලකයින්ට ස්වාධීනව විශ්ලේෂණය කළ යුතු ලේඛන කට්ටලය තීරණය කළ හැකිය - අතින්, නමුත් ලේඛන විශාල සංඛ්යාවක් සමඟ නිශ්චිත නිර්ණායක අනුව ස්වයංක්රීය තේරීම් විකල්ප භාවිතා කිරීම අවශ්ය වේ.

    පූර්වගාමී ලේඛන සැකසීම. මෙම පියවරේදී, පෙළ පතල් කැණීමේ ක්‍රම සමඟ ක්‍රියා කරන ආකෘතියකින් ලේඛන නියෝජනය කිරීම සඳහා සරල නමුත් අවශ්‍ය පරිවර්තනයන් සිදු කරනු ලැබේ. එවැනි පරිවර්තනයන්හි අරමුණ වන්නේ අනවශ්ය වචන ඉවත් කර පාඨයට වඩාත් දැඩි ස්වරූපයක් ලබා දීමයි. පෙර සැකසුම් ක්‍රම කොටසේ වඩාත් විස්තරාත්මකව විස්තර කෙරේ.

    තොරතුරු උපුටා ගැනීම. තෝරාගත් ලේඛනවලින් තොරතුරු උකහා ගැනීම අනාගතයේ දී විශ්ලේෂණය කරනු ලබන ඒවායේ ප්රධාන සංකල්ප හඳුනාගැනීම ඇතුළත් වේ.

පෙළ පතල් කැණීමේ ක්රම යෙදීම. මෙම පියවරේදී, පාඨවල පවතින රටා සහ සම්බන්ධතා උපුටා ගනු ලැබේ. පෙළ විශ්ලේෂණ ක්‍රියාවලියේදී මෙම පියවර ප්‍රධාන වන අතර ප්‍රායෝගික ගැටළු මෙම පියවරේදී විසඳනු ලැබේ.

ප්රතිඵල අර්ථ නිරූපණය. දැනුම සොයා ගැනීමේ ක්‍රියාවලියේ අවසාන පියවර වන්නේ සොයාගැනීම් අර්ථ නිරූපණය කිරීමයි. සාමාන්‍යයෙන්, අර්ථ නිරූපණය සමන්විත වන්නේ එක්කෝ ස්වභාවික භාෂාවෙන් ප්‍රතිඵල ඉදිරිපත් කිරීම හෝ ඒවා චිත්‍රක ලෙස දර්ශනය කිරීමෙනි.

දෘශ්‍යකරණය පෙළ විශ්ලේෂණ මෙවලමක් ලෙසද භාවිතා කළ හැක. මෙය සිදු කිරීම සඳහා, ප්රධාන සංකල්ප උපුටා ගෙන චිත්රක ලෙස ඉදිරිපත් කරනු ලැබේ. මෙම ප්‍රවේශය පරිශීලකයාට ප්‍රධාන මාතෘකා සහ සංකල්ප ඉක්මනින් හඳුනා ගැනීමට සහ ඒවායේ වැදගත්කම තීරණය කිරීමට උපකාරී වේ.

පෙළ පෙර සැකසුම්

පෙළ විශ්ලේෂණයේ ප්‍රධාන ගැටළුවක් වන්නේ ලේඛනයක ඇති වචන විශාල සංඛ්‍යාවයි. මෙම සෑම වචනයක්ම විශ්ලේෂණය කරන්නේ නම්, නව දැනුම සඳහා සෙවුම් කාලය තියුනු ලෙස වැඩි වන අතර පරිශීලක අවශ්යතා සපුරාලීමට අපහසු වේ. ඒ අතරම, පාඨයේ ඇති සියලුම වචන ප්රයෝජනවත් තොරතුරු රැගෙන නොයන බව පැහැදිලිය. මීට අමතරව, ස්වභාවික භාෂාවල නම්‍යශීලීභාවය හේතුවෙන්, විධිමත් ලෙස වෙනස් වචන (සමාන පද, ආදිය) ඇත්ත වශයෙන්ම එකම සංකල්ප අදහස් කරයි. මේ අනුව, තොරතුරු රහිත වචන ඉවත් කිරීම මෙන්ම අර්ථයෙන් සමීප වචන තනි ආකෘතියකට ගෙන ඒම, පෙළ විශ්ලේෂණයේ කාලය සැලකිය යුතු ලෙස අඩු කරයි. විස්තර කරන ලද ගැටළු ඉවත් කිරීම පෙළ පෙර සැකසුම් අදියරේදී සිදු කෙරේ.

පහත සඳහන් තාක්ෂණික ක්‍රම සාමාන්‍යයෙන් තොරතුරු රහිත වචන ඉවත් කිරීමට සහ පාඨවල දැඩි බව වැඩි කිරීමට භාවිතා කරයි:

    නැවතුම් වචන ඉවත් කිරීම. නැවතුම් වචන යනු සහායක සහ ලේඛනයේ අන්තර්ගතය පිළිබඳ කුඩා තොරතුරු රැගෙන යන වචන වේ.

    Stemming යනු රූප විද්‍යාත්මක සෙවීමකි. එය සෑම වචනයක්ම එහි සාමාන්‍ය ස්වරූපයට පරිවර්තනය කිරීමෙන් සමන්විත වේ.

    L-ග්‍රෑම් යනු රූප විද්‍යාත්මක විග්‍රහ කිරීම සහ වචන ඉවත් කිරීම නැවැත්වීම සඳහා විකල්පයකි. පෙළ වඩාත් දැඩි කිරීමට ඒවා ඔබට ඉඩ සලසයි, නමුත් තොරතුරු නොමැති වචන ගණන අඩු කිරීමේ ගැටළුව විසඳන්නේ නැත;

    නඩුව පරිවර්තනය. මෙම ක්‍රමයට සියලුම අක්ෂර විශාල හෝ කුඩා අකුරට පරිවර්තනය කිරීම ඇතුළත් වේ.

වඩාත්ම ඵලදායී වන්නේ මෙම ක්රමවල ඒකාබද්ධ භාවිතයයි.

පෙළ පතල් කාර්යයන්

වර්තමානයේ, බොහෝ ව්යවහාරික ගැටළු පෙළ ලේඛන විශ්ලේෂණය භාවිතයෙන් විසඳා ගත හැකි සාහිත්යයේ විස්තර කර ඇත. මේවාට සම්භාව්‍ය දත්ත කැණීම් කාර්යයන් ඇතුළත් වේ: වර්ගීකරණය, පොකුරු කිරීම සහ පෙළ ලේඛන සඳහා පමණක් සාමාන්‍ය කාර්යයන්: ස්වයංක්‍රීය විවරණ, ප්‍රධාන සංකල්ප උපුටා ගැනීම, ආදිය.

වර්ගීකරණය යනු දත්ත කැණීම් ක්ෂේත්‍රයේ සම්මත කාර්යයකි. එහි අරමුණ වන්නේ එක් එක් ලේඛනය සඳහා මෙම ලේඛනය අයත් වන පූර්ව නිශ්චිත කාණ්ඩ එකක් හෝ කිහිපයක් නිර්වචනය කිරීමයි. වර්ගීකරණ ගැටලුවේ ලක්ෂණයක් වන්නේ වර්ගීකරණය කරන ලද ලේඛන කට්ටලයේ "කසළ" අඩංගු නොවන බව උපකල්පනය කිරීමයි, එනම්, එක් එක් ලේඛන ලබා දී ඇති ප්රවර්ගයට අනුරූප වේ.

වර්ගීකරණ ගැටලුවේ විශේෂ අවස්ථාවක් වන්නේ ලේඛනයක විෂය නිර්ණය කිරීමේ ගැටලුවයි.

ලේඛන පොකුරු කිරීමේ පරමාර්ථය වන්නේ ලබා දී ඇති ස්ථාවර කට්ටලයක් අතර අර්ථාන්විතව සමාන ලේඛන කණ්ඩායම් ස්වයංක්‍රීයව හඳුනා ගැනීමයි. කණ්ඩායම් සෑදී ඇත්තේ ලේඛන විස්තරවල යුගල වශයෙන් සමානකම් මත පමණක් වන අතර මෙම කණ්ඩායම්වල කිසිදු ලක්ෂණයක් කල්තියා සඳහන් කර නොමැති බව සලකන්න.

ස්වයංක්‍රීය විවරණ (සාරාංශකරණය) ඔබට එහි අර්ථය පවත්වා ගනිමින් පෙළ කෙටි කිරීමට ඉඩ සලසයි. මෙම ගැටලුවට විසඳුම සාමාන්‍යයෙන් පරිශීලකයා විසින් පාලනය කරනු ලබන්නේ උකහා ගත යුතු වාක්‍ය ගණන හෝ සම්පූර්ණ පෙළට අදාළව උපුටා ගත් පෙළ ප්‍රතිශතය තීරණය කිරීමෙනි. එහි ප්‍රතිඵලය පෙළෙහි වඩාත්ම වැදගත් වාක්‍ය ඇතුළත් වේ.

විශේෂාංග නිස්සාරණයේ මූලික අරමුණ වන්නේ පාඨයේ ඇති කරුණු සහ සම්බන්ධතා හඳුනා ගැනීමයි. බොහෝ අවස්ථාවන්හීදී, මෙම සංකල්ප නාමපද සහ පොදු නාම පද වේ: පුද්ගලයන්ගේ මුල් සහ අවසාන නම්, සංවිධානවල නම්, ආදිය. සංකල්ප නිස්සාරණය ඇල්ගොරිතම වෙනත් අය නිර්වචනය කිරීමට සමහර පද සහ භාෂාමය රටා හඳුනා ගැනීමට ශබ්දකෝෂ භාවිතා කළ හැක.

Text-base navigation මඟින් පරිශීලකයින්ට මාතෘකා සහ අදාළ නියමයන් මත පදනම්ව ලේඛන සැරිසැරීමට ඉඩ සලසයි. මෙය සිදු කරනු ලබන්නේ ප්රධාන සංකල්ප සහ ඒවා අතර සමහර සම්බන්ධතා හඳුනා ගැනීමෙනි.

ප්‍රවණතා විශ්ලේෂණය මඟින් යම් කාල පරිච්ඡේදයක් තුළ ලේඛන කට්ටලවල ප්‍රවණතා හඳුනා ගැනීමට ඔබට ඉඩ සලසයි. උදාහරණයක් ලෙස, එක් වෙළඳපල කොටසක සිට තවත් සමාගමකට අවශ්‍ය වෙනස්කම් හඳුනා ගැනීමට ප්‍රවණතාවක් භාවිතා කළ හැකිය.

සංගම් සෙවීම ද දත්ත කැණීමේ ප්‍රධාන කාර්යයකි. එය විසඳීම සඳහා, දී ඇති ලේඛන කට්ටලයක් තුළ ප්‍රධාන සංකල්ප අතර ආශ්‍රිත සම්බන්ධතා හඳුනා ගැනේ.

ලැයිස්තුගත ගැටළු වල ප්‍රභේද විශාල ප්‍රමාණයක් මෙන්ම ඒවා විසඳීමේ ක්‍රම තිබේ. මෙය නැවත වරක් පාඨ විශ්ලේෂණයේ වැදගත්කම තහවුරු කරයි. මෙම පරිච්ඡේදයේ ඉතිරි කොටස පහත ගැටළු සඳහා විසඳුම් සාකච්ඡා කරයි: ප්‍රධාන සංකල්ප නිස්සාරණය, වර්ගීකරණය, පොකුරු කිරීම සහ ස්වයංක්‍රීය විවරණ.

පෙළ ලේඛන වර්ගීකරණය

පෙළ ලේඛන වර්ගීකරණය, මෙන්ම වස්තු වර්ගීකරණයේ දී, කලින් දැන සිටි එක් පංතියකට ලේඛනයක් පැවරීම සමන්විත වේ. බොහෝ විට පෙළ ලේඛන සම්බන්ධයෙන් වර්ගීකරණය වර්ගීකරණය හෝ rubrication ලෙස හැඳින්වේ. නිසැකවම, මෙම නම් පැමිණෙන්නේ ලේඛන නාමාවලි, කාණ්ඩ සහ ශීර්ෂයන් ලෙස ක්‍රමවත් කිරීමේ කාර්යයෙනි. මෙම අවස්ථාවෙහිදී, බහලුම ව්යුහය තනි මට්ටමේ හෝ බහු මට්ටමේ (ධූරාවලි) විය හැකිය.

විධිමත් ලෙස, පෙළ ලේඛන වර්ගීකරණය කිරීමේ කාර්යය කට්ටල කට්ටලයක් මගින් විස්තර කෙරේ.

වර්ගීකරණ ගැටලුවේදී, මෙම දත්ත මත පදනම්ව ක්‍රියා පටිපාටියක් ගොඩනැගීම අවශ්‍ය වේ, එය අධ්‍යයනයට ලක්වන ලේඛනය සඳහා C කට්ටලයෙන් වඩාත්ම සම්භාවිතා කාණ්ඩය සොයා ගැනීම සමන්විත වේ.

බොහෝ පෙළ වර්ගීකරණ ක්‍රම එක් ආකාරයකින් හෝ වෙනත් ආකාරයකින් එකම කාණ්ඩයට අයත් ලේඛනවල එකම විශේෂාංග (වචන හෝ වාක්‍ය ඛණ්ඩ) අඩංගු වේ යන උපකල්පනය මත පදනම් වූ අතර ලේඛනයක එවැනි විශේෂාංග තිබීම හෝ නොපැවතීම පෙන්නුම් කරන්නේ එය අයත් හෝ අයත් නොවන බවයි. විශේෂිත මාතෘකාවක්.

එවැනි විශේෂාංග සමූහයක් බොහෝ විට ශබ්දකෝෂයක් ලෙස හැඳින්වේ, මන්ද එය ප්‍රවර්ගය ගුනාංගීකරනය කරන වචන සහ/හෝ වාක්‍ය ඛණ්ඩ ඇතුළත් ලෙක්සීම් වලින් සමන්විත වේ.

මෙම විශේෂාංග කට්ටල දත්ත කැණීම්වල වස්තූන් වර්ගීකරණයෙන් පෙළ ලේඛන වර්ගීකරණයේ සුවිශේෂී ලක්ෂණයක් වන අතර ඒවා ගුණාංග සමූහයකින් සංලක්ෂිත වන බව සටහන් කළ යුතුය.

c කාණ්ඩයට ලේඛනය d පැවරීමට තීරණය කරනු ලබන්නේ පොදු ලක්ෂණවල ඡේදනය මතය

වර්ගීකරණ ක්‍රමවල කර්තව්‍යය වන්නේ එවැනි විශේෂාංග තෝරා ගැනීම සහ ලේඛනයක් කාණ්ඩයකට පැවරීම පිළිබඳ තීරණයක් ගන්නා පදනම මත රීති සැකසීමයි.

පෙළ තොරතුරු විශ්ලේෂණය සඳහා මෙවලම්

    ඔරකල් මෙවලම් - Oracle Text2

Oracle අනුවාදය 7.3.3 සමඟින් පටන්ගෙන, පෙළ විශ්ලේෂණ මෙවලම් Oracle නිෂ්පාදනවල අනිවාර්ය අංගයකි. Oracle හි, මෙම මෙවලම් සංවර්ධනය කර නව නමක් ලැබී ඇත - Oracle Text - ව්‍යුහාත්මක නොවන පෙළ සම්බන්ධ විමසුම් සමඟ ඵලදායී ලෙස ක්‍රියා කිරීමට ඔබට ඉඩ සලසන DBMS එකකට ඒකාබද්ධ කරන ලද මෘදුකාංග පැකේජයකි. මෙම අවස්ථාවෙහිදී, පෙළ සැකසීම සම්බන්ධක දත්ත සමුදායන් සමඟ වැඩ කිරීම සඳහා පරිශීලකයාට ලබා දී ඇති හැකියාවන් සමඟ සංයුක්ත වේ. විශේෂයෙන්, පෙළ සැකසුම් යෙදුම් ලිවීමේදී SQL භාවිතය හැකි වී ඇත.

Oracle Text මෙවලම් විසඳීමට ඉලක්ක කර ඇති ප්‍රධාන කාර්යය වන්නේ ඒවායේ අන්තර්ගතය අනුව ලේඛන සෙවීමේ කාර්යයයි - වචන හෝ වාක්‍ය ඛණ්ඩ මගින්, අවශ්‍ය නම්, බූලියන් මෙහෙයුම් භාවිතයෙන් ඒකාබද්ධ කෙරේ. සොයාගත් ලේඛනවල විමසුම් වචන ඇතිවීමේ වාර ගණන සැලකිල්ලට ගනිමින් සෙවුම් ප්‍රතිඵල වැදගත්කම අනුව ශ්‍රේණිගත කර ඇත.

    IBM වෙතින් මෙවලම් - Text1 සඳහා Intelligent Miner

IBM Intelligent Miner for Text product යනු ආරම්භ කරන ලද තනි උපයෝගිතා සමූහයකි විධාන රේඛාවහෝ එකිනෙකින් ස්වාධීනව ස්ක්‍රිප්ට් වලින්. පෙළ තොරතුරු විශ්ලේෂණයේ ගැටළු විසඳීම සඳහා පද්ධතියේ සමහර උපයෝගිතා එකතුවක් අඩංගු වේ.

IBM Intelligent Miner for Text ප්‍රධාන වශයෙන් තොරතුරු ලබා ගැනීමේ යාන්ත්‍රණයන් මත පදනම් වූ ප්‍රබල මෙවලම් කට්ටලයක් ඒකාබද්ධ කරයි, එය සමස්ත නිෂ්පාදනයේ විශේෂත්වයයි. මෙම පද්ධතිය Text Mining තාක්ෂණයෙන් ඔබ්බට ස්වාධීන වැදගත්කමක් ඇති මූලික සංරචක ගණනාවකින් සමන්විත වේ:

    SAS ආයතන මෙවලම් - Text Miner

ඇමරිකානු සමාගමක් වන SAS ආයතනය ලිඛිත කථාවේ ඇතැම් ව්‍යාකරණ සහ වාචික අනුපිළිවෙලවල් සංසන්දනය කිරීම සඳහා SAS Text Miner පද්ධතිය නිකුත් කර ඇත. ටෙක්ස්ට් මයිනර් ඉතා බහුකාර්ය වන්නේ එයට විවිධ ආකෘතිවල පෙළ ලේඛන සමඟ ක්‍රියා කළ හැකි බැවිනි - දත්ත සමුදායන්, ගොනු පද්ධති සහ තවදුරටත් වෙබයේ.

Text Miner SAS Enterprise Miner පරිසරය තුළ තාර්කික පෙළ සැකසුම් සපයයි. වයස, ආදායම් සහ පාරිභෝගික ඉල්ලුම් රටා වැනි පවතින ව්‍යුහගත දත්ත සමඟ ව්‍යුහගත නොවන පෙළ තොරතුරු ඒකාබද්ධ කිරීමෙන් දත්ත විශ්ලේෂණ ක්‍රියාවලිය පොහොසත් කිරීමට මෙය පරිශීලකයින්ට ඉඩ සලසයි.

ප්රධාන කරුණු

    පෙළ දැනුම සොයා ගැනීම යනු ව්‍යුහගත නොවූ පෙළ දත්තවල සැබවින්ම නව, ප්‍රයෝජනවත් විය හැකි සහ තේරුම්ගත හැකි රටා සොයා ගැනීමේ සුළු නොවන ක්‍රියාවලියකි.

    පෙළ ලේඛන විශ්ලේෂණය කිරීමේ ක්‍රියාවලිය පියවර කිහිපයක අනුපිළිවෙලක් ලෙස නිරූපණය කළ හැකිය: තොරතුරු සොයන්න, ලේඛන පූර්ව-සැකසුම් කිරීම, තොරතුරු නිස්සාරණය කිරීම, Text Mining ක්රම යෙදීම, ප්රතිඵල අර්ථ නිරූපණය කිරීම.

    පහත සඳහන් ශිල්පීය ක්‍රම සාමාන්‍යයෙන් තොරතුරු රහිත වචන ඉවත් කිරීමට සහ පෙළවල දැඩි බව වැඩි කිරීමට භාවිතා කරයි: නැවතුම් වචන ඉවත් කිරීම, කඳන් කිරීම, L-ග්‍රෑම්, සිද්ධි අඩු කිරීම.

    පෙළ තොරතුරු විශ්ලේෂණයේ කර්තව්‍ය වන්නේ: වර්ගීකරණය, පොකුරු කිරීම, ස්වයංක්‍රීය විවරණ, ප්‍රධාන සංකල්ප උපුටා ගැනීම, පෙළ සංචාලනය, ප්‍රවණතා විශ්ලේෂණය, සංගම් සඳහා සෙවීම යනාදිය.

    පෙළ වලින් ප්‍රධාන සංකල්ප උපුටා ගැනීම වෙනම ව්‍යවහාරික කාර්යයක් ලෙසත් පෙළ විශ්ලේෂණයේ වෙනම අදියරක් ලෙසත් සැලකිය හැකිය. අවසාන අවස්ථාවේ දී, විවිධ විශ්ලේෂණ ගැටළු විසඳීම සඳහා පෙළෙන් උපුටා ගත් කරුණු භාවිතා වේ.

    සැකිලි භාවිතයෙන් ප්‍රධාන සංකල්ප උකහා ගැනීමේ ක්‍රියාවලිය අදියර දෙකකින් සිදු කෙරේ: පළමුව, තනි පුද්ගල කරුණු ශබ්ද කෝෂ විශ්ලේෂණය භාවිතයෙන් පෙළ ලේඛන වලින් උපුටා ගනු ලැබේ, දෙවන අදියරේදී, උපුටා ගත් කරුණු ඒකාබද්ධ කිරීම සහ / හෝ නව කරුණු ව්‍යුත්පන්න කිරීම වේ. කරගෙන ගියා.

    බොහෝ පෙළ වර්ගීකරණ ක්‍රම එක් ආකාරයකින් හෝ වෙනත් ආකාරයකින් එකම කාණ්ඩයට අයත් ලේඛනවල එකම විශේෂාංග (වචන හෝ වාක්‍ය ඛණ්ඩ) අඩංගු වේ යන උපකල්පනය මත පදනම් වූ අතර ලේඛනයක එවැනි විශේෂාංග තිබීම හෝ නොපැවතීම පෙන්නුම් කරන්නේ එය අයත් හෝ අයත් නොවන බවයි. විශේෂිත මාතෘකාවක්.

    බොහෝ පොකුරු ඇල්ගොරිතම සඳහා දත්ත දෛශික අභ්‍යවකාශ ආකෘතියක නිරූපණය කිරීම අවශ්‍ය වේ, එය තොරතුරු ලබා ගැනීම සඳහා බහුලව භාවිතා වන අතර අවකාශීය සමීපත්වය ලෙස අර්ථකථන සමානකම් පිළිබිඹු කිරීමට රූපකයක් භාවිතා කරයි.

    පෙළ ලේඛන ස්වයංක්‍රීයව සටහන් කිරීමට ප්‍රධාන ප්‍රවේශයන් දෙකක් තිබේ: නිස්සාරණය (වඩාත් වැදගත් කොටස් තෝරා ගැනීම) සහ සාමාන්‍යකරණය (කලින් එකතු කරගත් දැනුම භාවිතා කිරීම).

නිගමනය

දත්ත කැණීම ව්‍යවහාරික ගණිතයේ වඩාත් අදාළ සහ ජනප්‍රිය ක්ෂේත්‍රවලින් එකකි. නවීන ව්‍යාපාර සහ නිෂ්පාදන ක්‍රියාවලීන් දැවැන්ත දත්ත ප්‍රමාණයක් ජනනය කරයි, තීරණාත්මක අවස්ථාවන් වලක්වා ගැනීමට තබා ධාවන කාලය මත ගතිකව වෙනස් වන විශාල දත්ත ප්‍රමාණයක් අර්ථ නිරූපණය කිරීම සහ ඒවාට ප්‍රතිචාර දැක්වීම මිනිසුන්ට වඩ වඩාත් දුෂ්කර කරයි. බහුමාන, විෂමජාතීය, අසම්පූර්ණ, සාවද්‍ය, පරස්පර විරෝධී, වක්‍ර දත්ත වලින් උපරිම ප්‍රයෝජනවත් දැනුම උකහා ගැනීම සඳහා "දත්ත කැණීම". දත්ත පරිමාව ගිගාබයිට් හෝ ටෙරාබයිට් වලින් මනිනු ලැබුවහොත් එය ඵලදායී ලෙස සිදු කිරීමට උපකාරී වේ. විවිධ වෘත්තීය ක්ෂේත්‍රවල තීරණ ගැනීමට ඉගෙන ගත හැකි ඇල්ගොරිතම ගොඩනැගීමට උපකාරී වේ.

දත්ත කැණීමේ මෙවලම්, නිවැරදි ක්‍රියාමාර්ග නියම වේලාවට ගත හැකි වන පරිදි ක්‍රියාකාරී දත්ත ක්‍රියාකාරී තොරතුරු බවට සැකසීමෙන් තොරතුරු අධි බරින් මිනිසුන් ආරක්ෂා කරයි.

ව්යවහාරික වර්ධනයන් පහත සඳහන් ක්ෂේත්රවල සිදු කරනු ලැබේ: ආර්ථික පද්ධතිවල අනාවැකි; නිෂ්පාදන, වෙළඳාම, විදුලි සංදේශ සහ අන්තර්ජාල සමාගම් සඳහා සේවාදායක පරිසරයන් අලෙවිකරණ පර්යේෂණ සහ විශ්ලේෂණය ස්වයංක්‍රීය කිරීම; ණය තීරණ ගැනීමේ ස්වයංක්‍රීයකරණය සහ ණය අවදානම් තක්සේරුව; මූල්ය වෙලඳපොලවල් නිරීක්ෂණය කිරීම; ස්වයංක්රීය වෙළඳ පද්ධති.

ග්‍රන්ථ නාමාවලිය

    "දත්ත විශ්ලේෂණ තාක්ෂණය: දත්ත කැණීම. දෘශ්ය පතල් කැණීම. Text Mining, OLAP" A. A. Barseghyan. M. S. Kupriyanov, V. V. Stenanenko, I. I. Kholod. - 2 වන සංස්කරණය, සංශෝධිත. සහ අතිරේක

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - අන්තර්ජාල ලිපිය

    http://www.piter.com/contents/978549807257/978549807257_p.pdf -දත්ත විශ්ලේෂණ තාක්ෂණය

    නිබන්ධනය >> බැංකුකරණය

    පොකුරු, වාචික භාවිතා කරන ණය ගැණුම්කරු විශ්ලේෂණය, ගැලපුම් සාධක, ආදිය ද... ණය ගැනුම්කරුගේ ණය සුදුසුකම් මත පදනම් වේ බුද්ධිමය විශ්ලේෂණයදත්ත කැණීම (සහ... ආරම්භක අදියරේදී විශ්ලේෂණයපවත්වන ලදී විශ්ලේෂණයතමන්ගේම අරමුදල් සහ...

  1. විශ්ලේෂණයසහ අභිමතය පරිදි ක්රියාත්මක කරන තොරතුරු පද්ධති නවීන වෙළඳපොළ වර්ගීකරණය, m

    වියුක්ත >> පරිගණක විද්‍යාව

    1.3 භූමිකාව අවකලනය 6 2. සංසන්දනාත්මක විශ්ලේෂණය විවිධ වර්ගපද්ධති 7 OS... පද්ධති, ඇතුළුව: විශ්ලේෂණයආරක්ෂක ප්‍රතිපත්ති සහ ඒවායේ ලක්ෂණ, ... යෙදුම් හෝ තවත් ක්‍රියාත්මක කිරීම බුද්ධිමය විශ්ලේෂණයදත්ත. ඊට අමතරව...

  2. බුද්ධිමත්පාසල් කාර්ය සාධනය සම්බන්ධයෙන් දක්ෂ දරුවන්ගේ හැකියාවන්

    නිබන්ධනය >> මනෝවිද්යාව

    අධ්‍යයන කාර්ය සාධනය සහ ලක්ෂණ අතර සම්බන්ධතාවය බුද්ධිමයවර්ධනය. න්‍යායාත්මක පදනමක් මත විශ්ලේෂණයපර්යේෂණ ගැටලුව වූයේ ... බුද්ධියෙන් තොරව ය විශ්ලේෂණයඑහි මනෝවිද්යාත්මක ව්යුහය. තක්සේරුව සඳහා තීරණාත්මක බුද්ධිමයහැකියාවන් යනු...

අපි ඔබව Data Mining ද්වාරය වෙත සාදරයෙන් පිළිගනිමු - නවීන දත්ත කැණීම් ක්‍රම සඳහා කැප වූ අද්විතීය ද්වාරයකි.

Data Mining Technologies යනු සැඟවුණු රටා හඳුනා ගැනීමට සහ අනාවැකි ආකෘති ගොඩනැගීමට නවීන ව්‍යාපාර විශ්ලේෂණ සහ දත්ත පර්යේෂණ සඳහා ප්‍රබල මෙවලමකි. දත්ත කැණීම හෝ දැනුම නිස්සාරණය පදනම් වන්නේ සමපේක්ෂන තර්ක මත නොව, සැබෑ දත්ත මතය.

සහල්. 1. දත්ත කැණීමේ යෙදුම් යෝජනා ක්‍රමය

ගැටළු නිර්වචනය - ගැටලුවේ ප්රකාශය: දත්ත වර්ගීකරණය, ඛණ්ඩනය, අනාවැකි ආකෘති ගොඩනැගීම, අනාවැකි.
දත්ත රැස් කිරීම සහ සකස් කිරීම - දත්ත එකතු කිරීම සහ සකස් කිරීම, පිරිසිදු කිරීම, සත්‍යාපනය, අනුපිටපත් වාර්තා ඉවත් කිරීම.
ආදර්ශ ගොඩනැඟිල්ල - ආදර්ශ ගොඩනැඟිල්ල, නිරවද්යතාව තක්සේරු කිරීම.
දැනුම යෙදවීම - දී ඇති ගැටළුවක් විසඳීම සඳහා ආකෘතියක් යෙදීම.

ව්‍යාපාර, අලෙවිකරණය, අන්තර්ජාලය, විදුලි සංදේශ, කර්මාන්ත, භූ විද්‍යාව, වෛද්‍ය විද්‍යාව, ඖෂධ සහ වෙනත් ක්ෂේත්‍රවල මහා පරිමාණ විශ්ලේෂණ ව්‍යාපෘති ක්‍රියාත්මක කිරීම සඳහා දත්ත කැණීම භාවිතා වේ.

නවීන රටා හඳුනාගැනීමේ ක්‍රම භාවිතා කරමින් අතිවිශාල දත්ත ප්‍රමාණයක් සෙවීමේ ප්‍රතිඵලයක් ලෙස සැලකිය යුතු සහසම්බන්ධතා සහ සම්බන්ධතා සෙවීමේ ක්‍රියාවලිය ආරම්භ කිරීමට Data Mining ඔබට ඉඩ සලසයි. අන් අය.

පළමු වරට දත්ත කැණීම් තාක්ෂණය සොයා ගන්නා පරිශීලකයෙකු විශාල දත්ත පරිමාවන් විශ්ලේෂණය හා සම්බන්ධ දුෂ්කර ගැටළු විසඳීම සඳහා ප්රවේශයන් සොයා ගැනීමට ඉඩ සලසන ක්රම සහ ඵලදායී ඇල්ගොරිතම බහුල වීම ගැන පුදුම වේ.

සාමාන්‍යයෙන්, දත්ත කැණීම විශාල දත්ත ප්‍රමාණයක් සෙවීමට නිර්මාණය කර ඇති තාක්‍ෂණයක් ලෙස සංලක්ෂිත කළ හැකිය. නොපැහැදිලි, අරමුණසහ ප්රායෝගිකව ප්රයෝජනවත්රටා.

දත්ත කැණීම පදනම් වේ ඵලදායී ක්රමසහ විශාල පරිමාවක් සහ මානයක ව්‍යුහගත නොවන දත්ත විශ්ලේෂණය කිරීමට නිර්මාණය කර ඇති ඇල්ගොරිතම.

ප්‍රධාන කරුණ නම් අධි පරිමා, අධිමාන දත්තවල ව්‍යුහය සහ සම්බන්ධතා නොමැති බව පෙනේ. දත්ත කැණීමේ තාක්‍ෂණයේ අරමුණ වන්නේ මෙම ව්‍යුහයන් හඳුනා ගැනීම සහ මුලින්ම බැලූ බැල්මට අවුල් සහ හිතුවක්කාරත්වය පාලනය වන රටා සොයා ගැනීමයි.

ඖෂධ සහ ඖෂධ කර්මාන්තයේ දත්ත කැණීම් භාවිතය පිළිබඳ වත්මන් උදාහරණයක් මෙහි දැක්වේ.

ඖෂධ අන්තර්ක්‍රියා යනු නවීන සෞඛ්‍ය සේවය මුහුණ දෙන වැඩෙන ගැටලුවකි.

කාලයාගේ ඇවෑමෙන්, නිර්දේශිත ඖෂධ ගණන (කවුන්ටරයෙන් සහ සියලු වර්ගවල අතිරේක) වැඩි වන අතර, වෛද්යවරුන් සහ රෝගීන් නොදන්නා බරපතල අතුරු ආබාධ ඇති කළ හැකි ඖෂධ-මත්ද්රව්ය අන්තර්ක්රියා ඇතිවීමට වැඩි ඉඩක් ඇත.

මෙම ප්‍රදේශය පශ්චාත් සායනික පර්යේෂණ සඳහා යොමු වේ, ඖෂධය දැනටමත් වෙළඳපොළට නිකුත් කර ඇති අතර දැඩි ලෙස භාවිතා කරනු ලැබේ.

සායනික අධ්‍යයනයන් ඖෂධයක කාර්යක්ෂමතාවය ඇගයීමට යොමු කරයි, නමුත් වෙළඳපොලේ ඇති අනෙකුත් ඖෂධ සමඟ ඖෂධයේ අන්තර්ක්‍රියා සැලකිල්ලට නොගනී.

කැලිෆෝනියාවේ ස්ටැන්ෆර්ඩ් විශ්ව විද්‍යාලයේ පර්යේෂකයන් විසින් FDA හි ඖෂධ අතුරු ආබාධ පිළිබඳ දත්ත ගබඩාව පරීක්‍ෂා කළ අතර බහුලව භාවිතා වන ඖෂධ දෙකක් - විෂාදනාශක paroxetine සහ කොලෙස්ටරෝල් අඩු කරන ඖෂධ pravastatin - එකට භාවිතා කළහොත් දියවැඩියාව වර්ධනය වීමේ අවදානම වැඩි කරන බව සොයා ගන්නා ලදී.

FDA දත්ත මත පදනම් වූ සමාන විශ්ලේෂණ අධ්‍යයනයක් කලින් නොදන්නා අහිතකර අන්තර්ක්‍රියා 47 ක් හඳුනාගෙන ඇත.

රෝගීන් විසින් සටහන් කරන ලද බොහෝ ඍණාත්මක බලපෑම් හඳුනා නොගෙන පවතින බවට අනතුරු ඇඟවීමත් සමඟ මෙය විශිෂ්ටයි. සබැඳි සෙවුම උපරිමයෙන් සිදු කළ හැක්කේ මෙම අවස්ථාවේදීය.

2020 දී StatSoft Data Analysis Academy හි ඉදිරියට එන Data Mining පාඨමාලා

අපි විස්මිත දත්ත විද්‍යා ඇකඩමියේ වීඩියෝ භාවිතයෙන් දත්ත කැණීම සඳහා අපගේ හැඳින්වීම ආරම්භ කරමු.

අපගේ වීඩියෝ නැරඹීමට වග බලා ගන්න, Data Mining යනු කුමක්දැයි ඔබට වැටහෙනු ඇත!

වීඩියෝ 1. Data Mining යනු කුමක්ද?


වීඩියෝ 2. දත්ත කැණීමේ ක්‍රම පිළිබඳ සමාලෝචනය: තීරණ ගස්, සාමාන්‍යකරණය කළ අනාවැකි ආකෘති, පොකුරු කිරීම සහ තවත් බොහෝ දේ

ඔබගේ බ්‍රවුසරයේ JavaScript අක්‍රිය කර ඇත


පර්යේෂණ ව්‍යාපෘතියක් ආරම්භ කිරීමට පෙර, අපි දත්ත ලබා ගැනීම සඳහා ක්‍රියාවලියක් සංවිධානය කළ යුතුය බාහිර මූලාශ්ර, දැන් අපි පෙන්වන්නම් මේක කරන්නේ කොහොමද කියලා.

වීඩියෝව ඔබව හඳුන්වා දෙනු ඇත අද්විතීය තාක්ෂණය STATISTICAස්ථානීය දත්ත සමුදාය සැකසීම සහ සැබෑ දත්ත සමඟ දත්ත කැණීම් සම්බන්ධ කිරීම.

වීඩියෝ 3. දත්ත සමුදායන් සමඟ අන්තර්ක්‍රියා කිරීමේ අනුපිළිවෙල: SQL විමසුම් ගොඩනැගීම සඳහා චිත්‍රක අතුරුමුහුණත, ස්ථානගත දත්ත සමුදා සැකසුම් තාක්ෂණය

ඔබගේ බ්‍රවුසරයේ JavaScript අක්‍රිය කර ඇත


ගවේෂණාත්මක දත්ත විශ්ලේෂණය සිදු කිරීමේදී ඵලදායී වන අන්තර්ක්‍රියාකාරී විදුම් තාක්ෂණයන් පිළිබඳව අපි දැන් දැන හඳුනා ගනිමු. විදුම් යන යෙදුමම දත්ත කැණීම් තාක්ෂණය සහ භූ විද්‍යාත්මක ගවේෂණය අතර සම්බන්ධය පිළිබිඹු කරයි.

වීඩියෝ 4: අන්තර්ක්‍රියාකාරී විදුම්: අන්තර්ක්‍රියාකාරී දත්ත ගවේෂණය සඳහා ගවේෂණ සහ ග්‍රැෆික් ශිල්පීය ක්‍රම

ඔබගේ බ්‍රවුසරයේ JavaScript අක්‍රිය කර ඇත


දැන් අපි ආශ්‍රිත විශ්ලේෂණය (සංගම් රීති) සමඟ දැන හඳුනා ගන්නෙමු, මෙම ඇල්ගොරිතම මඟින් සැබෑ දත්තවල පවතින සම්බන්ධතා සොයා ගැනීමට ඔබට ඉඩ සලසයි. ප්රධාන කරුණ වන්නේ විශාල දත්ත පරිමාවන් මත ඇල්ගොරිතම වල කාර්යක්ෂමතාවයි.

සම්බන්ධතා විශ්ලේෂණ ඇල්ගොරිතමවල ප්රතිඵලය, උදාහරණයක් ලෙස, Apriori ඇල්ගොරිතම, ලබා දී ඇති විශ්වසනීයත්වය සමඟ අධ්යයනය කරන වස්තූන් සඳහා සම්බන්ධතා රීති සොයා ගැනීම, උදාහරණයක් ලෙස, 80%.

භූ විද්‍යාවේදී, මෙම ඇල්ගොරිතම ඛනිජවල ගවේෂණ විශ්ලේෂණයේදී භාවිතා කළ හැක, උදාහරණයක් ලෙස A ලක්ෂණය B සහ C ලක්ෂණ වලට සම්බන්ධ වන්නේ කෙසේද යන්නයි.

ඔබට සොයා ගත හැක නිශ්චිත උදාහරණඅපගේ සබැඳි භාවිතයෙන් එවැනි විසඳුම්:

සිල්ලර වෙළඳාමේ දී, Apriori ඇල්ගොරිතම හෝ ඒවායේ වෙනස් කිරීම් විවිධ නිෂ්පාදන අතර සම්බන්ධතාවය අධ්‍යයනය කිරීමට ඉඩ සලසයි, නිදසුනක් ලෙස, සුවඳ විලවුන් (සුවඳ විලවුන් - නිය ආලේපන - මස්කාරා, ආදිය) හෝ විවිධ වෙළඳ නාමවල නිෂ්පාදන විකිණීමේදී.

වෙබ් අඩවියේ ඇති වඩාත්ම සිත්ගන්නා කොටස් විශ්ලේෂණය ද සංගම් නීති භාවිතයෙන් ඵලදායී ලෙස සිදු කළ හැකිය.

ඉතින් අපේ මීළඟ වීඩියෝව බලන්න.

වීඩියෝ 5. සංගමයේ නීති

ඔබගේ බ්‍රවුසරයේ JavaScript අක්‍රිය කර ඇත

විශේෂිත ප්‍රදේශවල දත්ත කැණීමේ යෙදීම් පිළිබඳ උදාහරණ මෙහි දැක්වේ.

මාර්ගගත වෙළඳාම:

  • වෙබ් අඩවියට පැමිණීමේ සිට භාණ්ඩ මිලදී ගැනීම දක්වා පාරිභෝගික ගමන් මාර්ග විශ්ලේෂණය කිරීම
  • සේවා කාර්යක්ෂමතාව තක්සේරු කිරීම, භාණ්ඩ නොමැතිකම හේතුවෙන් අසාර්ථකත්වය විශ්ලේෂණය කිරීම
  • අමුත්තන්ට සිත්ගන්නා නිෂ්පාදන සම්බන්ධ කිරීම

සිල්ලර වෙළඳාම: ක්‍රෙඩිට් කාඩ්පත්, වට්ටම් කාඩ්පත් ආදිය මත පදනම්ව පාරිභෝගික තොරතුරු විශ්ලේෂණය කිරීම.

දත්ත කැණීමේ මෙවලම් මගින් විසඳන සාමාන්‍ය සිල්ලර කාර්යයන්:

  • සාප්පු කරත්ත විශ්ලේෂණය;
  • අනාවැකි ආකෘති නිර්මාණයසහ ගැනුම්කරුවන් සහ මිලදී ගත් භාණ්ඩ වර්ගීකරණ ආකෘති;
  • පාරිභෝගික පැතිකඩ නිර්මාණය කිරීම;
  • CRM, විවිධ කාණ්ඩවල ගනුදෙනුකරුවන්ගේ පක්ෂපාතිත්වය තක්සේරු කිරීම, පක්ෂපාතී වැඩසටහන් සැලසුම් කිරීම;
  • කාල ශ්‍රේණි පර්යේෂණසහ කාල පරායත්තතා, සෘතුමය සාධක හඳුනාගැනීම, ඵලදායීතාවය තක්සේරු කිරීම උසස්වීම්සැබෑ දත්ත විශාල පරාසයක් මත.

විදුලි සංදේශ අංශය දත්ත කැණීම් ක්‍රම මෙන්ම නවීන විශාල දත්ත තාක්‍ෂණ භාවිතය සඳහා අසීමිත අවස්ථා විවෘත කරයි:

  • ඇමතුම්වල ප්රධාන ලක්ෂණ (සංඛ්යාත, කාලසීමාව, ආදිය), SMS සංඛ්යාතය මත පදනම්ව සේවාදායකයින් වර්ගීකරණය;
  • පාරිභෝගික පක්ෂපාතිත්වය හඳුනා ගැනීම;
  • වංචා අනාවරණය, ආදිය.

රක්ෂණ:

  • අවදානම් විශ්ලේෂණය. ගෙවුම් හිමිකම් සම්බන්ධ සාධකවල සංයෝජන හඳුනා ගැනීමෙන්, රක්ෂණකරුවන්ට ඔවුන්ගේ වගකීම් පාඩු අඩු කර ගත හැකිය. විවාහක අයගේ හිමිකම් මත ගෙවන මුදල තනිකඩ පුද්ගලයන්ගේ හිමිකම් මත ගෙවන මුදල මෙන් දෙගුණයක් වැඩි බව රක්ෂණ සමාගමක් සොයා ගත් අවස්ථාවක් තිබේ. සමාගම මෙයට ප්‍රතිචාර දැක්වූයේ පවුලේ පාරිභෝගිකයින් සඳහා වන වට්ටම් ප්‍රතිපත්තිය සංශෝධනය කිරීමෙනි.
  • වංචා අනාවරණය. නීතීඥයින්, වෛද්‍යවරුන් සහ හිමිකම් පාන්නන් අතර ඇති සබඳතාවයන් සංලක්ෂිත හිමිකම් පෑමේ ඇතැම් රටා සෙවීමෙන් රක්ෂණ සමාගම්වලට වංචා අවම කළ හැක.

දත්ත කැණීමේ සහ විශේෂිත ගැටළු විසඳීමේ ප්‍රායෝගික යෙදුම අපගේ ඊළඟ වීඩියෝවෙන් ඉදිරිපත් කෙරේ.

Webinar 1. Webinar "දත්ත කැණීමේ ප්‍රායෝගික කාර්යයන්: ගැටළු සහ විසඳුම්"

ඔබගේ බ්‍රවුසරයේ JavaScript අක්‍රිය කර ඇත

Webinar 2. Webinar "දත්ත කැණීම සහ පෙළ පතල් කැණීම: සැබෑ ගැටළු විසඳීමේ උදාහරණ"

ඔබගේ බ්‍රවුසරයේ JavaScript අක්‍රිය කර ඇත


ඔබට StatSoft පාඨමාලා වලදී දත්ත කැණීමේ ක්‍රමවේදය සහ තාක්ෂණය පිළිබඳ වඩාත් ගැඹුරු දැනුමක් ලබා ගත හැක.

Data Mining යනු කුමක්ද?

ඕනෑම නවීන ව්යවසායක ආයතනික දත්ත ගබඩාව සාමාන්යයෙන් යම් යම් කරුණු හෝ වස්තූන් පිළිබඳ වාර්තා ගබඩා කරන වගු කට්ටලයක් අඩංගු වේ (උදාහරණයක් ලෙස, භාණ්ඩ, ඔවුන්ගේ විකුණුම්, ගනුදෙනුකරුවන්, ගිණුම්). රීතියක් ලෙස, එවැනි වගුවක එක් එක් ප්රවේශය නිශ්චිත වස්තුවක් හෝ කරුණක් විස්තර කරයි. උදාහරණයක් ලෙස, විකුණුම් වගුවේ ඇතුළත් කිරීමකින් පිළිබිඹු වන්නේ එවැනි සහ එවැනි කළමනාකරුවෙකු විසින් එබඳු සහ එවැනි භාණ්ඩයක් එකල එවැනි සහ එවැනි සේවාදායකයෙකුට විකුණා ඇති අතර විශාල වශයෙන් මෙම තොරතුරු හැර වෙනත් කිසිවක් අඩංගු නොවන බවයි. කෙසේ වෙතත්, වසර ගණනාවක් පුරා රැස් කරන ලද එවැනි වාර්තා විශාල සංඛ්‍යාවක් එකතු කිරීම, එක් නිශ්චිත වාර්තාවක පදනම මත ලබා ගත නොහැකි අතිරේක, වඩා වටිනා තොරතුරු මූලාශ්‍රයක් බවට පත්විය හැකිය, එනම් රටා, ප්‍රවණතා හෝ අන්තර් රඳා පැවැත්ම පිළිබඳ තොරතුරු ඕනෑම දත්තයක්. එවැනි තොරතුරු සඳහා උදාහරණ වන්නේ යම් නිෂ්පාදනයක විකුණුම් සතියේ දිනය, දවසේ වේලාව හෝ වසරේ වේලාව මත රඳා පවතින ආකාරය පිළිබඳ තොරතුරු, පාරිභෝගිකයින් බොහෝ විට මෙම හෝ එම භාණ්ඩය මිලදී ගන්නා කාණ්ඩ, එක් නිශ්චිත නිෂ්පාදන මිලදී ගැනීමක ගැනුම්කරුවන්ගේ අනුපාතය තවත් නිශ්චිත නිෂ්පාදනයක්, කුමන කාණ්ඩයේ ගනුදෙනුකරුවන් බොහෝ විට නියමිත වේලාවට ලබා දී ඇති ණය ආපසු නොගෙවයි.

මෙවැනි තොරතුරු සාමාන්‍යයෙන් පුරෝකථනය, උපාය මාර්ගික සැලසුම්, අවදානම් විශ්ලේෂණය සඳහා භාවිතා වන අතර ව්‍යවසාය සඳහා එහි වටිනාකම ඉතා ඉහළ ය. පෙනෙන විදිහට, එය සෙවීමේ ක්‍රියාවලිය Data Mining ලෙස හැඳින්වූයේ එබැවිනි (ඉංග්‍රීසියෙන් පතල් කැණීම යනු "පතල්" යන්නයි, සහ විශාල සත්‍ය දත්ත සමූහයක රටා සෙවීම ඇත්ත වශයෙන්ම මෙයට සමාන වේ). Data Mining යන යෙදුම විවිධ ගණිතමය සහ සංඛ්‍යානමය ඇල්ගොරිතම හරහා සහසම්බන්ධතා, ප්‍රවණතා, සම්බන්ධතා සහ රටා සෙවීමේ ක්‍රියාවලිය තරම් නිශ්චිත තාක්‍ෂණයක් නොවේ: පොකුරු කිරීම, උප නියැදි නිර්මාණය කිරීම, ප්‍රතිගාමීත්වය සහ සහසම්බන්ධතා විශ්ලේෂණය. මෙම සෙවුමේ පරමාර්ථය වන්නේ ව්‍යාපාර ක්‍රියාවලීන් පැහැදිලිව පිළිබිඹු කරන ආකෘතියකින් දත්ත ඉදිරිපත් කිරීම සහ ව්‍යාපාර සැලසුම්කරණය සඳහා තීරණාත්මක ක්‍රියාවලීන් පුරෝකථනය කළ හැකි ආකෘතියක් ගොඩනැගීමයි (උදාහරණයක් ලෙස, ඇතැම් භාණ්ඩ හෝ සේවා සඳහා ඉල්ලුමේ ගතිකත්වය. හෝ ඇතැම් විට පාරිභෝගික ලක්ෂණ මත ඔවුන්ගේ අත්පත් කර ගැනීම රඳා පවතී).

සාම්ප්‍රදායික ගණිතමය සංඛ්‍යාලේඛන, දත්ත විශ්ලේෂණය සඳහා ප්‍රධාන මෙවලමක් ලෙස දිගු කලක් පැවතුන බව සලකන්න, අපි දැනටමත් කිහිප වතාවක්ම ලියා ඇති මාර්ගගත විශ්ලේෂණ සැකසුම් (OLAP) සඳහා මෙවලම් (අපගේ සීඩී තැටියේ මෙම මාතෘකාව පිළිබඳ ද්‍රව්‍ය බලන්න) , එවැනි ගැටළු විසඳීමට සෑම විටම සාර්ථකව භාවිතා කළ නොහැක. සාමාන්‍යයෙන්, සංඛ්‍යානමය ක්‍රම සහ OLAP පූර්ව-සූත්‍රගත උපකල්පන පරීක්ෂා කිරීමට භාවිතා කරයි. කෙසේ වෙතත්, දත්තවල ඇති සියලුම රටා බැලූ බැල්මට නොපැහැදිලි බැවින්, පසුකාලීන තීරණ ගැනීම සඳහා ව්‍යාපාර විශ්ලේෂණය ක්‍රියාත්මක කිරීමේදී වඩාත්ම දුෂ්කර කාර්යය බවට පත්වන්නේ බොහෝ විට උපකල්පනයක් සැකසීමයි.

පදනම නවීන තාක්ෂණයදත්ත කැණීම පදනම් වන්නේ දත්තවල උප නියැදිවල ආවේනික රටා පිළිබිඹු කරන රටා සංකල්පය මතය. මෙම උප නියැදි පිළිබඳ කිසිදු පූර්ව උපකල්පනයක් භාවිතා නොකරන ක්‍රම භාවිතයෙන් රටා සෙවීම සිදු කෙරේ. සංඛ්‍යානමය විශ්ලේෂණය හෝ OLAP සාමාන්‍යයෙන් “මෙම සේවාව සඳහා ගනුදෙනුකරුවන් අතර නොගෙවූ ඉන්වොයිසිවල සාමාන්‍ය සංඛ්‍යාව කොපමණද?” වැනි ප්‍රශ්න අසන අතර, Data Mining සාමාන්‍යයෙන් “නොගෙවන පාරිභෝගිකයන් වර්ගයක් තිබේද?” වැනි ප්‍රශ්නවලට පිළිතුරු සැපයීම ඇතුළත් වේ. ඒ අතරම, එය බොහෝ විට අලෙවිකරණ ප්‍රතිපත්තියට සහ ගනුදෙනුකරුවන් සමඟ වැඩ සංවිධානය කිරීමට වඩා සුළු නොවන ප්‍රවේශයක් සපයන දෙවන ප්‍රශ්නයට පිළිතුරයි.

දත්ත කැණීමේ වැදගත් ලක්ෂණයක් වන්නේ සොයන රටා වල සම්මත නොවන සහ පැහැදිලි නොවන ස්වභාවයයි. වෙනත් වචන වලින් කිවහොත්, දත්ත කැණීම් මෙවලම් සංඛ්‍යාන දත්ත සැකසුම් මෙවලම් සහ OLAP මෙවලම් වලින් වෙනස් වන්නේ පරිශීලකයන් විසින් පූර්ව උපකල්පනය කරන ලද අන්තර් පරායත්තතා පරීක්ෂා කිරීම වෙනුවට, පවතින දත්ත මත පදනම්ව ස්වාධීනව එවැනි අන්තර් යැපීම් සොයා ගැනීමට සහ ඒවායේ ස්වභාවය පිළිබඳ උපකල්පන ගොඩනැගීමට ඔවුන්ට හැකි වේ.

දත්ත කැණීමේ මෙවලම් භාවිතය සංඛ්‍යානමය මෙවලම් සහ OLAP මෙවලම් භාවිතය බැහැර නොකරන බව සටහන් කළ යුතුය, මන්ද යත්, දෙවැන්න භාවිතා කරමින් දත්ත සැකසීමේ ප්‍රති results ල, රීතියක් ලෙස, රටා වල ස්වභාවය පිළිබඳ වඩා හොඳ අවබෝධයක් ලබා ගැනීමට දායක වන බැවිනි. සෙවිය යුතුය.

දත්ත කැණීම සඳහා මූලාශ්ර දත්ත

නිවැරදිව නිර්මාණය කරන ලද දත්ත ගබඩාවක ඉතා මැනවින් අඩංගු දත්ත ප්‍රමාණවත් තරම් විශාල ප්‍රමාණයක් තිබේ නම් දත්ත කැණීම භාවිතා කිරීම යුක්ති සහගත වේ (ඇත්ත වශයෙන්ම, දත්ත ගබඩාවන් සාමාන්‍යයෙන් නිර්මාණය කර ඇත්තේ තීරණ සහාය හා සම්බන්ධ විශ්ලේෂණයන් සහ පුරෝකථනය කිරීමේ ගැටළු විසඳීම සඳහා ය). දත්ත ගබඩා ගොඩනැගීමේ මූලධර්ම ගැන අපි නැවත නැවතත් ලියා ඇත; අදාළ ද්‍රව්‍ය අපගේ සීඩී තැටියෙන් සොයාගත හැකි බැවින් අපි මෙම ගැටලුව ගැන කතා නොකරමු. ගබඩාවේ ඇති දත්ත නැවත පිරවූ කට්ටලයක් වන අතර එය සමස්ත ව්‍යවසාය සඳහාම පොදු වන අතර ඕනෑම වේලාවක එහි ක්‍රියාකාරකම් පිළිබඳ පින්තූරයක් ප්‍රතිසාධනය කිරීමට කෙනෙකුට ඉඩ සලසන බව පමණක් අපි සිහිපත් කරමු. ගබඩා දත්ත ව්‍යුහය සැලසුම් කර ඇත්තේ ඒ සඳහා වන විමසුම් හැකිතාක් කාර්යක්ෂමව සිදු කෙරෙන ආකාරයට බව සලකන්න. කෙසේ වෙතත්, දත්ත ගබඩාවල පමණක් නොව, OLAP කැටවල, එනම් පෙර සැකසූ සංඛ්‍යාන දත්ත කට්ටලවල රටා, සහසම්බන්ධතා සහ ප්‍රවණතා සෙවිය හැකි Data Mining මෙවලම් තිබේ.

Data Mining ක්‍රම මගින් හදුනාගත් රටා වර්ග

V.A. Duke ට අනුව, දත්ත කැණීමේ ක්‍රම මගින් හඳුනාගත් සම්මත රටා වර්ග පහක් ඇත:

සංගමය - සිදුවීම් එකිනෙක සම්බන්ධ වීමේ ඉහළ සම්භාවිතාවක් (උදාහරණයක් ලෙස, එක් නිෂ්පාදනයක් බොහෝ විට තවත් භාණ්ඩයක් සමඟ මිලදී ගනු ලැබේ);

අනුපිළිවෙල - කාලයට අදාළ සිදුවීම් දාමයක ඉහළ සම්භාවිතාවක් (උදාහරණයක් ලෙස, එක් නිෂ්පාදනයක් මිලදී ගැනීමෙන් පසු යම් කාල සීමාවක් තුළ, තවත් ඉහළ සම්භාවිතාවකින් මිලදී ගනු ලැබේ);

වර්ගීකරණය - මෙම හෝ එම සිද්ධිය හෝ වස්තුව අයත් වන කණ්ඩායම ගුනාංගීකරනය කරන සංඥා ඇත (සාමාන්යයෙන්, දැනටමත් වර්ගීකරණය කර ඇති සිදුවීම් විශ්ලේෂණය මත පදනම්ව, ඇතැම් නීති සකස් කර ඇත);

Clustering යනු වර්ගීකරණයට සමාන රටාවක් වන අතර කණ්ඩායම් තමන් විසින්ම නිශ්චිතව දක්වා නොමැති බැවින් එයින් වෙනස් වේ - දත්ත සැකසීමේදී ඒවා ස්වයංක්‍රීයව හඳුනා ගැනේ;

තාවකාලික රටා - පුරෝකථනය සඳහා භාවිතා කරන ඇතැම් දත්තවල හැසිරීම් වල ගතිකත්වයේ රටා පැවතීම (සාමාන්‍ය උදාහරණයක් වන්නේ ඇතැම් භාණ්ඩ හෝ සේවා සඳහා ඉල්ලුමේ සෘතුමය උච්චාවචනයන් වේ).

දත්ත කැණීමේ ක්රම

අද වන විට විවිධ දත්ත කැණීම් ක්‍රම විශාල ප්‍රමාණයක් ඇත. V.A. ඩියුක් විසින් යෝජනා කරන ලද ඉහත වර්ගීකරණය මත පදනම්ව, ඒවා අතර අපට වෙන්කර හඳුනාගත හැකිය:

ප්‍රතිගාමීත්වය, විචලනය සහ සහසම්බන්ධතා විශ්ලේෂණය (බොහෝ නවීන සංඛ්‍යාන පැකේජවල, විශේෂයෙන් SAS ආයතනයේ නිෂ්පාදන, StatSoft, ආදියෙහි ක්‍රියාත්මක කර ඇත);

ආනුභවික ආකෘතීන් මත පදනම්ව නිශ්චිත විෂය ක්ෂේත්‍රයක විශ්ලේෂණ ක්‍රම (නිදසුනක් වශයෙන්, මිල අඩු මූල්‍ය විශ්ලේෂණ මෙවලම්වල බොහෝ විට භාවිතා වේ);

ස්නායුක ජාල ඇල්ගොරිතම, එය පදනම් වී ඇත්තේ ස්නායු පටක වල ක්‍රියාකාරීත්වය හා ප්‍රතිසමයක් මත වන අතර ආරම්භක පරාමිතීන් "නියුරෝන" අතර පවතින සම්බන්ධතා වලට අනුකූලව පරිවර්තනය වන සංඥා ලෙස සලකනු ලැබේ. විශ්ලේෂණ දත්ත වලින් ලැබෙන ප්‍රතිචාරය ලෙස සැලකෙන්නේ මුලික ජාලයට සමස්ත ජාලයේ ප්‍රතිචාරයයි. මෙම අවස්ථාවෙහිදී, ආරම්භක දත්ත සහ නිවැරදි පිළිතුරු යන දෙකම අඩංගු විශාල නියැදි ප්‍රමාණයක් හරහා ඊනියා ජාල පුහුණුව භාවිතයෙන් සම්බන්ධතා නිර්මාණය වේ;

ඇල්ගොරිතම - පවතින ඓතිහාසික දත්ත වලින් මුල් දත්තවල සමීප ප්‍රතිසමයක් තෝරාගැනීම. "ළඟම අසල්වැසි" ක්රමය ලෙසද හැඳින්වේ;

තීරණ ගස් යනු "ඔව්" හෝ "නැත" පිළිතුරක් අවශ්‍ය වන ප්‍රශ්න මාලාවක් මත පදනම් වූ ධූරාවලි ව්‍යුහයකි; කෙසේ වෙතත් මෙම ක්රමයදත්ත සැකසීම සැමවිටම පවතින රටා පරිපූර්ණ ලෙස සොයා නොගනී; ලැබුණු ප්‍රතිචාරයේ පැහැදිලිකම හේතුවෙන් එය බොහෝ විට පුරෝකථන පද්ධතිවල භාවිතා වේ;

දත්ත කට්ටලයක ක්ෂේත්‍ර කිහිපයක සමාන අගයන් මත පදනම්ව සමාන සිදුවීම් සමූහගත කිරීමට පොකුරු ආකෘති (සමහර විට ඛණ්ඩන ආකෘති ලෙසද හැඳින්වේ) භාවිතා කරයි; අනාවැකි පද්ධති නිර්මාණය කිරීමේදී ද ඉතා ජනප්රියයි;

දත්ත උප කාණ්ඩවල සරල තාර්කික සිදුවීම්වල සංයෝජනවල සංඛ්‍යාත ගණනය කරන සීමිත සෙවුම් ඇල්ගොරිතම;

පරිණාමීය ක්‍රමලේඛනය - සෙවුම් ක්‍රියාවලියේදී වෙනස් කරන ලද මුලින් සඳහන් කරන ලද ඇල්ගොරිතමයක් මත පදනම්ව දත්තවල අන්තර් රඳා පැවැත්ම ප්‍රකාශ කරන ඇල්ගොරිතමයක් සෙවීම සහ උත්පාදනය කිරීම; සමහර විට අන්තර් පරායත්තතා සෙවීම ඇතැම් වර්ගවල කාර්යයන් අතර සිදු කෙරේ (උදාහරණයක් ලෙස, බහුපද).

2001 දී පීටර් ප්‍රකාශන ආයතනය විසින් ප්‍රකාශයට පත් කරන ලද V.A. Duke සහ A.P. Samoilenko විසින් මෙම සහ අනෙකුත් දත්ත කැණීම් ඇල්ගොරිතම මෙන්ම ඒවා ක්‍රියාත්මක කරන මෙවලම් පිළිබඳ වැඩි විස්තර “Data Mining: Training Course” පොතෙන් කියවිය හැකිය. අද මෙය මෙම ගැටලුව සඳහා කැප වූ රුසියානු පොත් කිහිපයෙන් එකකි.

Data Mining මෙවලම්වල ප්‍රමුඛතම නිෂ්පාදකයින්

බොහෝ ව්‍යාපාරික බුද්ධි මෙවලම් වැනි දත්ත කැණීමේ මෙවලම් සම්ප්‍රදායිකව මිල අධික මෘදුකාංග මෙවලම් වේ - සමහර ඒවා ඩොලර් දස දහස් ගණනක් දක්වා වැය වේ. එබැවින් මෑතක් වන තුරුම මෙම තාක්ෂණයේ ප්‍රධාන පාරිභෝගිකයින් වූයේ බැංකු, මූල්‍ය සහ රක්ෂණ සමාගම්, විශාල වෙළඳ ව්‍යවසායන් වන අතර දත්ත කැණීම් භාවිතා කිරීම අවශ්‍ය ප්‍රධාන කාර්යයන් ණය සහ රක්ෂණ අවදානම් තක්සේරු කිරීම සහ අලෙවිකරණ ප්‍රතිපත්ති සංවර්ධනය කිරීම ලෙස සැලකේ. , තීරුබදු සැලසුම්සහ ගනුදෙනුකරුවන් සමඟ වැඩ කිරීමේ වෙනත් මූලධර්ම. මෑත වසරවලදී, තත්වය යම් යම් වෙනස්කම් වලට භාජනය වී ඇත: නිෂ්පාදකයින් කිහිප දෙනෙකුගෙන් සාපේක්ෂව මිල අඩු දත්ත කැණීමේ මෙවලම් මෘදුකාංග වෙළඳපොලේ දර්ශනය වී ඇති අතර එමඟින් මෙම තාක්‍ෂණය කලින් නොසිතූ කුඩා හා මධ්‍යම ප්‍රමාණයේ ව්‍යාපාර සඳහා ප්‍රවේශ විය හැකිය.

දක්වා නවීන ක්රමව්‍යාපාර බුද්ධියට වාර්තා උත්පාදක යන්ත්‍ර, විශ්ලේෂණාත්මක දත්ත සැකසුම් මෙවලම්, BI විසඳුම් සංවර්ධන මෙවලම් (BI Platforms) සහ ඊනියා ව්‍යවසාය BI Suites - ව්‍යවසාය පරිමාණ දත්ත විශ්ලේෂණය සහ දත්ත විශ්ලේෂණයට අදාළ ක්‍රියා මාලාවක් සිදු කිරීමට ඔබට ඉඩ සලසන සැකසුම් මෙවලම් ඇතුළත් වේ. සහ වාර්තා නිර්මාණය, සහ බොහෝ විට ඒකාබද්ධ BI මෙවලම් කට්ටලයක් සහ BI යෙදුම් සංවර්ධන මෙවලම් ඇතුළත් වේ. දෙවැන්න, රීතියක් ලෙස, වාර්තා කිරීමේ මෙවලම්, OLAP මෙවලම් සහ බොහෝ විට දත්ත කැණීමේ මෙවලම් අඩංගු වේ.

ගාට්නර් සමූහ විශ්ලේෂකයින්ට අනුව, ව්‍යවසාය පරිමාණයේ දත්ත විශ්ලේෂණය සහ සැකසුම් මෙවලම් සඳහා වෙළඳපොලේ ප්‍රමුඛයන් වන්නේ ව්‍යාපාර වස්තූන්, කොග්නෝස්, තොරතුරු සාදන්නන් වන අතර මයික්‍රොසොෆ්ට් සහ ඔරකල් ද නායකත්වයට හිමිකම් කියයි (රූපය 1). BI විසඳුම් සඳහා වන සංවර්ධන මෙවලම් සඳහා, මෙම ප්‍රදේශයේ නායකත්වය සඳහා ප්‍රධාන තරඟකරුවන් වන්නේ Microsoft සහ SAS ආයතනයයි (රූපය 2).

මයික්‍රොසොෆ්ට් හි ව්‍යාපාර බුද්ධි මෙවලම් පුළුල් පරාසයක සමාගම් සඳහා ලබා ගත හැකි සාපේක්ෂව මිල අඩු නිෂ්පාදන බව සලකන්න. මෙම ලිපියේ ඊළඟ කොටස්වල මෙම සමාගමේ නිෂ්පාදනවල උදාහරණය භාවිතා කරමින් Data Mining භාවිතා කිරීමේ ප්‍රායෝගික පැති කිහිපයක් අපි බැලීමට යන්නේ එබැවිනි.

සාහිත්යය:

1. ඩියුක් වී.ඒ. දත්ත කැණීම - දත්ත කැණීම. - http://www.olap.ru/basic/dm2.asp.

2. ඩියුක් වී.ඒ., සැමොයිලෙන්කෝ ඒ.පී. දත්ත කැණීම්: පුහුණු පාඨමාලාව. - ශාන්ත පීටර්ස්බර්ග්: පීටර්, 2001.

3. බී ඩි විල්. Microsoft Data Mining. ඩිජිටල් මුද්‍රණාලය, 2001.

OLAP පද්ධති දත්ත විශ්ලේෂණය කිරීමේදී උපකල්පන පරීක්ෂා කිරීමේ මාධ්‍යයක් විශ්ලේෂකයාට සපයයි, එනම් විශ්ලේෂකයාගේ ප්‍රධාන කාර්යය වන්නේ ඔහුගේ දැනුම සහ අත්දැකීම් මත පදනම්ව ඔහු විසඳන උපකල්පන උත්පාදනය කිරීමයි, කෙසේ වෙතත්, පුද්ගලයෙකුට දැනුමක් පමණක් නොව, ද ඇත. විශ්ලේෂණය කරන ලද සමුච්චිත දත්ත. එවැනි දැනුම පුද්ගලයෙකුට තනිවම පර්යේෂණ කළ නොහැකි තොරතුරු විශාල ප්‍රමාණයක අඩංගු වේ. මේ නිසා, සැලකිය යුතු ප්රතිලාභ ලබා දිය හැකි උපකල්පන අතුරුදහන් වීමේ අවදානමක් පවතී.

"සැඟවුණු" දැනුම හඳුනා ගැනීම සඳහා, ස්වයංක්රීය විශ්ලේෂණයේ විශේෂ ක්රම භාවිතා කරනු ලබන අතර, තොරතුරු "අවහිර කිරීම්" වලින් ප්රායෝගිකව දැනුම ලබා ගැනීමට අවශ්ය වන උපකාරය ඇත. "දත්ත කැණීම" හෝ "දත්ත කැණීම" යන යෙදුම මෙම ප්‍රදේශයට පවරා ඇත.

DataMining සඳහා එකිනෙකට අනුපූරක වන බොහෝ නිර්වචන තිබේ. මෙන්න ඒවායින් කිහිපයක්.

දත්ත කැණීම යනු දත්ත සමුදායන්හි සුළු නොවන සහ ප්‍රායෝගිකව ප්‍රයෝජනවත් රටා සොයා ගැනීමේ ක්‍රියාවලියයි. (මූලික කණ්ඩායම)

දත්ත කැණීම යනු ව්‍යාපාරික වාසි ලබා ගැනීම සඳහා පෙර නොදන්නා රටා (රටා) සොයා ගැනීම සඳහා විශාල දත්ත ප්‍රමාණයක් උපුටා ගැනීම, ගවේෂණය කිරීම සහ ආකෘති නිර්මාණය කිරීමේ ක්‍රියාවලියයි (SAS ආයතනය)

දත්ත කැණීම යනු රටා හඳුනාගැනීමේ ශිල්පීය ක්‍රම සහ සංඛ්‍යානමය සහ ගණිතමය ශිල්පීය ක්‍රම (GartnerGroup) භාවිතා කරමින් ගබඩා කර ඇති දත්ත විශාල ප්‍රමාණයක් හරහා පෙරීමෙන් නව සැලකිය යුතු සහසම්බන්ධතා, රටා සහ ප්‍රවණතා සොයා ගැනීම අරමුණු කරගත් ක්‍රියාවලියකි.

දත්ත කැණීම යනු අමු දත්තවල සැඟවුණු දැනුම පිළිබඳ "යන්ත්‍රයක්" (ඇල්ගොරිතම, කෘතිම බුද්ධි මෙවලම්) මගින් පර්යේෂණ සහ සොයා ගැනීමයි.කලින් නොදන්නා, සුළු නොවන, ප්‍රායෝගිකව ප්‍රයෝජනවත්, අර්ථ නිරූපණය සඳහා ප්‍රවේශ විය හැකි ඒවා වියමිනිසා විසින් tions. (A. Bargesyan "දත්ත විශ්ලේෂණ තාක්ෂණය")

DataMining යනු ව්‍යාපාර පිළිබඳ ප්‍රයෝජනවත් දැනුම සොයා ගැනීමේ ක්‍රියාවලියයි. (N.M. Abdikeev "KBA")

සොයාගත් දැනුමේ ගුණාංග

සොයාගත් දැනුමේ ගුණාංග සලකා බලමු.

  • දැනුම නව, කලින් නොදන්නා විය යුතුය. පරිශීලකයා දැනටමත් දන්නා දැනුම සොයා ගැනීම සඳහා වැය කරන උත්සාහය පල නොදරයි. එබැවින්, එය වටින්නේ නව, කලින් නොදන්නා දැනුමයි.
  • දැනුම සුළුපටු නොවිය යුතුය. විශ්ලේෂණයේ ප්රතිඵල පැහැදිලි නොවන, අනපේක්ෂිත ලෙස පිළිබිඹු විය යුතුයඊනියා සැඟවුණු දැනුම සෑදෙන දත්තවල රටා. තවත් ලබා ගත හැකිව තිබූ ප්‍රතිඵල සරල ක්රම වලින්(උදාහරණයක් ලෙස, දෘශ්‍ය පරීක්‍ෂණය) බලගතු DataMining ක්‍රම භාවිතය සාධාරණීකරණය නොකරන්න.
  • දැනුම ප්‍රායෝගිකව ප්‍රයෝජනවත් විය යුතුය. සොයාගත් දැනුම ප්‍රමාණවත් තරම් ඉහළ විශ්වසනීයත්වයක් සහිත නව දත්ත ඇතුළුව අදාළ විය යුතුය. ප්‍රයෝජනය පවතින්නේ මෙම දැනුම යෙදූ විට යම් යම් ප්‍රතිලාභ ගෙන දිය හැකි බැවිනි.
  • දැනුම මිනිස් අවබෝධයට ප්‍රවේශ විය යුතුය. සොයාගත් රටා තාර්කිකව පැහැදිලි කළ හැකි විය යුතුය, එසේ නොමැතිනම් ඒවා අහඹු වීමට ඉඩ ඇත. මීට අමතරව, සොයාගත් දැනුම මිනිසුන්ට තේරුම් ගත හැකි ආකාරයෙන් ඉදිරිපත් කළ යුතුය.

DataMining වලදී, ලබාගත් දැනුම නියෝජනය කිරීමට ආකෘති භාවිතා වේ. ආකෘති වර්ග ඒවා නිර්මාණය කිරීමට භාවිතා කරන ක්රම මත රඳා පවතී. වඩාත් සුලභ වන්නේ: රීති, තීරණ ගස්, පොකුරු සහ ගණිතමය කාර්යයන්.

DataMining කාර්යයන්

DataMining තාක්‍ෂණය පදනම් වී ඇත්තේ රටාවන් වන සැකිලි සංකල්පය මත බව අපි සිහිපත් කරමු. පියවි ඇසින් සැඟවී ඇති මෙම රටා සොයාගැනීමේ ප්‍රතිඵලයක් ලෙස DataMining ගැටළු නිරාකරණය වේ. මිනිසාට කියවිය හැකි ආකාරයෙන් ප්‍රකාශ කළ හැකි විවිධ වර්ගයේ රටා විශේෂිත DataMining කාර්යයන්ට අනුරූප වේ.

DataMining ලෙස වර්ගීකරණය කළ යුතු කාර්යයන් පිළිබඳ සම්මුතියක් නොමැත. බොහෝ බලයලත් මූලාශ්‍ර පහත ලැයිස්තුගත කරයි: වර්ගීකරණය,

පොකුරු කිරීම, පුරෝකථනය, ආශ්‍රය, දෘශ්‍යකරණය, විශ්ලේෂණය සහ සොයාගැනීම

අපගමනය, තක්සේරු කිරීම, සම්බන්ධතා විශ්ලේෂණය, සාරාංශ කිරීම.

පහත විස්තරයේ අරමුණ වන්නේ DataMining ගැටළු පිළිබඳ සාමාන්‍ය අදහසක් ලබා දීම, ඒවායින් සමහරක් සංසන්දනය කිරීම සහ මෙම ගැටළු විසඳන ක්‍රම කිහිපයක් ඉදිරිපත් කිරීමයි. වඩාත් සුලභ දත්ත කැණීම් කාර්යයන් වන්නේ වර්ගීකරණය, පොකුරු කිරීම, ආශ්‍රය, පුරෝකථනය සහ දෘශ්‍යකරණයයි. මේ අනුව, නිෂ්පාදනය කරන ලද තොරතුරු වර්ගය අනුව කාර්යයන් බෙදා ඇත, මෙය DataMining කාර්යයන්හි වඩාත් පොදු වර්ගීකරණයයි.

වර්ගීකරණය

වස්තු හෝ නිරීක්ෂණ සමූහයක් පෙරෝරියකට බෙදීමේ ගැටලුව නිශ්චිත කණ්ඩායම්, පන්ති ලෙස හැඳින්වේ, ඒ සෑම එකක් තුළම ඒවා එකිනෙකට සමාන යැයි උපකල්පනය කරනු ලැබේ, ආසන්න වශයෙන් එකම ගුණාංග සහ ලක්ෂණ ඇත. මෙම අවස්ථාවේ දී, විසඳුම මත පදනම්ව ලබා ගනීවිශ්ලේෂණය ගුණාංගවල අගයන් (විශේෂාංග).

වර්ගීකරණය වඩාත් වැදගත් කාර්යයන්ගෙන් එකකි DataMining . එය භාවිතා වේඅලෙවි ණය ගැතියන්ගේ ණය සුදුසුකම් තක්සේරු කිරීමේදී, තීරණය කිරීමපාරිභෝගික පක්ෂපාතින්වය, රටා හඳුනාගැනීම , වෛද්ය රෝග විනිශ්චය සහ වෙනත් බොහෝ යෙදුම්. විශ්ලේෂකයා එක් එක් පන්තියේ වස්තූන්ගේ ගුණාංග දන්නේ නම්, නව නිරීක්‍ෂණයක් යම් පන්තියකට අයත් වූ විට, මෙම ගුණාංග ස්වයංක්‍රීයව එයට දිගු වේ.

පන්ති ගණන දෙකකට සීමා වන්නේ නම්, එසේ නම්ද්විමය වර්ගීකරණය , තවත් බොහෝ සංකීර්ණ ගැටළු අඩු කළ හැකිය. උදාහරණයක් ලෙස, “ඉහළ”, “මධ්‍යම” හෝ “පහළ” වැනි ණය අවදානම් මට්ටම් නිර්වචනය කරනවා වෙනුවට, ඔබට භාවිතා කළ හැක්කේ දෙකක් පමණි - “නිකුත් කිරීම” හෝ “ප්‍රතික්ෂේප කිරීම”.

DataMining වර්ගීකරණය සඳහා විවිධ මාදිලි භාවිතා කරයි:ස්නායු ජාල, තීරණ ගස් , ආධාරක දෛශික යන්ත්‍ර, k-ළඟම අසල්වැසි ක්‍රමය, ආවරණ ඇල්ගොරිතම යනාදිය ඉදිකිරීමේදී අධීක්ෂණය කරන ලද ඉගෙනීම භාවිතා කරන විටප්රතිදාන විචල්යය(පන්ති ලේබලය ) එක් එක් නිරීක්ෂණය සඳහා නිශ්චිතව දක්වා ඇත. විධිමත් ලෙස, බෙදීම මත පදනම්ව වර්ගීකරණය සිදු කෙරේවිශේෂාංග අවකාශයන් ප්‍රදේශ වලට, ඒ එක් එක් ඇතුළතබහුමාන දෛශික සමාන ලෙස සලකනු ලැබේ. වෙනත් වචන වලින් කිවහොත්, කිසියම් පන්තියකට සම්බන්ධ අවකාශයේ කලාපයකට වස්තුවක් වැටෙන්නේ නම්, එය එයට අයත් වේ.

පොකුරු කිරීම

කෙටි විස්තරය. පොකුරු කිරීම යනු අදහසෙහි තාර්කික අඛණ්ඩ පැවැත්මකි

වර්ගීකරණයන්. මෙය වඩාත් සංකීර්ණ කාර්යයකි; පොකුරු කිරීමෙහි විශේෂත්වය වන්නේ වස්තු පන්ති මුලින් පූර්ව නිර්වචනය කර නොතිබීමයි. පොකුරු සෑදීමේ ප්‍රතිඵලය වන්නේ වස්තූන් කණ්ඩායම් වලට බෙදීමයි.

පොකුරු ගැටළුවක් විසඳීම සඳහා ක්‍රමයක උදාහරණයක්: විශේෂ ස්නායු ජාලයක “අධීක්ෂණය නොකළ” පුහුණුව - ස්වයං-සංවිධානය වන කොහොනෙන් සිතියම්.

සංගම්

කෙටි විස්තරය. සංගම් රීති සෙවීමේ ගැටලුව විසඳන විට, දත්ත කට්ටලයක අදාළ සිදුවීම් අතර රටා දක්නට ලැබේ.

ආශ්‍රය සහ පෙර පැවති DataMining කර්තව්‍ය දෙක අතර වෙනස: රටා සෙවීම සිදු කරනු ලබන්නේ විශ්ලේෂණය කරන ලද වස්තුවේ ගුණාංග මත නොව, එකවර සිදුවන සිදුවීම් කිහිපයක් අතර ය. සංගම් රීති සෙවීමේ ගැටලුව විසඳීම සඳහා වඩාත් ප්රසිද්ධ ඇල්ගොරිතම වන්නේ Apriori ඇල්ගොරිතමයයි.

අනුපිළිවෙල හෝ අනුක්රමික සංගමය

කෙටි විස්තරය. ගනුදෙනු අතර තාවකාලික රටා සොයා ගැනීමට අනුපිළිවෙල ඔබට ඉඩ සලසයි. අනුක්‍රමික කාර්යය ආශ්‍රයට සමාන වේ, නමුත් එහි ඉලක්කය වන්නේ එකවර සිදුවන සිදුවීම් අතර නොව, කාලයට අදාළ සිදුවීම් අතර (එනම්, යම් නිශ්චිත කාල පරතරයකදී සිදුවන) රටා පිහිටුවීමයි. වෙනත් වචන වලින් කිවහොත්, අනුපිළිවෙලක් තීරණය වන්නේ කාලයට අදාළ සිදුවීම් දාමයක ඉහළ සම්භාවිතාවක් මගිනි. ඇත්ත වශයෙන්ම, සංගමයක් යනු ශුන්‍ය කාල ප්‍රමාදයක් සහිත අනුපිළිවෙලක විශේෂ අවස්ථාවකි. මෙම DataMining කාර්යය අනුක්‍රමික රටා සෙවීමේ කාර්යය ලෙසද හැඳින්වේ.

අනුපිළිවෙල රීතිය: X සිදුවීමෙන් පසුව, Y සිදුවීම නිශ්චිත කාලයකට පසුව සිදුවනු ඇත.

උදාහරණයක්. මහල් නිවාසයක් මිලදී ගැනීමෙන් පසු, 60% ක පදිංචිකරුවන් සති දෙකක් ඇතුළත ශීතකරණයක් මිලදී ගන්නා අතර, මාස දෙකක් ඇතුළත 50% කින් ඔවුන් රූපවාහිනියක් මිලදී ගනී. මෙම ගැටලුවට විසඳුම අලෙවිකරණය සහ කළමනාකරණය තුළ බහුලව භාවිතා වේ, උදාහරණයක් ලෙස, පාරිභෝගික ජීවන චක්‍ර කළමනාකරණය.

ප්‍රතිගාමීත්වය, පුරෝකථනය (අනාවැකි)

කෙටි විස්තරය. පුරෝකථනය කිරීමේ ගැටලුව විසඳීමේ ප්රතිඵලයක් වශයෙන්, ඉතිහාසගත දත්තවල ලක්ෂණ මත පදනම්ව ඉලක්කගත සංඛ්යාත්මක දර්ශකවල අතුරුදහන් වූ හෝ අනාගත අගයන් තක්සේරු කරනු ලැබේ.

එවැනි ගැටළු විසඳීම සඳහා ගණිතමය සංඛ්යාලේඛන ක්රම, ස්නායුක ජාල ආදිය බහුලව භාවිතා වේ.

අමතර කාර්යයන්

අපගමනය හඳුනාගැනීම, විචලනය හෝ බාහිර විශ්ලේෂණය

කෙටි විස්තරය. මෙම ගැටළුව විසඳීමේ අරමුණ වන්නේ සාමාන්‍ය දත්ත සමූහයට වඩා බෙහෙවින් වෙනස් වන දත්ත හඳුනා ගැනීම සහ විශ්ලේෂණය කිරීම, ඊනියා අද්විතීය රටා හඳුනා ගැනීමයි.

ඇස්තමේන්තු කිරීම

ඇස්තමේන්තු කිරීමේ කාර්යය විශේෂාංගයක අඛණ්ඩ අගයන් පුරෝකථනය කිරීම දක්වා පැමිණේ.

සබැඳි විශ්ලේෂණය

දත්ත කට්ටලයක පරායත්තතා සෙවීමේ කාර්යය.

දෘශ්‍යකරණය (ප්‍රස්ථාරකරණය)

දෘශ්යකරණයේ ප්රතිඵලයක් වශයෙන්, විශ්ලේෂණය කරන ලද දත්තවල ග්රැෆික් රූපයක් නිර්මාණය වේ. දෘශ්‍යකරණ ගැටළුව විසඳීම සඳහා, දත්තවල රටා පවතින බව පෙන්වීමට චිත්‍රක ක්‍රම භාවිතා කරයි.

දෘශ්‍යකරණ ශිල්පීය ක්‍රම සඳහා උදාහරණයක් වන්නේ 2-D සහ 3-D මානයන්හි දත්ත ඉදිරිපත් කිරීමයි.

සාරාංශගත කිරීම

විශ්ලේෂණය කරන ලද දත්ත කට්ටලයෙන් නිශ්චිත වස්තු කණ්ඩායම් විස්තර කිරීම ඉලක්කය වන කාර්යයකි.

ඉහත වර්ගීකරණයට බෙහෙවින් සමීප වන්නේ DataMining කාර්යයන් පහත පරිදි බෙදීමයි: පර්යේෂණ සහ සොයාගැනීම්, අනාවැකි සහ වර්ගීකරණය, පැහැදිලි කිරීම සහ විස්තරය.

ස්වයංක්‍රීය ගවේෂණය සහ සොයාගැනීම (නොමිලේ සෙවීම)

උදාහරණ කාර්යය: නව වෙළඳපල කොටස් සොයා ගැනීම.

මෙම පන්තියේ ගැටළු විසඳීම සඳහා, පොකුරු විශ්ලේෂණ ක්රම භාවිතා කරනු ලැබේ.

පුරෝකථනය සහ වර්ගීකරණය

උදාහරණ ගැටළුව: වත්මන් අගයන් මත විකුණුම් වර්ධනය පුරෝකථනය කිරීම.

ක්‍රම: ප්‍රතිගාමීත්වය, ස්නායු ජාල, ජාන ඇල්ගොරිතම, තීරණ ගස්.

වර්ගීකරණය සහ පුරෝකථනය කිරීමේ කාර්යයන් ඊනියා ප්‍රේරක ආකෘති සමූහයක් සමන්විත වන අතර එමඟින් විශ්ලේෂණය කරන ලද වස්තුව හෝ පද්ධතිය අධ්‍යයනය කරයි. මෙම ගැටළු විසඳීමේ ක්රියාවලියේදී, දත්ත කට්ටලයක් මත පදනම්ව සාමාන්ය ආකෘතියක් හෝ කල්පිතයක් වර්ධනය වේ.

පැහැදිලි කිරීම සහ විස්තරය

උදාහරණ ගැටළුව: ජනවිකාස සහ මිලදී ගැනීමේ ඉතිහාසය මත පදනම්ව පාරිභෝගිකයින් ගුනාංගීකරනය කිරීම.

ක්රම: තීරණ ගස්, රීති පද්ධති, සංගම් නීති, සම්බන්ධතා විශ්ලේෂණය.

සේවාදායකයාගේ ආදායම සාම්ප්‍රදායික ඒකක 50 ට වඩා වැඩි නම් සහ ඔහුගේ වයස අවුරුදු 30 ට වඩා වැඩි නම්, සේවාලාභියාගේ පන්තිය ප්‍රථමයා වේ.

පොකුරු සහ වර්ගීකරණය සංසන්දනය කිරීම

ලක්ෂණය

වර්ගීකරණය

පොකුරු කිරීම

පුහුණුව පාලනය කිරීමේ හැකියාව

පාලනය කර ඇත

පාලනය කළ නොහැකි

උපාය මාර්ග

ටියුෂන් පුහුණුව

අධීක්ෂණය නොකළ ඉගෙනීම

පන්ති ලේබලය තිබීම

පුහුණු කට්ටලය

සඳහන් කරන ලේබලයක් සමඟ

එය අයත් වන පන්තිය

නිරීක්ෂණ

පුහුණුකරු පන්ති ලේබල්

කට්ටල නොදනී

වර්ගීකරණය සඳහා පදනම

පුහුණු කට්ටලය මත පදනම්ව නව දත්ත වර්ගීකරණය කර ඇත

අරමුණ සඳහා බොහෝ දත්ත ලබා දී ඇත

පැවැත්ම තහවුරු කිරීම

පන්ති හෝ දත්ත පොකුරු

DataMining යෙදුම් ක්ෂේත්‍ර

වර්තමානයේ DataMining තාක්‍ෂණය ව්‍යාපාරික ගැටළු විසඳීම සඳහා බහුලව භාවිතා වන බව සැලකිල්ලට ගත යුතුය. සමහර මූලාශ්‍රවලට අනුව DataMining මෙවලම් භාවිතයෙන් ප්‍රතිලාභය 1000% දක්වා විය හැකි අතර එය ක්‍රියාත්මක කිරීමේ පිරිවැය ඉක්මනින් ගෙවිය හැක්කේ මෙම දිශාවට විය හැකිය.

DataMining තාක්‍ෂණය භාවිතා කිරීමේ ප්‍රධාන අංශ හතරක් අපි විස්තරාත්මකව බලමු: විද්‍යාව, ව්‍යාපාර, රජයේ පර්යේෂණ සහ වෙබ්.

ව්යාපාරික කාර්යයන්. ප්‍රධාන ක්ෂේත්‍ර: බැංකු, මූල්‍ය, රක්ෂණ, CRM, නිෂ්පාදන, විදුලි සංදේශ, ඊ-වාණිජ්‍යය, අලෙවිකරණය, කොටස් වෙළෙඳපොළ සහ වෙනත්.

    මම සේවාදායකයාට ණයක් නිකුත් කළ යුතුද?

    වෙළඳපල ඛණ්ඩනය

    නව ගනුදෙනුකරුවන්ගේ ආකර්ෂණය

    ක්‍රෙඩිට් කාඩ් වංචාව

සඳහා DataMining යෙදුම රාජ්ය මට්ටමින් ගැටළු විසඳීම. ප්රධාන දිශාවන්: බදු පැහැර ගන්නන් සඳහා සොයන්න; ත්‍රස්තවාදයට එරෙහි සටනේදී අදහස් වේ.

සඳහා DataMining යෙදුම විද්යාත්මක පර්යේෂණ. ප්‍රධාන ක්ෂේත්‍ර: වෛද්‍ය විද්‍යාව, ජීව විද්‍යාව, අණුක ජාන විද්‍යාව සහ ජාන ඉංජිනේරු විද්‍යාව, ජෛව තොරතුරු විද්‍යාව, තාරකා විද්‍යාව, ව්‍යවහාරික රසායන විද්‍යාව, මත්ද්‍රව්‍යවලට ඇබ්බැහි වීම හා සම්බන්ධ පර්යේෂණ සහ වෙනත් ය.

විසඳීමට DataMining භාවිතා කිරීම වෙබ් කාර්යයන්. ප්රධාන ප්රදේශ: සෙවුම් යන්ත්ර, කවුන්ටර සහ වෙනත් අය.

ඊ-වාණිජ්යය

ඊ-වාණිජ්‍යය ක්ෂේත්‍රය තුළ, DataMining ජනනය කිරීමට භාවිතා කරයි

මෙම වර්ගීකරණය මඟින් විශේෂිත පාරිභෝගික කණ්ඩායම් හඳුනා ගැනීමට සහ පාරිභෝගිකයින්ගේ හඳුනාගත් අවශ්‍යතා සහ අවශ්‍යතා අනුව අලෙවිකරණ ප්‍රතිපත්ති මෙහෙයවීමට සමාගම්වලට ඉඩ සලසයි. ඊ-වාණිජ්‍යය සඳහා DataMining තාක්‍ෂණය WebMining තාක්‍ෂණයට සමීපව සම්බන්ධ වේ.

කාර්මික නිෂ්පාදනයේ DataMining හි ප්‍රධාන කාර්යයන්:

· නිෂ්පාදන තත්ත්වයන් පිළිබඳ විස්තීර්ණ පද්ධති විශ්ලේෂණය;

· නිෂ්පාදන තත්ත්වයන් වර්ධනය කිරීම පිළිබඳ කෙටි කාලීන සහ දිගු කාලීන අනාවැකි;

· ප්රශස්ත විසඳුම් සඳහා විකල්ප සංවර්ධනය;

· ඇතැම් පරාමිතීන් මත පදනම්ව නිෂ්පාදනයේ ගුණාත්මකභාවය පුරෝකථනය කිරීම

තාක්ෂණික ක්රියාවලිය;

· නිෂ්පාදන සංවර්ධනයේ සැඟවුණු ප්‍රවණතා සහ රටා හඳුනා ගැනීම

ක්රියාවලි;

· සංවර්ධන රටා පුරෝකථනය කිරීම නිෂ්පාදන ක්රියාවලීන්;

· සැඟවුණු බලපෑම් සාධක හඳුනා ගැනීම;

· අතර කලින් නොදන්නා සම්බන්ධතා හඳුනා ගැනීම සහ හඳුනා ගැනීම

නිෂ්පාදන පරාමිතීන් සහ බලපෑම් සාධක;

· නිෂ්පාදන ක්‍රියාවලීන් සහ පුරෝකථනය කිරීමේ අන්තර්ක්‍රියා පරිසරය විශ්ලේෂණය කිරීම

එහි ලක්ෂණ වල වෙනස්කම්;

ක්රියාවලි;

· විශ්ලේෂණ ප්රතිඵල දෘශ්යකරණය, මූලික වාර්තා සහ ව්යාපෘති සකස් කිරීම

හැකි ක්‍රියාත්මක කිරීම්වල විශ්වසනීයත්වය සහ ඵලදායීතාවය පිළිබඳ තක්සේරු කිරීම් සමඟ කළ හැකි විසඳුම්.

අලෙවි

අලෙවිකරණ ක්ෂේත්රයේ, DataMining බහුලව භාවිතා වේ.

මූලික අලෙවිකරණ ප්රශ්න: "විකිණෙන්නේ කුමක්ද?", "එය විකුණන්නේ කෙසේද?", "කවුද?

පාරිභෝගික?"

වර්ගීකරණය සහ පොකුරු ගැටළු පිළිබඳ දේශනය පාරිභෝගික ඛණ්ඩනය වැනි අලෙවිකරණ ගැටළු විසඳීම සඳහා පොකුරු විශ්ලේෂණය භාවිතා කිරීම විස්තරාත්මකව විස්තර කරයි.

අලෙවිකරණ ගැටළු විසඳීම සඳහා තවත් පොදු ක්‍රම මාලාවක් වන්නේ සංගම් නීති සෙවීමේ ක්‍රම සහ ඇල්ගොරිතම වේ.

තාවකාලික රටා සෙවීම ද මෙහි සාර්ථකව භාවිතා වේ.

සිල්ලර

සිල්ලර වෙළඳාමේදී, අලෙවිකරණයේදී මෙන්ම, පහත සඳහන් දෑ භාවිතා වේ:

· සංගම් රීති සෙවීම සඳහා ඇල්ගොරිතම (නිරන්තරයෙන් සිදුවන කට්ටල තීරණය කිරීමට

ගැනුම්කරුවන් එකවර මිලදී ගන්නා භාණ්ඩ). එවැනි නීති හඳුනා ගැනීම උපකාරී වේ

ගබඩා රාක්කවල භාණ්ඩ තබන්න, භාණ්ඩ මිලදී ගැනීම සඳහා උපාය මාර්ග සකස් කරන්න

සහ ඒවා ගබඩාවල ස්ථානගත කිරීම යනාදිය.

· කාල අනුපිළිවෙල භාවිතා කිරීම, උදාහරණයක් ලෙස, තීරණය කිරීම සඳහා

ගබඩාවේ අවශ්ය භාණ්ඩ පරිමාව.

· ගණුදෙණුකරුවන්ගේ කණ්ඩායම් හෝ කාණ්ඩ හඳුනාගැනීම සඳහා වර්ගීකරණය සහ පොකුරු ක්‍රම,

භාණ්ඩ සාර්ථක ප්‍රවර්ධනයට දායක වන දැනුම.

කොටස් වෙළෙඳපොළ

දත්ත තාක්ෂණය භාවිතයෙන් විසඳාගත හැකි කොටස් වෙළෙඳපොළ ගැටලු ලැයිස්තුවක් මෙන්න

පතල් කැණීම: · මූල්‍ය උපකරණවල අනාගත අගයන් සහ ඒවායේ දර්ශක පුරෝකථනය කිරීම

අතීත අගයන්;

· ප්රවණතා පුරෝකථනය (චලනයේ අනාගත දිශාව - වර්ධනය, පහත වැටීම, පැතලි) මූල්ය

උපකරණය සහ එහි ශක්තිය (ශක්තිමත්, මධ්යස්ථ ශක්තිමත්, ආදිය);

· කිසියම් කට්ටලයකට අනුව වෙළඳපල, කර්මාන්තය, අංශයේ පොකුරු ව්‍යුහය හඳුනා ගැනීම

ලක්ෂණ;

· ගතික කළඹ කළමනාකරණය;

· අස්ථාවර අනාවැකි;

· අවදානම් තක්සේරුව;

· අර්බුදයක ආරම්භය පුරෝකථනය කිරීම සහ එහි වර්ධනය පුරෝකථනය කිරීම;

· වත්කම් තෝරාගැනීම, ආදිය.

ඉහත විස්තර කර ඇති ක්‍රියාකාරකම් ක්ෂේත්‍රවලට අමතරව, දත්ත විශ්ලේෂණය සඳහා අවශ්‍ය වන සහ යම් ප්‍රත්‍යාවර්තී තොරතුරු ප්‍රමාණයක් එකතු වී ඇති විවිධ ව්‍යාපාරික ක්ෂේත්‍රවල DataMining තාක්ෂණය භාවිතා කළ හැකිය.

CRM හි DataMining යෙදීම

DataMining භාවිතා කිරීම සඳහා වඩාත්ම පොරොන්දු වූ ක්ෂේත්‍රවලින් එකක් වන්නේ විශ්ලේෂණාත්මක CRM හි මෙම තාක්ෂණය භාවිතා කිරීමයි.

CRM (පාරිභෝගික සම්බන්ධතා කළමනාකරණය) - පාරිභෝගික සම්බන්ධතා කළමනාකරණය.

මෙම තාක්ෂණයන් එකට භාවිතා කරන විට, දැනුම උකහා ගැනීම පාරිභෝගික දත්ත වලින් "මුදල් නිස්සාරණය" සමඟ ඒකාබද්ධ වේ.

අලෙවිකරණ සහ විකුණුම් දෙපාර්තමේන්තු වල කාර්යයේ වැදගත් අංගයක් වන්නේ සම්පාදනයයිගනුදෙනුකරුවන් පිළිබඳ පරිපූර්ණ දැක්මක්, ඔවුන්ගේ ලක්ෂණ, ලක්ෂණ සහ සේවාදායක පදනමේ ව්යුහය පිළිබඳ තොරතුරු. CRM ඊනියා පැතිකඩ භාවිතා කරයිගනුදෙනුකරුවන්, ගනුදෙනුකරුවන් පිළිබඳ අවශ්ය සියලු තොරතුරු පිළිබඳ සම්පූර්ණ දර්ශනයක් ලබා දීම.

පාරිභෝගික පැතිකඩ පහත සඳහන් සංරචක ඇතුළත් වේ: පාරිභෝගික ඛණ්ඩනය, පාරිභෝගික ලාභදායිත්වය, පාරිභෝගික රඳවා තබා ගැනීම, පාරිභෝගික ප්රතිචාර විශ්ලේෂණය. මෙම සෑම සංරචකයක්ම DataMining භාවිතයෙන් පරීක්ෂා කළ හැකි අතර, ඒවා පැතිකඩ සංරචක ලෙස එකට විශ්ලේෂණය කිරීමෙන් අවසානයේ දී එක් එක් පුද්ගල ලක්ෂණ වලින් ලබාගත නොහැකි දැනුමක් ලබා දිය හැක.

WebMining

WebMining "වෙබයේ දත්ත කැණීම" ලෙස පරිවර්තනය කළ හැක. WebIntelligence හෝ Web.

විද්‍යුත් ව්‍යාපාරයේ වේගවත් සංවර්ධනයේ “නව පරිච්ඡේදයක් විවෘත කිරීමට” බුද්ධි අංශ සූදානම්ය. එක් එක් අමුත්තන්ගේ හැසිරීම් නිරීක්ෂණය කිරීමෙන් ඔහුගේ රුචිකත්වයන් සහ මනාපයන් තීරණය කිරීමේ හැකියාව ඊ-වාණිජ්‍යය වෙළඳපොලේ බරපතල හා තීරණාත්මක තරඟකාරී වාසියකි.

WebMining පද්ධති වලට බොහෝ ප්‍රශ්න වලට පිළිතුරු දිය හැකිය, නිදසුනක් ලෙස, අමුත්තන්ගෙන් කවරෙක් වෙබ් වෙළඳසැලේ විභව සේවාදායකයෙක්ද, කුමන වෙබ් වෙළඳසැල් පාරිභෝගිකයින් වැඩිම ආදායමක් ගෙන එන්නේද, විශේෂිත අමුත්තෙකුගේ හෝ අමුත්තන්ගේ කණ්ඩායමක අවශ්‍යතා මොනවාද?

ක්රම

ක්රම වර්ගීකරණය

ක්රම කණ්ඩායම් දෙකක් ඇත:

  • සාමාන්‍ය සමුච්චිත අත්දැකීම් භාවිතය මත පදනම් වූ සංඛ්‍යානමය ක්‍රම, එය පසුකාලීන දත්ත වලින් පිළිබිඹු වේ;
  • බොහෝ විෂමජාතීය ගණිතමය ප්‍රවේශයන් ඇතුළුව සයිබර්නෙටික් ක්‍රම.

මෙම වර්ගීකරණයේ අවාසිය නම් සංඛ්‍යානමය සහ සයිබර්නෙටික් ඇල්ගොරිතම දෙකම එක් ආකාරයකින් හෝ වෙනත් ආකාරයකින් වර්තමාන තත්ත්වය නිරීක්ෂණය කිරීමේ ප්‍රතිඵල සමඟ සංඛ්‍යානමය අත්දැකීම් සංසන්දනය කිරීම මත රඳා පවතී.

මෙම වර්ගීකරණයේ වාසිය නම් එහි අර්ථ නිරූපනයේ පහසුවයි - එය මූලික නිරීක්ෂණ (ක්‍රියාකාරී සහ ප්‍රත්‍යාලෝක) අරාවන්ගෙන් දැනුම උකහා ගැනීම සඳහා නවීන ප්‍රවේශයක ගණිතමය මාධ්‍යයන් විස්තර කිරීමට භාවිතා කරයි, i.e. දත්ත කැණීමේ කාර්යයන් තුළ.

ඉහත ඉදිරිපත් කර ඇති කණ්ඩායම් දෙස සමීපව බලමු.

සංඛ්යාන ක්රම දත්ත කැණීම්

මේවායේ ක්රම අන්තර් සම්බන්ධිත කොටස් හතරක් නියෝජනය කරයි:

  • සංඛ්‍යාන දත්තවල ස්වභාවය පිළිබඳ මූලික විශ්ලේෂණය (ස්ථිතිකත්වය, සාමාන්‍ය බව, ස්වාධීනත්වය, සමජාතීයතාවය පිළිබඳ උපකල්පන පරීක්ෂා කිරීම, බෙදා හැරීමේ ශ්‍රිතයේ වර්ගය තක්සේරු කිරීම, එහි පරාමිතීන් යනාදිය);
  • සම්බන්ධතා හඳුනා ගැනීම සහ රටා(රේඛීය සහ රේඛීය නොවන ප්රතිගාමී විශ්ලේෂණය, සහසම්බන්ධතා විශ්ලේෂණය, ආදිය);
  • බහුවිධ සංඛ්යාන විශ්ලේෂණය (රේඛීය සහ රේඛීය නොවන වෙනස්කම් විශ්ලේෂණය, පොකුරු විශ්ලේෂණය, සංරචක විශ්ලේෂණය, සාධක විශ්ලේෂණය, ආදිය);
  • ගතික ආකෘති සහ කාල ශ්‍රේණි මත පදනම් වූ අනාවැකි.

දත්ත කැණීම සඳහා සංඛ්‍යානමය ක්‍රමවල අවි ගබඩාව ක්‍රම කාණ්ඩ හතරකට වර්ග කර ඇත:

  1. මූලාශ්‍ර දත්ත පිළිබඳ විස්තරාත්මක විශ්ලේෂණය සහ විස්තරය.
  2. සම්බන්ධතා විශ්ලේෂණය (සහසම්බන්ධතා සහ ප්රතිගාමී විශ්ලේෂණය, සාධක විශ්ලේෂණය, විචලනය විශ්ලේෂණය).
  3. බහුවිධ සංඛ්‍යාන විශ්ලේෂණය (සංරචක විශ්ලේෂණය, වෙනස් කොට සැලකීමේ විශ්ලේෂණය, බහුවිචල්‍ය ප්‍රතිගාමී විශ්ලේෂණය, කැනොනිකල් සහසම්බන්ධතා ආදිය).
  4. කාල ශ්‍රේණි විශ්ලේෂණය (ගතික ආකෘති සහ පුරෝකථනය).

සයිබර්නෙටික් දත්ත කැණීම් ක්‍රම

දත්ත කැණීමේ දෙවන දිශාව පරිගණක ගණිතය පිළිබඳ අදහස සහ කෘතිම බුද්ධි න්‍යාය භාවිතය මගින් ඒකාබද්ධ වූ විවිධ ප්‍රවේශයන් වේ.

මෙම කණ්ඩායමට පහත ක්‍රම ඇතුළත් වේ:

  • කෘතිම ස්නායු ජාල (හඳුනාගැනීම, පොකුරු කිරීම, අනාවැකි);
  • පරිණාමීය වැඩසටහන්කරණය (තර්කවල කණ්ඩායම් ගිණුම්කරණ ක්‍රමය සඳහා ඇල්ගොරිතම ඇතුළුව);
  • ජාන ඇල්ගොරිතම (ප්රශස්තකරණය);
  • ආශ්රිත මතකය (ප්රතිසම, මූලාකෘති සඳහා සෙවීම);
  • නොපැහැදිලි තර්කනය;
  • තීරණ ගස්;
  • විශේෂඥ දැනුම සැකසුම් පද්ධති.

පොකුරු විශ්ලේෂණය

පොකුරු සෑදීමේ අරමුණ පවතින ව්යුහයන් සෙවීමයි.

පොකුරු කිරීම විස්තරාත්මක ක්‍රියා පටිපාටියකි, එය කිසිදු සංඛ්‍යානමය නිගමනයක් නොකරයි, නමුත් එය ගවේෂණාත්මක විශ්ලේෂණයක් කිරීමට සහ “දත්තවල ව්‍යුහය” අධ්‍යයනය කිරීමට අවස්ථාවක් සපයයි.

"පොකුරු" යන සංකල්පය අපැහැදිලි ලෙස අර්ථ දක්වා ඇත: සෑම අධ්‍යයනයකටම තමන්ගේම "පොකුරු" ඇත. පොකුරු සංකල්පය "පොකුරු", "පොකුර" ලෙස පරිවර්තනය කර ඇත. පොකුරක් පොදු ගුණ ඇති වස්තු සමූහයක් ලෙස සංලක්ෂිත කළ හැක.

පොකුරක ලක්ෂණ දෙකක් ලෙස විස්තර කළ හැකිය:

  • අභ්යන්තර සමජාතීයතාවය;
  • බාහිර හුදකලාව.

බොහෝ ගැටළු විසඳීමේදී විශ්ලේෂකයින් අසන ප්රශ්නයක් වන්නේ දත්ත දෘශ්ය ව්යුහයන් ලෙස සංවිධානය කරන්නේ කෙසේද යන්නයි, i.e. වර්ගීකරණය පුළුල් කරන්න.

ජීව විද්‍යාව, මානව විද්‍යාව සහ මනෝවිද්‍යාව වැනි විද්‍යාවන්හි පොකුරු කිරීම මුලින් බහුලව භාවිතා විය. ආර්ථික දත්ත සහ සංසිද්ධිවල විශේෂිත ස්වභාවය හේතුවෙන් දිගු කලක් තිස්සේ ආර්ථික ගැටළු විසඳීම සඳහා පොකුරු කිරීම සුළු වශයෙන් භාවිතා කර ඇත.

පොකුරු විසංයෝජනය, හෝ සුවිශේෂී (අතිච්ඡාදනය නොවන, සුවිශේෂී) සහ අතිච්ඡාදනය විය හැක.

පොකුරු විශ්ලේෂණයේ විවිධ ක්‍රම යෙදීමේ ප්‍රතිඵලයක් ලෙස විවිධ හැඩයන්ගෙන් යුත් පොකුරු ලබා ගත හැකි බව සඳහන් කළ යුතුය. උදාහරණයක් ලෙස, "දාම" ආකාරයේ පොකුරු හැකි ය, පොකුරු දිගු "දම්වැල්", දිගටි පොකුරු ආදියෙන් නියෝජනය වන විට, සහ සමහර ක්රම මගින් අත්තනෝමතික හැඩයේ පොකුරු නිර්මාණය කළ හැකිය.

විවිධ ක්‍රම මඟින් නිශ්චිත ප්‍රමාණයේ (උදා: කුඩා හෝ විශාල) පොකුරු සෑදීමට උත්සාහ කළ හැකිය, නැතහොත් දත්ත කට්ටලයේ විවිධ ප්‍රමාණයේ පොකුරු ඇතැයි උපකල්පනය කළ හැකිය. සමහර පොකුරු විශ්ලේෂණ ක්‍රම විශේෂයෙන් ශබ්දයට හෝ පිටස්තරයන්ට සංවේදී වන අතර අනෙක් ඒවා අඩුය. විවිධ පොකුරු ක්රම භාවිතා කිරීමේ ප්රතිඵලයක් ලෙස, විවිධ ප්රතිඵල ලබා ගත හැක; මෙය සාමාන්ය දෙයක් වන අතර එය විශේෂිත ඇල්ගොරිතමයක් ක්රියාත්මක කිරීමේ ලක්ෂණයකි. පොකුරු ක්රමයක් තෝරාගැනීමේදී මෙම ලක්ෂණ සැලකිල්ලට ගත යුතුය.

අපි පොකුරු කිරීම සඳහා ප්රවේශයන් පිළිබඳ කෙටි විස්තරයක් ලබා දෙමු.

දත්ත වෙන් කිරීම මත පදනම් වූ ඇල්ගොරිතම (කොටස් කිරීමේ ඇල්ගොරිතම), ඇතුළුව. පුනරාවර්තන:

  • වස්තූන් k පොකුරු වලට බෙදීම;
  • පොකුරු වැඩි දියුණු කිරීම සඳහා වස්තූන් පුනරාවර්තනය නැවත බෙදා හැරීම.
  • ධූරාවලිය:
  • එකතු කිරීම: සෑම වස්තුවක්ම මුලින් පොකුරක්, පොකුරු,
  • එකිනෙකා සමඟ සම්බන්ධ වීම, ඔවුන් විශාල පොකුරක් සාදයි, ආදිය.

ඝනත්වය මත පදනම් වූ ක්රම:

  • වස්තූන් සම්බන්ධ කිරීමේ හැකියාව මත පදනම්ව;
  • ශබ්දය නොසලකා හරින්න සහ අත්තනෝමතික හැඩයේ පොකුරු සොයා ගන්න.

ජාලකය - ක්රම (ජාල මත පදනම් වූ ක්රම):

  • වස්තූන් ජාලක ව්‍යුහයන් බවට ප්‍රමාණකරණය කිරීම.

ආදර්ශ ක්රම (ආකෘතිය මත පදනම් වූ):

  • දත්ත වලට වඩාත් ගැලපෙන පොකුරු සොයා ගැනීමට ආකෘතිය භාවිතා කිරීම.

පොකුරු විශ්ලේෂණ ක්රම. පුනරාවර්තන ක්රම.

නිරීක්ෂණ විශාල සංඛ්යාවක් සමඟ, පොකුරු විශ්ලේෂණයේ ධූරාවලි ක්රම සුදුසු නොවේ. එවැනි අවස්ථාවන්හිදී, බෙදීම මත පදනම් වූ ධූරාවලි නොවන ක්‍රම භාවිතා කරනු ලැබේ, ඒවා මුල් ජනගහනය ඛණ්ඩනය කිරීමේ පුනරාවර්තන ක්‍රම වේ. බෙදීමේ ක්‍රියාවලියේදී, නැවතුම් නියමය තෘප්තිමත් වන තෙක් නව පොකුරු සෑදී ඇත.

එවැනි ධූරාවලි නොවන පොකුරු දත්ත කට්ටලයක් නිශ්චිත තනි පොකුරු ගණනකට බෙදීමෙන් සමන්විත වේ. ප්රවේශයන් දෙකක් තිබේ. පළමුවැන්න නම් මූලාශ්‍ර දත්තවල බහුමාන අවකාශයේ වඩාත් ඝන ප්‍රදේශ ලෙස පොකුරු වල මායිම් තීරණය කිරීමයි, i.e. විශාල "ලකුණු ඝනීභවනය" ඇති පොකුරක් නිර්වචනය කිරීම. දෙවන ප්‍රවේශය වන්නේ වස්තූන් අතර වෙනස මැනීම අවම කිරීමයි

k- කියන්නේ ඇල්ගොරිතම

වඩාත් සුලභ ධූරාවලි නොවන ක්‍රමය වන්නේ k-means ඇල්ගොරිතමය ලෙසද හැඳින්වේ වේගවත් පොකුරු විශ්ලේෂණය. ඇල්ගොරිතමයේ සම්පූර්ණ විස්තරයක් Hartigan and Wong (1978) හි සොයාගත හැකිය. පොකුරු සංඛ්‍යාව පිළිබඳ මූලික උපකල්පන අවශ්‍ය නොවන ධුරාවලියේ ක්‍රම මෙන් නොව, මෙම ක්‍රමය භාවිතා කිරීමට හැකිවීම සඳහා, බොහෝ දුරට ඉඩ ඇති පොකුරු සංඛ්‍යාව පිළිබඳ උපකල්පනයක් තිබීම අවශ්‍ය වේ.

k-අර්ථ ඇල්ගොරිතම මඟින් එකිනෙකින් හැකි උපරිම දුරින් පිහිටා ඇති k පොකුරු ගොඩනඟයි. K-means ඇල්ගොරිතම විසඳන ප්‍රධාන ආකාරයේ ගැටළු වන්නේ පොකුරු ගණන සම්බන්ධයෙන් උපකල්පන (උපකල්පන) තිබීම වන අතර ඒවා හැකි තරම් වෙනස් විය යුතුය. k තේරීම පෙර පර්යේෂණ, න්‍යායික සලකා බැලීම් හෝ බුද්ධිය මත පදනම් විය හැක.

ඇල්ගොරිතමයේ සාමාන්‍ය අදහස: ලබා දී ඇති ස්ථාවර සංඛ්‍යා k නිරීක්ෂණ පොකුරු පොකුරු සමඟ සංසන්දනය කර ඇති අතර එමඟින් පොකුරු වල සාමාන්‍යයන් (සියලු විචල්‍යයන් සඳහා) හැකි තරම් එකිනෙකට වෙනස් වේ.

ඇල්ගොරිතමයේ විස්තරය

1. වස්තූන් පොකුරු බවට මූලික බෙදා හැරීම.

  • අංකය k තෝරාගෙන ඇති අතර, පළමු පියවරේදී මෙම ලක්ෂ්යයන් පොකුරු වල "මධ්යස්ථාන" ලෙස සලකනු ලැබේ.
  • සෑම පොකුරක්ම එක් මධ්යස්ථානයකට අනුරූප වේ.

ආරම්භක කේන්ද්‍රස්ථානය තෝරා ගැනීම පහත පරිදි සිදු කළ හැකිය:

  • ආරම්භක දුර ප්රමාණය උපරිම කිරීම සඳහා k-නිරීක්ෂණ තෝරාගැනීම;
  • k-නිරීක්ෂණ අහඹු ලෙස තෝරා ගැනීම;
  • පළමු කේ නිරීක්ෂණ තේරීම.

එහි ප්රතිඵලයක් වශයෙන්, එක් එක් වස්තුව නිශ්චිත පොකුරකට පවරා ඇත.

2. පුනරාවර්තන ක්රියාවලිය.

පොකුරු වල මධ්‍යස්ථාන ගණනය කරනු ලබන අතර, පසුව ඒවා පොකුරු වල ඛණ්ඩාංක අනුව සාමාන්‍ය ගණනය කිරීමට භාවිතා කරයි. වස්තූන් නැවත බෙදා හරිනු ලැබේ.

එක් කොන්දේසියක් සපුරාලන තෙක් මධ්‍යස්ථාන ගණනය කිරීමේ සහ වස්තූන් නැවත බෙදා හැරීමේ ක්‍රියාවලිය දිගටම පවතී:

  • පොකුරු මධ්යස්ථාන ස්ථාවර වී ඇත, i.e. සියලුම නිරීක්ෂණ වත්මන් පුනරාවර්තනයට පෙර ඒවා අයත් වූ පොකුරට අයත් වේ;
  • පුනරාවර්තන ගණන උපරිම පුනරාවර්තන ගණනට සමාන වේ.

රූපයේ දැක්වෙන්නේ k සඳහා සමාන ඇල්ගොරිතම දෙකට සමාන වන k- අදහස් ඇල්ගොරිතමයේ උදාහරණයකි.

k-අර්ථ ඇල්ගොරිතමයේ උදාහරණයක් (k=2)

පොකුරු ගණන තෝරා ගැනීම සංකීර්ණ ගැටලුවකි. මෙම අංකය සම්බන්ධයෙන් උපකල්පන නොමැති නම්, ලබාගත් ප්රතිඵල සංසන්දනය කරමින් පොකුරු 2 ක්, පසුව 3, 4, 5, ආදිය නිර්මාණය කිරීම රෙකමදාරු කරනු ලැබේ.

පොකුරු වල ගුණාත්මකභාවය පරීක්ෂා කිරීම

k-means පොකුරු විශ්ලේෂණයේ ප්රතිඵල ලැබීමෙන් පසුව, ඔබ පොකුරු වල නිවැරදි බව පරීක්ෂා කළ යුතුය (එනම්, පොකුරු එකිනෙකට වෙනස් වන ආකාරය තක්සේරු කරන්න).

මෙය සිදු කිරීම සඳහා, එක් එක් පොකුරු සඳහා සාමාන්ය අගයන් ගණනය කරනු ලැබේ. හොඳ පොකුරු සියලු මානයන් සඳහා ඉතා වෙනස් මාධ්‍යයන් හෝ අවම වශයෙන් ඒවායින් බොහොමයක් නිපදවිය යුතුය.

K- අදහස් ඇල්ගොරිතමයේ වාසි:

  • භාවිතයේ පහසුව;
  • භාවිතයේ වේගය;
  • ඇල්ගොරිතමයේ අවබෝධය සහ විනිවිදභාවය.

K- අදහස් ඇල්ගොරිතමයේ අවාසි:

  • ඇල්ගොරිතම සාමාන්‍යය විකෘති කළ හැකි පිටස්තරයන්ට ඉතා සංවේදී ය.

හැකි විසඳුමමෙම ගැටළුව ඇල්ගොරිතමයේ වෙනස් කිරීමක් භාවිතා කිරීමයි - k-මධ්‍ය ඇල්ගොරිතම;

  • විශාල දත්ත සමුදායන් මත ඇල්ගොරිතම මන්දගාමී විය හැක. මෙම ගැටලුව සඳහා හැකි විසඳුමක් වන්නේ දත්ත නියැදීම භාවිතා කිරීමයි.

Bayesian ජාල

සම්භාවිතා න්‍යායේ දී, තොරතුරු යැපීම පිළිබඳ සංකල්පය ආකෘතිගත කරනු ලබන්නේ කොන්දේසි සහිත යැපීම (හෝ දැඩි ලෙස: කොන්දේසි සහිත ස්වාධීනත්වය නොමැතිකම) හරහා ය, එය අප දැනටමත් දැන සිටි කරුණු පිළිබඳ නව දැනුමක් ලබා ගන්නා විට යම් සිදුවීමක ප්‍රතිඵලය පිළිබඳ අපගේ විශ්වාසය වෙනස් වන ආකාරය විස්තර කරයි. වෙනත් කරුණු කිහිපයක්.

ප්‍රස්ථාරයක මෙම මූලද්‍රව්‍ය සම්බන්ධ කරන දිශානුගත මාර්ගයක් හරහා මූලද්‍රව්‍ය අතර පරායත්තතා නිරූපණය කිරීම පහසු සහ අවබෝධාත්මක ය. x සහ y මූලද්‍රව්‍ය අතර සම්බන්ධය සෘජු නොවන අතර තුන්වන මූලද්‍රව්‍ය z හරහා සිදු කරන්නේ නම්, x සහ y අතර මාර්ගයේ z මූලද්‍රව්‍යයක් පවතිනු ඇතැයි අපේක්ෂා කිරීම තාර්කික ය. එවැනි අතරමැදි නෝඩ් x සහ y අතර යැපීම "කපා දමනු ඇත", i.e. සෘජු බලපෑම් සාධකවල දන්නා අගයක් සමඟ ඔවුන් අතර කොන්දේසි සහිත ස්වාධීන තත්වයක් අනුකරණය කරන්න.එවැනි ආකෘතිකරණ භාෂා යනු යම් විෂය ක්ෂේත්‍රයක සංකල්ප අතර කොන්දේසි සහිත පරායත්තතා විස්තර කිරීමට භාවිතා කරන Bayesian ජාල වේ.

Bayesian ජාල වේ ග්රැෆික් ව්යුහයන්විචල්‍ය විශාල සංඛ්‍යාවක් අතර සම්භාවිතා සම්බන්ධතා නිරූපණය කිරීම සහ එම විචල්‍යයන් මත පදනම්ව සම්භාවිතා අනුමාන කිරීම සිදු කිරීම."Naive" (Bayesian) වර්ගීකරණය තරමක් විනිවිද පෙනෙන සහ තේරුම්ගත හැකි වර්ගීකරණ ක්‍රමයකි. "Naive" එය හඳුන්වනු ලබන්නේ එය අන්‍යෝන්‍ය උපකල්පනය මත පදනම් වූ බැවිනි.සංඥා ස්වාධීනත්වය.

වර්ගීකරණ ගුණාංග:

1. සියලුම විචල්‍යයන් භාවිතා කිරීම සහ ඒවා අතර සියලු පරායත්තතා නිර්ණය කිරීම.

2. විචල්‍යයන් පිළිබඳ උපකල්පන දෙකක් තිබීම:

  • සියලු විචල්යයන් සමානව වැදගත් වේ;
  • සියලුම විචල්‍ය සංඛ්‍යානමය වශයෙන් ස්වාධීන වේ, i.e. එක් විචල්‍යයක අගය තවත් එකක අගය ගැන කිසිවක් නොකියයි.

Bayesian ජාල භාවිතා කිරීම සඳහා ප්රධාන අවස්ථා දෙකක් තිබේ:

1. විස්තරාත්මක විශ්ලේෂණය. විෂය ප්‍රදේශය ප්‍රස්ථාරයක් ලෙස ප්‍රදර්ශනය කෙරේ, සංකල්ප නියෝජනය කරන නෝඩ්, සහ ඊතල මගින් ප්‍රදර්ශනය කෙරෙන අධ්‍යක්ෂණය කරන ලද චාප, මෙම සංකල්ප අතර සෘජු පරායත්තතා නිරූපණය කරයි. x සහ y අතර සම්බන්ධය යන්නෙන් අදහස් වන්නේ: x හි අගය දැනගැනීම ඔබට y හි අගය පිළිබඳව වඩා හොඳින් අනුමාන කිරීමට උපකාරී වේ. සංකල්ප අතර සෘජු සම්බන්ධතාවයක් නොමැතිකම, ඒවා අතර කොන්දේසි සහිත ස්වාධීනත්වය යම් “වෙන් කරන” සංකල්ප සමූහයක දන්නා අගයන් සමඟ ආදර්ශන කරයි. නිදසුනක් වශයෙන්, දරුවෙකුගේ සපත්තු ප්රමාණය පැහැදිලිවම වයස අනුව දරුවාගේ කියවීමේ හැකියාවට සම්බන්ධ වේ. මේ අනුව, විශාල සපත්තු ප්‍රමාණය දරුවා දැනටමත් කියවන බවට වැඩි විශ්වාසයක් ලබා දෙයි, නමුත් අපි දැනටමත් වයස දන්නවා නම්, සපත්තු ප්‍රමාණය දැන ගැනීම තවදුරටත් අපට ලබා නොදෙනු ඇත. අමතර තොරතුරුදරුවාගේ කියවීමේ හැකියාව ගැන.


තවත්, ප්‍රතිවිරුද්ධ උදාහරණයක් ලෙස, දුම්පානය සහ සෙම්ප්‍රතිශ්‍යාව වැනි මුලින් සම්බන්ධ නොවූ සාධක සලකා බලන්න. නමුත් අපි රෝග ලක්ෂණයක් දන්නවා නම්, උදාහරණයක් ලෙස, පුද්ගලයෙකු උදෑසන කැස්සකින් පෙළෙනවා නම්, එම පුද්ගලයා දුම් පානය නොකරන බව දැන ගැනීමෙන් පුද්ගලයාට සෙම්ප්‍රතිශ්‍යාව ඇති බවට අපගේ විශ්වාසය වැඩි වේ.

2. වර්ගීකරණය සහ අනාවැකි. Bayesian ජාලය, සංකල්ප ගණනාවක කොන්දේසි සහිත ස්වාධීනත්වයට ඉඩ සලසයි, ඒකාබද්ධ බෙදා හැරීමේ පරාමිතීන් ගණන අඩු කිරීමට හැකි වන අතර, පවතින දත්ත පරිමාවන් මත ඒවා විශ්වාසයෙන් තක්සේරු කිරීමට හැකි වේ. ඉතින්, විචල්‍ය 10 කින්, එක් එක් අගයන් 10 ක් ගත හැකි අතර, සන්ධි ව්‍යාප්තියේ පරාමිති ගණන බිලියන 10 කි - 1. මෙම විචල්‍යයන් අතර එකිනෙක මත රඳා පවතින්නේ විචල්‍ය 2 ක් පමණක් යැයි උපකල්පනය කළහොත්, පරාමිති ගණන 8 බවට පත්වේ. * (10-1) + (10*10-1) = 171. ගණනය කිරීමේ සම්පත් අනුව යථාර්ථවාදී ඒකාබද්ධ බෙදා හැරීමේ ආකෘතියක් තිබීම, අපට සංකල්පයක නොදන්නා අගය, උදාහරණයක් ලෙස, වඩාත්ම විය හැකි අගය ලෙස පුරෝකථනය කළ හැකිය. මෙම සංකල්පය වෙනත් සංකල්පවල දන්නා අගයන් ලබා දී ඇත.

DataMining ක්‍රමයක් ලෙස Bayesian ජාල වල පහත සඳහන් වාසි සටහන් කර ඇත:

ආකෘතිය සියලු විචල්යයන් අතර පරායත්තතා නිර්වචනය කරයි, මෙය පහසු කරයිසමහර විචල්‍යවල අගයන් නොදන්නා අවස්ථා හැසිරවීම;

Bayesian ජාල අර්ථ නිරූපණය කිරීමට සහ ඉඩ දීමට බෙහෙවින් පහසුයපුරෝකථන ආකෘතිකරණය මඟින් සිදුවීම් විශ්ලේෂණය සිදු කිරීම පහසු කරයි;

Bayesian ක්රමය ඔබට ස්වභාවිකව රටා ඒකාබද්ධ කිරීමට ඉඩ සලසයි,දත්ත වලින් අනුමාන කරන ලද, සහ, උදාහරණයක් ලෙස, පැහැදිලිව ලබා ගත් විශේෂඥ දැනුම;

Bayesian ජාල භාවිතා කිරීම අධික ලෙස සවි කිරීමේ ගැටලුව මග හැරේ(අධිකව ගැලපීම), එනම්, ආකෘතියේ අධික සංකූලතාවයක් වන අතර එය දුර්වලතාවයකිබොහෝ ක්රම (උදාහරණයක් ලෙස, තීරණ ගස් සහ ස්නායු ජාල).

Naive Bayes ප්‍රවේශයට පහත අවාසි ඇත:

සියලුම ආදාන විට පමණක් කොන්දේසි සහිත සම්භාවිතාව ගුණ කිරීම නිවැරදි වේවිචල්‍යයන් සැබවින්ම සංඛ්‍යානමය වශයෙන් ස්වාධීන වේ; බොහෝ විට මෙම ක්රමය වුවදසංඛ්යානමය තත්ත්වය සපුරා නොමැති විට ඉතා හොඳ ප්රතිඵල පෙන්වයිස්වාධීනත්වය, නමුත් න්‍යායාත්මකව එවැනි තත්වයක් වඩාත් සංකීර්ණ ලෙස හැසිරවිය යුතුයBayesian ජාල පුහුණු කිරීම මත පදනම් වූ ක්රම;

අඛණ්ඩ විචල්යයන් සෘජුව සැකසීම කළ නොහැක - ඒවා අවශ්ය වේගුණාංග විවික්ත වන පරිදි විරාම පරිමාණයකට පරිවර්තනය කිරීම; කෙසේ වෙතත් එවැනිපරිවර්තනයන් සමහර විට සැලකිය යුතු රටා නැති වීමට හේතු විය හැක;

Naive Bayes ප්‍රවේශයේ වර්ගීකරණ ප්‍රතිඵලය බලපෑවේ පමණිආදාන විචල්‍යවල තනි අගයන්, යුගලවල ඒකාබද්ධ බලපෑම හෝවිවිධ ගුණාංගවල වටිනාකම් ත්‍රිත්ව මෙහි සැලකිල්ලට නොගනී. මෙය වැඩිදියුණු කළ හැකියඑහි අනාවැකි නිරවද්‍යතාවය අනුව වර්ගීකරණ ආකෘතියේ ගුණාත්මකභාවය,කෙසේ වෙතත්, එය පරීක්ෂා කරන ලද විකල්ප ගණන වැඩි කරනු ඇත.

කෘතිම ස්නායු ජාල

කෘතිම ස්නායු ජාල (මෙතැන් සිට ස්නායු ජාල ලෙස හැඳින්වේ) සමමුහුර්ත සහ අසමමිතික විය හැක.සමමුහුර්ත ස්නායුක ජාල වලදී, සෑම මොහොතකම එහි තත්වය පමණක් වෙනස් වේඑක් නියුරෝනයක්. අසමමුහුර්තව - නියුරෝන සමස්ත කණ්ඩායමක් තුළ, නීතියක් ලෙස, සියල්ල තුළම තත්වය වහාම වෙනස් වේස්ථරය. දෙකක් තියෙනවා මූලික ගෘහ නිර්මාණ ශිල්පය- ස්ථර සහ සම්පුර්ණයෙන්ම සම්බන්ධිත ජාල.ස්ථර ජාල වල ප්රධාන සංකල්පය වන්නේ ස්ථරයේ සංකල්පයයි.ස්ථරයක් යනු නියුරෝන එකක් හෝ කිහිපයක් එහි යෙදවුම් වලට එකම පොදු සංඥාවක් ලැබේ.ස්ථර ස්නායු ජාල යනු ස්නායුක ජාල වන අතර එහි නියුරෝන වෙනම කණ්ඩායම් (ස්ථර) වලට බෙදා ඇති අතර එමඟින් තොරතුරු ස්ථරයෙන් ස්ථරයට සකසනු ලැබේ.ස්ථර ජාල වලදී, i-th ස්ථරයේ නියුරෝන ආදාන සංඥා ලබා ගනී, ඒවා පරිවර්තනය කරයි, සහ ශාඛා ස්ථාන හරහා (i+1) ස්ථරයේ නියුරෝන වෙත සම්ප්‍රේෂණය කරයි. එසේ මත නිපදවන k-th ස්ථරය තෙක්පරිවර්තකයා සහ පරිශීලකයා සඳහා ප්රතිදාන සංඥා. එක් එක් ස්ථරයේ ඇති නියුරෝන ගණන අනෙකුත් ස්ථරවල ඇති නියුරෝන ගණනට සම්බන්ධ නොවන අතර අත්තනෝමතික විය හැක.එක් ස්ථරයක් තුළ, දත්ත සමාන්තරව සකසනු ලබන අතර, සමස්ත ජාලය හරහා, සැකසීම අනුක්රමිකව සිදු කරනු ලැබේ - ස්ථරයෙන් ස්ථරයට. ස්ථර ස්නායු ජාලවලට, උදාහරණයක් ලෙස, බහු ස්ථර සංජානන, රේඩියල් පදනම් ශ්‍රිත ජාල, cognitron, noncognitron, associative memory networks ඇතුළත් වේ.කෙසේ වෙතත්, සංඥාව සෑම විටම ස්ථරයේ ඇති සියලුම නියුරෝන වෙත යවනු නොලැබේ. උදාහරණයක් ලෙස, cognitron එකක, වත්මන් ස්ථරයේ සෑම නියුරෝනයකටම සංඥා ලැබෙන්නේ පෙර ස්ථරයේ එයට ආසන්න නියුරෝන වලින් පමණි.

ස්ථර ජාල, අනෙක් අතට, තනි ස්ථර හෝ බහු ස්ථර විය හැකිය.

තනි ස්ථර ජාලය- එක් ස්ථරයකින් සමන්විත ජාලයක්.

බහු ස්ථර ජාලය- ස්ථර කිහිපයක් සහිත ජාලයක්.

බහු ස්ථර ජාලයක, පළමු ස්ථරය ආදාන ස්ථරය ලෙසද, පසුව ඇති ස්ථර අභ්‍යන්තර හෝ සැඟවුණු ලෙසද, අවසාන ස්ථරය ප්‍රතිදාන ස්ථරය ලෙසද හැඳින්වේ. මේ අනුව, අතරමැදි ස්ථර යනු ආදාන සහ ප්‍රතිදානය හැර බහු ස්ථර ස්නායු ජාලයක සියලුම ස්ථර වේ.ජාලයේ ආදාන ස්තරය ආදාන දත්ත සමඟ සන්නිවේදනය කරන අතර ප්රතිදාන ස්ථරය ප්රතිදානය සමඟ සන්නිවේදනය කරයි.මේ අනුව, නියුරෝන ආදාන, ප්රතිදානය සහ සැඟවිය හැක.ආදාන ස්තරය සංවිධානය කර ඇත්තේ ආදාන නියුරෝන වලින් වන අතර එමඟින් දත්ත ලබා ගන්නා අතර ජාලයේ සැඟවුණු ස්ථරයේ ඇති නියුරෝන වල යෙදවුම් වෙත බෙදා හරිනු ලැබේ.සැඟවුණු නියුරෝනයක් යනු ස්නායු ජාලයක සැඟවුණු ස්ථරයේ පිහිටා ඇති නියුරෝනයකි.ජාලයේ ප්රතිදාන ස්ථරය සංවිධානය කර ඇති ප්රතිදාන නියුරෝන, නිපදවයිස්නායු ජාලයේ ප්රතිඵල.

දැල් ජාල වලසෑම නියුරෝනයක්ම එහි ප්‍රතිදානය තමන් ඇතුළු අනෙකුත් නියුරෝන වෙත සම්ප්‍රේෂණය කරයි. ජාලයේ ප්‍රතිදාන සංඥා ජාල ක්‍රියාකාරිත්වයේ චක්‍ර කිහිපයකට පසු නියුරෝන වල ප්‍රතිදාන සංඥා සියල්ලම හෝ සමහරක් විය හැක.

සියලුම ආදාන සංඥා සියලුම නියුරෝන වලට දෙනු ලැබේ.

ස්නායු ජාල පුහුණු කිරීම

ස්නායුක ජාලයක් භාවිතා කිරීමට පෙර, එය පුහුණු කළ යුතුය.ස්නායුක ජාලයක් පුහුණු කිරීමේ ක්රියාවලිය එහි අභ්යන්තර පරාමිතීන් නිශ්චිත කාර්යයකට ගැලපීමකින් සමන්විත වේ.ස්නායු ජාල ඇල්ගොරිතම පුනරාවර්තනය වේ; එහි පියවර යුග හෝ චක්‍ර ලෙස හැඳින්වේ.යුගයක් යනු ඉගෙනුම් ක්‍රියාවලියේ එක් පුනරාවර්තනයකි, පුහුණු කට්ටලයේ සියලුම උදාහරණ ඉදිරිපත් කිරීම සහ, සමහරවිට, පරීක්ෂණ කට්ටලයක ඉගෙනීමේ ගුණාත්මකභාවය පරීක්ෂා කිරීම.බොහෝ. පුහුණු නියැදිය මත ඉගෙනුම් ක්රියාවලිය සිදු කරනු ලැබේ.පුහුණු කට්ටලයට දත්ත කට්ටලයේ ආදාන අගයන් සහ ඒවාට අනුරූප නිමැවුම් අගයන් ඇතුළත් වේ. පුහුණුව අතරතුර, ස්නායුක ජාලය ප්රතිදාන ක්ෂේත්ර සහ ආදාන ක්ෂේත්ර අතර යම් යම් පරායත්තතා සොයා ගනී.මේ අනුව, අපි ප්‍රශ්නයට මුහුණ දී සිටිමු - අපට අවශ්‍ය ආදාන ක්ෂේත්‍ර (විශේෂාංග) මොනවාද?භාවිතා කිරීමට අවශ්ය වේ. මුලදී, තේරීම හූරිස්ටික් ලෙස සිදු කරනු ලැබේ, පසුවආදාන ගණන වෙනස් කළ හැක.

පැන නැගිය හැකි ගැටළුවක් වන්නේ දත්ත කට්ටලයේ නිරීක්ෂණ සංඛ්යාවයි. අවශ්‍ය නිරීක්ෂණ සංඛ්‍යාව සහ ජාලයේ ප්‍රමාණය අතර සම්බන්ධතාවය විස්තර කරන ඇතැම් නීති තිබුණද, ඒවායේ නිවැරදි බව ඔප්පු කර නොමැත.අවශ්ය නිරීක්ෂණ සංඛ්යාව විසඳනු ලබන ගැටලුවේ සංකීර්ණත්වය මත රඳා පවතී. ලක්ෂණ ගණන වැඩි වන විට, නිරීක්ෂණ ගණන රේඛීය නොවන ලෙස වැඩි වේ; මෙම ගැටළුව "මානත්වයේ ශාපය" ලෙස හැඳින්වේ. ප්රමාණවත් නොවන අවස්ථාවකදත්ත, රේඛීය ආකෘතියක් භාවිතා කිරීම රෙකමදාරු කරනු ලැබේ.

විශ්ලේෂකයා ජාලයේ ස්ථර ගණන සහ එක් එක් ස්ථරයේ නියුරෝන ගණන තීරණය කළ යුතුය.ඊළඟට, ඔබට කළ හැකි බර සහ ඕෆ්සෙට් වල එවැනි අගයන් පැවරිය යුතුයතීරණ දෝෂය අවම කරන්න. පුහුණු දෝෂය ලෙස හැඳින්වෙන අපේක්ෂිත සහ ලැබුණු ප්‍රතිදාන සංඥා අතර වෙනස අවම කිරීම සඳහා බර සහ පක්ෂග්‍රාහීත්වය ස්වයංක්‍රීයව සකසනු ලැබේ.ඉදිකරන ලද ස්නායුක ජාලය සඳහා පුහුණු දෝෂය සංසන්දනය කිරීමෙන් ගණනය කෙරේප්රතිදානය සහ ඉලක්ක (අවශ්ය) අගයන්. දෝෂ ශ්රිතය සෑදී ඇත්තේ ප්රතිඵල වෙනස්කම් වලින්.

දෝෂ ශ්‍රිතය යනු ක්‍රියාවලියේදී අවම කිරීම අවශ්‍ය වෛෂයික ශ්‍රිතයකිස්නායුක ජාලයක අධීක්ෂණ ඉගෙනීම.දෝෂ ශ්‍රිතය භාවිතා කරමින්, පුහුණුව අතරතුර ඔබට ස්නායුක ජාලයේ ගුණාත්මකභාවය ඇගයීමට ලක් කළ හැකිය. උදාහරණයක් ලෙස, වර්ග දෝෂ එකතුව බොහෝ විට භාවිතා වේ.ස්නායුක ජාලයක පුහුණුවේ ගුණාත්මකභාවය පවරා ඇති කාර්යයන් විසඳීමට ඇති හැකියාව තීරණය කරයි.

ස්නායු ජාලයක් නැවත පුහුණු කිරීම

ස්නායුක ජාල පුහුණු කරන විට, බරපතල දුෂ්කරතාවයක් බොහෝ විට පැන නගීවැඩිපුර සවි කිරීමේ ගැටලුව.අධික ලෙස සවි කිරීම, හෝ අධික ලෙස ගැලපීම - අධික ලෙස සවි කිරීමස්නායු ජාලය විශේෂිත පුහුණු උදාහරණ කට්ටලයකට, ජාලය අහිමි වනසාමාන්යකරණය කිරීමේ හැකියාව.ඕනෑවට වඩා පුහුණුවීම් ඇති විට, ප්‍රමාණවත් නොවන විට අධික පුහුණුවක් ඇති වේපුහුණු උදාහරණ හෝ අතිශය සංකීර්ණ ස්නායු ජාල ව්‍යුහයක්.නැවත පුහුණු කිරීම යනු පුහුණු කට්ටලය තෝරා ගැනීමයිඅහඹු වේ. ඉගෙනීමේ පළමු පියවරේ සිට දෝෂය අඩු වේ. මතදෝෂය (වෛෂයික ශ්රිතය) පරාමිතීන් අඩු කිරීම සඳහා පසු පියවරපුහුණු කට්ටලයේ ලක්ෂණ වලට අනුගත වීම. කෙසේ වෙතත්, මෙය සිදු වේ“ගැළපීම” මාලාවේ සාමාන්‍ය රටා වලට නොව එහි කොටසෙහි ලක්ෂණ වලට -පුහුණු උප කුලකය. ඒ සමගම, අනාවැකි වල නිරවද්යතාව අඩු වේ.ජාල අධික පුහුණුවට එරෙහිව සටන් කිරීමේ එක් විකල්පයක් වන්නේ පුහුණු නියැදිය දෙකකට බෙදීමයිකට්ටල (පුහුණු සහ පරීක්ෂණ).ස්නායුක ජාලය පුහුණු කට්ටලය මත පුහුණු කරනු ලැබේ. ඉදිකරන ලද ආකෘතිය පරීක්ෂණ කට්ටලය මත පරීක්ෂා කරනු ලැබේ. මෙම කට්ටල ඡේදනය නොවිය යුතුය.සෑම පියවරක් සමඟම, ආදර්ශ පරාමිතීන් වෙනස් වේ, නමුත් නියත අඩු වීමවෛෂයික කාර්යයේ වටිනාකම හරියටම පුහුණු කට්ටලය මත සිදු වේ. අපි කට්ටලය දෙකට බෙදූ විට, පුහුණු කට්ටලයේ නිරීක්ෂණවලට සමාන්තරව පරීක්ෂණ කට්ටලයේ අනාවැකි දෝෂයේ වෙනසක් අපට නිරීක්ෂණය කළ හැකිය. ඇතැම්කට්ටල දෙකෙහිම අනාවැකි දෝෂ පියවර ගණන අඩු වේ. කෙසේ වෙතත්, මතනිශ්චිත පියවරකදී, පරීක්ෂණ කට්ටලයේ දෝෂය වැඩි වීමට පටන් ගනී, පුහුණු කට්ටලයේ දෝෂය දිගටම අඩු වේ. මෙම මොහොත නැවත පුහුණු කිරීමේ ආරම්භය ලෙස සැලකේ

DataMining මෙවලම්

ලෝක ප්‍රසිද්ධ නායකයින් සහ නව සංවර්ධනය වෙමින් පවතින සමාගම් දෙකම ගෝලීය මෘදුකාංග වෙළඳපොලේ DataMining අංශයේ සංවර්ධනයට සම්බන්ධ වේ. DataMining මෙවලම් ස්වාධීන යෙදුමක් ලෙස හෝ ප්‍රධාන නිෂ්පාදනයට ඇඩෝන ලෙස ඉදිරිපත් කළ හැක.අවසාන විකල්පය බොහෝ මෘදුකාංග වෙළඳපල නායකයින් විසින් ක්රියාත්මක කරනු ලැබේ.මේ අනුව, සාම්ප්‍රදායික සංඛ්‍යාන විශ්ලේෂණ ක්‍රමවලට අමතරව විශ්ව සංඛ්‍යාන පැකේජ සංවර්ධකයින් පැකේජයට ඇතුළත් කිරීම දැනටමත් සම්ප්‍රදායක් බවට පත්ව ඇත.විශේෂිත DataMining ක්‍රම මාලාවක්. මේ වගේ පැකේජ SPSS (SPSS, Clementine), Statistica (StatSoft), SAS ආයතනය (SAS Enterprise Miner).සමහර OLAP විසඳුම් සපයන්නන් කොග්නෝස් නිෂ්පාදන පවුල වැනි DataMining ක්‍රම මාලාවක් ද ඉදිරිපත් කරයි. DBMS ක්‍රියාකාරීත්වය තුළ DataMining විසඳුම් ඇතුළත් සැපයුම්කරුවන් ඇත: මේවා Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMIntelligentMinerforData) වේ.

ග්‍රන්ථ නාමාවලිය

  1. Abdikeev එන්.එම්. ඩන්කෝ ටී.පී. ඉල්ඩමෙනොව් එස්.වී. Kiselev A.D., “ව්‍යාපාර ක්‍රියාවලි ප්‍රතිනිර්මාණය. MBA පාඨමාලාව", එම්.: එක්ස්මෝ ප්‍රකාශන ආයතනය, 2005. - 592 පි. - (MBA)
  1. Abdikeev N.M., Kiselev A.D. "සංස්ථාවක දැනුම කළමනාකරණය සහ ව්යාපාර නැවත සකස් කිරීම" - එම්.: ඉන්ෆ්රා-එම්, 2011. - 382 පි. – ISBN 978-5-16-004300-5
  1. Barseghyan A.A., Kupriyanov M.S., Stepanenko V.V., Kholod I.I. "දත්ත විශ්ලේෂණ ක්‍රම සහ ආකෘති: OLAP සහ දත්ත කැණීම්", ශාන්ත පීටර්ස්බර්ග්: BHV-Petersburg, 2004, 336 pp., ISBN 5-94157-522-X
  1. ආදිපාදවරයා තුල., සැමොයිලෙන්කෝ ., “දත්ත කැණීම.පුහුණු පාඨමාලාව" ශාන්ත පීටර්ස්බර්ග්: පීටර්, 2001, 386 පි.
  1. චුබුකෝවා I.A., දත්ත පතල් පාඨමාලාව, http://www.intuit.ru/department/database/datamining/
  1. ඉයන්එච්. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Data Mining: Practical Machine Learning Tools and Techniques (තෙවන සංස්කරණය), ISBN 978-0-12-374856-0
  1. පෙට්රුෂින් වී.ඒ. , ඛාන් එල්., බහුමාධ්‍ය දත්ත කැණීම් සහ දැනුම සොයාගැනීම

රුසියානු සමූහාණ්ඩුවේ අධ්යාපන හා විද්යා අමාත්යාංශය

උසස් වෘත්තීය අධ්‍යාපනය පිළිබඳ ෆෙඩරල් රාජ්‍ය අයවැය අධ්‍යාපන ආයතනය

"ජාතික පර්යේෂණ ටොම්ස්ක් පොලිටෙක්නික් විශ්ව විද්‍යාලය"

සයිබර්නෙටික්ස් ආයතනය

දිශාව තොරතුරු සහ පරිගණක විද්‍යාව

VT දෙපාර්තමේන්තුව

පරීක්ෂණය

තොරතුරු හා පරිගණක ඉංජිනේරු විෂයය තුළ

මාතෘකාව: දත්ත කැණීමේ ක්රම

හැදින්වීම

දත්ත කැණීම. මූලික සංකල්ප සහ අර්ථ දැක්වීම්

1 දත්ත කැණීමේ ක්‍රියාවලියේ පියවර

2 බුද්ධිමත් විශ්ලේෂණ පද්ධතිවල සංරචක

3 දත්ත කැණීමේ ක්රම

දත්ත කැණීම් ක්රම

1 සංගම් රීති වල ව්‍යුත්පන්න

2 ස්නායු ජාල ඇල්ගොරිතම

3 ළඟම අසල්වැසියා සහ k-ළඟම අසල්වැසි ක්‍රම

4 තීරණ ගස්

5 ක්ලස්ටරින් ඇල්ගොරිතම

6 ජානමය ඇල්ගොරිතම

අයදුම් කිරීමේ ක්ෂේත්ර

දත්ත කැණීම් මෙවලම් නිෂ්පාදකයින්

ක්රම විවේචනය

නිගමනය

ග්‍රන්ථ නාමාවලිය

හැදින්වීම

සංවර්ධනයේ ප්රතිඵලය තොරතුරු තාක්ෂණඑකතු වී ඇති අතිවිශාල දත්ත ප්‍රමාණයයි ඉලෙක්ට්රොනික ආකෘතියෙන්, වේගයෙන් වර්ධනය වේ. ඒ අතරම, දත්ත, රීතියක් ලෙස, විෂමජාතීය ව්යුහයක් ඇත (පෙළ, රූප, ශ්රව්ය, දෘශ්ය, අධිපෙළ ලේඛන, සම්බන්ධතා දත්ත සමුදායන්). සඳහා රැස් කර ඇත දීර්ඝ කාලීනදත්ත සැලසුම් කිරීම, පුරෝකථනය කිරීම, තීරණ ගැනීම සහ ක්‍රියාවලි පාලනය සඳහා වටිනා තොරතුරු වන රටා, ප්‍රවණතා සහ සබඳතා අඩංගු විය හැක. කෙසේ වෙතත්, එවැනි විෂමජාතීය දත්ත පරිමාවන් ඵලදායී ලෙස විශ්ලේෂණය කිරීමට මිනිසුන්ට භෞතිකව නොහැකි ය. සාම්ප්‍රදායික ගණිතමය සංඛ්‍යාලේඛන ක්‍රම බොහෝ කලක සිට දත්ත විශ්ලේෂණය සඳහා ප්‍රධාන මෙවලම ලෙස ප්‍රකාශ කර ඇත. කෙසේ වෙතත්, ඔවුන් නව උපකල්පනවල සංශ්ලේෂණයට ඉඩ නොදේ, නමුත් පූර්ව-සූත්‍රගත උපකල්පන සහ "රළු" ගවේෂණාත්මක විශ්ලේෂණය තහවුරු කිරීමට පමණක් භාවිතා කළ හැකිය, එය මාර්ගගත විශ්ලේෂණ සැකසීමේ (OLAP) පදනම වේ. බොහෝ විට, දත්තවල ඇති සියලුම රටා බැලූ බැල්මට නොපැහැදිලි බැවින්, පසුකාලීන තීරණ ගැනීම සඳහා විශ්ලේෂණය සිදු කිරීමේදී වඩාත්ම දුෂ්කර කාර්යය බවට පත්වන්නේ උපකල්පනයක් සැකසීමයි. එබැවින්, තොරතුරු තාක්ෂණ කර්මාන්තයේ පර්යේෂණ සහ යෙදුම සඳහා වඩාත් වැදගත් සහ පොරොන්දු වූ මාතෘකාවක් ලෙස දත්ත කැණීම් තාක්ෂණයන් සැලකේ. මෙම අවස්ථාවේ දී දත්ත කැණීම යනු විශාල දත්ත ප්‍රමාණයක් මත පදනම්ව නව, නිවැරදි සහ ප්‍රයෝජනවත් විය හැකි දැනුම හඳුනා ගැනීමේ ක්‍රියාවලියයි. මේ අනුව, MIT Technology Review විසින් Data Mining ලෝකය වෙනස් කරන නැගී එන තාක්ෂණයන් දහයෙන් එකක් ලෙස විස්තර කර ඇත.

1. දත්ත කැණීම. මූලික සංකල්ප සහ අර්ථ දැක්වීම්

දත්ත කැණීම යනු මානව ක්‍රියාකාරකම්වල විවිධ ක්ෂේත්‍රවල තීරණ ගැනීම සඳහා අවශ්‍ය කලින් නොදන්නා, සුළු නොවන, ප්‍රායෝගිකව ප්‍රයෝජනවත් සහ අර්ථකථනය කළ හැකි දැනුම “අමු” දත්ත තුළින් සොයා ගැනීමේ ක්‍රියාවලියයි.

Data Mining තාක්ෂණයේ සාරය සහ අරමුණ පහත පරිදි සකස් කළ හැක: එය පැහැදිලි නොවන, වෛෂයික සහ ප්‍රායෝගික රටාවන් සඳහා විශාල දත්ත පරිමාවක් සෙවීමට නිර්මාණය කර ඇති තාක්ෂණයකි.

නොපැහැදිලි රටා යනු තොරතුරු සැකසීමේ සම්මත ක්‍රම මගින් හෝ විශේෂඥ විශ්ලේෂණය මගින් හඳුනාගත නොහැකි රටා වේ.

වෛෂයික රටා සෑම විටම ආත්මීය වන විශේෂඥ මතයට ප්‍රතිවිරුද්ධව යථාර්ථයට සම්පූර්ණයෙන්ම අනුරූප වන රටා ලෙස වටහා ගත යුතුය.

මෙම දත්ත විශ්ලේෂණ සංකල්පය උපකල්පනය කරන්නේ:

§ දත්ත සාවද්‍ය, අසම්පූර්ණ (අත්පසුවීම් අඩංගු), පරස්පර විරෝධී, විෂමජාතීය, වක්‍ර, සහ ඒ සමගම යෝධ පරිමාවන් තිබිය හැක; එබැවින්, විශේෂිත යෙදුම්වල දත්ත අවබෝධ කර ගැනීම සඳහා සැලකිය යුතු බුද්ධිමය උත්සාහයක් අවශ්ය වේ;

§ දත්ත විශ්ලේෂණ ඇල්ගොරිතම වලටම “බුද්ධි මූලද්‍රව්‍ය” තිබිය හැකිය, විශේෂයෙන් පූර්වාදර්ශවලින් ඉගෙනීමේ හැකියාව, එනම් විශේෂිත නිරීක්ෂණ මත පදනම්ව සාමාන්‍ය නිගමනවලට එළඹීමට; එවැනි ඇල්ගොරිතම සංවර්ධනය කිරීම සඳහා සැලකිය යුතු බුද්ධිමය උත්සාහයක් ද අවශ්ය වේ;

§ අමු දත්ත තොරතුරු බවටත් තොරතුරු දැනුම බවටත් සැකසීමේ ක්‍රියාවලීන් අතින් සිදු කළ නොහැකි අතර ස්වයංක්‍රීයකරණය අවශ්‍ය වේ.

දත්ත පතල් තාක්ෂණය පදනම් වී ඇත්තේ දත්තවල බහුමාන සම්බන්ධතාවල කොටස් පිළිබිඹු කරන සැකිලි සංකල්පය මතය. මෙම රටා මගින් මිනිසාට කියවිය හැකි ආකාරයෙන් සංයුක්තව ප්‍රකාශ කළ හැකි දත්ත උප නියැදිවල ආවේනික රටා නියෝජනය කරයි.

රටා සෙවීම සිදු කරනු ලබන්නේ නියැදියේ ව්‍යුහය සහ විශ්ලේෂණය කරන ලද දර්ශකවල අගයන් බෙදා හැරීමේ වර්ගය පිළිබඳ පූර්ව උපකල්පන වලින් සීමා නොවන ක්‍රම භාවිතා කරමිනි.

දත්ත කැණීමේ වැදගත් ලක්ෂණයක් වන්නේ සොයන රටා වල සම්මත නොවන සහ පැහැදිලි නොවන ස්වභාවයයි. වෙනත් වචන වලින් කිවහොත්, දත්ත කැණීම් මෙවලම් සංඛ්‍යාන දත්ත සැකසුම් මෙවලම් සහ OLAP මෙවලම් වලින් වෙනස් වන්නේ පරිශීලකයන් විසින් පූර්ව උපකල්පනය කරන ලද අන්තර් පරායත්තතා පරීක්ෂා කිරීම වෙනුවට, පවතින දත්ත මත පදනම්ව ස්වාධීනව එවැනි අන්තර් යැපීම් සොයා ගැනීමට සහ ඒවායේ ස්වභාවය පිළිබඳ උපකල්පන ගොඩනැගීමට ඔවුන්ට හැකි වේ. දත්ත කැණීම් ක්‍රම මගින් හඳුනාගත් සම්මත රටා වර්ග පහක් ඇත:

· සංගමය - සිදුවීම් එකිනෙක සම්බන්ධ වීමේ ඉහළ සම්භාවිතාවකි. සංගමයක උදාහරණයක් වන්නේ බොහෝ විට එකට මිලදී ගන්නා වෙළඳසැලක ඇති භාණ්ඩ;

· අනුපිළිවෙල - කාලයට අදාළ සිදුවීම් දාමයක ඉහළ සම්භාවිතාවක්. අනුපිළිවෙලකට උදාහරණයක් නම්, එක් නිෂ්පාදනයක් මිල දී ගැනීමෙන් පසු යම් කාල සීමාවක් තුළ, තවත් ඉහළ සම්භාවිතාවක් සහිතව මිල දී ගන්නා තත්වයක්;

· වර්ගීකරණය - මෙම හෝ එම සිදුවීම හෝ වස්තුව අයත් වන කණ්ඩායම සංලක්ෂිත කරන ලකුණු තිබේ;

· පොකුරු කිරීම යනු වර්ගීකරණයට සමාන රටාවක් වන අතර කණ්ඩායම් විසින්ම නිශ්චිතව දක්වා නොමැති බැවින් එයින් වෙනස් වේ - දත්ත සැකසීමේදී ඒවා ස්වයංක්‍රීයව හඳුනා ගැනේ;

· තාවකාලික රටා - ඇතැම් දත්තවල හැසිරීම් වල ගතිකත්වයේ රටා පැවතීම. කාල රටාවකට සාමාන්‍ය උදාහරණයක් වන්නේ ඇතැම් භාණ්ඩ හෝ සේවා සඳහා ඇති ඉල්ලුමේ සෘතුමය උච්චාවචනයන් ය.

1.1 දත්ත කැණීමේ ක්‍රියාවලියේ පියවර

සාම්ප්‍රදායිකව, දත්ත කැණීමේ ක්‍රියාවලියේදී පහත අදියර වෙන්කර හඳුනාගත හැකිය:

1. විෂය ක්ෂේත්රයේ අධ්යයනය, එහි ප්රතිඵලයක් ලෙස විශ්ලේෂණයේ ප්රධාන අරමුණු සකස් කර ඇත.

2. දත්ත එකතු කිරීම.

දත්ත පෙර සැකසුම්:

ඒ. දත්ත පිරිසිදු කිරීම - මූලාශ්‍ර දත්ත වලින් නොගැලපීම් සහ අහඹු "ශබ්ද" ඉවත් කිරීම

බී. දත්ත ඒකාබද්ධ කිරීම - හැකි මූලාශ්‍ර කිහිපයකින් දත්ත එක් ගබඩාවකට ඒකාබද්ධ කිරීම. දත්ත පරිවර්තනය. මෙම අවස්ථාවෙහිදී, දත්ත විශ්ලේෂණය සඳහා සුදුසු ආකෘතියක් බවට පරිවර්තනය වේ. දත්ත එකතු කිරීම, ගුණාංග නියැදීම, දත්ත සම්පීඩනය සහ මානයන් අඩු කිරීම බොහෝ විට භාවිතා වේ.

4. දත්ත විශ්ලේෂණය. මෙම අදියරේ කොටසක් ලෙස, රටා උකහා ගැනීම සඳහා පතල් ඇල්ගොරිතම භාවිතා වේ.

5. සොයාගත් රටා අර්ථ නිරූපණය කිරීම. මෙම අදියරට නිස්සාරණය කරන ලද රටා දෘශ්‍යමාන කිරීම, සමහර උපයෝගිතා ශ්‍රිතය මත පදනම්ව සැබවින්ම ප්‍රයෝජනවත් රටා හඳුනා ගැනීම ඇතුළත් විය හැකිය.

නව දැනුම භාවිතා කිරීම.

1.2 බුද්ධිමත් විශ්ලේෂණ පද්ධතිවල සංරචක

සාමාන්‍යයෙන්, දත්ත කැණීම් පද්ධතිවලට පහත ප්‍රධාන කොටස් ඇත:

1. දත්ත සමුදායක්, දත්ත ගබඩාවක් හෝ වෙනත් තොරතුරු ගබඩාවක්. මෙය දත්ත සමුදායන් එකක් හෝ කිහිපයක්, දත්ත ගබඩාවක්, පැතුරුම්පත්, හෝ පිරිසිදු කර ඒකාබද්ධ කළ හැකි වෙනත් ආකාරයේ ගබඩාවන් විය හැක.

2. දත්ත සමුදාය හෝ දත්ත ගබඩා සේවාදායකය. පරිශීලක ඉල්ලීම මත පදනම්ව අත්‍යවශ්‍ය දත්ත ලබා ගැනීම සඳහා නිශ්චිත සේවාදායකය වගකිව යුතුය.

දැනුම පදනම. මෙය ඩොමේන් දැනුමක් වන අතර එමඟින් ලැබෙන රටා වල ප්‍රයෝජනය සෙවීමට සහ ඇගයීමට මග පෙන්වයි.

දැනුම පතල් සේවාව. එය දත්ත කැණීම් පද්ධතියේ අනිවාර්ය අංගයක් වන අතර ගුනාංගීකරනය, සංගම් සෙවීම, වර්ගීකරණය, පොකුරු විශ්ලේෂණය සහ විචල්‍යතා විශ්ලේෂණය වැනි කාර්යයන් සඳහා ක්‍රියාකාරී මොඩියුල සමූහයක් අඩංගු වේ.

රටා ඇගයුම් මොඩියුලය. මෙම සංරචකය රටා වල උනන්දුව හෝ ප්‍රයෝජනය මැනීම ගණනය කරයි.

ග්රැෆික් පරිශීලක අතුරුමුහුණත. මෙම මොඩියුලය පරිශීලකයා සහ දත්ත කැණීම් පද්ධතිය අතර සන්නිවේදනය, විවිධ ආකාරවලින් රටා දෘශ්‍යකරණය සඳහා වගකිව යුතුය.

1.3 දත්ත කැණීමේ ක්‍රම

Data Mining තාක්ෂණයේ භාවිතා වන විශ්ලේෂණ ක්‍රම බොහොමයක් සුප්‍රසිද්ධ ගණිතමය ඇල්ගොරිතම සහ ක්‍රම වේ. දෘඪාංග සහ මෘදුකාංගවල නැඟී එන හැකියාවන් හේතුවෙන්, ඔවුන්ගේ යෙදුමේ අලුත් දෙය නම්, ඇතැම් විශේෂිත ගැටළු විසඳීමේදී ඒවා භාවිතා කිරීමේ හැකියාවයි. බොහෝ දත්ත කැණීම් ක්‍රම කෘත්‍රිම බුද්ධියේ න්‍යායේ රාමුව තුළ සංවර්ධනය කරන ලද බව සැලකිල්ලට ගත යුතුය. වඩාත් බහුලව භාවිතා වන ක්රම දෙස බලමු:

සංගම් නීති වල ව්යුත්පන්න.

2. ස්නායුක ජාල ඇල්ගොරිතම, එය පදනම් වී ඇත්තේ ස්නායු පටක වල ක්‍රියාකාරීත්වය හා ප්‍රතිසමයක් මත වන අතර ආරම්භක පරාමිතීන් "නියුරෝන" අතර පවතින සම්බන්ධතා වලට අනුකූලව පරිවර්තනය වන සංඥා ලෙස සලකනු ලැබේ. සහ සමස්ත ජාලයේ ප්‍රතිචාරය මුල් දත්ත වෙත විශ්ලේෂණය කිරීමෙන් ලැබෙන ප්‍රතිචාරය ලෙස සැලකේ.

පවතින ඓතිහාසික දත්ත වලින් මුල් දත්තවල සමීප ප්‍රතිසමයක් තෝරා ගැනීම. "ළඟම අසල්වැසි" ක්රමය ලෙසද හැඳින්වේ.

තීරණ ගස් යනු "ඔව්" හෝ "නැත" පිළිතුරක් අවශ්‍ය වන ප්‍රශ්න මාලාවක් මත පදනම් වූ ධූරාවලි ව්‍යුහයකි.

දත්ත කට්ටලයක ක්ෂේත්‍ර කිහිපයක සමාන අගයන් මත පදනම්ව සමාන සිදුවීම් කණ්ඩායම් වලට කාණ්ඩ කිරීමට පොකුරු ආකෘති භාවිතා කරයි.

ඊළඟ පරිච්ඡේදයේ අපි ඉහත ක්රම වඩාත් විස්තරාත්මකව විස්තර කරමු.

2. දත්ත කැණීම් ක්රම

2.1 සංගම් රීති පිළිබඳ නිගමනය

සංගම් රීති යනු "එසේ නම් ... පසුව ..." පෝරමයේ නීති වේ. දත්ත කට්ටලයක් තුළ එවැනි නීති සෙවීමෙන් පෙනෙන පරිදි සම්බන්ධයක් නැති දත්තවල සැඟවුණු සම්බන්ධතා අනාවරණය වේ. සංගම් රීති සොයා ගැනීම සඳහා නිතර සඳහන් කරන ලද උදාහරණවලින් එකක් වන්නේ සාප්පු කරත්තයක ස්ථාවර සම්බන්ධතා සොයා ගැනීමේ ගැටලුවයි. මෙම ගැටළුව වන්නේ පාරිභෝගිකයින් එක්ව මිලදී ගන්නේ කුමන නිෂ්පාදනද යන්න තීරණය කිරීමයි, එවිට අලෙවිකරුවන්ට විකුණුම් වැඩි කිරීම සඳහා මෙම නිෂ්පාදන නිසි ලෙස ගබඩාවේ තැබිය හැකිය.

සංගම් රීති යනු පෝරමයේ ප්‍රකාශ (X1,X2,...,Xn) -> Y ලෙස අර්ථ දක්වා ඇත, එහිදී අදහස් වන්නේ Y එම ගනුදෙනුවේම X1,X2,...,Xn තිබේ නම් ගනුදෙනුවක සිටිය හැකි බවයි. රීතිය අනන්‍යතාවයක් නොවන නමුත් යම් සම්භාවිතාවකින් පමණක් සෑහීමකට පත්වන බව "may" යන වචනයෙන් ගම්‍ය වන බව සඳහන් කළ යුතුය. ඊට අමතරව, Y එක් මූලද්‍රව්‍යයකට වඩා මූලද්‍රව්‍ය සමූහයක් විය හැකිය. X1,X2,...,Xn මූලද්‍රව්‍ය අඩංගු ගනුදෙනුවක Y සොයා ගැනීමේ සම්භාවිතාව විශ්වාසය ලෙස හැඳින්වේ. මුළු ගනුදෙනු සංඛ්‍යාවෙන් රීතියක් අඩංගු ගනුදෙනු ප්‍රතිශතය සහාය ලෙස හැඳින්වේ. රීතියක විශ්වාසය ඉක්මවා යා යුතු විශ්වාස මට්ටම රසවත් බව ලෙස හැඳින්වේ.

විවිධ ආකාරයේ සංගම් නීති තිබේ. ඔවුන්ගේ සරලම ආකාරයෙන්, සංගම් නීති සන්නිවේදනය කරන්නේ සංගමයක් පැවතීම හෝ නොමැතිකම පමණි. එවැනි නීති Boolean Association Rules ලෙස හැඳින්වේ. එවැනි රීතියකට උදාහරණයක්: "යෝගට් මිලදී ගන්නා පාරිභෝගිකයින් අඩු මේද බටර් ද මිලදී ගනී."

සංගම් නීති කිහිපයක් එකට එකතු කරන රීති බහු මට්ටමේ හෝ සාමාන්‍ය සංගම් රීති ලෙස හැඳින්වේ. එවැනි රීති ගොඩනඟන විට, මූලද්‍රව්‍ය සාමාන්‍යයෙන් ධූරාවලියකට අනුව කාණ්ඩගත කර ඇති අතර, සෙවීම ඉහළම සංකල්පීය මට්ටමින් සිදු කෙරේ. උදාහරණයක් ලෙස, "කිරි මිලදී ගන්නා පාරිභෝගිකයින් පාන් ද මිලදී ගනී." මෙම උදාහරණයේ දී, කිරි සහ පාන් විවිධ වර්ගවල සහ වෙළඳ නාමවල ධූරාවලියක් අඩංගු වේ, නමුත් පහළ මට්ටමේ සෙවීම සිත්ගන්නා නීති හෙළි නොකරයි.

වඩාත් සංකීර්ණ රීතියක් වන්නේ ප්‍රමාණාත්මක සංගම් රීති වේ. මෙම රීතිය ප්‍රමාණාත්මක (උදා මිල) හෝ වර්ගික (උදා: ස්ත්‍රී පුරුෂ භාවය) උපලක්ෂණ භාවිතයෙන් සෙවුම් කරනු ලබන අතර, එය අර්ථ දක්වා ඇත්තේ ( , ,…,} -> . උදාහරණයක් ලෙස, "වසරකට 75,000 ට වඩා වැඩි ආදායමක් ඇති වයස අවුරුදු 30 ත් 35 ත් අතර සිටින ගැනුම්කරුවන් 20,000 ට වැඩි මෝටර් රථ මිලදී ගනී."

ඉහත ආකාරයේ නීති ගණුදෙණු, ඒවායේ ස්වභාවය අනුව, කාලය මත රඳා පවතින බව ආමන්ත්‍රණය නොකරයි. උදාහරණයක් ලෙස, නිෂ්පාදනයක් විකිණීම සඳහා ලැයිස්තුගත කිරීමට පෙර හෝ එය වෙළඳපොලෙන් අතුරුදහන් වූ පසු සෙවීම ආධාරක සීමාවට අහිතකර ලෙස බලපානු ඇත. මෙය සැලකිල්ලට ගනිමින්, තාවකාලික සංගම් රීති සෙවීම සඳහා ඇල්ගොරිතම තුළ attribute lifetime සංකල්පය හඳුන්වා දෙන ලදී (Temporal Association Rules).

සංගම් රීති සෙවීමේ ගැටළුව සාමාන්‍යයෙන් කොටස් දෙකකට වියෝජනය කළ හැකිය: නිතර සිදුවන මූලද්‍රව්‍ය කට්ටල සෙවීම සහ නිතර සිදුවන කට්ටල මත පදනම්ව රීති ජනනය කිරීම. පෙර අධ්‍යයනයන් බොහෝ දුරට මෙම රේඛා අනුගමනය කර ඒවා විවිධ දිශාවලට දිගු කර ඇත.

Apriori ඇල්ගොරිතමයේ පැමිණීමේ සිට, මෙම ඇල්ගොරිතම පළමු පියවරේදී බහුලව භාවිතා වේ. බොහෝ වැඩි දියුණු කිරීම්, උදාහරණයක් ලෙස වේගය සහ පරිමාණය, Apriori ඇල්ගොරිතම වැඩි දියුණු කිරීම අරමුණු කර ඇත, නිතර සිදුවන මූලද්‍රව්‍ය කට්ටල සඳහා බොහෝ අපේක්ෂකයින් ජනනය කිරීමේ එහි වැරදි ගුණාංග නිවැරදි කිරීම. Apriori පමණක් භාවිතා කරමින් මූලද්‍රව්‍ය කට්ටල ජනනය කරයි විශාල කට්ටල, ගනුදෙනු නැවත පරීක්ෂා නොකර, පෙර පියවරේදී සොයා ගන්නා ලදී. නවීකරණය කරන ලද AprioriTid ඇල්ගොරිතම Apriori මත වැඩිදියුණු වන්නේ පළමු අවසර පත්‍රයේ දත්ත සමුදාය පමණක් භාවිතා කිරීමෙනි. පසු පියවරේදී ගණනය කිරීමේදී, මුල් දත්ත සමුදායට වඩා ප්‍රමාණයෙන් ඉතා කුඩා ප්‍රමාණයේ පළමු පාස් එකේ ඇති දත්ත පමණක් භාවිතා වේ. මෙය ඵලදායිතාවයේ විශාල වැඩිවීමක් ඇති කරයි. AprioriHybrid ලෙස හැඳින්වෙන ඇල්ගොරිතමයේ තවත් වැඩි දියුණු කළ අනුවාදයක්, පළමු පාස් කිහිපයේදී Apriori භාවිතා කිරීමෙන් ලබා ගත හැක, පසුව kth අපේක්ෂක කට්ටල දැනටමත් සම්පුර්ණයෙන්ම පරිගණක මතකයේ ස්ථානගත කළ හැකි විට, පසුව ඇති අවසරපත්‍රවලදී AprioriTid වෙත මාරු වේ.

Apriori ඇල්ගොරිතම වැඩිදියුණු කිරීමේ වැඩිදුර උත්සාහයන් ඇල්ගොරිතමයේ සමාන්තරකරණයට සම්බන්ධ වේ (ගණන් බෙදා හැරීම, දත්ත බෙදා හැරීම, අපේක්ෂක බෙදා හැරීම, ආදිය), එහි පරිමාණය (බුද්ධිමත් දත්ත බෙදා හැරීම, දෙමුහුන් බෙදා හැරීම), නව දත්ත ව්‍යුහයන් හඳුන්වාදීම, වැනි නිතර සිදුවන මූලද්රව්ය (FP-වර්ධනය ).

දෙවන පියවර ප්රධාන වශයෙන් අව්යාජත්වය සහ සිත්ගන්නාසුළු බව මගින් සංලක්ෂිත වේ. නව වෙනස් කිරීම් සම්ප්‍රදායික බූලියන් රීති රීතිවලට ඉහත විස්තර කර ඇති මානය, ගුණාත්මකභාවය සහ කාල සහාය එක් කරයි. පරිණාමීය ඇල්ගොරිතමයක් බොහෝ විට නීති සොයා ගැනීමට භාවිතා කරයි.

2.2 ස්නායු ජාල ඇල්ගොරිතම

මානව ස්නායු පද්ධතියේ ක්‍රියාකාරිත්වය එහි ප්‍රතිනිෂ්පාදනය කිරීමේ අරමුණින් අධ්‍යයනය කිරීම සඳහා ගණිතමය උපකරණ යෙදීමේ ප්‍රති result ලයක් ලෙස කෘතිම ස්නායුක ජාල දර්ශනය විය. එනම්: ස්නායු පද්ධතියට වැරදි ඉගෙන ගැනීමට සහ නිවැරදි කිරීමට ඇති හැකියාව, මිනිස් මොළයේ ක්‍රියාකාරිත්වය තරමක් දළ වශයෙන් වුවද අනුකරණය කිරීමට අපට ඉඩ සලසයි. ස්නායුක ජාලයේ ප්‍රධාන ව්‍යුහාත්මක සහ ක්‍රියාකාරී කොටස රූපයේ දැක්වෙන විධිමත් නියුරෝන වේ. 1, මෙහි x0, x1,..., xn යනු ආදාන සංඥා දෛශිකයේ සංරචක වන අතර, w0,w1,...,wn යනු නියුරෝන ආදාන සංඥා වල බර වල අගයන් වන අතර y යනු නියුරෝන ප්‍රතිදානය වේ. සංඥාව.

සහල්. 1. විධිමත් නියුරෝන: උපාගම (1), එකතු කරන්නා (2), පරිවර්තකය (3).

විධිමත් නියුරෝනයක් මූලද්‍රව්‍ය වර්ග 3 කින් සමන්විත වේ: උපාගම, එකතු කරන්නා සහ පරිවර්තකය. උපාගමයක් නියුරෝන දෙකක් අතර සම්බන්ධතාවයේ ශක්තිය සංලක්ෂිත කරයි.

එකතු කරන්නා ආදාන සංඥා එකතු කරයි, කලින් අනුරූප බරින් ගුණ කර ඇත. පරිවර්තකය එක් තර්කයක කාර්යය ක්රියාත්මක කරයි - එකතු කරන්නාගේ ප්රතිදානය. මෙම ශ්‍රිතය නියුරෝනයේ සක්‍රීය කිරීමේ ශ්‍රිතය හෝ හුවමාරු ශ්‍රිතය ලෙස හැඳින්වේ.

ඉහත විස්තර කර ඇති විධිමත් නියුරෝන සමහර නියුරෝනවල ප්‍රතිදාන සංඥා අනෙක් ඒවාට ආදානය වන ආකාරයට ඒකාබද්ධ කළ හැක. එහි ප්රතිඵලයක් ලෙස අන්තර් සම්බන්ධිත නියුරෝන කට්ටලය කෘතිම ස්නායුක ජාල ලෙස හැඳින්වේ. ස්නායු ජාල, ANN) හෝ, කෙටියෙන්, ස්නායු ජාල.

ස්නායුක ජාලයේ පිහිටීම අනුව පහත දැක්වෙන සාමාන්‍ය නියුරෝන වර්ග තුනක් ඇත:

ආදාන සංඥා සපයන ආදාන නියුරෝන (ආදාන නෝඩ්). එවැනි නියුරෝනවලට සාමාන්‍යයෙන් ඒකක බරක් සහිත එක් ආදානයක් ඇත, කිසිදු නැඹුරුවක් නොමැත, සහ නියුරෝන ප්‍රතිදාන අගය ආදාන සංඥාවට සමාන වේ;

නිමැවුම් නෝඩ්, එහි ප්‍රතිදාන අගයන් ස්නායු ජාලයේ ප්‍රතිදාන සංඥා නියෝජනය කරයි;

ආදාන සංඥා සමඟ සෘජු සම්බන්ධතා නොමැති සැඟවුණු නියුරෝන (සැඟවුණු නෝඩ්), සැඟවුණු නියුරෝනවල ප්රතිදාන සංඥා වල අගයන් ANN හි ප්රතිදාන සංඥා නොවේ.

අන්තර් නියුරෝන සම්බන්ධතා වල ව්‍යුහය මත පදනම්ව, ANN වර්ග දෙකක් වෙන්කර හඳුනාගත හැකිය:

සංග්‍රහය ආදාන නියුරෝනවල සිට ප්‍රතිදාන නියුරෝන දක්වා පමණක් ප්‍රචාරණය වන Feedforward ANNs.

පුනරාවර්තන ANN - ANN සමඟ ප්රතිපෝෂණ. එවැනි ANN වල, ANN හි පිහිටීම නොසලකා ඕනෑම නියුරෝන අතර සංඥා සම්ප්රේෂණය කළ හැකිය.

ANN පුහුණු කිරීම සඳහා පොදු ප්රවේශයන් දෙකක් තිබේ:

ගුරුවරයෙකු සමඟ පුහුණුව.

ගුරුවරයෙකු නොමැතිව ඉගෙනීම.

සුපරීක්ෂාකාරී ඉගෙනීමට පෙර-ජනනය කරන ලද පුහුණු උදාහරණ කට්ටලයක් භාවිතා කිරීම ඇතුළත් වේ. සෑම උදාහරණයකම ආදාන සංඥා දෛශිකයක් සහ අදාළ කාර්යය මත රඳා පවතින යොමු ප්‍රතිදාන සංඥා දෛශිකයක් අඩංගු වේ. මෙම කට්ටලයපුහුණු කට්ටලය හෝ පුහුණු කට්ටලය ලෙස හැඳින්වේ. ස්නායුක ජාලයක් පුහුණු කිරීම ANN සම්බන්ධතා වල බර වෙනස් කිරීම අරමුණු කර ගෙන ඇති අතර එමඟින් ANN ප්‍රතිදාන සංඥා වල අගයන් ලබා දී ඇති ආදාන සංඥා දෛශිකයක් සඳහා ප්‍රතිදාන සංඥා වල අවශ්‍ය අගයන්ගෙන් හැකිතාක් දුරට වෙනස් වේ. .

අධීක්‍ෂණය නොකළ ඉගෙනීමේදී, නියුරෝන අතර තරගයේ ප්‍රතිඵලයක් ලෙස හෝ සම්බන්ධතාවක් පවතින නියුරෝනවල ප්‍රතිදාන සංඥාවල සහසම්බන්ධය සැලකිල්ලට ගනිමින් සම්බන්ධතා බර සකස් කරනු ලැබේ. අධීක්‍ෂණයකින් තොරව ඉගෙනීමේදී, පුහුණු කට්ටලයක් භාවිතා නොකෙරේ.

අභ්‍යවකාශ ෂටල සඳහා ගෙවීම් සැලසුම් කිරීම සහ විනිමය අනුපාත පුරෝකථනය කිරීම වැනි පුළුල් පරාසයක ගැටළු විසඳීම සඳහා ස්නායුක ජාල භාවිතා වේ. කෙසේ වෙතත්, ආකෘතියේ සංකීර්ණත්වය (සිය ගණනක අභ්‍යන්තර සම්බන්ධතා වල බර ලෙස සටහන් කර ඇති දැනුම සම්පූර්ණයෙන්ම මානව විශ්ලේෂණයෙන් හා අර්ථකථනයෙන් ඔබ්බට ගොස් ඇත) සහ විශාල පුහුණු කට්ටලයක දිගු පුහුණු කාලය හේතුවෙන් දත්ත කැණීම් පද්ධතිවල ඒවා බොහෝ විට භාවිතා නොවේ. අනෙක් අතට, ඝෝෂාකාරී දත්ත සහ ඉහළ නිරවද්‍යතාවයට ප්‍රතිරෝධය වැනි දත්ත විශ්ලේෂණ කාර්යයන් සඳහා ස්නායුක ජාලවලට එවැනි වාසි ඇත.

2.3 ආසන්නතම අසල්වැසියා සහ k-ළඟම අසල්වැසි ක්‍රම

ආසන්නතම අසල්වැසි ඇල්ගොරිතමයේ (ළඟම අසල්වැසි ඇල්ගොරිතම) සහ k-ළඟම අසල්වැසි ඇල්ගොරිතමයේ (KNN) පදනම වන්නේ වස්තූන්ගේ සමානතාවයයි. ආසන්නතම අසල්වැසි ඇල්ගොරිතම, දන්නා සියලුම වස්තූන් අතරින්, කලින් නොදන්නා නව වස්තුවකට හැකි තරම් සමීප වස්තුවක් (වස්තු අතර දුර මෙට්‍රික් භාවිතා කරමින්, උදාහරණයක් ලෙස, යුක්ලිඩීයන්) තෝරා ගනී. ආසන්නතම අසල්වැසි ක්‍රමයේ ප්‍රධාන ගැටළුව වන්නේ පුහුණු දත්තවල පිටස්තරයින්ට එහි සංවේදීතාවයි.

විස්තර කරන ලද ගැටළුව KNN ඇල්ගොරිතම මගින් මග හැරිය හැක, සියලු නිරීක්ෂණ අතරින් නව වස්තුවට සමාන k-ළඟම අසල්වැසියන් හඳුනා ගනී. ආසන්නතම අසල්වැසියන්ගේ පන්ති මත පදනම්ව, නව වස්තුව සම්බන්ධයෙන් තීරණයක් ගනු ලැබේ. මෙම ඇල්ගොරිතමයේ වැදගත් කාර්යයක් වන්නේ සංගුණකය තෝරා ගැනීමයි k - සමාන ලෙස සලකනු ලබන වාර්තා ගණන. අසල්වැසියෙකුගේ දායකත්වය නව වස්තුවට ඇති දුර ප්‍රමාණයට සමානුපාතික වන ඇල්ගොරිතමයේ වෙනස් කිරීමක් (k-බර සහිත ආසන්නතම අසල්වැසි ක්‍රමය) කෙනෙකුට වැඩි වර්ගීකරණ නිරවද්‍යතාවයක් ලබා ගැනීමට ඉඩ සලසයි. k ආසන්නතම අසල්වැසි ක්‍රමය මඟින් පුරෝකථනයේ නිරවද්‍යතාවය ඇගයීමට ද ඔබට ඉඩ සලසයි. උදාහරණයක් ලෙස, සියලුම k ආසන්නතම අසල්වැසියන්ට එකම පන්තියක් තිබේ නම්, පරීක්‍ෂා කරන වස්තුවට එකම පන්තියක් තිබීමේ සම්භාවිතාව ඉතා ඉහළය.

ඇල්ගොරිතමයේ ලක්ෂණ අතරින්, k-ළඟම අසල්වැසි සංඛ්යාවට එවැනි වාර්තාවක් ඇතුළත් වීමේ සම්භාවිතාව අඩු බැවින්, විෂමතා පිටස්තරයන්ට එහි ප්රතිරෝධය සඳහන් කිරීම වටී. මෙය සිදු වූයේ නම්, ඡන්දය ප්‍රකාශ කිරීම (විශේෂයෙන් බරිත) (k>2 සඳහා) ද බොහෝ දුරට නොවැදගත් වනු ඇත, එබැවින් වර්ගීකරණ ප්‍රතිඵලයට ඇති බලපෑම ද කුඩා වනු ඇත. එසේම, වාසි වන්නේ ක්‍රියාත්මක කිරීමේ සරල බව, ඇල්ගොරිතමයේ ප්‍රති result ලය අර්ථ නිරූපණය කිරීමේ පහසුව, වඩාත් සුදුසු සංයෝජන ශ්‍රිත සහ ප්‍රමිතික භාවිතා කරමින් ඇල්ගොරිතම වෙනස් කිරීමේ හැකියාව, එමඟින් ඔබට නිශ්චිත කාර්යයකට ඇල්ගොරිතම සකස් කිරීමට ඉඩ සලසයි. KNN ඇල්ගොරිතමයට ද අවාසි ගණනාවක් ඇත. පළමුව, ඇල්ගොරිතම සඳහා භාවිතා කරන දත්ත කට්ටලය නියෝජිත විය යුතුය. දෙවනුව, ආකෘතිය දත්ත වලින් වෙන් කළ නොහැක: නව උදාහරණයක් වර්ගීකරණය කිරීමට සියලු උදාහරණ භාවිතා කළ යුතුය. මෙම විශේෂාංගය ඇල්ගොරිතම භාවිතය බෙහෙවින් සීමා කරයි.

2.4 තීරණ ගස්

"තීරණ ගස්" යන යෙදුම ධූරාවලි, අනුක්‍රමික ව්‍යුහයක් තුළ වර්ගීකරණ රීති නියෝජනය කිරීම මත පදනම් වූ ඇල්ගොරිතම පවුලකට යොමු කරයි. දත්ත කැණීම් ගැටළු විසඳීම සඳහා වඩාත්ම ජනප්‍රිය ඇල්ගොරිතම මෙයයි.

තීරණ ගස් ඉදිකිරීම සඳහා ඇල්ගොරිතම පවුලක් වෙනත් සමාන අවස්ථා පිළිබඳ දත්ත විශාල ප්‍රමාණයක් මත පදනම්ව දී ඇති නඩුවක් සඳහා පරාමිතියක අගය පුරෝකථනය කිරීමට හැකි වේ. සාමාන්‍යයෙන්, මෙම පවුලේ ඇල්ගොරිතම භාවිතා කරනුයේ සියලුම ආරම්භක දත්ත විවික්ත කණ්ඩායම් කිහිපයකට බෙදීමට හැකි වන ගැටළු විසඳීම සඳහා ය.

ආරම්භක දත්ත කට්ටලයකට තීරණ ගස් ඉදිකිරීම් ඇල්ගොරිතම යොදන විට, ප්රතිඵලය ගසක් ලෙස පෙන්වනු ලැබේ. එවැනි ඇල්ගොරිතම මඟින් එවැනි බෙදීම් මට්ටම් කිහිපයක් ක්‍රියාත්මක කිරීමට හැකි වන අතර, එහි ප්‍රති ing ලයක් වශයෙන් කණ්ඩායම් (ගස් අතු) වෙනත් ලක්ෂණ මත පදනම්ව කුඩා ඒවාට බෙදා ඇත. ප්‍රතිඵලයක් ලෙස සියලුම කණ්ඩායම් (ගසේ කොළ) සඳහා පුරෝකථනය කළ යුතු අගයන් සමාන වන තෙක් (හෝ, පුරෝකථනය කළ පරාමිතියේ අඛණ්ඩ අගයකදී, වසන්න) බෙදීම දිගටම පවතී. මෙම ආකෘතිය මත පදනම්ව අනාවැකි කිරීමට භාවිතා කරන මෙම අගයන් වේ.

තීරණ ගස් තැනීම සඳහා ඇල්ගොරිතම ක්‍රියාත්මක කිරීම පදනම් වී ඇත්තේ ප්‍රතිගාමී සහ සහසම්බන්ධතා විශ්ලේෂණ ක්‍රම භාවිතය මතය. මෙම පවුලේ වඩාත්ම ජනප්‍රිය ඇල්ගොරිතමයක් වන්නේ CART (වර්ගීකරණය සහ ප්‍රතිගමන ගස්), ගස් ශාඛාවක දත්ත ළමා ශාඛා දෙකකට බෙදීම මත පදනම්වය; එපමණක් නොව, යම් ශාඛාවක තවදුරටත් බෙදීම මෙම ශාඛාව විස්තර කරන ආරම්භක දත්ත කොපමණද යන්න මත රඳා පවතී. තවත් සමාන ඇල්ගොරිතම ඔබට ශාඛාවක් තවත් ළමා ශාඛා වලට බෙදීමට ඉඩ සලසයි. මෙම අවස්ථාවෙහිදී, බෙදීම සිදු වන පරාමිතිය සහ පසුව පුරෝකථනය කළ යුතු පරාමිතිය අතර ශාඛාව විසින් විස්තර කරන ලද දත්ත සඳහා ඉහළම සහසම්බන්ධතා සංගුණකය මත බෙදීම සිදු කෙරේ.

ප්රවේශයේ ජනප්රියත්වය පැහැදිලිකම සහ පැහැදිලිකම සමඟ සම්බන්ධ වේ. නමුත් දත්තවල "හොඳම" (වඩාත්ම සම්පූර්ණ හා නිවැරදි) රීති සොයා ගැනීමට තීරණ ගස් මූලික වශයෙන් අසමත් වේ. ඔවුන් ලක්ෂණ අනුක්‍රමිකව බැලීමේ බොළඳ මූලධර්මය ක්‍රියාත්මක කරන අතර ඇත්ත වශයෙන්ම සැබෑ රටා වල කොටස් සොයා ගනී, තාර්කික නිගමනයක මිත්‍යාව පමණක් නිර්මාණය කරයි.

2.5 පොකුරු ඇල්ගොරිතම

Clustering යනු වස්තු සමූහයක් පොකුරු ලෙස හඳුන්වන කණ්ඩායම් වලට බෙදීමේ කාර්යයයි. පොකුරු සහ වර්ගීකරණය අතර ඇති ප්රධාන වෙනස වන්නේ කණ්ඩායම් ලැයිස්තුව පැහැදිලිව නිර්වචනය කර නොමැති අතර ඇල්ගොරිතමයේ ක්රියාකාරිත්වය තුළ තීරණය වේ.

පොදුවේ පොකුරු විශ්ලේෂණය යෙදීම පහත පියවර දක්වා පැමිණේ:

· පොකුරු සඳහා වස්තූන් නියැදියක් තෝරාගැනීම;

· නියැදියේ ඇති වස්තූන් තක්සේරු කරනු ලබන විචල්‍ය සමූහයක් නිර්වචනය කිරීම. අවශ්ය නම්, විචල්ය අගයන් සාමාන්යකරණය කරන්න;

· වස්තූන් අතර සමානතා මිනුම් අගයන් ගණනය කිරීම;

· සමාන වස්තූන් (පොකුරු) කණ්ඩායම් නිර්මාණය කිරීම සඳහා පොකුරු විශ්ලේෂණ ක්‍රමය යෙදීම;

· විශ්ලේෂණ ප්රතිඵල ඉදිරිපත් කිරීම.

ප්රතිඵල ලැබීමෙන් හා විශ්ලේෂණය කිරීමෙන් පසුව, ප්රශස්ත ප්රතිඵලය ලබා ගන්නා තෙක් තෝරාගත් මෙට්රික් සහ පොකුරු ක්රමය සකස් කළ හැකිය.

පොකුරු ඇල්ගොරිතම වලට ධූරාවලි සහ පැතලි කණ්ඩායම් ඇතුළත් වේ. ධූරාවලි ඇල්ගොරිතම (වර්ගවිද්‍යා ඇල්ගොරිතම ලෙසද හැඳින්වේ) සාම්පලයේ එක් කොටසක් පමණක් නොගැලපෙන පොකුරු බවට ගොඩනඟයි, නමුත් කැදලි කොටස් පද්ධතියක් ගොඩනඟයි. මේ අනුව, ඇල්ගොරිතමයේ ප්රතිදානය යනු පොකුරු ගසක් වන අතර, එහි මුල සම්පූර්ණ නියැදිය වන අතර, කොළ කුඩාම පොකුරු වේ. පැතලි ඇල්ගොරිතම මඟින් වස්තූන්ගේ එක් කොටසක් එකිනෙක ඡේදනය නොවන පොකුරු බවට ගොඩනඟයි.

පොකුරු ඇල්ගොරිතම වල තවත් වර්ගීකරණයක් වන්නේ පැහැදිලි සහ නොපැහැදිලි ඇල්ගොරිතම වේ. පැහැදිලි (හෝ අතිච්ඡාදනය නොවන) ඇල්ගොරිතම සෑම නියැදි වස්තුවකටම පොකුරු අංකයක් පවරයි, එනම් සෑම වස්තුවක්ම එක් පොකුරකට පමණක් අයත් වේ. නොපැහැදිලි (හෝ ඡේදනය වන) ඇල්ගොරිතම මඟින් සෑම වස්තුවකටම පොකුරු සඳහා වස්තුවේ සම්බන්ධතාවයේ තරම පෙන්වන සැබෑ අගයන් සමූහයක් පවරයි. මේ අනුව, එක් එක් වස්තුව යම් සම්භාවිතාවක් සහිත එක් එක් පොකුරුවලට අයත් වේ.

ධූරාවලි පොකුරු ඇල්ගොරිතම අතර, ප්‍රධාන වර්ග දෙකක් තිබේ: පහළ-ඉහළ සහ ඉහළ-පහළ ඇල්ගොරිතම. Top-down algorithms ක්‍රියා කරන්නේ ඉහල සිට පහලට යන මූලධර්මය මතයි: පළමුව, සියලුම වස්තූන් එක් පොකුරක් තුළ තබා ඇති අතර, එය කුඩා සහ කුඩා පොකුරු වලට බෙදා ඇත. වඩාත් සුලභ වන්නේ පහළ සිට ඉහළට යන ඇල්ගොරිතම වන අතර, එක් එක් වස්තුව වෙනම පොකුරක් තුළ තැබීමෙන් ආරම්භ වන අතර පසුව නියැදියේ ඇති සියලුම වස්තූන් තනි පොකුරක් තුළ අන්තර්ගත වන තෙක් පොකුරු විශාල හා විශාල ඒවා බවට ඒකාබද්ධ කරයි. මේ අනුව, කැදලි කොටස් පද්ධතියක් ගොඩනගා ඇත. එවැනි ඇල්ගොරිතමවල ප්රතිඵල සාමාන්යයෙන් ගසක ආකාරයෙන් ඉදිරිපත් කෙරේ.

ධූරාවලි ඇල්ගොරිතමවල අවාසිය නම් සම්පූර්ණ කොටස් පද්ධතියයි, ගැටළුව විසඳන සන්දර්භය තුළ අනවශ්‍ය විය හැකිය.

අපි දැන් පැතලි ඇල්ගොරිතම සලකා බලමු. මෙම පන්තිය අතර සරලම වන්නේ චතුරස්රාකාර දෝෂ ඇල්ගොරිතම වේ. මෙම ඇල්ගොරිතම සඳහා වන පොකුරු ගැටළුව වස්තු වල ප්‍රශස්ත කොටස් කණ්ඩායම් වලට ගොඩනැගීම ලෙස සැලකිය හැකිය. මෙම අවස්ථාවෙහිදී, ප්‍රශස්ත ලෙස කොටස් කිරීමේ මූල මධ්‍යන්‍ය වර්ග දෝෂය අවම කිරීමේ අවශ්‍යතාවය ලෙස අර්ථ දැක්විය හැක:

,

කොහෙද c j - පොකුරේ "ස්කන්ධ කේන්ද්රය" j(දී ඇති පොකුරක් සඳහා සාමාන්ය ලක්ෂණ සහිත ලක්ෂ්යය).

මෙම කාණ්ඩයේ වඩාත් පොදු ඇල්ගොරිතම වන්නේ k-means ක්රමයයි. මෙම ඇල්ගොරිතමය හැකිතාක් දුරින් පිහිටා ඇති දී ඇති පොකුරු සංඛ්‍යාවක් ගොඩනඟයි. ඇල්ගොරිතමයේ කාර්යය අදියර කිහිපයකට බෙදා ඇත:

අහඹු ලෙස තෝරන්න කේපොකුරු වල ආරම්භක "ස්කන්ධ මධ්යස්ථාන" වන ලක්ෂ්ය.

2. සෑම වස්තුවක්ම ආසන්නතම "ස්කන්ධ කේන්ද්‍රය" සහිත පොකුරට පවරන්න.

ඇල්ගොරිතම නැවැත්වීමේ නිර්ණායකය සෑහීමකට පත් නොවන්නේ නම්, පියවර 2 වෙත ආපසු යන්න.

මධ්‍යන්‍ය වර්ග දෝෂයේ අවම වෙනස සාමාන්‍යයෙන් ඇල්ගොරිතම නැවැත්වීමේ නිර්ණායකය ලෙස තෝරා ගැනේ. 2 වන පියවරේදී පොකුරෙන් පොකුරට මාරු වූ වස්තූන් නොමැති නම් ඇල්ගොරිතම නැවැත්විය හැකිය. මෙම ඇල්ගොරිතමයේ අවාසි අතර කොටස් කිරීම සඳහා පොකුරු ගණන නියම කිරීමේ අවශ්යතාව ඇතුළත් වේ.

වඩාත්ම ජනප්‍රිය නොපැහැදිලි ක්ලස්ටරින් ඇල්ගොරිතම වන්නේ c-මීන්ස් ඇල්ගොරිතමයයි. එය k-means ක්‍රමය වෙනස් කිරීමකි. ඇල්ගොරිතම පියවර:

1. ආරම්භක අපැහැදිලි කොටස තෝරන්න nවස්තූන් මත කේසාමාජික න්‍යාසයක් තෝරා ගැනීමෙන් පොකුරු යූප්රමාණය n x k.

2. U matrix භාවිතා කරමින්, අපැහැදිලි දෝෂ නිර්ණායකයේ අගය සොයා ගන්න:

,

කොහෙද c k - නොපැහැදිලි පොකුරේ "ස්කන්ධ කේන්ද්රය" කේ:

3. මෙම අපැහැදිලි දෝෂ නිර්ණායක අගය අඩු කිරීම සඳහා වස්තු නැවත සමූහගත කරන්න.

4. න්‍යාසය වෙනස් වන තුරු පියවර 2 වෙත ආපසු යන්න යූනොසැලකිය යුතු බවට පත් නොවනු ඇත.

පොකුරු ගණන කලින් නොදන්නේ නම් හෝ එක් එක් වස්තුවක් එක් පොකුරකට පැහැදිලිව පැවරීමට අවශ්‍ය නම් මෙම ඇල්ගොරිතම සුදුසු නොවනු ඇත.

ඊළඟ ඇල්ගොරිතම කණ්ඩායම ප්‍රස්ථාර න්‍යාය මත පදනම් වූ ඇල්ගොරිතම වේ. එවැනි ඇල්ගොරිතමවල සාරය නම් වස්තු තෝරා ගැනීම ප්‍රස්ථාරයක් ආකාරයෙන් නිරූපණය කිරීමයි. G=(V, E), ඒවායේ සිරස් වස්තූන්ට අනුරූප වන අතර, ඒවායේ දාරවල වස්තූන් අතර "දුර" ට සමාන බරක් ඇත. ප්‍රස්ථාර පොකුරු ඇල්ගොරිතමවල වාසි වන්නේ පැහැදිලි බව, ක්‍රියාත්මක කිරීමේ සාපේක්ෂ පහසුව සහ ජ්‍යාමිතික සලකා බැලීම් මත පදනම්ව විවිධ වැඩිදියුණු කිරීම් හඳුන්වා දීමේ හැකියාවයි. ප්‍රධාන ඇල්ගොරිතම වන්නේ සම්බන්ධිත සංරචක හඳුනාගැනීමේ ඇල්ගොරිතම, අවම විහිදී ඇති ගසක් තැනීමේ ඇල්ගොරිතම සහ ස්ථරයෙන් ස්ථර පොකුරු ඇල්ගොරිතම වේ.

පරාමිතියක් තෝරා ගැනීමට ආර්සාමාන්‍යයෙන් යුගල වශයෙන් දුර බෙදා හැරීමේ හිස්ටෝග්‍රෑම් එකක් ගොඩනගා ඇත. හොඳින් නිර්වචනය කරන ලද දත්ත පොකුරු ව්‍යුහයක් සහිත කාර්යයන් වලදී, හිස්ටෝග්‍රෑම් හි උච්ච දෙකක් ඇත - එකක් අන්තර්-පොකුරු දුර වලට අනුරූප වේ, දෙවැන්න - අන්තර්-පොකුරු දුර. පරාමිතිය ආර්මෙම කඳු මුදුන් අතර අවම කලාපයෙන් තෝරා ගනු ලැබේ. ඒ අතරම, දුර සීමාවක් භාවිතා කරමින් පොකුරු ගණන පාලනය කිරීම තරමක් අපහසුය.

අවම විහිදෙන ගස් ඇල්ගොරිතම ප්‍රථමයෙන් ප්‍රස්ථාරයක් මත අවම විහිදෙන ගසක් ගොඩනඟන අතර පසුව අනුපිළිවෙලින් විශාලතම බර සහිත දාර ඉවත් කරයි. ස්තරයෙන් ස්ථර පොකුරු ඇල්ගොරිතම පදනම් වී ඇත්තේ වස්තූන් (ශීර්ෂයන්) අතර යම් දුරකින් සම්බන්ධිත ප්‍රස්ථාර සංරචක හඳුනා ගැනීම මත ය. දුරස්ථ මට්ටම දුර සීමාව මගින් සකසා ඇත c. උදාහරණයක් ලෙස, වස්තූන් අතර දුර නම්, එසේ නම් .

ස්තරයෙන් ස්ථර පොකුරු ඇල්ගොරිතම ප්‍රස්ථාරයේ උප ප්‍රස්ථාර අනුක්‍රමයක් ජනනය කරයි ජී, පොකුරු අතර ධූරාවලි සම්බන්ධතා පිළිබිඹු කරයි:

,

කොහෙද ජීටී = (V, Eටී ) - මට්ටමේ ප්රස්ථාරය සමගටී, ,

සමග t - t-th දුර එළිපත්ත, m - ධුරාවලියේ මට්ටම් ගණන,
ජී 0 = (V, o), o යනු ලබා ගත් ප්‍රස්ථාර දාරවල හිස් කට්ටලයයි ටී 0 = 1,
ජීඑම් = ජී, එනම්, දුර සීමාවකින් තොරව වස්තූන්ගේ ප්‍රස්ථාරයක් (ප්‍රස්ථාරයේ දාරවල දිග), සිට ටී m = 1.

දුර සීමාවන් වෙනස් කිරීමෙන් ( සමග 0 , …, සමග m), එහිදී 0 = සමග 0 < සමග 1 < …< සමග m = 1, ප්රතිඵලයක් වශයෙන් පොකුරු වල ධුරාවලියේ ගැඹුර පාලනය කිරීමට හැකි වේ. මේ අනුව, ස්ථරයෙන්-ස්ථර පොකුරු ඇල්ගොරිතමයට දත්තවල පැතලි සහ ධූරාවලි කොටස් දෙකම නිර්මාණය කිරීමට හැකියාව ඇත.

පහත සඳහන් අරමුණු සාක්ෂාත් කර ගැනීමට Clustering ඔබට ඉඩ සලසයි:

· ව්‍යුහාත්මක කණ්ඩායම් හඳුනා ගැනීමෙන් දත්ත පිළිබඳ අවබෝධය වැඩි දියුණු කරයි. නියැදිය සමාන වස්තු කාණ්ඩවලට බෙදීම මඟින් එක් එක් පොකුරු සඳහා වෙනස් විශ්ලේෂණ ක්‍රමයක් යෙදීමෙන් වැඩිදුර දත්ත සැකසීම සහ තීරණ ගැනීම සරල කිරීමට හැකි වේ.

· ඔබට දත්ත සංයුක්තව ගබඩා කිරීමට ඉඩ සලසයි. මෙය සිදු කිරීම සඳහා, සම්පූර්ණ නියැදිය ගබඩා කිරීම වෙනුවට, ඔබට සෑම පොකුරකින්ම එක් සාමාන්ය නිරීක්ෂණයක් තබා ගත හැකිය;

· කිසිදු පොකුරකට නොවැටුණු නව පරමාදර්ශී වස්තූන් හඳුනා ගැනීම.

සාමාන්‍යයෙන්, දත්ත විශ්ලේෂණයේදී පොකුරු කිරීම සහායක ක්‍රමයක් ලෙස භාවිතා කරයි.

2.6 ජාන ඇල්ගොරිතම

ජානමය ඇල්ගොරිතම යනු විවිධ වර්ගවල ගැටළු විසඳීමට ඉඩ සලසන විශ්වීය ප්‍රශස්තිකරණ ක්‍රම අතර වේ (සම්බන්ධක, සීමා කිරීම් සහිත සහ රහිත සාමාන්‍ය ගැටළු) සහ විවිධ මට්ටමේ සංකීර්ණතා. ඒ අතරම, ජානමය ඇල්ගොරිතම විශාල අවකාශයක තනි නිර්ණායක සහ බහු නිර්ණායක සෙවීමේ හැකියාව මගින් සංලක්ෂිත වේ, එහි භූ දර්ශනය සුමට නොවේ.

මෙම ක්‍රම සමූහය තෝරා ගැනීම, විකෘති කිරීම සහ හරස් කිරීම යන මෙහෙයුම් ඇතුළුව පරම්පරා ගණනාවක මාදිලිවල අනුක්‍රමයක පරිණාමයේ පුනරාවර්තන ක්‍රියාවලියක් භාවිතා කරයි. ඇල්ගොරිතමයේ ආරම්භයේ දී, ජනගහනය අහඹු ලෙස පිහිටුවා ඇත. කේතනය කරන ලද විසඳුම්වල ගුණාත්මකභාවය තක්සේරු කිරීම සඳහා, එක් එක් පුද්ගලයාගේ යෝග්යතාවය ගණනය කිරීම සඳහා අවශ්ය වන යෝග්යතා කාර්යය භාවිතා කරනු ලැබේ. පුද්ගලයන් තක්සේරු කිරීමේ ප්රතිඵල මත පදනම්ව, ඔවුන්ගෙන් වඩාත්ම සුදුසු අය හරස් කිරීම සඳහා තෝරා ගනු ලැබේ. ජාන හරස් ක්‍රියාකරුගේ යෙදුම හරහා තෝරාගත් පුද්ගලයින් තරණය කිරීමේ ප්‍රති result ලයක් ලෙස, දරුවන් නිර්මාණය වන අතර, එහි ප්‍රවේණික තොරතුරු සෑදී ඇත්තේ මාපිය පුද්ගලයින් අතර වර්ණදේහ තොරතුරු හුවමාරු කිරීමේ ප්‍රති result ලයක් ලෙස ය. නිර්මාණය කරන ලද පැවත එන්නන් නව ජනගහනයක් සාදන අතර සමහර පරම්පරාවන් විකෘති වන අතර එය ඔවුන්ගේ ප්‍රවේණි වර්ගවල අහඹු වෙනසක් මගින් ප්‍රකාශ වේ. "ජනගහන තක්සේරුව" - "තේරීම" - "හරස් කිරීම" - "විකෘතිය" යන අනුපිළිවෙල ඇතුළු අදියර, පරම්පරාව ලෙස හැඳින්වේ. ජනගහන පරිණාමය එවැනි පරම්පරාවල අනුපිළිවෙලකින් සමන්විත වේ.

තරණය කිරීම සඳහා පුද්ගලයින් තෝරා ගැනීම සඳහා පහත ඇල්ගොරිතම වෙන්කර හඳුනාගත හැකිය:

· Panmixia. මාපිය යුගලයක් සාදනු ලබන පුද්ගලයන් දෙදෙනාම මුළු ජනගහනයෙන් අහඹු ලෙස තෝරා ගනු ලැබේ. ඕනෑම පුද්ගලයෙකුට යුගල කිහිපයක සාමාජිකයෙකු විය හැකිය. මෙම ප්රවේශය විශ්වීය වේ, නමුත් වැඩිවන ජනගහන ප්රමාණය සමඟ ඇල්ගොරිතමයේ කාර්යක්ෂමතාව අඩු වේ.

· තෝරාගැනීම. දෙමාපියන්ට අවම වශයෙන් සාමාන්‍ය යෝග්‍යතාවයක් ඇති පුද්ගලයන් විය හැක. මෙම ප්රවේශය ඇල්ගොරිතමයේ වේගවත් අභිසාරීතාව සහතික කරයි.

· අභිජනනය. මෙම ක්‍රමය පදනම් වී ඇත්තේ සමීප ඥාතිත්වය මත යුගලයක් සෑදීම මතය. මෙහිදී, පරාමිති අවකාශයේ පුද්ගලයන්ගේ ජ්‍යාමිතික දුර සහ ප්‍රවේණික වර්ග අතර හෙමිං දුර යන අර්ථයෙන්, ජනගහණයේ සාමාජිකයන් අතර ඇති දුර ලෙස සම්බන්ධතාව තේරුම් ගනී. එබැවින්, ප්‍රවේණික සහ ෆීනෝටයිපික් අභිජනනය අතර වෙනසක් සිදු කෙරේ. තරණය කළ යුතු යුගලයේ පළමු සාමාජිකයා අහඹු ලෙස තෝරා ගනු ලබන අතර, දෙවැන්නා එයට සමීපතම පුද්ගලයා වීමට වැඩි ඉඩක් ඇත. අභ්‍යන්තර අභිජනනය දේශීය නෝඩ් වල සෙවුම් සංකේන්ද්‍රණය කිරීමේ දේපල මගින් සංලක්ෂිත කළ හැකි අතර, එය සැබවින්ම අන්තයන් සඳහා සැක සහිත භූ දර්ශනයේ ප්‍රදේශ වටා වෙනම ප්‍රාදේශීය කණ්ඩායම් වලට ජනගහනය බෙදීමට හේතු වේ.

· බෝවීම. බොහෝ දුරස්ථ පුද්ගලයන් සඳහා දුරස්ථ ඥාති සබඳතා මත පදනම්ව යුගලයක් ගොඩනැගීම. අවුට්බ්‍රීඩින් අරමුණු කරන්නේ ඇල්ගොරිතම දැනටමත් සොයාගෙන ඇති විසඳුම් මත අභිසාරී වීම වැළැක්වීමයි, ඇල්ගොරිතමයට නව, ගවේෂණය නොකළ ප්‍රදේශ දෙස බැලීමට බල කරයි.

නව ජනගහනයක් සෑදීම සඳහා ඇල්ගොරිතම:

· විස්ථාපනය සමඟ තෝරාගැනීම. එකම ප්‍රවේණි වර්ග ඇති සියලුම පුද්ගලයින් අතරින්, යෝග්‍යතාවය වැඩි අයට මනාප ලබා දේ. මේ අනුව, ඉලක්ක දෙකක් සාක්ෂාත් කරගනු ලැබේ: විවිධ වර්ණදේහ කට්ටල ඇති හොඳම විසඳුම් සොයාගත නොහැකි අතර, ප්රමාණවත් ජාන විවිධත්වය ජනගහනය තුළ නිරන්තරයෙන් පවත්වා ගෙන යනු ලැබේ. දැනට සොයාගෙන ඇති විසඳුම වටා පුද්ගලයන් කණ්ඩායම් කිරීම වෙනුවට, විස්ථාපනය දුරස්ථව සිටින පුද්ගලයින්ගේ නව ජනගහනයක් සාදයි. මෙම ක්‍රමය බහුවිධ ගැටළු සඳහා භාවිතා වේ.

· ප්‍රභූ තේරීම. ප්‍රභූ තේරීම් ක්‍රම තෝරා ගැනීම මගින් ජනගහනයේ හොඳම සාමාජිකයින්ගේ පැවැත්ම සහතික කරනු ඇත. ඒ අතරම, සමහර හොඳම පුද්ගලයින් කිසිදු වෙනසක් නොමැතිව ඊළඟ පරම්පරාවට ලබා දෙයි. ප්‍රභූ තෝරාගැනීම මගින් ලබා දෙන වේගවත් අභිසාරීතාවය මව් යුගල තෝරා ගැනීම සඳහා සුදුසු ක්‍රමයක් මගින් වන්දි ලබා ගත හැක. මෙම අවස්ථාවේ දී, බෝවීම බොහෝ විට භාවිතා වේ. එය වඩාත් ඵලදායී එකක් වන "අභිජනනය - ප්රභූ තේරීම" යන සංයෝජනයයි.

· තරඟාවලිය තෝරා ගැනීම. තරඟාවලි තෝරාගැනීම පුද්ගලයින් තෝරා ගැනීම සඳහා තරඟාවලි n ක්‍රියාත්මක කරයි. සෑම තරඟාවලියක්ම ගොඩනැගී ඇත්තේ ජනගහනයෙන් k මූලද්‍රව්‍ය තෝරා ඔවුන් අතරින් හොඳම පුද්ගලයා තෝරා ගැනීම මතය. වඩාත් පොදු වන්නේ k = 2 සමඟ තරඟාවලි තෝරාගැනීමයි.

දත්ත පතල් ක්ෂේත්‍රයේ ප්‍රවේණි ඇල්ගොරිතම වල වඩාත් ජනප්‍රිය යෙදුම් වලින් එකක් වන්නේ වඩාත්ම ප්‍රශස්ත මාදිලිය සෙවීමයි (යම් ක්ෂේත්‍රයක විශේෂතා වලට අනුරූප වන ඇල්ගොරිතමයක් සෙවීම). ප්‍රවේණික ඇල්ගොරිතම මූලික වශයෙන් භාවිතා කරනුයේ ස්නායු ජාල සහ බරෙහි ස්ථලකය ප්‍රශස්ත කිරීම සඳහා ය. කෙසේ වෙතත්, ඒවා ස්වාධීන මෙවලමක් ලෙසද භාවිතා කළ හැකිය.

3. යෙදුම්

Data Mining තාක්‍ෂණයට සැබවින්ම පුළුල් පරාසයක යෙදුම් ඇත, ඇත්ත වශයෙන්ම, ඕනෑම වර්ගයක දත්ත විශ්ලේෂණය කිරීම සඳහා විශ්වීය මෙවලම් සමූහයකි.

අලෙවි

දත්ත කැණීම් තාක්ෂණය යොදාගත් පළමු ක්ෂේත්‍රවලින් එකක් වූයේ අලෙවිකරණ ක්ෂේත්‍රයයි. දත්ත කැණීම් ක්‍රම දියුණු කිරීම ආරම්භ වූ කාර්යය සාප්පු කූඩ විශ්ලේෂණය ලෙස හැඳින්වේ.

මෙම කාර්යය වන්නේ ගැනුම්කරුවන් එකට මිලදී ගැනීමට නැඹුරු වන නිෂ්පාදන හඳුනා ගැනීමයි. වෙළඳ ප්‍රචාරණ ව්‍යාපාර පැවැත්වීම, පාරිභෝගිකයින්ට පුද්ගලික නිර්දේශ සැකසීම, භාණ්ඩ තොග සෑදීමේ උපාය මාර්ගයක් සහ ඒවා විකුණුම් ප්‍රදේශවල තැබීමේ ක්‍රම සඳහා සාප්පු කූඩය පිළිබඳ දැනුම අවශ්‍ය වේ.

අලෙවිකරණයේදී, වඩාත් සාර්ථක ප්‍රවර්ධනයක් සඳහා නිෂ්පාදනයක ඉලක්කගත ප්‍රේක්ෂකයින් තීරණය කිරීම වැනි කාර්යයන් විසඳනු ලැබේ; ව්‍යාපාරවලට ඉන්වෙන්ටරි තීරණ ගැනීමට උපකාර වන තාවකාලික රටා පර්යේෂණ; නිශ්චිත හැසිරීම් සහිත විවිධ වර්ගයේ පාරිභෝගිකයින්ගේ අවශ්‍යතා වල ස්වභාවය හඳුනා ගැනීමට ව්‍යවසායයන්ට ඉඩ සලසන පුරෝකථන ආකෘති නිර්මාණය කිරීම; පාරිභෝගික පක්ෂපාතිත්වය පුරෝකථනය කිරීම, ඔහුගේ හැසිරීම විශ්ලේෂණය කිරීමේදී පාරිභෝගිකයා පිටත්ව යන මොහොත කල්තියා හඳුනා ගැනීමට සහ වටිනා පාරිභෝගිකයෙකු අහිමි වීම වළක්වා ගැනීමට ඔබට ඉඩ සලසයි.

කර්මාන්ත

මෙම ප්‍රදේශයේ වැදගත් ක්ෂේත්‍රවලින් එකක් වන්නේ අධීක්‍ෂණය සහ තත්ත්ව පාලනයයි, එහිදී, විශ්ලේෂණ මෙවලම් භාවිතයෙන්, උපකරණ අසමත් වීම, අක්‍රමිකතා ඇතිවීම සහ අලුත්වැඩියා කටයුතු සැලසුම් කිරීම පුරෝකථනය කළ හැකිය. සමහර විශේෂාංගවල ජනප්‍රියත්වය පුරෝකථනය කිරීම සහ සාමාන්‍යයෙන් එකට ඇණවුම් කර ඇති විශේෂාංග මොනවාදැයි දැන ගැනීම නිෂ්පාදනය ප්‍රශස්ත කිරීමට සහ පාරිභෝගිකයින්ගේ සැබෑ අවශ්‍යතා කෙරෙහි අවධානය යොමු කිරීමට උපකාරී වේ.

ඖෂධය

වෛද්‍ය විද්‍යාවේදී, දත්ත විශ්ලේෂණය ද ඉතා සාර්ථකව භාවිතා වේ. කාර්යයන් සඳහා උදාහරණ ලෙස විභාග ප්‍රතිඵල විශ්ලේෂණය, රෝග විනිශ්චය, ප්‍රතිකාර ක්‍රම සහ ඖෂධවල සඵලතාවය සංසන්දනය කිරීම, රෝග සහ ඒවායේ ව්‍යාප්තිය විශ්ලේෂණය කිරීම සහ අතුරු ආබාධ හඳුනාගැනීම ඇතුළත් වේ. ඖෂධ සහ අතුරු ආබාධ අතර සම්බන්ධතා හඳුනා ගැනීම සඳහා සංගම් නීති සහ අනුක්‍රමික රටා වැනි දත්ත කැණීම් තාක්ෂණය සාර්ථකව භාවිතා කර ඇත.

අණුක ජාන විද්‍යාව සහ ජාන ඉංජිනේරු විද්‍යාව

පර්යේෂණාත්මක දත්තවල රටා සොයාගැනීමේ වඩාත් තීව්‍ර හා ඒ අතරම පැහැදිලි කාර්යයක් විය හැකිය අණුක ජාන විද්යාවසහ ජාන ඉංජිනේරු විද්යාව. මෙහිදී එය සජීවී ජීවියෙකුගේ ඇතැම් ෆීනෝටයිපික් ලක්ෂණ පාලනය කරන ප්‍රවේණික කේත ලෙස වටහා ගන්නා සලකුණු වල නිර්වචනයක් ලෙස සකස් කර ඇත. එවැනි කේත සිය ගණනක්, දහස් ගණනක් හෝ ඊට වැඩි සම්බන්ධ මූලද්‍රව්‍ය අඩංගු විය හැක. විශ්ලේෂණාත්මක දත්ත විශ්ලේෂණයේ ප්‍රතිඵලය වන්නේ මානව DNA අනුක්‍රමයේ වෙනස්වීම් සහ විවිධ රෝග වර්ධනය වීමේ අවදානම අතර ජාන විද්‍යාඥයින් විසින් සොයා ගන්නා ලද සම්බන්ධයයි.

ව්යවහාරික රසායන විද්යාව

දත්ත කැණීම් ක්‍රම ව්‍යවහාරික රසායන විද්‍යා ක්ෂේත්‍රයේ ද භාවිතා වේ. මෙහිදී ඔවුන්ගේ ගුණ තීරණය කරන ඇතැම් සංයෝගවල රසායනික ව්යුහයේ ලක්ෂණ පැහැදිලි කිරීම පිළිබඳ ප්රශ්නය බොහෝ විට පැන නගී. සංකීර්ණ රසායනික සංයෝග විශ්ලේෂණය කිරීමේදී මෙම කාර්යය විශේෂයෙන් අදාළ වේ, එහි විස්තරය සිය දහස් ගණනක් ව්‍යුහාත්මක මූලද්‍රව්‍ය සහ ඒවායේ සම්බන්ධතා ඇතුළත් වේ.

අපරාධවලට එරෙහිව සටන් කිරීම

ආරක්‍ෂාව සඳහා දත්ත කැණීම් මෙවලම් සාපේක්ෂව මෑතදී භාවිතා කර ඇත, නමුත් මෙම ප්‍රදේශයේ දත්ත කැණීමේ කාර්යක්ෂමතාව සනාථ කරන ප්‍රායෝගික ප්‍රති results ල දැනටමත් ලබාගෙන ඇත. ස්විට්සර්ලන්ත විද්‍යාඥයින් විසින් අනාගත සිදුවීම් පුරෝකථනය කිරීම සඳහා විරෝධතා ක්‍රියාකාරකම් විශ්ලේෂණය කිරීමේ පද්ධතියක් සහ ලෝකයේ නැගී එන සයිබර් තර්ජන සහ හැකර් ක්‍රියා නිරීක්ෂණය කිරීමේ පද්ධතියක් නිර්මාණය කර ඇත. නවතම පද්ධතිය ඔබට සයිබර් තර්ජන සහ වෙනත් අවදානම් අනාවැකි කීමට ඉඩ සලසයි තොරතුරු ආරක්ෂාව. ක්‍රෙඩිට් කාඩ් වංචා හඳුනාගැනීම සඳහා දත්ත කැණීම් ක්‍රම ද සාර්ථකව භාවිතා වේ. පසුකාලීනව වංචනික බවට පත් වූ අතීත ගනුදෙනු විශ්ලේෂණය කිරීමෙන්, බැංකුව එවැනි වංචාවල සමහර රටා හඳුනා ගනී.

වෙනත් යෙදුම්

· අවදානම් විශ්ලේෂණය. නිදසුනක් වශයෙන්, ගෙවුම් හිමිකම් සම්බන්ධ සාධකවල සංයෝජන හඳුනා ගැනීමෙන්, රක්ෂණකරුවන්ට ඔවුන්ගේ වගකීම් පාඩු අඩු කර ගත හැකිය. එක්සත් ජනපදයේ විශාල රක්ෂණ සමාගමක් විවාහක පුද්ගලයින්ගේ හිමිකම් මත ගෙවන මුදල තනි පුද්ගලයන් විසින් හිමිකම් සඳහා ගෙවන මුදල මෙන් දෙගුණයක් වැඩි බව සොයා ගත් බව දන්නා සිද්ධියක් තිබේ. සමාගම මෙම නව දැනුමට ප්‍රතිචාර දැක්වූයේ පවුලේ පාරිභෝගිකයින්ට වට්ටම් පිරිනැමීමේ සාමාන්‍ය ප්‍රතිපත්තිය සංශෝධනය කිරීමෙනි.

· කාලගුණ විද්යාව. ස්නායුක ජාල ක්‍රම භාවිතයෙන් කාලගුණ අනාවැකිය, විශේෂයෙන්ම, ස්වයං-සංවිධානය වන කොහොනෙන් සිතියම් භාවිතා කරනු ලැබේ.

· පුද්ගල ප්රතිපත්තිය. විශ්ලේෂණ මෙවලම් HR සේවාවන්ට ඔවුන්ගේ ජීව දත්ත විශ්ලේෂණය මත පදනම්ව වඩාත්ම සාර්ථක අපේක්ෂකයින් තෝරා ගැනීමට සහ යම් තනතුරක් සඳහා සුදුසු සේවකයින්ගේ ලක්ෂණ ආදර්ශයට ගැනීමට උපකාරී වේ.

4. දත්ත කැණීම් මෙවලම් නිෂ්පාදකයින්

දත්ත පතල් මෙවලම් සම්ප්‍රදායිකව මිල අධික මෘදුකාංග නිෂ්පාදන වේ. එබැවින් මෑතක් වන තුරුම මෙම තාක්ෂණයේ ප්‍රධාන පාරිභෝගිකයින් වූයේ බැංකු, මූල්‍ය සහ රක්ෂණ සමාගම්, විශාල වෙළඳ ව්‍යවසායන් වන අතර දත්ත කැණීම් භාවිතා කිරීම අවශ්‍ය ප්‍රධාන කාර්යයන් ණය සහ රක්ෂණ අවදානම් තක්සේරු කිරීම සහ අලෙවිකරණ ප්‍රතිපත්ති සංවර්ධනය කිරීම ලෙස සැලකේ. , තීරුබදු සැලසුම් සහ සේවාදායකයින් සමඟ වැඩ කිරීමේ වෙනත් මූලධර්ම. මෑත වසරවලදී, තත්වය යම් යම් වෙනස්කම් වලට භාජනය වී ඇත: සාපේක්ෂව මිල අඩු දත්ත කැණීම් මෙවලම් සහ නිදහසේ බෙදා හරින ලද පද්ධති පවා මෘදුකාංග වෙළඳපොලේ දර්ශනය වී ඇති අතර එමඟින් කුඩා හා මධ්‍යම ප්‍රමාණයේ ව්‍යාපාර සඳහා මෙම තාක්‍ෂණය ප්‍රවේශ විය හැකිය.

ගෙවන මෙවලම් සහ දත්ත විශ්ලේෂණ පද්ධති අතර, නායකයින් වන්නේ SAS ආයතනය (SAS Enterprise Miner), SPSS (SPSS, Clementine) සහ StatSoft (STATISTICA Data Miner) ය. සුප්‍රසිද්ධ විසඳුම් වන්නේ Angoss (Angoss KnowledgeSTUDIO), IBM (IBM SPSS Modeler), Microsoft (Microsoft Analysis Services) සහ (Oracle) Oracle Data Mining වෙතින් ය.

නිදහස් මෘදුකාංග තෝරාගැනීම ද විවිධාකාර වේ. JHepWork, KNIME, Orange, RapidMiner වැනි විශ්වීය විශ්ලේෂණ මෙවලම් දෙකම ඇත, උදාහරණයක් ලෙස, Carrot2 - පෙළ දත්ත සහ සෙවුම් විමසුම් ප්‍රතිඵල පොකුරු කිරීම සඳහා රාමුවක්, Chemicalize.org - ව්‍යවහාරික රසායන විද්‍යා ක්ෂේත්‍රයේ විසඳුමක්, NLTK (ස්වාභාවික භාෂා මෙවලම් කට්ටලය) ස්වභාවික භාෂා සැකසුම් මෙවලම.

5. ක්රම විවේචනය

Data Mining හි ප්‍රතිඵල බොහෝ දුරට රඳා පවතින්නේ දත්ත සැකසීමේ මට්ටම මත මිස යම් ඇල්ගොරිතමයක හෝ ඇල්ගොරිතම කට්ටලයක "පුදුම හැකියාවන්" මත නොවේ. දත්ත කැණීමේ කාර්යයෙන් 75% ක් පමණ දත්ත එකතු කිරීමකින් සමන්විත වේ, එය විශ්ලේෂණ මෙවලම් යෙදීමට පෙර සිදු වේ. නූගත් මෙවලම් භාවිතා කිරීම සමාගමේ විභවය නාස්ති කිරීමට තුඩු දෙනු ඇත, සමහර විට ඩොලර් මිලියන ගණනක්.

Data Mining, Data Warehousing සහ CRM යන ක්ෂේත්‍රවල ලොව ප්‍රකට විශේෂඥයෙකු වන Herb Edelstein ගේ අදහස: “Two Crows විසින් මෑතකදී කරන ලද අධ්‍යයනයකින් පෙන්නුම් කළේ දත්ත කැණීම තවමත් එහි මුල් අවධියේ පවතින බවයි. බොහෝ සංවිධාන මෙම තාක්ෂණය ගැන උනන්දු වන නමුත් එවැනි ව්යාපෘති ක්රියාශීලීව ක්රියාත්මක කරන්නේ කිහිපයක් පමණි. තවත් එකක් සොයා ගැනීමට සමත් විය වැදගත් කරුණක්: දත්ත කැණීම ප්‍රායෝගිකව ක්‍රියාවට නැංවීමේ ක්‍රියාවලිය බලාපොරොත්තු වූවාට වඩා සංකීර්ණ වේ.දත්ත කැණීමේ මෙවලම් භාවිතයට පහසු ය යන මිත්‍යාවෙන් කණ්ඩායම් ඉවතට ගෙන යනු ලැබේ. ටෙරාබයිට් දත්ත ගබඩාවක් මත එවැනි මෙවලමක් ධාවනය කිරීමට ප්රමාණවත් බව උපකල්පනය කර ඇති අතර, ප්රයෝජනවත් තොරතුරු ක්ෂණිකව දිස්වනු ඇත. ඇත්ත වශයෙන්ම, සාර්ථක දත්ත කැණීම් ව්‍යාපෘතියකට ක්‍රියාකාරකම්, දත්ත සහ මෙවලම් පිළිබඳ දැනුම සහ දත්ත විශ්ලේෂණ ක්‍රියාවලිය පිළිබඳ අවබෝධයක් අවශ්‍ය වේ. මේ අනුව, Data Mining තාක්‍ෂණය භාවිතා කිරීමට පෙර, ක්‍රම මගින් පනවා ඇති සීමාවන් සහ ඒ හා සම්බන්ධ තීරණාත්මක ගැටළු හොඳින් විශ්ලේෂණය කිරීම මෙන්ම තාක්‍ෂණයේ හැකියාවන් සන්සුන්ව ඇගයීමට ලක් කිරීම අවශ්‍ය වේ. විවේචනාත්මක ගැටළු වලට පහත කරුණු ඇතුළත් වේ:

1. නොඇසූ ප්‍රශ්නවලට පිළිතුරු සැපයීමට තාක්ෂණයට නොහැක. එය විශ්ලේෂකයා ප්‍රතිස්ථාපනය කළ නොහැක, නමුත් ඔහුගේ කාර්යය පහසු කිරීමට සහ වැඩිදියුණු කිරීමට ඔහුට ප්‍රබල මෙවලමක් ලබා දෙයි.

2. දත්ත කැණීම් යෙදුමක් සංවර්ධනය කිරීමේ සහ ක්‍රියාත්මක කිරීමේ සංකීර්ණත්වය.

මන්දයත් මෙම තාක්ෂණයබහුවිධ ක්ෂේත්‍රයකි, දත්ත කැණීම් ඇතුළත් යෙදුමක් සංවර්ධනය කිරීම සඳහා, විවිධ ක්ෂේත්‍රවල විශේෂඥයින් සම්බන්ධ කර ගැනීම මෙන්ම ඔවුන්ගේ උසස් තත්ත්වයේ අන්තර්ක්‍රියාකාරිත්වය සහතික කිරීම අවශ්‍ය වේ.

3. පරිශීලක සුදුසුකම්.

විවිධ දත්ත කැණීම් මෙවලම් අතුරුමුහුණතේ පරිශීලක-හිතකාමීත්වයේ විවිධ මට්ටම් ඇති අතර ඇතැම් පරිශීලක සුදුසුකම් අවශ්‍ය වේ. ඒක තමයි මෘදුකාංගපරිශීලකයාගේ පුහුණු මට්ටමට අනුරූප විය යුතුය. දත්ත කැණීමේ භාවිතය පරිශීලකයාගේ සුදුසුකම් වැඩිදියුණු කිරීම සමඟ වෙන් කළ නොහැකි ලෙස සම්බන්ධ කළ යුතුය. කෙසේ වෙතත්, දැනට ව්‍යාපාර ක්‍රියාවලීන් පිළිබඳ මනා දැනුමක් ඇති දත්ත කැණීම් විශේෂඥයින් ස්වල්ප දෙනෙක් සිටිති.

4. දත්තවල සාරය පිළිබඳ මනා අවබෝධයකින් තොරව ප්‍රයෝජනවත් තොරතුරු උපුටා ගැනීම කළ නොහැක.

සොයා ගන්නා ලද පරායත්තයන් හෝ රටා පිළිබඳ ආකෘතිය සහ අර්ථ නිරූපණය ප්රවේශමෙන් තෝරා ගැනීම අවශ්ය වේ. එබැවින්, එවැනි මෙවලම් සමඟ වැඩ කිරීම සඳහා වසම් විශේෂඥයෙකු සහ Data Mining මෙවලම් විශේෂඥයෙකු අතර සමීප සහයෝගීතාවයක් අවශ්ය වේ. ආකෘති ඇගයීමට සහ යාවත්කාලීන කිරීමට ඉඩ සලසා දීම සඳහා ස්ථීර මාදිලි ව්‍යාපාරික ක්‍රියාවලීන් වෙත බුද්ධිමත්ව ඒකාබද්ධ කළ යුතුය. මෑතකදී, දත්ත ගබඩා කිරීමේ තාක්ෂණයේ කොටසක් ලෙස දත්ත පතල් පද්ධති සපයනු ලැබේ.

5. දත්ත සැකසීමේ අපහසුව.

සාර්ථක විශ්ලේෂණයක් සඳහා උසස් තත්ත්වයේ දත්ත පෙර සැකසුම් අවශ්‍ය වේ. විශ්ලේෂකයින් සහ දත්ත සමුදාය භාවිතා කරන්නන්ට අනුව, පෙර සැකසුම් ක්‍රියාවලියට සම්පූර්ණ දත්ත කැණීම් ක්‍රියාවලියෙන් 80% ක් ගත විය හැක.

මේ අනුව, තාක්‍ෂණය තමන් වෙනුවෙන්ම ක්‍රියා කිරීම සඳහා, එයට විශාල උත්සාහයක් සහ කාලයක් අවශ්‍ය වනු ඇත, එය මූලික දත්ත විශ්ලේෂණය, ආකෘති තේරීම සහ එහි ගැලපීම සඳහා යයි.

6. සාවද්‍ය, විශ්වාස කළ නොහැකි හෝ නිෂ්ඵල ප්‍රතිඵලවලින් විශාල ප්‍රතිශතයක්.

දත්ත කැණීම් තාක්ෂණයන් භාවිතා කරමින්, ඔබට සැබවින්ම ඉතා වටිනා තොරතුරු සොයා ගත හැකි අතර, තවදුරටත් සැලසුම් කිරීම, කළමනාකරණය සහ තීරණ ගැනීමේදී සැලකිය යුතු වාසියක් සැපයිය හැකිය. කෙසේ වෙතත්, දත්ත කැණීම් ක්‍රම භාවිතයෙන් ලබාගත් ප්‍රතිඵල බොහෝ විට ව්‍යාජ සහ අර්ථ විරහිත නිගමන අඩංගු වේ. බොහෝ විශේෂඥයින් තර්ක කරන්නේ දත්ත කැණීම් මෙවලම් මගින් සංඛ්‍යානමය වශයෙන් විශ්වාස කළ නොහැකි ප්‍රතිඵල විශාල ප්‍රමාණයක් ඇති කළ හැකි බවයි. එවැනි ප්රතිඵලවල ප්රතිශතය අඩු කිරීම සඳහා, පරීක්ෂණ දත්ත මත ලබාගත් ආකෘතිවල ප්රමාණාත්මකභාවය පරීක්ෂා කිරීම අවශ්ය වේ. කෙසේ වෙතත්, වැරදි නිගමන සම්පූර්ණයෙන්ම වළක්වා ගත නොහැක.

7. අධික පිරිවැය.

ගුණාත්මක මෘදුකාංගසංවර්ධකයාගේ පැත්තෙන් සැලකිය යුතු උත්සාහයක ප්රතිඵලයකි. එබැවින් Data Mining මෘදුකාංගය සම්ප්‍රදායිකව මිල අධික මෘදුකාංග නිෂ්පාදනයකි.

8. ප්රමාණවත් නියෝජිත දත්ත ලබා ගැනීම.

දත්ත කැණීම් මෙවලම්, සංඛ්‍යානමය මෙවලම් මෙන් නොව, න්‍යායාත්මකව දැඩි ලෙස අර්ථ දක්වා ඇති ඓතිහාසික දත්ත ප්‍රමාණයක් අවශ්‍ය නොවේ. මෙම විශේෂාංගය විශ්වාස කළ නොහැකි, ව්යාජ ආකෘති හඳුනා ගැනීමට හේතු විය හැකි අතර, ප්රතිඵලයක් වශයෙන්, ඒවා මත පදනම්ව වැරදි තීරණ ගැනීම. සොයාගත් දැනුමේ සංඛ්යානමය වැදගත්කම නිරීක්ෂණය කිරීම අවශ්ය වේ.

neural network algorithm clustering data mining

නිගමනය

දානා පිළිබඳ කෙටි විස්තරයක්යෙදුම් ක්ෂේත්‍ර සහ දත්ත පතල් තාක්‍ෂණය පිළිබඳ විවේචන සහ මෙම ක්ෂේත්‍රයේ ප්‍රවීණයන්ගේ මතය සපයයි.

ලැයිස්තුවසාහිත්යය

1. හැන් සහ මිචලීන් කම්බර්. දත්ත කැණීම: සංකල්ප සහ ශිල්පීය ක්‍රම. දෙවන සංස්කරණය. - Urbana-Champaign හි ඉලිනොයිස් විශ්ව විද්‍යාලය

Berry, Michael J. A. දත්ත කැණීම් ශිල්පීය ක්‍රම: අලෙවිකරණය, විකුණුම් සහ පාරිභෝගික සම්බන්ධතා කළමනාකරණය සඳහා - 2 වන සංස්කරණය.

සියු නින් ලාම්. දත්ත කැණීමේදී සංගම් රීති සොයා ගැනීම. - Urbana-Champaign හි ඉලිනොයිස් හි පරිගණක විද්‍යා විශ්ව විද්‍යාලය




ඉහල