Белгілі деректердегі белгісіз үлгілер. Заманауи деректерді өндіруге кіріспе. Ең жақын көрші және k-ең жақын көрші әдістері

Мәліметтерді іздеу құралдары

Қазіргі уақытта Data Mining технологиясы коммерциялық және еркін таратылатын бірқатар бағдарламалық өнімдермен ұсынылған. Бұл өнімдердің жеткілікті толық және үнемі жаңартылатын тізімін веб-сайттан табуға болады www. kdnuggets. com, деректерді өндіруге арналған. Data Mining бағдарламалық өнімдері технологияның өзін жіктеу үшін негіз болатын принциптерге сәйкес жіктелуі мүмкін. Алайда мұндай классификацияның практикалық мәні болмайды. Нарықтағы жоғары бәсекелестікке және техникалық шешімдердің толықтығына ұмтылуға байланысты көптеген Data Mining өнімдері аналитикалық технологияларды қолданудың барлық аспектілерін қамтиды. Сондықтан, Data Mining өнімдерін олардың қалай жүзеге асырылатынына және сәйкесінше интеграцияның қандай әлеуетін қамтамасыз ететініне қарай жіктеу орындырақ. Әлбетте, бұл да конвенция, өйткені мұндай критерий өнімдер арасындағы нақты шекараларды белгілеуге мүмкіндік бермейді. Дегенмен, мұндай классификацияның бір сөзсіз артықшылығы бар. Ол деректерді талдау саласындағы жобаларды инициализациялау, шешімдерді қолдау жүйелерін әзірлеу, деректер қоймаларын құру және т.б. кезінде сол немесе басқа дайын шешімді таңдау туралы шешімді жылдам қабылдауға мүмкіндік береді.

Сонымен, Data Mining өнімдерін үш үлкен санатқа бөлуге болады:

    деректер қорын басқару жүйелерінің құрамдас бөлігі ретінде енгізілген;

    ілеспе инфрақұрылымы бар Data Mining алгоритмдерінің кітапханалары;

    қораптағы немесе жұмыс үстелі шешімдері («қара жәшіктер»).

Алғашқы екі санаттағы өнімдер ең үлкен интеграциялық мүмкіндіктерді қамтамасыз етеді және кез келген саладағы кез келген қолданбада аналитикалық әлеуетті іске асыруға мүмкіндік береді. Қораптағы қосымшалар, өз кезегінде, деректерді өңдеу саласындағы кейбір бірегей жетістіктерді қамтамасыз ете алады немесе белгілі бір қолданбаға мамандандырылған. Дегенмен, көп жағдайда оларды кеңірек шешімдерге біріктіру қиын.

Коммерциялық деректер қорын басқару жүйелеріне аналитикалық мүмкіндіктерді қосу орасан зор әлеуеті бар табиғи үрдіс болып табылады. Шынында да, деректер шоғырланған жерлерде болмаса, оны өңдеу құралдарын орналастырудың ең мағынасы бар ма? Осы принципке сүйене отырып, Data Mining функционалдығы қазіргі уақытта келесі коммерциялық дерекқорларда жүзеге асырылады:

    Microsoft SQL сервері;

Негізгі нүктелер

  • Деректерді іздеу жинақталған деректердің үлкен көлеміне сүйене отырып, басқа талдау құралдарымен (мысалы, OLAP) тексеруге болатын гипотезаларды құруға мүмкіндік береді.

    Data Mining – бұл бұрын белгісіз, тривиальды емес, практикалық пайдалы және адам түсіндірмесі үшін қолжетімді шикізат деректеріндегі жасырын білімді машина (алгоритмдер, жасанды интеллект құралдары) арқылы зерттеу және ашу.

    Data Mining әдістері үш негізгі мәселені шешеді: жіктеу және регрессия мәселесі, ассоциация ережелерін іздеу мәселесі және кластерлеу мәселесі. Мақсаты бойынша олар сипаттамалық және болжамдық болып бөлінеді. Есептерді шешу әдістеріне қарай олар бақылаусыз оқыту (мұғаліммен оқыту) және бақылаусыз оқыту (мұғалімсіз оқыту) болып бөлінеді.

    Жіктеу және регрессия міндеті объектінің тәуелді айнымалысының мәнін оның тәуелсіз айнымалыларынан анықтауға түседі. Егер тәуелді айнымалы сандық мәндерді қабылдайтын болса, онда біз регрессия мәселесі туралы, әйтпесе - жіктеу мәселесі туралы айтамыз.

    Ассоциация ережелерін іздеу кезінде мақсат нысандар немесе оқиғалар арасындағы жиі тәуелділіктерді (немесе ассоциацияларды) табу болып табылады. Табылған тәуелділіктер ережелер түрінде берілген және оларды талданатын деректердің табиғатын жақсырақ түсіну үшін де, оқиғаларды болжау үшін де пайдалануға болады.

    Кластерлеудің міндеті – талданатын деректердің барлық жиынтығынан тәуелсіз топтар (кластерлер) мен олардың сипаттамаларын іздеу. Бұл мәселені шешу деректерді жақсырақ түсінуге көмектеседі. Сонымен қатар, біртекті объектілерді топтастыру олардың санын азайтуға мүмкіндік береді, сондықтан талдауды жеңілдетеді.

    Data Mining әдістері қиылысында орналасқан әртүрлі бағыттарақпараттық технологиялар: статистика, нейрондық желілер, анық емес жиындар, генетикалық алгоритмдер және т.б.

    Интеллектуалды талдау келесі кезеңдерді қамтиды: талдау мәселесін түсіну және тұжырымдау, автоматтандырылған талдауға деректерді дайындау, деректерді іздеу әдістерін қолдану және модельдерді құру, құрастырылған модельдерді тексеру және модельдерді адамдармен түсіндіру.

    Data Mining әдістерін қолданбас бұрын бастапқы деректерді түрлендіру қажет. Трансформация түрі қолданылатын әдістерге байланысты.

    Data Mining әдістері адам қызметінің әртүрлі салаларында тиімді қолданылуы мүмкін: бизнес, медицина, ғылым, телекоммуникация және т.б.

3. Мәтіндік ақпаратты талдау – Text Mining

Мәліметтер қорларында сақталған құрылымдық ақпаратты талдау алдын ала өңдеуді қажет етеді: мәліметтер базасын жобалау, ақпаратты белгілі бір ережелерге сәйкес енгізу, оны арнайы құрылымдарға орналастыру (мысалы, реляциялық кестелер) және т.б. Осылайша, тікелей осы ақпаратты талдау және одан жаңа білім алу үшін қосымша күш-жігерді қажет етеді. Дегенмен, олар әрқашан талдаумен байланысты емес және қажетті нәтижеге әкелмейді. Осыған байланысты құрылымдық ақпаратты талдаудың тиімділігі төмендейді. Сонымен қатар, деректердің барлық түрлерін пайдалы ақпаратты жоғалтпай құрылымдау мүмкін емес. Мысалы, мәтіндік құжаттарды мәтіннің семантикасын және нысандар арасындағы қарым-қатынастарды жоғалтпай кестелік кескінге айналдыру мүмкін емес. Осы себепті мұндай құжаттар дерекқорда мәтіндік өрістер (BLOB өрістері) сияқты түрлендірусіз сақталады. Сонымен қатар мәтінде ақпараттың орасан зор көлемі жасырылған, бірақ оның құрылымсыз сипаты Data Mining алгоритмдерін пайдалануға мүмкіндік бермейді. Құрылымдалмаған мәтінді талдау әдістері бұл мәселені шешеді. Батыс әдебиетінде мұндай талдау мәтінді игеру деп аталады.

Құрылымы жоқ мәтіндердегі талдау әдістері бірнеше саланың қиылысында жатыр: деректерді өңдеу, табиғи тілді өңдеу, ақпаратты іздеу, ақпаратты алу және білімді басқару.

Мәтінді іздеу анықтамасы: Мәтіндік білімді ашу – құрылымдалмаған мәтін деректеріндегі шын мәнінде жаңа, ықтимал пайдалы және түсінікті үлгілерді табудың тривиальды емес процесі.

Көріп отырғаныңыздай, ол Data Mining анықтамасынан тек «құрылымсыз мәтіндік деректер» жаңа тұжырымдамасында ғана ерекшеленеді. Мұндай білім логикалық біртұтас мәтінді оның құрылымында ешқандай шектеусіз бейнелейтін құжаттар жиынтығы ретінде түсініледі. Мұндай құжаттардың мысалдары: веб-беттер, электрондық пошта, нормативтік құжаттар және т.б. Жалпы, мұндай құжаттар күрделі және көлемді болуы мүмкін және тек мәтінді ғана емес, графикалық ақпаратты да қамтиды. XML (Extensible Markup Language), SGML (Standard Generalized Markup Language) және басқа ұқсас мәтіндік құрылым конвенцияларын қолданатын құжаттар жартылай құрылымдық құжаттар деп аталады. Сондай-ақ, оларды мәтінді өңдеу әдістері арқылы өңдеуге болады.

Талдау процесі мәтіндік құжаттарбірнеше қадамдар тізбегі ретінде көрсетуге болады

    Ақпаратты іздеу. Бірінші қадам - ​​қандай құжаттарды талдау қажет екенін анықтау және олардың қолжетімділігін қамтамасыз ету. Әдетте, пайдаланушылар талдауға жататын құжаттар жинағын өз бетінше – қолмен анықтай алады, бірақ құжаттардың көп санымен көрсетілген критерийлер бойынша автоматтандырылған таңдау опцияларын пайдалану қажет.

    Құжаттарды алдын ала өңдеу. Бұл қадамда құжаттарды мәтінді өңдеу әдістері жұмыс істейтін пішінде көрсету үшін қарапайым, бірақ қажетті түрлендірулер орындалады. Мұндай түрлендірулердің мақсаты қажет емес сөздерді алып тастау және мәтінге қатаң форма беру. Алдын ала өңдеу әдістері бөлімде толығырақ сипатталатын болады.

    Ақпаратты шығару. Таңдалған құжаттардан ақпаратты алу олардағы негізгі ұғымдарды анықтауды қамтиды, олар болашақта талданады.

Text Mining әдістерін қолдану. Бұл қадамда мәтіндердегі үлгілер мен қатынастар алынады. Бұл қадам мәтінді талдау процесінде негізгі болып табылады және бұл қадамда практикалық мәселелер шешіледі.

Нәтижелерді интерпретациялау. Білімді ашу процесінің соңғы сатысы қорытындыларды түсіндіруді қамтиды. Әдетте, интерпретация нәтижелерді табиғи тілде ұсынудан немесе оларды графикалық түрде көрсетуден тұрады.

Визуализация мәтінді талдау құралы ретінде де пайдаланылуы мүмкін. Ол үшін негізгі ұғымдар алынып, графикалық түрде беріледі. Бұл тәсіл пайдаланушыға негізгі тақырыптар мен ұғымдарды жылдам анықтауға және олардың маңыздылығын анықтауға көмектеседі.

Мәтінді алдын ала өңдеу

Мәтінді талдаудың негізгі мәселелерінің бірі – құжаттағы сөздердің көптігі. Осы сөздердің әрқайсысына талдау жасалса, жаңа білімді іздеу уақыты күрт артады және қолданушылардың талаптарын қанағаттандыруы екіталай. Сонымен қатар, мәтіндегі сөздердің бәрі де пайдалы ақпарат әкелмейтіні анық. Сонымен қатар, табиғи тілдердің икемділігіне байланысты формальды түрде әртүрлі сөздер (синонимдер, т.б.) іс жүзінде бірдей ұғымдарды білдіреді. Осылайша, ақпаратсыз сөздерді алып тастау, сонымен қатар мағынасы жақын сөздерді бір формаға келтіру мәтінді талдау уақытын айтарлықтай қысқартады. Сипатталған проблемаларды жою мәтінді алдын ала өңдеу сатысында жүзеге асырылады.

Ақпаратсыз сөздерді алып тастау және мәтіндердің қатаңдығын арттыру үшін әдетте келесі әдістер қолданылады:

    Тоқтау сөздерді алып тастау. Тоқтау сөздер – көмекші болып табылатын және құжаттың мазмұны туралы аз мәлімет беретін сөздер.

    Діңгек – морфологиялық ізденіс. Ол әрбір сөзді өзінің қалыпты түріне айналдырудан тұрады.

    L-граммалары морфологиялық талдауға балама болып табылады және сөзді жоюды тоқтатады. Олар мәтінді қатаңырақ етуге мүмкіндік береді, бірақ ақпаратсыз сөздердің санын азайту мәселесін шешпейді;

    Істі түрлендіру. Бұл әдіс барлық таңбаларды бас немесе кіші әріптерге түрлендіруді қамтиды.

Ең тиімдісі - бұл әдістерді біріктіріп қолдану.

Мәтінді өңдеу тапсырмалары

Қазіргі уақытта әдебиеттерде мәтіндік құжаттарды талдау арқылы шешуге болатын көптеген қолданбалы мәселелер сипатталған. Оларға классикалық Data Mining тапсырмалары жатады: жіктеу, кластерлеу және тек мәтіндік құжаттарға тән тапсырмалар: автоматты аннотация, негізгі ұғымдарды шығару және т.б.

Классификация – Data Mining саласындағы стандартты тапсырма. Оның мақсаты әрбір құжат үшін осы құжат жататын бір немесе бірнеше алдын ала анықталған санаттарды анықтау болып табылады. Жіктеу мәселесінің ерекшелігі - құпия құжаттар жинағында «қоқыс» жоқ деген болжам, яғни құжаттардың әрқайсысы берілген санатқа сәйкес келеді.

Жіктеу мәселесінің ерекше жағдайы құжаттың тақырыбын анықтау мәселесі болып табылады.

Құжаттарды кластерлеудің мақсаты берілген тіркелген жиынтық арасында мағыналық жағынан ұқсас құжаттар топтарын автоматты түрде анықтау болып табылады. Топтар құжат сипаттамаларының жұптық ұқсастығы негізінде ғана құрылатынын және бұл топтардың сипаттамалары алдын ала көрсетілмегенін ескеріңіз.

Автоматты аннотация (қорытындылау) мәтіннің мағынасын сақтай отырып, қысқартуға мүмкіндік береді. Бұл мәселені шешуді әдетте пайдаланушы шығарылатын сөйлемдер санын немесе бүкіл мәтінге қатысты алынған мәтіннің пайызын анықтау арқылы бақылайды. Нәтиже мәтіндегі ең маңызды сөйлемдерді қамтиды.

Ерекшелікті шығарудың негізгі мақсаты мәтіндегі фактілер мен қатынастарды анықтау болып табылады. Көп жағдайда бұл ұғымдар зат есімдер мен жалпы есімдер болып табылады: адамдардың аты мен тегі, ұйымдардың аттары және т.б. Тұжырымдаманы шығару алгоритмдері кейбір терминдерді анықтау үшін сөздіктерді және басқаларын анықтау үшін тілдік заңдылықтарды пайдалана алады.

Мәтіндік негізді шарлау пайдаланушыларға тақырыптар мен сәйкес шарттар негізінде құжаттарды шарлауға мүмкіндік береді. Бұл негізгі ұғымдарды және олардың арасындағы кейбір қатынастарды анықтау арқылы жүзеге асырылады.

Тренд талдауы белгілі бір уақыт аралығындағы құжаттар жиынындағы тенденцияларды анықтауға мүмкіндік береді. Тренд, мысалы, нарықтың бір сегментінен екіншісіне компанияның мүдделеріндегі өзгерістерді анықтау үшін пайдаланылуы мүмкін.

Ассоциацияларды іздеу де Data Mining негізгі міндеттерінің бірі болып табылады. Оны шешу үшін берілген құжаттар жинағында негізгі ұғымдар арасындағы ассоциативті байланыстар анықталады.

Жоғарыда аталған мәселелердің көптеген түрлері, сондай-ақ оларды шешу әдістері бар. Бұл мәтінді талдаудың маңыздылығын тағы да растайды. Осы тараудың қалған бөлігінде келесі мәселелердің шешімдері талқыланады: негізгі ұғымды шығару, жіктеу, кластерлеу және автоматты аннотация.

Мәтіндік құжаттардың классификациясы

Мәтіндік құжаттарды классификациялау, сондай-ақ объектілерді классификациялау жағдайында құжатты бұрын белгілі класстардың біріне жатқызудан тұрады. Көбінесе мәтіндік құжаттарға қатысты классификацияны санаттау немесе рубрикация деп атайды. Бұл атаулар құжаттарды каталогтарға, санаттарға және тақырыптарға жүйелеу міндетінен шыққаны анық. Бұл жағдайда каталог құрылымы бір деңгейлі немесе көп деңгейлі (иерархиялық) болуы мүмкін.

Формальды түрде мәтіндік құжаттарды жіктеу міндеті жиындар жиынтығымен сипатталады.

Жіктеу мәселесінде осы деректер негізінде зерттелетін құжат үшін С жиынынан ең ықтимал категорияны табудан тұратын процедураны құрастыру қажет.

Мәтінді классификациялау әдістерінің көпшілігі бір санатқа жататын құжаттарда бірдей белгілерді (сөздер немесе сөз тіркестері) қамтиды деген болжамға негізделген және құжатта мұндай белгілердің болуы немесе болмауы оның құжатқа тиесілі немесе тиесілі еместігін көрсетеді. арнайы тақырып.

Мұндай белгілердің жиынтығы көбінесе сөздік деп аталады, өйткені ол категорияны сипаттайтын сөздерді және/немесе сөз тіркестерін қамтитын лексемалардан тұрады.

Бұл мүмкіндіктер жиынтықтары атрибуттар жиынтығымен сипатталатын Data Mining-те объектілерді жіктеуден мәтіндік құжаттарды классификациялаудың айрықша белгісі болып табылатынын атап өткен жөн.

d құжатын c санатына жатқызу туралы шешім ортақ белгілердің қиылысуы негізінде қабылданады

Жіктеу әдістерінің міндеті - құжатты санатқа жатқызу туралы шешім қабылданатын осындай белгілерді ең жақсы таңдау және ережелерді тұжырымдау.

Мәтіндік ақпаратты талдауға арналған құралдар

    Oracle құралдары - Oracle Text2

Oracle 7.3.3 нұсқасынан бастап мәтінді талдау құралдары Oracle өнімдерінің ажырамас бөлігі болып табылады. Oracle-да бұл құралдар әзірленіп, жаңа атау алды – Oracle Text – құрылымдалмаған мәтіндерге қатысты сұраныстармен тиімді жұмыс істеуге мүмкіндік беретін ДҚБЖ біріктірілген бағдарламалық пакет. Бұл жағдайда мәтінді өңдеу реляциялық мәліметтер қорымен жұмыс істеу үшін пайдаланушыға берілген мүмкіндіктермен біріктіріледі. Атап айтқанда, мәтінді өңдеуге арналған қосымшаларды жазу кезінде SQL тілін қолдану мүмкін болды.

Oracle Text құралдарының шешуге бағытталған негізгі міндеті құжаттарды мазмұны бойынша – қажет болған жағдайда логикалық операцияларды қолдану арқылы біріктірілетін сөздер немесе сөз тіркестері бойынша іздеу міндеті болып табылады. Іздеу нәтижелері табылған құжаттарда сұрау сөздерінің кездесу жиілігін ескере отырып, маңыздылығы бойынша жіктеледі.

    IBM компаниясының құралдары - Мәтін1 үшін Intelligent Miner

IBM Intelligent Miner for Text өнімі мына жерден іске қосылған жеке утилиталар жиынтығы болып табылады пәрмен жолынемесе бір-бірінен тәуелсіз сценарийлерден. Жүйе мәтіндік ақпаратты талдау мәселелерін шешуге арналған кейбір утилиталардың жиынтығын қамтиды.

IBM Intelligent Miner for Text негізінен ақпаратты іздеу механизмдеріне негізделген қуатты құралдар жинағын біріктіреді, бұл бүкіл өнімнің ерекшелігі болып табылады. Жүйе Text Mining технологиясынан тыс тәуелсіз маңызы бар бірқатар негізгі компоненттерден тұрады:

    SAS институтының құралдары - мәтінді өңдеуші

Американдық SAS Institute компаниясы жазбаша сөйлеудегі белгілі бір грамматикалық және сөздік тізбектерді салыстыруға арналған SAS Text Miner жүйесін шығарды. Text Miner өте жан-жақты, өйткені ол әртүрлі форматтағы мәтіндік құжаттармен жұмыс істей алады - дерекқорларда, файлдық жүйелерде және одан әрі интернетте.

Text Miner SAS Enterprise Miner ортасында логикалық мәтінді өңдеуді қамтамасыз етеді. Бұл пайдаланушыларға жас, табыс және тұтынушылық сұраныс үлгілері сияқты құрылымдалмаған мәтіндік ақпаратты бар құрылымдық деректермен біріктіру арқылы деректерді талдау процесін байытуға мүмкіндік береді.

Негізгі нүктелер

    Мәтіндік білімнің ашылуы – құрылымдалмаған мәтін деректеріндегі шын мәнінде жаңа, ықтимал пайдалы және түсінікті үлгілерді табудың тривиальды емес процесі.

    Мәтіндік құжаттарды талдау процесін бірнеше қадамдар тізбегі ретінде көрсетуге болады: ақпаратты іздеу, құжаттарды алдын ала өңдеу, ақпаратты алу, Text Mining әдістерін қолдану, нәтижелерді түсіндіру.

    Ақпаратсыз сөздерді алып тастау және мәтіндердің қатаңдығын арттыру үшін әдетте келесі әдістер қолданылады: тоқтау сөздерді алып тастау, штрихтау, L-граммалар, регистрді азайту.

    Мәтіндік ақпаратты талдаудың міндеттері: жіктеу, кластерлеу, автоматты аннотация, негізгі ұғымдарды шығару, мәтінді шарлау, трендті талдау, ассоциацияларды іздеу және т.б.

    Мәтіндерден негізгі ұғымдарды алуды жеке қолданбалы тапсырма ретінде де, мәтінді талдаудың жеке кезеңі ретінде де қарастыруға болады. Соңғы жағдайда мәтіннен алынған фактілер талдаудың әртүрлі мәселелерін шешу үшін қолданылады.

    Үлгілерді пайдалана отырып, негізгі ұғымдарды шығару процесі екі кезеңде жүзеге асырылады: біріншіде мәтіндік құжаттардан лексикалық талдау арқылы жеке фактілер алынады, екінші кезеңде алынған фактілерді біріктіру және/немесе жаңа фактілерді шығару. орындалған.

    Мәтінді классификациялау әдістерінің көпшілігі бір санатқа жататын құжаттарда бірдей белгілерді (сөздер немесе сөз тіркестері) қамтиды деген болжамға негізделген және құжатта мұндай белгілердің болуы немесе болмауы оның құжатқа тиесілі немесе тиесілі еместігін көрсетеді. арнайы тақырып.

    Көптеген кластерлеу алгоритмдері ақпаратты іздеу үшін кеңінен қолданылатын және кеңістіктік жақындық ретінде семантикалық ұқсастықты көрсету үшін метафораны пайдаланатын мәліметтердің векторлық кеңістік моделінде ұсынылуын талап етеді.

    Мәтіндік құжаттарды автоматты түрде аннотациялаудың екі негізгі тәсілі бар: шығару (ең маңызды фрагменттерді таңдау) және жалпылау (бұрын жиналған білімді пайдалану).

Қорытынды

Деректерді іздеу қолданбалы математиканың ең өзекті және танымал бағыттарының бірі болып табылады. Заманауи бизнес және өндіріс процестері деректердің үлкен көлемін жасайды, бұл адамдарға күрделі жағдайларды болдырмау былай тұрсын, орындалу уақытында динамикалық түрде өзгеретін деректердің үлкен көлемін түсіндіруді және оларға жауап беруді қиындатады. Көпөлшемді, гетерогенді, толық емес, дәл емес, қарама-қайшы, жанама деректерден максималды пайдалы білімді алу үшін «Деректерді іздеу». Егер деректер көлемі гигабайтпен немесе тіпті терабайтпен өлшенсе, бұл мұны тиімді жасауға көмектеседі. Әртүрлі кәсіби салаларда шешім қабылдауды үйренетін алгоритмдерді құруға көмектеседі.

Data Mining құралдары оперативті деректерді қажетті уақытта дұрыс әрекеттерді орындауға болатындай әрекет ететін ақпаратқа өңдеу арқылы адамдарды ақпараттың шамадан тыс жүктелуінен қорғайды.

Қолданбалы әзірлемелер келесі бағыттар бойынша жүзеге асырылады: экономикалық жүйелерде болжау; маркетингтік зерттеулерді автоматтандыру және өндірістік, сауда, телекоммуникация және интернет-компаниялар үшін клиенттік орталарды талдау; несиелік шешім қабылдауды және несиелік тәуекелді бағалауды автоматтандыру; қаржы нарықтарының мониторингі; автоматты сауда жүйелері.

Әдебиеттер тізімі

    «Деректерді талдау технологиялары: Деректерді өндіру. Визуалды тау-кен. Text Mining, OLAP» A. A. Barseghyan. М.С.Куприянов, В.В.Стенаненко, И.И.Холод. - 2-бас., қайта қаралған. және қосымша

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - Интернеттегі мақала

    http://www.piter.com/contents/978549807257/978549807257_p.pdf -Деректерді талдау технологиялары

    Дипломдық жұмыс >> Банк ісі

    Кластерді қолданатын қарыз алушы, ауызша талдау, түзету факторлары және т.б., сондай-ақ... негізделген қарыз алушының несиелік қабілеті интеллектуалды талдау Data Mining (... Бастапқы кезеңде талдауөткізілді талдауөз қаражаты мен...

  1. Талдаужәне дискрециялық іске асыратын ақпараттық жүйелердің қазіргі заманғы нарығының классификациясы, м

    Аннотация >> Информатика

    1.3 Рөлді саралау 6 2. Салыстырмалы талдау әртүрлі түрлеріжүйелер 7 ОЖ... жүйелер, соның ішінде: талдауқауіпсіздік саясаты және олардың сипаттамалары, ... қолданбалар немесе т.б. енгізу интеллектуалды талдаудеректер. Бұдан басқа...

  2. интеллектуалдыдарынды балалардың мектеп үлгеріміне байланысты қабілеттері

    Дипломдық жұмыс >> Психология

    Оқу үлгерімі мен сипаттамалар арасындағы байланыс интеллектуалдыдаму. Теориялық негізде талдаузерттеу мәселесі ... онсыз интеллект болды талдауоның психологиялық құрылымы. Бағалау үшін шешуші интеллектуалдықабілеттер бұл...

Сіздерді Data Mining порталына қош келдіңіздер - заманауи Data Mining әдістеріне арналған бірегей портал.

Data Mining технологиялары жасырын үлгілерді анықтау және болжамды үлгілерді құру үшін заманауи бизнес-аналитика мен деректерді зерттеудің қуатты құралы болып табылады. Data Mining немесе білімді алу алыпсатарлық пайымдауға емес, нақты деректерге негізделген.

Күріш. 1. Мәліметтерді іздеуді қолдану схемасы

Проблеманы анықтау – Мәселенің қойылуы: деректерді жіктеу, сегменттеу, болжамды модельдерді құру, болжау.
Деректерді жинау және дайындау – деректерді жинау және дайындау, қайталанатын жазбаларды тазалау, тексеру, жою.
Модель құрастыру – Модель құрастыру, дәлдікті бағалау.
Білімді орналастыру – берілген мәселені шешу үшін үлгіні қолдану.

Data Mining бизнес, маркетинг, интернет, телекоммуникация, өнеркәсіп, геология, медицина, фармацевтика және басқа салаларда ауқымды аналитикалық жобаларды жүзеге асыру үшін қолданылады.

Data Mining заманауи үлгілерді тану әдістерін және бірегей аналитикалық технологияларды, соның ішінде шешім ағаштарын және жіктеуді, кластерлеуді, нейрондық желі әдістерін және басқалар.

Деректерді өндіру технологиясын алғаш ашқан пайдаланушы үлкен көлемдегі мәліметтерді талдаумен байланысты қиын есептерді шешу тәсілдерін табуға мүмкіндік беретін әдістер мен тиімді алгоритмдердің көптігіне таң қалдырады.

Жалпы алғанда, Data Mining үлкен көлемдегі мәліметтерді іздеуге арналған технология ретінде сипатталуы мүмкін. айқын емес, объективтіжәне іс жүзінде пайдалыүлгілер.

Data Mining негізделген тиімді әдістержәне үлкен көлемді және өлшемді құрылымдалмаған деректерді талдауға арналған алгоритмдер.

Негізгі мәселе - үлкен көлемді, үлкен өлшемді деректерде құрылым мен байланыстар жоқ сияқты. Деректерді өндіру технологиясының мақсаты - бұл құрылымдарды анықтау және бір қарағанда хаос пен озбырлық билік ететін заңдылықтарды табу.

Мұнда фармацевтика және дәрі-дәрмек өнеркәсібінде деректерді өңдеуді қолданудың ағымдағы мысалы келтірілген.

Дәрілік заттардың өзара әрекеттесуі қазіргі заманғы денсаулық сақтаудың өсіп келе жатқан проблемасы болып табылады.

Уақыт өте келе, тағайындалған дәрі-дәрмектердің саны (рецептсіз және барлық қоспалар) көбейеді, бұл дәрігерлер мен пациенттер білмейтін ауыр жанама әсерлерді тудыруы мүмкін дәрілік препараттардың өзара әрекеттесуінің ықтималдығын арттырады.

Бұл аймақ препарат нарыққа шығарылған және қарқынды түрде қолданылып жатқан постклиникалық зерттеулерге жатады.

Клиникалық зерттеулер препараттың тиімділігін бағалауға жатады, бірақ дәрінің нарықтағы басқа препараттармен өзара әрекеттесуін есепке алмайды.

Калифорниядағы Стэнфорд университетінің зерттеушілері FDA-ның дәрі-дәрмектің жанама әсерлері туралы дерекқорын зерттеп, жиі қолданылатын екі дәрі – антидепрессант пароксетин және холестеринді төмендететін правастатин – бірге қолданылған жағдайда қант диабетінің даму қаупін арттыратынын анықтады.

FDA деректеріне негізделген ұқсас талдау зерттеуі бұрын белгісіз 47 жағымсыз әрекеттесуді анықтады.

Бұл өте жақсы, өйткені пациенттер атап өткен көптеген жағымсыз әсерлер анықталмай қалады. Дәл осы жағдайда онлайн іздеу ең жақсы нәтиже бере алады.

StatSoft Data Analysis Academy-де 2020 жылы өтетін деректерді өңдеу курстары

Біз Data Science академиясының таңғажайып бейнелерін пайдалана отырып, Data Mining жүйесіне кіріспе бастаймыз.

Біздің бейнелерді міндетті түрде қараңыз, сонда сіз Data Mining не екенін түсінесіз!

Бейне 1. Data Mining дегеніміз не?


Бейне 2. Деректерді іздеу әдістеріне шолу: шешім ағаштары, жалпыланған болжамды модельдер, кластерлеу және т.б.

Браузеріңізде JavaScript өшірілген


Зерттеу жобасын бастамас бұрын біз мәліметтерді алу процесін ұйымдастыруымыз керек сыртқы көздер, енді мұның қалай жасалатынын көрсетеміз.

Бейне сізді таныстырады бірегей технология СТАТИСТИКАДеректер базасын орнында өңдеу және Data Mining-ті нақты деректермен қосу.

Бейне 3. Мәліметтер қорымен өзара әрекеттесу тәртібі: SQL сұраныстарын құруға арналған графикалық интерфейс, Дерекқорды орнында өңдеу технологиясы

Браузеріңізде JavaScript өшірілген


Енді біз барлау деректерін талдауда тиімді болатын интерактивті бұрғылау технологияларымен танысамыз. Бұрғылау терминінің өзі Data Mining технологиясы мен геологиялық барлау арасындағы байланысты көрсетеді.

Бейне 4: Интерактивті бұрғылау: барлау және интерактивті деректерді зерттеуге арналған графикалық әдістер

Браузеріңізде JavaScript өшірілген


Енді біз ассоциациялық талдаумен (ассоциация ережелерімен) танысамыз, бұл алгоритмдер нақты деректерде бар байланыстарды табуға мүмкіндік береді. Негізгі мәселе - үлкен көлемдегі деректердегі алгоритмдердің тиімділігі.

Қосылымды талдау алгоритмдерінің нәтижесі, мысалы, Apriori алгоритмі, берілген сенімділікпен зерттелетін объектілердің қосылу ережелерін табу, мысалы, 80%.

Геологияда бұл алгоритмдерді пайдалы қазбаларды барлау талдауында қолдануға болады, мысалы, А белгісінің В және С белгілерімен байланысы.

таба аласыз нақты мысалдарбіздің сілтемелер арқылы осындай шешімдер:

Бөлшек саудада Apriori алгоритмдері немесе олардың модификациялары әртүрлі өнімдер арасындағы байланысты зерттеуге мүмкіндік береді, мысалы, парфюмерия (парфюмерия - лак - тушь және т.б.) немесе әртүрлі брендтердің өнімдерін сату кезінде.

Сайттағы ең қызықты бөлімдерді талдау қауымдастық ережелерін қолдану арқылы да тиімді жүргізілуі мүмкін.

Ендеше келесі бейнебаянымызды қараңыз.

Бейне 5. Бірлестік ережелері

Браузеріңізде JavaScript өшірілген

Мұнда белгілі бір салаларда Data Mining қолдану мысалдары берілген.

Онлайн сауда:

  • сайтқа кіруден тауарды сатып алуға дейінгі тұтынушылардың траекториясын талдау
  • қызмет көрсету тиімділігін бағалау, тауардың жетіспеуіне байланысты ақауларды талдау
  • келушілерді қызықтыратын өнімдерді қосу

Бөлшек сауда: несие карталары, дисконттық карталар және т.б. негізінде тұтынушы ақпаратын талдау.

Data Mining құралдарымен шешілетін әдеттегі бөлшек тапсырмалар:

  • сатып алу себетін талдау;
  • болжамдық модельдерді құружәне сатып алушылар мен сатып алынатын тауарлардың жіктелу үлгілері;
  • сатып алушы профильдерін жасау;
  • CRM, әртүрлі санаттағы клиенттердің адалдығын бағалау, адалдық бағдарламаларын жоспарлау;
  • уақыттық қатарларды зерттеужәне уақытқа тәуелділік, маусымдық факторларды анықтау, тиімділікті бағалау акцияларнақты деректердің үлкен ауқымында.

Телекоммуникация секторы деректерді іздеу әдістерін, сондай-ақ заманауи үлкен деректер технологияларын пайдалану үшін шексіз мүмкіндіктер ашады:

  • қоңыраулардың негізгі сипаттамалары (жиілік, ұзақтығы және т.б.), SMS жиілігі негізінде клиенттерді жіктеу;
  • тұтынушылардың адалдығын анықтау;
  • алаяқтықты анықтау және т.б.

Сақтандыру:

  • тәуекелді талдау. Төленген шағымдармен байланысты факторлардың комбинациясын анықтау арқылы сақтандырушылар өздерінің жауапкершілік шығындарын азайта алады. Сақтандыру компаниясы ерлі-зайыптылардың шағымдары бойынша төленген сомалар бойдақтардың шағымдары бойынша төленген сомадан екі есе көп екенін анықтаған жағдай бар. Компания бұған отбасылық тұтынушыларға арналған жеңілдік саясатын қайта қарау арқылы жауап берді.
  • алаяқтықты анықтау. Сақтандыру компаниялары заңгерлер, дәрігерлер және шағымданушылар арасындағы қарым-қатынастарды сипаттайтын шағымдардан белгілі үлгілерді іздеу арқылы алаяқтықты азайта алады.

Деректерді өндірудің практикалық қолданылуы және нақты есептерді шешу келесі бейнеде ұсынылған.

Вебинар 1. Вебинар «Деректерді өндірудің практикалық міндеттері: мәселелер мен шешімдер»

Браузеріңізде JavaScript өшірілген

Вебинар 2. Вебинар «Деректерді өндіру және мәтінді өңдеу: нақты есептерді шешу мысалдары»

Браузеріңізде JavaScript өшірілген


StatSoft курстарында деректерді өңдеу әдіснамасы мен технологиясы туралы тереңірек білім ала аласыз.

Data Mining дегеніміз не

Кез келген заманауи кәсіпорынның корпоративтік деректер базасында әдетте белгілі бір фактілер немесе объектілер (мысалы, тауарлар, оларды сату, клиенттер, шоттар туралы) туралы жазбаларды сақтайтын кестелер жиынтығы бар. Әдетте, мұндай кестедегі әрбір жазба белгілі бір объектіні немесе фактіні сипаттайды. Мысалы, сату кестесіндегі жазбада анау-мынау тауарды сол кезде анау-мынау клиентке анау-мынау менеджер сатқанын көрсетеді және жалпы алғанда бұл ақпараттан басқа ештеңе жоқ. Дегенмен, бірнеше жылдар бойы жинақталған мұндай жазбалардың көп санын жинау бір нақты жазбаның негізінде алынбайтын қосымша, әлдеқайда құнды ақпараттың, атап айтқанда, заңдылықтар, үрдістер немесе олардың арасындағы өзара тәуелділік туралы ақпараттың көзі бола алады. кез келген деректер. Мұндай ақпараттың мысалдары белгілі бір өнімді сату аптаның күніне, күннің немесе жылдың уақытына қалай тәуелді болатыны, тұтынушылардың қай санаттары осы немесе басқа өнімді жиі сатып алатыны, бір нақты өнімді сатып алушылардың қандай үлесі сатып алатыны туралы ақпарат болып табылады. басқа нақты өнім, тұтынушылардың қай категориясы көбінесе берілген несиені уақытында қайтармайды.

Мұндай ақпарат әдетте болжауда, стратегиялық жоспарлауда, тәуекелді талдауда қолданылады және оның кәсіпорын үшін маңызы өте жоғары. Шамасы, сондықтан оны іздеу процесі Data Mining деп аталды (ағылшын тілінде майнинг «тау-кен» дегенді білдіреді, ал нақты деректердің үлкен жиынтығынан үлгілерді іздеу шынымен де осыған ұқсас). Data Mining термині белгілі бір технологияны емес, әртүрлі математикалық және статистикалық алгоритмдер арқылы корреляцияларды, тенденцияларды, қатынастар мен заңдылықтарды іздеу процесін білдіреді: кластерлеу, ішкі үлгілерді құру, регрессия және корреляциялық талдау. Бұл іздеудің мақсаты - деректерді бизнес-процестерді нақты көрсететін пішінде ұсыну, сонымен қатар бизнес-жоспарлау үшін маңызды процестерді болжауға болатын модель құру (мысалы, белгілі бір тауарларға немесе қызметтерге сұраныс динамикасы). немесе оларды сатып алудың белгілі бір тұтынушылық сипаттамаларға тәуелділігі).

Ұзақ уақыт бойы деректерді талдаудың негізгі құралы болып қалған дәстүрлі математикалық статистика, сондай-ақ біз бірнеше рет жазған онлайн-аналитикалық өңдеу құралдары (OLAP) екенін ескеріңіз (бұл тақырып бойынша материалдарды біздің CD-ден қараңыз) , мұндай мәселелерді шешу үшін әрқашан сәтті қолданыла алмайды. Әдетте алдын ала тұжырымдалған гипотезаларды тексеру үшін статистикалық әдістер мен OLAP қолданылады. Дегенмен, көбінесе гипотезаны тұжырымдау кейіннен шешім қабылдау үшін бизнесті талдауды жүзеге асыру кезінде ең қиын міндет болып шығады, өйткені деректердегі барлық үлгілер бір қарағанда айқын көрінбейді.

Негіз заманауи технология Data Mining деректердің ішкі үлгілеріне тән үлгілерді көрсететін үлгілер тұжырымдамасына негізделген. Үлгілерді іздеу осы ішкі үлгілер туралы ешқандай априорлық жорамалдарды қолданбайтын әдістерді қолдану арқылы жүзеге асырылады. Статистикалық талдау немесе OLAP әдетте «Осы қызмет үшін тұтынушылар арасында төленбеген шот-фактуралардың орташа саны қанша?» сияқты сұрақтар қоятынымен, Data Mining әдетте «Төлемемейтін тұтынушылардың әдеттегі санаты бар ма?» сияқты сұрақтарға жауап беруді қамтиды. Сонымен қатар, бұл көбінесе маркетингтік саясатқа және клиенттермен жұмысты ұйымдастыруға тривиальды емес көзқарасты қамтамасыз ететін екінші сұраққа жауап болып табылады.

Data Mining маңызды ерекшелігі ізделетін үлгілердің стандартты емес және айқын емес сипаты болып табылады. Басқаша айтқанда, Data Mining құралдарының статистикалық деректерді өңдеу құралдарынан және OLAP құралдарынан айырмашылығы, пайдаланушылар алдын ала болжаған өзара тәуелділіктерді тексерудің орнына, олар мұндай өзара тәуелділіктерді қолда бар деректер негізінде дербес таба алады және олардың табиғаты туралы гипотезаларды құра алады.

Айта кету керек, Data Mining құралдарын пайдалану статистикалық құралдар мен OLAP құралдарын пайдалануды жоққа шығармайды, өйткені соңғысын пайдалану арқылы деректерді өңдеу нәтижелері, әдетте, қажет үлгілердің табиғатын жақсырақ түсінуге ықпал етеді. ізделу.

Data Mining үшін бастапқы деректер

Егер дұрыс жобаланған деректер қоймасында жақсы қамтылған деректердің жеткілікті үлкен көлемі болса, Data Mining пайдалану ақталған (шын мәнінде, деректер қоймаларының өзі әдетте шешімдерді қолдаумен байланысты талдау және болжау мәселелерін шешу үшін жасалады). Біз сондай-ақ деректер қоймасын құру принциптері туралы бірнеше рет жазғанбыз; тиісті материалдарды компакт-дискіден табуға болады, сондықтан біз бұл мәселеге тоқталмаймыз. Қоймадағы деректер бүкіл кәсіпорынға ортақ және кез келген уақытта оның қызметінің бейнесін қалпына келтіруге мүмкіндік беретін толықтырылған жиынтық екенін еске түсірейік. Сақтау деректерінің құрылымы оған сұраулар мүмкіндігінше тиімді орындалатындай етіп жасалғанын да ескеріңіз. Дегенмен, деректер қоймаларында ғана емес, сонымен қатар OLAP текшелерінде, яғни алдын ала өңделген статистикалық деректер жиындарында үлгілерді, корреляцияларды және трендтерді іздей алатын Data Mining құралдары бар.

Data Mining әдістерімен анықталған үлгі түрлері

В.А.Дьюктің айтуынша, Data Mining әдістерімен анықталған үлгілердің бес стандартты түрі бар:

Ассоциация – оқиғалардың бір-бірімен байланысты болуының жоғары ықтималдығы (мысалы, бір тауарды екіншісімен бірге сатып алу жиі кездеседі);

Кезектілік – уақыт бойынша байланысты оқиғалар тізбегінің жоғары ықтималдығы (мысалы, бір тауарды сатып алғаннан кейін белгілі бір кезең ішінде жоғары ықтималдықпен басқасы сатып алынады);

Классификация – осы немесе басқа оқиға немесе объект жататын топты сипаттайтын белгілер бар (әдетте, қазірдің өзінде жіктелген оқиғаларды талдау негізінде белгілі бір ережелер тұжырымдалады);

Кластерлеу классификацияға ұқсас үлгі болып табылады және одан топтардың өздері көрсетілмегендігімен ерекшеленеді - олар деректерді өңдеу кезінде автоматты түрде анықталады;

Уақытша заңдылықтар – болжау үшін қолданылатын белгілі бір деректердің мінез-құлық динамикасында заңдылықтардың болуы (типтік мысал – белгілі бір тауарларға немесе қызметтерге сұраныстың маусымдық ауытқуы).

Мәліметтерді өндіру әдістері

Бүгінгі таңда деректерді өндірудің әртүрлі әдістерінің саны өте көп. В.А.Дюк ұсынған жоғарыда келтірілген жіктеуге сүйене отырып, олардың арасында мыналарды ажыратуға болады:

Регрессия, дисперсия және корреляциялық талдау (қазіргі заманғы статистикалық пакеттердің көпшілігінде, атап айтқанда SAS институтының, StatSoft өнімдерінің және т.б. енгізілген);

Эмпирикалық үлгілерге негізделген нақты пәндік саладағы талдау әдістері (көбінесе, мысалы, қымбат емес қаржылық талдау құралдарында қолданылады);

Нейрондық желі алгоритмдері, олардың идеясы жүйке тінінің жұмысына ұқсастыққа негізделген және бастапқы параметрлер «нейрондар» мен нейрондар арасындағы бар байланыстарға сәйкес түрленетін сигналдар ретінде қарастырылады. Бүкіл желінің бастапқыға жауап беруі талдау деректерінің нәтижесіндегі жауап ретінде қарастырылады. Бұл жағдайда қосылымдар бастапқы деректерді де, дұрыс жауаптарды да қамтитын үлкен іріктеу өлшемі арқылы желілік оқыту деп аталатын көмегімен жасалады;

Алгоритмдер – бар тарихи деректерден бастапқы деректердің жақын аналогын таңдау. «Ең жақын көрші» әдісі деп те аталады;

Шешім ағаштары – «Иә» немесе «Жоқ» жауабын талап ететін сұрақтар жиынтығына негізделген иерархиялық құрылым; дегенмен бұл әдісдеректерді өңдеу әрқашан бар заңдылықтарды тамаша таба бермейді, ол алынған жауаптың анықтығына байланысты болжау жүйелерінде жиі қолданылады;

Кластерлік үлгілер (кейде сегменттеу үлгілері деп те аталады) деректер жиынындағы бірнеше өрістердің ұқсас мәндері негізінде ұқсас оқиғаларды топтастыру үшін пайдаланылады; болжау жүйелерін құру кезінде де өте танымал;

Деректердің ішкі топтарындағы қарапайым логикалық оқиғалар комбинацияларының жиілігін есептейтін шектеулі іздеу алгоритмдері;

Эволюциялық бағдарламалау – іздеу процесі кезінде өзгертілген бастапқы көрсетілген алгоритм негізінде мәліметтердің өзара тәуелділігін білдіретін алгоритмді іздеу және құру; кейде өзара тәуелділіктерді іздеу белгілі бір функция түрлерінің (мысалы, көпмүшеліктер) арасында жүзеге асырылады.

Осы және басқа да Data Mining алгоритмдері, сондай-ақ оларды жүзеге асыратын құралдар туралы толығырақ ақпаратты 2001 жылы Питер баспасында жарық көрген В.А.Дьюк пен А.П.Самойленконың «Data Mining: оқыту курсы» кітабынан оқуға болады. Бүгінгі күні бұл осы мәселеге арналған орыс тіліндегі бірнеше кітаптардың бірі.

Data Mining құралдарының жетекші өндірушілері

Data Mining құралдары, көптеген Business Intelligence құралдары сияқты, дәстүрлі түрде қымбат бағдарламалық құрал болып табылады - олардың кейбіреулері бірнеше ондаған мың долларға дейін тұрады. Сондықтан соңғы уақытқа дейін бұл технологияның негізгі тұтынушылары банктер, қаржы және сақтандыру компаниялары, ірі сауда кәсіпорындары болды, ал Data Mining қолдануды талап ететін негізгі міндеттер несиелік және сақтандыру тәуекелдерін бағалау және маркетингтік саясатты әзірлеу болып саналды. , тарифтік жоспарларжәне клиенттермен жұмыс істеудің басқа принциптері. Соңғы жылдары жағдай белгілі бір өзгерістерге ұшырады: бағдарламалық қамтамасыз ету нарығында бірнеше өндірушілердің салыстырмалы түрде арзан Data Mining құралдары пайда болды, бұл бұл технологияны бұрын бұл туралы ойламаған шағын және орта бизнеске қол жетімді етті.

TO заманауи құралдар Business Intelligence құрамына есеп генераторлары, аналитикалық деректерді өңдеу құралдары, BI шешімін әзірлеу құралдары (BI платформалары) және Enterprise BI Suites деп аталатын – деректерді талдауға қатысты әрекеттер жиынтығын орындауға мүмкіндік беретін кәсіпорын ауқымындағы деректерді талдау және өңдеу құралдары кіреді. және есеп жасау және көбінесе BI құралдары мен BI қолданбасын әзірлеу құралдарының біріктірілген жинағын қамтиды. Соңғысы, әдетте, есеп беру құралдарын, OLAP құралдарын және көбінесе Data Mining құралдарын қамтиды.

Gartner Group сарапшыларының пікірінше, кәсіпорын ауқымындағы деректерді талдау және өңдеу құралдары нарығындағы көшбасшылар Business Objects, Cognos, Information Builders болып табылады және Microsoft пен Oracle да көшбасшылыққа үміткер (1-сурет). BI шешімдерін әзірлеу құралдарына келетін болсақ, бұл саладағы көшбасшылыққа негізгі үміткерлер Microsoft және SAS институты болып табылады (2-сурет).

Microsoft Business Intelligence құралдары кең ауқымды компаниялар үшін қолжетімді салыстырмалы түрде арзан өнімдер екенін ескеріңіз. Сондықтан біз осы мақаланың келесі бөлімдерінде осы компания өнімдерінің мысалын пайдалана отырып, Data Mining қолданудың кейбір практикалық аспектілерін қарастырамыз.

Әдебиет:

1. Герцог В.А. Data Mining - деректерді өндіру. - http://www.olap.ru/basic/dm2.asp.

2. Герцог В.А., Самойленко А.П. Мәліметтерді игеру: оқу курсы. - Санкт-Петербург: Петр, 2001 ж.

3. Б.де Виль. Microsoft Data Mining. Сандық баспасөз, 2001.

OLAP жүйелері талдаушыға деректерді талдау кезінде гипотезаларды тексеру құралын береді, яғни талдаушының негізгі міндеті гипотезаларды тудыру болып табылады, ол өз білімі мен тәжірибесіне сүйене отырып шешеді.Алайда адамның білімі ғана емес, сонымен қатар аналитиктің негізгі міндеті гипотезаны құру болып табылады. талданатын жинақталған деректер. Мұндай білім адам өз бетімен зерттей алмайтын орасан зор ақпаратта болады. Осыған байланысты айтарлықтай пайда әкелетін гипотезалардың жоғалу қаупі бар.

«Жасырын» білімді анықтау үшін автоматты талдаудың арнайы әдістері қолданылады, олардың көмегімен ақпаратты «бұғаттаулардан» практикалық түрде алу қажет. Бұл салаға «деректерді өндіру» немесе «деректерді өндіру» термині тағайындалды.

Бірін-бірі толықтыратын DataMining көптеген анықтамалары бар. Мұнда олардың кейбіреулері бар.

Data Mining – дерекқорлардағы тривиальды емес және практикалық пайдалы үлгілерді табу процесі. (Негізгі топ)

Data Mining – бизнес артықшылықтарына қол жеткізу үшін бұрын белгісіз үлгілерді (үлгілерді) табу үшін деректердің үлкен көлемін алу, зерттеу және модельдеу процесі (SAS институты)

Деректерді іздеу – үлгіні тану әдістерін, сонымен қатар статистикалық және математикалық әдістерді қолдану арқылы сақталған деректердің үлкен көлемін сүзу арқылы жаңа маңызды корреляцияларды, үлгілерді және тенденцияларды ашуға бағытталған процесс (GartnerGroup)

Data Mining – бұл «машина» (алгоритмдер, жасанды интеллект құралдары) арқылы бастапқы деректердегі жасырын білімді зерттеу және ашу.бұрын белгісіз, тривиальды емес, іс жүзінде пайдалы, түсіндіруге қолжетімді болды(А. Баргесян «Деректерді талдау технологиялары»)

DataMining – бұл бизнес туралы пайдалы білімдерді ашу процесі.(Н.М. Әбдікеев «ҚБА»)

Ашылған білімнің қасиеттері

Ашылған білімнің қасиеттерін қарастырайық.

  • Білім жаңа, бұрын белгісіз болуы керек. Қолданушыға бұрыннан белгілі білімді ашуға жұмсалған күш ақталмайды. Сондықтан бұл жаңа, бұрын беймәлім білім құнды.
  • Білім тривиальды емес болуы керек. Талдау нәтижелері айқын емес, күтпеген көріністерді көрсетуі керекжасырын білім деп аталатын мәліметтердегі үлгілер. Көбірек алуға болатын нәтижелер қарапайым тәсілдермен(мысалы, визуалды тексеру) қуатты DataMining әдістерін қолдануды ақтамайды.
  • Білім іс жүзінде пайдалы болуы керек. Табылған білім жеткілікті жоғары сенімділік дәрежесімен, оның ішінде жаңа деректерде қолдануға жарамды болуы керек. Пайдалылық бұл білімнің қолдану кезінде белгілі бір пайда әкелетіндігінде.
  • Білім адамның түсінігіне қолжетімді болуы керек. Табылған үлгілер логикалық түсінікті болуы керек, әйтпесе олардың кездейсоқ болуы мүмкін. Сонымен қатар, ашылған білім адамға түсінікті түрде ұсынылуы керек.

DataMining жүйесінде модельдер алынған білімді көрсету үшін пайдаланылады. Модельдердің түрлері оларды жасау үшін қолданылатын әдістерге байланысты. Ең көп тарағандары: ережелер, шешім ағаштары, кластерлер және математикалық функциялар.

DataMining тапсырмалары

Еске салайық, DataMining технологиясы үлгілер болып табылатын үлгілер тұжырымдамасына негізделген. Қарапайым көзден жасырылған осы үлгілердің ашылуы нәтижесінде DataMining мәселелері шешілді. Адам оқи алатын пішінде көрсетілуі мүмкін үлгілердің әртүрлі түрлері нақты DataMining тапсырмаларына сәйкес келеді.

Қандай тапсырмаларды DataMining ретінде жіктеу керектігі туралы консенсус жоқ. Көптеген беделді дереккөздер мыналарды тізімдейді: классификация,

кластерлеу, болжау, ассоциация, көрнекілік, талдау және ашу

ауытқулар, бағалау, байланыстарды талдау, қорытындылау.

Төмендегі сипаттаманың мақсаты - DataMining мәселелері туралы жалпы түсінік беру, олардың кейбірін салыстыру, сонымен қатар осы мәселелерді шешудің кейбір әдістерін ұсыну. Ең көп таралған Data Mining тапсырмалары жіктеу, кластерлеу, ассоциация, болжау және визуализация болып табылады. Осылайша, тапсырмалар шығарылатын ақпарат түріне қарай бөлінеді, бұл DataMining тапсырмаларының ең жалпы классификациясы.

Классификация

Объектілердің немесе бақылаулардың жиынтығын априорға бөлу мәселесі көрсетілген топтар, класстар деп аталады, олардың әрқайсысының ішінде шамамен бірдей қасиеттері мен сипаттамалары бар, бір-біріне ұқсас деп есептеледі. Бұл жағдайда шешім негізінде алынадыталдау атрибуттардың (мүмкіндіктердің) мәндері.

Классификация – ең маңызды міндеттердің бірі DataMining . Ол қолданыладымаркетинг қарыз алушылардың несиелік қабілетін бағалау кезінде анықтаутұтынушылардың адалдығы, үлгіні тану , медициналық диагностика және көптеген басқа қолданбалар. Егер талдаушы әрбір класс объектілерінің қасиеттерін білсе, онда жаңа бақылау белгілі бір класқа жататын болса, бұл қасиеттер оған автоматты түрде кеңейтіледі.

Егер сыныптар саны екіге шектелсе, ондаекілік классификация , оған көптеген күрделі мәселелерді азайтуға болады. Мысалы, «Жоғары», «Орташа» немесе «Төмен» сияқты несиелік тәуекел дәрежесін анықтаудың орнына сіз тек екеуін пайдалана аласыз - «Шығарылым» немесе «Бас тарту».

DataMining жіктеу үшін көптеген әртүрлі үлгілерді пайдаланады:нейрондық желілер, шешім ағаштары , тірек векторлық машиналар, k-ең жақын көршілер әдісі, қамту алгоритмдері және т.б.шығыс айнымалысы(сынып белгісі ) әрбір бақылау үшін көрсетілген. Ресми түрде жіктеу бөлімге негізделгенмүмкіндіктер кеңістігі аймақтарға, олардың әрқайсысының ішіндекөпөлшемді векторлар бірдей деп есептеледі. Басқаша айтқанда, егер объект белгілі бір класспен байланысқан кеңістік аймағына түссе, ол оған жатады.

Кластерлеу

Қысқаша сипаттамасы. Кластер – ойдың логикалық жалғасы

классификациялар. Бұл күрделірек тапсырма, кластерлеудің ерекшелігі – объект кластары бастапқыда алдын ала анықталмаған. Кластерлеудің нәтижесі – объектілерді топтарға бөлу.

Кластерлеу мәселесін шешу әдісінің мысалы: нейрондық желілердің ерекше түрін – өзін-өзі ұйымдастыратын Кохонен карталарын «бақылаусыз» оқыту.

Ассоциациялар

Қысқаша сипаттамасы. Ассоциация ережелерін іздеу мәселесін шешу кезінде деректер жиынындағы байланысты оқиғалар арасында үлгілер табылады.

Ассоциацияның алдыңғы екі DataMining тапсырмасынан айырмашылығы: үлгілерді іздеу талданатын нысанның қасиеттері негізінде емес, бір мезгілде болатын бірнеше оқиғалар арасында жүзеге асырылады. Ассоциация ережелерін табу есебін шешудің ең танымал алгоритмі Априори алгоритмі болып табылады.

Тізбектілік немесе тізбекті ассоциация

Қысқаша сипаттамасы. Тізбектілік транзакциялар арасындағы уақытша заңдылықтарды табуға мүмкіндік береді. Тізбектік тапсырма ассоциацияға ұқсас, бірақ оның мақсаты бір уақытта болып жатқан оқиғалар арасында емес, уақытқа байланысты оқиғалар арасында (яғни, белгілі бір уақыт аралығында болатын) заңдылықтарды орнату болып табылады. Басқаша айтқанда, реттілік уақытқа байланысты оқиғалар тізбегінің жоғары ықтималдылығымен анықталады. Шындығында, ассоциация нөлдік уақыт кідірісі бар дәйектіліктің ерекше жағдайы болып табылады. Бұл DataMining тапсырмасы кезекті үлгіні табу тапсырмасы деп те аталады.

Кезектілік ережесі: Х оқиғасынан кейін, Y оқиғасы белгілі бір уақыттан кейін орын алады.

Мысал. Тұрғындар пәтер сатып алғаннан кейін 60% жағдайда екі апта ішінде тоңазытқыш, ал 50% жағдайда екі ай ішінде теледидар сатып алады. Бұл мәселенің шешімі маркетинг пен менеджментте, мысалы, тұтынушылардың өмірлік циклін басқаруда кеңінен қолданылады.

Регрессия, болжау (Болжау)

Қысқаша сипаттамасы. Болжау мәселесін шешу нәтижесінде нысаналы сандық көрсеткіштердің жетіспейтін немесе болашақтағы мәндері тарихи деректердің сипаттамалары негізінде бағаланады.

Мұндай есептерді шешу үшін математикалық статистика әдістері, нейрондық желілер және т.б.

Қосымша тапсырмалар

Ауытқуды анықтау, дисперсия немесе ауытқуды талдау

Қысқаша сипаттамасы. Бұл мәселені шешудің мақсаты жалпы деректер жиынтығынан ерекшеленетін деректерді табу және талдау, сипаттамалық деп аталатын заңдылықтарды анықтау болып табылады.

Бағалау

Бағалау тапсырмасы функцияның үздіксіз мәндерін болжауға келеді.

Сілтемені талдау

Деректер жиынындағы тәуелділіктерді табу тапсырмасы.

Визуализация (GraphMining)

Визуализация нәтижесінде талданатын мәліметтердің графикалық бейнесі жасалады. Визуализация мәселесін шешу үшін деректерде үлгілердің болуын көрсететін графикалық әдістер қолданылады.

Визуализация әдістерінің мысалы деректерді 2-D және 3-D өлшемдерінде көрсету болып табылады.

Қорытындылау

Мақсаты талданатын деректер жиынынан объектілердің белгілі бір топтарын сипаттау болып табылатын тапсырма.

Жоғарыда келтірілген классификацияға өте жақын DataMining тапсырмаларын келесіге бөлу: зерттеу және ашу, болжау және жіктеу, түсіндіру және сипаттау.

Автоматты барлау және табу (тегін іздеу)

Мысал тапсырма: нарықтың жаңа сегменттерін ашу.

Есептердің осы класын шешу үшін кластерлік талдау әдістері қолданылады.

Болжам және классификация

Мысал мәселе: ағымдағы мәндер негізінде сату өсімін болжау.

Әдістері: регрессия, нейрондық желілер, генетикалық алгоритмдер, шешім ағаштары.

Жіктеу және болжау тапсырмалары талданатын объектіні немесе жүйені зерттеуге әкелетін индуктивті модельдеу деп аталатын топты құрайды. Осы есептерді шешу барысында деректер жиынтығы негізінде жалпы үлгі немесе гипотеза жасалады.

Түсіндіру және сипаттама

Мәселенің үлгісі: демографиялық және сатып алу тарихы негізінде тұтынушыларды сипаттау.

Әдіс-тәсілдер: шешім ағаштары, ережелер жүйесі, ассоциация ережелері, байланысты талдау.

Егер клиенттің кірісі 50 шартты бірліктен жоғары болса және оның жасы 30 жастан асқан болса, онда клиенттің класы бірінші болып табылады.

Кластерлеу мен классификацияны салыстыру

Сипаттама

Классификация

Кластерлеу

Жаттығудың бақылау мүмкіндігі

Бақыланады

Бақыланбайтын

Стратегиялар

Репетиторлық оқыту

Бақылаусыз оқыту

Сынып белгісінің болуы

Жаттығу жиыны

көрсететін белгімен бірге жүреді

жататын класс

бақылау

Жаттықтырушы сыныбының белгілері

жиынтықтары белгісіз

Классификацияның негізі

Жаңа деректер оқу жиыны негізінде жіктеледі

Осы мақсатта көптеген деректер келтірілген

барын орнату

сыныптар немесе деректер кластерлері

DataMining қолданбасының салалары

Айта кету керек, бүгінгі күні DataMining технологиясы бизнес мәселелерін шешуде ең көп қолданылады. Мұның себебі, дәл осы бағытта DataMining құралдарын пайдаланудың қайтарымы, кейбір дереккөздерге сәйкес, 1000% дейін болуы мүмкін және оны енгізу шығындары тез өтеледі.

Біз DataMining технологиясын қолданудың төрт негізгі бағытын егжей-тегжейлі қарастырамыз: ғылым, бизнес, мемлекеттік зерттеулер және Интернет.

іскерлік тапсырмалар. Негізгі бағыттары: банк ісі, қаржы, сақтандыру, CRM, өндіріс, телекоммуникация, электронды коммерция, маркетинг, қор нарығы және т.б.

    Клиентке несие беруім керек пе?

    Нарықты сегменттеу

    Жаңа клиенттерді тарту

    Несие картасы бойынша алаяқтық

үшін DataMining қолданбасы мәселелерді мемлекеттік деңгейде шешу. Негізгі бағыттар: салық төлеуден жалтарғандарды іздеу; терроризмге қарсы күресті білдіреді.

үшін DataMining қолданбасы ғылыми зерттеулер. Негізгі бағыттары: медицина, биология, молекулалық генетика және гендік инженерия, биоинформатика, астрономия, қолданбалы химия, нашақорлыққа байланысты зерттеулер және т.б.

шешу үшін DataMining пайдалану Веб тапсырмалары. Негізгі бағыттары: іздеу жүйелері, есептегіштер және т.б.

Электрондық коммерция

Электрондық коммерция саласында DataMining генерациялау үшін қолданылады

Бұл жіктеу компанияларға нақты тұтынушылар топтарын анықтауға және тұтынушылардың анықталған мүдделері мен қажеттіліктеріне сәйкес маркетингтік саясатты жүргізуге мүмкіндік береді. Электрондық коммерцияға арналған DataMining технологиясы WebMining технологиясымен тығыз байланысты.

Өнеркәсіптік өндірістегі DataMining негізгі міндеттері:

· өндірістік жағдайларды кешенді жүйелік талдау;

· өндірістік жағдайлардың дамуының қысқа мерзімді және ұзақ мерзімді болжамы;

· оңтайландыру шешімдерінің нұсқаларын әзірлеу;

· белгілі бір параметрлерге байланысты өнімнің сапасын болжау

технологиялық процесс;

· өндірістің дамуындағы жасырын тенденциялар мен заңдылықтарды анықтау

процестер;

· даму заңдылықтарын болжау өндірістік процестер;

· жасырын әсер ету факторларын анықтау;

· арасындағы бұрын белгісіз байланыстарды анықтау және анықтау

өндіріс параметрлері және әсер етуші факторлар;

· өндірістік процестердің өзара әрекеттесу ортасын талдау және болжау

оның сипаттамаларының өзгеруі;

процестер;

· талдау нәтижелерін визуализациялау, алдын ала есептер мен жобаларды дайындау

мүмкін болатын енгізулердің сенімділігі мен тиімділігін бағалау арқылы мүмкін болатын шешімдер.

Маркетинг

Маркетинг саласында DataMining кеңінен қолданылады.

Маркетингтің негізгі сұрақтары: «Не сатылады?», «Ол қалай сатылады?», «Кім

тұтынушы?»

Жіктеу және кластерлеу мәселелері бойынша дәрісте тұтынушыларды сегменттеу сияқты маркетингтік мәселелерді шешу үшін кластерлік талдауды қолдану егжей-тегжейлі сипатталған.

Маркетинг мәселелерін шешу әдістерінің тағы бір кең тараған жиынтығы – ассоциация ережелерін іздеу әдістері мен алгоритмдері.

Мұнда уақытша үлгілерді іздеу де сәтті қолданылады.

Бөлшек сауда

Бөлшек саудада, маркетинг сияқты, мыналар қолданылады:

· ассоциация ережелерін іздеу алгоритмдері (жиі кездесетін жиындарды анықтау үшін

сатып алушылар бір уақытта сатып алатын тауарлар). Мұндай ережелерді анықтау көмектеседі

тауарларды дүкен сөрелерінде орналастыру, тауарларды сатып алу стратегияларын әзірлеу

және оларды қоймаларға орналастыру және т.б.

· уақыт ретін пайдалану, мысалы, анықтау үшін

қоймадағы тауарлардың қажетті көлемдері.

· клиенттердің топтарын немесе санаттарын анықтау үшін жіктеу және кластерлеу әдістері;

оны білу тауарларды табысты жылжытуға ықпал етеді.

Қор нарығы

Мұнда Data технологиясын қолдану арқылы шешуге болатын қор нарығы проблемаларының тізімі берілген

Тау-кен ісі: · қаржы құралдарының болашақ құндылықтарын және олардың көрсеткіштерін болжау

өткен құндылықтар;

· тренд болжамы (болашақ қозғалыс бағыты – өсу, құлдырау, тегіс) қаржылық

аспап және оның күші (күшті, орташа күшті және т.б.);

· белгілі бір жиынтық бойынша нарықтың, саланың, сектордың кластерлік құрылымын анықтау

сипаттамалары;

· портфельді динамикалық басқару;

· құбылмалылық болжамы;

· қауіп-қатерді бағалау;

· дағдарыстың басталуын болжау және оның дамуын болжау;

· активтерді таңдау және т.б.

Жоғарыда сипатталған қызмет салаларынан басқа, DataMining технологиясы деректерді талдау қажеттілігі бар және ретроспективті ақпараттың белгілі бір көлемі жинақталған бизнестің кең ауқымында қолданылуы мүмкін.

CRM жүйесінде DataMining қолданбасы

DataMining-ті пайдаланудың ең перспективалы бағыттарының бірі - аналитикалық CRM-де осы технологияны пайдалану.

CRM (CustomerRelationshipManagement) – тұтынушылармен қарым-қатынасты басқару.

Бұл технологияларды бірге пайдаланған кезде білім алу тұтынушы деректерінен «ақша алумен» біріктіріледі.

Маркетинг және сату бөлімдерінің жұмысындағы маңызды аспект - жинақтауклиенттердің тұтас көрінісі, олардың сипаттамалары, сипаттамалары және клиенттік базаның құрылымы туралы ақпарат. CRM профильдеу деп аталатын әдісті пайдаланадыклиенттер туралы барлық қажетті ақпараттың толық көрінісін қамтамасыз ететін клиенттер.

Тұтынушыны профильдеу келесі құрамдастарды қамтиды: тұтынушыны сегменттеу, тұтынушы рентабельділігі, тұтынушыларды ұстап тұру, тұтынушылардың жауаптарын талдау. Осы құрамдастардың әрқайсысын DataMining көмегімен тексеруге болады және оларды профильдеу құрамдастары ретінде бірге талдау, сайып келгенде, әрбір жеке сипаттамадан алу мүмкін емес білімді қамтамасыз етеді.

WebMining

WebMining сөзін «Интернеттегі деректерді өндіру» деп аударуға болады. WebIntelligence немесе Web.

Интеллект электронды бизнестің қарқынды дамуында «жаңа тарауды ашуға» дайын. Әрбір келушінің мінез-құлқын бақылау арқылы оның мүдделері мен қалауларын анықтау мүмкіндігі электрондық коммерция нарығындағы маңызды және маңызды бәсекелестік артықшылық болып табылады.

WebMining жүйелері көптеген сұрақтарға жауап бере алады, мысалы, келушілердің қайсысы веб-дүкеннің әлеуетті клиенті, веб-дүкен тұтынушыларының қай тобы ең көп табыс әкеледі, белгілі бір келушінің немесе келушілер тобының мүдделері қандай.

Әдістері

Әдістердің классификациясы

Әдістердің екі тобы бар:

  • ретроспективті деректерде көрініс табатын орташа жинақталған тәжірибені пайдалануға негізделген статистикалық әдістер;
  • кибернетикалық әдістер, соның ішінде көптеген гетерогенді математикалық тәсілдер.

Бұл жіктеудің кемшілігі статистикалық та, кибернетикалық алгоритмдер де сол немесе басқа жолмен статистикалық тәжірибені ағымдағы жағдайды бақылау нәтижелерімен салыстыруға сүйенеді.

Бұл классификацияның артықшылығы оның интерпретациясының қарапайымдылығы болып табылады - ол бастапқы бақылаулар массивтерінен (жедел және ретроспективті) білімді алудың заманауи тәсілінің математикалық құралдарын сипаттау үшін қолданылады, яғни. Data Mining тапсырмаларында.

Жоғарыда берілген топтарға толығырақ тоқталайық.

Статистикалық әдістер Мәліметтерді өндіру

Бұларда әдістер өзара байланысты төрт бөлімді білдіреді:

  • статистикалық деректердің табиғатын алдын ала талдау (стационарлық, қалыптылық, тәуелсіздік, біртектілік гипотезаларын тексеру, таралу функциясының түрін, оның параметрлерін бағалау және т.б.);
  • байланыстарды анықтау және үлгілер(сызықтық және сызықтық емес регрессиялық талдау, корреляциялық талдау және т.б.);
  • көп өлшемді статистикалық талдау (сызықтық және сызықтық емес дискриминанттық талдау, кластерлік талдау, құрамдас талдау, факторлық талдау және т.б.);
  • динамикалық модельдер және уақыттық қатарларға негізделген болжам.

Data Mining үшін статистикалық әдістердің арсеналы әдістердің төрт тобына жіктеледі:

  1. Сипаттамалық талдау және бастапқы деректерді сипаттау.
  2. Қарым-қатынасты талдау (корреляциялық және регрессиялық талдау, факторлық талдау, дисперсияны талдау).
  3. Көп өлшемді статистикалық талдау (компоненттік талдау, дискриминанттық талдау, көп айнымалы регрессиялық талдау, канондық корреляция және т.б.).
  4. Уақыт серияларын талдау (динамикалық модельдер және болжау).

Кибернетикалық мәліметтерді іздеу әдістері

Data Mining екінші бағыты – компьютерлік математика идеясымен және жасанды интеллект теориясын пайдаланумен біріктірілген әртүрлі тәсілдер.

Бұл топқа келесі әдістер кіреді:

  • жасанды нейрондық желілер (тану, кластерлеу, болжау);
  • эволюциялық бағдарламалау (аргументтерді топтық есепке алу әдісінің алгоритмдерін қоса алғанда);
  • генетикалық алгоритмдер (оңтайландыру);
  • ассоциативті жады (аналогтарды, прототиптерді іздеу);
  • анық емес логика;
  • шешім ағаштары;
  • сараптамалық білімді өңдеу жүйелері.

Кластерлік талдау

Кластерлеудің мақсаты бар құрылымдарды іздеу болып табылады.

Кластерлеу – сипаттау процедурасы, ол ешқандай статистикалық қорытынды жасамайды, бірақ ол барлау талдауын жүргізуге және «деректер құрылымын» зерттеуге мүмкіндік береді.

«Кластер» ұғымының өзі екі жақты анықталған: әрбір зерттеудің өз «кластерлері» бар. Кластер ұғымы «кластер», «тақта» деп аударылады. Кластерді ортақ қасиеттері бар объектілер тобы ретінде сипаттауға болады.

Кластердің сипаттамаларын екі түрде сипаттауға болады:

  • ішкі біртектілік;
  • сыртқы оқшаулау.

Көптеген мәселелерді шешу кезінде аналитиктер қоятын сұрақ - деректерді визуалды құрылымдарға қалай ұйымдастыру керек, яғни. таксономияларды кеңейту.

Кластерлеу бастапқыда биология, антропология және психология сияқты ғылымдарда кеңінен қолданылды. Кластерлеу экономикалық деректер мен құбылыстардың ерекше сипатына байланысты ұзақ уақыт бойы экономикалық мәселелерді шешу үшін аз қолданылды.

Кластерлер бір-бірінен ажыратылған немесе эксклюзивті (қабатталмайтын, ерекше) және қабаттасуы мүмкін.

Айта кету керек, кластерлік талдаудың әртүрлі әдістерін қолдану нәтижесінде әртүрлі пішіндегі кластерлерді алуға болады. Мысалы, «тізбек» типті кластерлер, кластерлер ұзын «тізбектермен», ұзартылған кластерлермен және т.б. ұсынылған кезде мүмкін болады және кейбір әдістер ерікті пішінді кластерлерді жасай алады.

Әртүрлі әдістер белгілі бір өлшемдегі (мысалы, кіші немесе үлкен) кластерлерді жасауға ұмтылуы мүмкін немесе деректер жиынында әртүрлі өлшемдегі кластерлер бар деп болжауы мүмкін. Кейбір кластерлік талдау әдістері шуға немесе шектен тыс мәндерге ерекше сезімтал, басқалары азырақ. Әртүрлі кластерлеу әдістерін қолдану нәтижесінде әртүрлі нәтижелер алынуы мүмкін, бұл қалыпты жағдай және белгілі бір алгоритмнің жұмысының ерекшелігі болып табылады. Бұл ерекшеліктерді кластерлеу әдісін таңдау кезінде ескеру қажет.

Кластерлеу тәсілдеріне қысқаша сипаттама берейік.

Деректерді бөлуге негізделген алгоритмдер (Бөлу алгоритмдері), соның ішінде. қайталанатын:

  • объектілерді k кластерге бөлу;
  • Кластерлеуді жақсарту үшін объектілерді итеративті қайта бөлу.
  • Иерархиялық алгоритмдер:
  • агломерация: әрбір объект бастапқыда кластер, кластерлер,
  • бір-бірімен қосыла отырып, олар үлкенірек кластер құрайды және т.б.

Тығыздыққа негізделген әдістер:

  • объектілерді байланыстыру мүмкіндігіне негізделген;
  • шуды елемеңіз және ерікті пішіндегі кластерлерді табыңыз.

Тор - әдістер (торға негізделген әдістер):

  • объектілерді тор құрылымдарына кванттау.

Модельдік әдістер (үлгіге негізделген):

  • деректерге ең жақсы сәйкес келетін кластерлерді табу үшін үлгіні пайдалану.

Кластерлік талдау әдістері. Итеративті әдістер.

Бақылаулардың көп санымен кластерлік талдаудың иерархиялық әдістері қолайлы емес. Мұндай жағдайларда бөлуге негізделген иерархиялық емес әдістер қолданылады, олар бастапқы жиынтықты бөлшектеудің итерациялық әдістері болып табылады. Бөлу процесі кезінде тоқтату ережесі орындалғанға дейін жаңа кластерлер қалыптасады.

Мұндай иерархиялық емес кластерлеу деректер жиынын жекелеген кластерлердің белгілі санына бөлуден тұрады. Екі тәсіл бар. Біріншісі - бастапқы деректердің көпөлшемді кеңістігіндегі ең тығыз аймақтар ретінде кластерлердің шекарасын анықтау, яғни. үлкен «нүктелердің конденсациясы» болатын кластерді анықтау. Екінші тәсіл – объектілер арасындағы айырмашылық өлшемін барынша азайту

k-алгоритмді білдіреді

Ең кең тараған иерархиялық емес әдіс – k-орталар алгоритмі, оны да деп те атайды жылдам кластерлік талдау. Алгоритмнің толық сипаттамасын Hartigan and Wong (1978) кітабында табуға болады. Кластерлердің санына қатысты алдын ала болжамдарды қажет етпейтін иерархиялық әдістерден айырмашылығы, бұл әдісті қолдана алу үшін кластерлердің ең ықтимал саны туралы гипотеза болуы керек.

k-орташа алгоритмі бір-бірінен ең үлкен қашықтықта орналасқан k кластерлерді құрастырады. k-орталар алгоритмі шешетін есептердің негізгі түрі кластерлердің санына қатысты болжамдардың (гипотезалардың) болуы және олар мүмкіндігінше әртүрлі болуы керек. k таңдауы алдыңғы зерттеулерге, теориялық ойларға немесе интуицияға негізделуі мүмкін.

Алгоритмнің жалпы идеясы: кластердегі орташа мәндер (барлық айнымалылар үшін) бір-бірінен мүмкіндігінше ерекшеленуі үшін бақылау кластерінің берілген тіркелген саны k кластерлермен салыстырылады.

Алгоритмнің сипаттамасы

1. Объектілерді кластерлерге бастапқы бөлу.

  • k саны таңдалады және бірінші қадамда бұл нүктелер кластерлердің «орталықтары» болып саналады.
  • Әрбір кластер бір орталыққа сәйкес келеді.

Бастапқы центроидтарды келесідей таңдауға болады:

  • бастапқы қашықтықты барынша арттыру үшін k-бақылауларды таңдау;
  • k-бақылауларды кездейсоқ таңдау;
  • бірінші k-бақылауларды таңдау.

Нәтижесінде әрбір нысан белгілі бір кластерге тағайындалады.

2. Итерациялық процесс.

Кластерлердің орталықтары есептеледі, содан кейін олар кластерлердің координаталық орташа мәндерін есептеу үшін пайдаланылады. Нысандар қайтадан қайта бөлінеді.

Орталықтарды есептеу және объектілерді қайта бөлу процесі шарттардың бірі орындалғанға дейін жалғасады:

  • кластерлік орталықтар тұрақтанды, яғни. барлық бақылаулар ағымдағы итерацияға дейін тиесілі болған кластерге жатады;
  • қайталану саны қайталанулардың максималды санына тең.

Суретте k екіге тең k-орталары алгоритмінің мысалы көрсетілген.

k-орталар алгоритмінің мысалы (k=2)

Кластерлердің санын таңдау күрделі мәселе. Егер бұл санға қатысты болжамдар болмаса, алынған нәтижелерді салыстыра отырып, 2 кластер, содан кейін 3, 4, 5 және т.б. құру ұсынылады.

Кластерлеу сапасын тексеру

k-орташа кластерлік талдау нәтижелерін алғаннан кейін кластерлеудің дұрыстығын тексеру керек (яғни кластерлердің бір-бірінен қаншалықты ерекшеленетінін бағалау).

Ол үшін әрбір кластер үшін орташа мәндер есептеледі. Жақсы кластерлеу барлық өлшемдер үшін немесе кем дегенде олардың көпшілігі үшін өте әртүрлі құралдарды шығаруы керек.

k-орталар алгоритмінің артықшылықтары:

  • қолданудың қарапайымдылығы;
  • пайдалану жылдамдығы;
  • алгоритмнің түсініктілігі мен ашықтығы.

k-орталар алгоритмінің кемшіліктері:

  • алгоритм орташа мәнді бұрмалай алатын шектен тыс көрсеткіштерге тым сезімтал.

Ықтимал шешімБұл мәселе алгоритмнің модификациясын – k-медиан алгоритмін қолдану;

  • алгоритм үлкен дерекқорларда баяу болуы мүмкін. Бұл мәселенің ықтимал шешімі деректер таңдауын пайдалану болып табылады.

Байес желілері

Ықтималдықтар теориясында ақпаратқа тәуелділік түсінігі шартты тәуелділік (немесе қатаң түрде: шартты тәуелсіздіктің болмауы) арқылы модельденеді, ол фактілер туралы жаңа білім алған кезде қандай да бір оқиғаның нәтижесіне сеніміміздің қалай өзгеретінін сипаттайды, егер біз бұрыннан білетін болсақ. кейбір басқа фактілер жиынтығы.

Элементтер арасындағы тәуелділікті графикте осы элементтерді байланыстыратын бағытталған жол арқылы көрсету ыңғайлы және интуитивті. Егер х және у элементтерінің арасындағы байланыс тікелей болмаса және үшінші z элементі арқылы жүзеге асса, онда х пен у арасындағы жолда z элементі болады деп күту қисынды. Мұндай делдалдық түйіндер x пен у арасындағы тәуелділікті «кеседі», яғни. тікелей әсер етуші факторлардың белгілі мәні бар олардың арасындағы шартты тәуелсіздік жағдайын имитациялау.Мұндай модельдеу тілдері белгілі бір пәндік аймақтың ұғымдары арасындағы шартты тәуелділікті сипаттау үшін қолданылатын Байес желілері болып табылады.

Байес желілері болып табылады графикалық құрылымдарайнымалылардың үлкен саны арасындағы ықтималдық қатынастарды көрсету және сол айнымалылар негізінде ықтималдық қорытынды жасау.«Аңғал» (Байездік) классификация – жеткілікті ашық және түсінікті классификация әдісі.«Аңғал» деп аталады, себебі ол өзара болжамға негізделген.белгілердің тәуелсіздігі.

Жіктеу қасиеттері:

1. Барлық айнымалыларды қолдану және олардың арасындағы барлық тәуелділіктерді анықтау.

2. Айнымалылар туралы екі болжамның болуы:

  • барлық айнымалылар бірдей маңызды;
  • барлық айнымалылар статистикалық тәуелсіз, яғни. бір айнымалының мәні екіншісінің мәні туралы ештеңе айтпайды.

Байес желілерін пайдаланудың екі негізгі сценарийі бар:

1. Сипаттамалық талдау. Пән аймағы график ретінде көрсетіледі, оның түйіндері ұғымдарды білдіреді, ал көрсеткілер арқылы көрсетілетін бағытталған доғалар осы ұғымдар арасындағы тікелей тәуелділіктерді бейнелейді. x және y арасындағы байланыс мынаны білдіреді: x мәнін білу у мәні туралы жақсы болжам жасауға көмектеседі. Ұғымдар арасында тікелей байланыстың жоқтығы олардың арасындағы шартты тәуелсіздікті белгілі бір «бөлетін» ұғымдар жиынтығының белгілі мәндерімен модельдейді. Мысалы, баланың аяқ киімінің өлшемі баланың жасы бойынша оқу қабілетіне байланысты екені анық. Осылайша, үлкенірек аяқ киім баланың қазірдің өзінде оқып жатқанына сенімділік береді, бірақ егер біз жасын білсек, аяқ киімнің өлшемін білу бізге бұдан былай бермейді. Қосымша Ақпаратбаланың оқу қабілеті туралы.


Басқа, керісінше мысал ретінде, темекі шегу және суық тию сияқты бастапқыда бір-бірімен байланысты емес факторларды қарастырыңыз. Бірақ егер біз симптомды білсек, мысалы, адам таңертең жөтелден зардап шегеді, онда адамның темекі шекпейтінін білу адамның суық тиюі бар деген сенімімізді арттырады.

2. Жіктеу және болжау. Бірқатар концепциялардың шартты тәуелсіздігіне мүмкіндік беретін Байес желісі бірлескен таралу параметрлерінің санын азайтуға мүмкіндік береді, оларды деректердің қолда бар көлемдеріне сенімді түрде бағалауға мүмкіндік береді. Сонымен, әрқайсысы 10 мән қабылдай алатын 10 айнымалы болса, бірлескен таралу параметрлерінің саны 10 млрд - 1. Егер осы айнымалылар арасында тек 2 айнымалы бір-біріне тәуелді деп алсақ, онда параметрлер саны 8-ге айналады. * (10-1) + (10*10-1) = 171. Есептеу ресурстары тұрғысынан шынайы болатын бірлескен бөлу моделіне ие бола отырып, біз тұжырымдаманың белгісіз мәнін, мысалы, ең ықтимал мәні ретінде болжай аламыз. бұл ұғым басқа ұғымдардың белгілі мәндерін ескере отырып.

DataMining әдісі ретінде Байес желілерінің келесі артықшылықтары атап өтілген:

Модель барлық айнымалылар арасындағы тәуелділікті анықтайды, бұл оны жеңілдетедікейбір айнымалылардың мәндері белгісіз жағдайларды өңдеу;

Байес желілерін түсіндіру және рұқсат ету өте оңайБолжалды модельдеу не болса да сценарий талдауын жүргізуді жеңілдетеді;

Байес әдісі өрнектерді табиғи түрде біріктіруге мүмкіндік береді,деректерден, және, мысалы, нақты алынған сараптамалық білім;

Байес желілерін пайдалану артық орнату мәселесін болдырмайды(шамадан тыс фитинг), яғни модельдің шамадан тыс күрделенуі, бұл әлсіздіккөптеген әдістер (мысалы, шешім ағаштары және нейрондық желілер).

Naive Bayes әдісінің келесі кемшіліктері бар:

Шартты ықтималдықтарды барлық енгізу кезінде ғана көбейту дұрысайнымалылар шын мәнінде статистикалық тәуелсіз; бұл әдіс жиі болса дастатистикалық шарт орындалмаған кезде айтарлықтай жақсы нәтижелер көрсетедітәуелсіздік, бірақ теориялық тұрғыдан мұндай жағдайды күрделірек шешу керекбейсиялық желілерді оқытуға негізделген әдістер;

Үздіксіз айнымалыларды тікелей өңдеу мүмкін емес - олар қажетатрибуттар дискретті болатындай аралық масштабқа түрлендіру; дегенмен осындайтүрлендірулер кейде елеулі үлгілердің жоғалуына әкелуі мүмкін;

Naive Bayes әдісіндегі жіктеу нәтижесіне тек әсер етедікіріс айнымалылардың жеке мәндері, жұптардың біріктірілген әсері немесемұнда әртүрлі атрибуттардың үштік мәндері ескерілмейді. Бұл жақсаруы мүмкіноның болжамдық дәлдігі тұрғысынан жіктеу моделінің сапасы,дегенмен, бұл тексерілген опциялардың санын көбейтеді.

Жасанды нейрондық желілер

Жасанды нейрондық желілер (бұдан әрі - нейрондық желілер) синхронды және асинхронды болуы мүмкін.Синхронды нейрондық желілерде уақыттың әр сәтінде оның күйі тек өзгередібір нейрон. Асинхронды – күйі нейрондардың тұтас тобында, әдетте, барлығында бірден өзгередіқабат. Олар екеу негізгі архитектуралар- деңгейлі және толық қосылған желілер.Қабатты желілердегі негізгі ұғым – бұл деңгей ұғымы.Қабат – кірістері бірдей ортақ сигнал қабылдайтын бір немесе бірнеше нейрондар.Қабатты нейрондық желілер - бұл нейрондар жеке топтарға (қабаттарға) бөлінген нейрондық желілер, осылайша ақпарат қабат-қабат өңделеді.Қабатты желілерде i-ші деңгейдің нейрондары кіріс сигналдарын қабылдап, оларды түрлендіреді және тармақталу нүктелері арқылы (i+1) қабаттың нейрондарына жібереді. Және т.б., өндіретін k-ші қабатқа дейінинтерпретатор мен пайдаланушы үшін шығыс сигналдары. Әрбір қабаттағы нейрондардың саны басқа қабаттардағы нейрондардың санына байланысты емес және ерікті болуы мүмкін.Бір қабат ішінде деректер параллельді өңделеді, ал бүкіл желі бойынша өңдеу ретпен - қабаттан деңгейге дейін жүзеге асырылады. Қабатты нейрондық желілерге, мысалы, көпқабатты перцептрондар, радиалды функционалды желілер, когнитрон, когнитрон емес, ассоциативті жады желілері жатады.Дегенмен, сигнал әрқашан қабаттағы барлық нейрондарға жіберілмейді. Когнитронда, мысалы, ағымдағы қабаттың әрбір нейроны сигналдарды тек алдыңғы қабаттағы өзіне жақын нейрондардан алады.

Қабатты желілер, өз кезегінде, бір қабатты немесе көп қабатты болуы мүмкін.

Бір деңгейлі желі- бір қабаттан тұратын желі.

Көпқабатты желі- бірнеше қабаттан тұратын желі.

Көпқабатты желіде бірінші қабат кіріс деңгейі, одан кейінгі қабаттар ішкі немесе жасырын, ал соңғы қабат шығыс қабат деп аталады. Осылайша, аралық қабаттар - кіріс пен шығыстан басқа көп қабатты нейрондық желідегі барлық қабаттар.Желінің кіріс деңгейі кіріс деректерімен, ал шығыс деңгейі шығыспен байланысады.Осылайша, нейрондар кіріс, шығыс және жасырын болуы мүмкін.Кіріс деңгейі деректерді қабылдайтын және оны желінің жасырын қабатындағы нейрондардың кірістеріне тарататын кіріс нейрондарынан ұйымдастырылған.Жасырын нейрон – нейрондық желінің жасырын қабатында орналасқан нейрон.Желінің шығыс қабаты ұйымдастырылатын шығыс нейрондары шығарадынейрондық желінің нәтижелері.

Торлы желілердеӘрбір нейрон өз шығысын басқа нейрондарға, соның ішінде өзіне жібереді. Желінің шығыс сигналдары желі жұмысының бірнеше циклінен кейін нейрондардың шығыс сигналдарының барлығы немесе кейбіреуі болуы мүмкін.

Барлық кіріс сигналдары барлық нейрондарға беріледі.

Нейрондық желілерді оқыту

Нейрондық желіні қолданбас бұрын оны оқыту керек.Нейрондық желіні оқыту процесі оның ішкі параметрлерін белгілі бір тапсырмаға реттеуден тұрады.Нейрондық желі алгоритмі итеративті, оның қадамдары дәуір немесе цикл деп аталады.Дәуір – оқу процесіндегі бір итерация, оның ішінде оқу жинағынан барлық мысалдарды көрсету және, мүмкін, тестілік топта оқыту сапасын тексеру.көп. Оқыту процесі оқу үлгісі бойынша жүзеге асырылады.Жаттығу жиыны деректер жиынының кіріс мәндерін және оларға сәйкес шығыс мәндерін қамтиды. Жаттығу кезінде нейрондық желі шығыс өрістері мен кіріс өрістері арасындағы белгілі бір тәуелділіктерді табады.Осылайша, бізге сұрақ туындайды - бізге қандай енгізу өрістері (мүмкіндіктері) қажет?пайдалану қажет. Бастапқыда таңдау эвристикалық жолмен жасалады, содан кейінкірістер санын өзгертуге болады.

Мәліметтер жиынындағы бақылаулар саны туындауы мүмкін мәселе. Ал бақылаулардың қажетті саны мен желі өлшемі арасындағы байланысты сипаттайтын белгілі бір ережелер болғанымен, олардың дұрыстығы дәлелденбеген.Қажетті бақылаулар саны шешілетін мәселенің күрделілігіне байланысты. Функциялар саны артқан сайын бақылаулар саны сызықты емес өседі; бұл мәселе «өлшемділіктің қарғысы» деп аталады. Саны жеткіліксіз болған жағдайдадеректер үшін сызықтық модельді пайдалану ұсынылады.

Талдаушы желідегі қабаттардың санын және әрбір қабаттағы нейрондардың санын анықтауы керек.Әрі қарай, мүмкін болатын салмақтар мен ауытқулардың мәндерін тағайындау керекшешім қатесін азайту. Жаттығу қатесі деп аталатын қажетті және қабылданған шығыс сигналдарының арасындағы айырмашылықты азайту үшін салмақтар мен қиғаштықтар автоматты түрде реттеледі.Салыстыру арқылы құрылған нейрондық желі үшін жаттығу қатесі есептеледішығыс және мақсатты (қалаған) мәндер. Қателік функциясы алынған айырмашылықтардан құралады.

Қателік функция - бұл процесте минимизациялауды қажет ететін мақсаттық функциянейрондық желіні бақылайтын оқу.Қате функциясын пайдалана отырып, жаттығу кезінде нейрондық желінің сапасын бағалауға болады. Мысалы, квадрат қателердің қосындысы жиі қолданылады.Нейрондық желіні оқыту сапасы оның берілген тапсырмаларды шешу қабілетін анықтайды.

Нейрондық желіні қайта даярлау

Нейрондық желілерді жаттықтыру кезінде жиі күрделі қиындықтар туындайдышамадан тыс орнату мәселесі.Артық қондыру, немесе тым көп қондыру – тым көп салунейрондық желіні оқыту мысалдарының белгілі бір жиынтығына, онда желі жоғалтадыжалпылау қабілеті.Шамадан тыс жаттығулар тым көп болған кезде пайда болады, жеткіліксізоқыту мысалдары немесе аса күрделі нейрондық желі құрылымы.Қайта даярлау оқу кешенін таңдауға байланыстыкездейсоқ болып табылады. Оқудың алғашқы қадамдарынан қателік азаяды. Қосулықателік (мақсатты функция) параметрлерін азайту мақсатында келесі қадамдароқыту жиынтығының ерекшеліктеріне бейімделу. Дегенмен, бұл орын аладысерияның жалпы үлгілеріне емес, оның бөлігінің ерекшеліктеріне «түзету» -жаттығу жиыны. Сонымен бірге болжамның дәлдігі төмендейді.Желінің шамадан тыс дайындығымен күресу нұсқаларының бірі оқу үлгісін екіге бөлу болып табыладыжинақтар (оқу және тестілеу).Нейрондық желі жаттығу жиынында оқытылады. Құрылған модель сынақ жиынында тексеріледі. Бұл жиындар қиылыспауы керек.Әр қадам сайын модель параметрлері өзгереді, бірақ тұрақты төмендейдіМақсат функциясының мәні жаттығу жиынында дәл орын алады. Біз жиынтықты екіге бөлгенде, оқу жиынындағы бақылаулармен параллельді тесттер жиынында болжам қатесінің өзгеруін байқай аламыз. кейбірболжау қате қадамдарының саны екі жиында да азаяды. Дегенмен, қосулыБелгілі бір қадамда сынақ жиынындағы қателік өсе бастайды, ал оқу жиынындағы қателік төмендей береді. Бұл сәт қайта даярлаудың басталуы болып саналады

DataMining құралдары

Жаһандық бағдарламалық қамтамасыз ету нарығының DataMining секторын дамытуға әлемге әйгілі көшбасшылар да, жаңа дамушы компаниялар да қатысады. DataMining құралдары жеке қолданба ретінде немесе негізгі өнімге қосымша ретінде ұсынылуы мүмкін.Соңғы нұсқаны бағдарламалық қамтамасыз ету нарығының көптеген көшбасшылары жүзеге асырады.Осылайша, әмбебап статистикалық пакеттерді әзірлеушілер дәстүрлі статистикалық талдау әдістерінен басқа пакетке енгізу дәстүрге айналды.DataMining әдістерінің белгілі бір жиынтығы. Бұл пакеттер сияқты SPSS (SPSS, Clementine), Statistica (StatSoft), SAS институты (SAS Enterprise Miner).Кейбір OLAP шешім жеткізушілері Cognos өнімдер тобы сияқты DataMining әдістерінің жинағын ұсынады. ДҚБЖ функционалдығында DataMining шешімдерін қамтитын жеткізушілер бар: олар Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMIntelligentMinerforData).

Әдебиеттер тізімі

  1. Әбдікеев Н.М. Данко Т.П. Илдеменов С.В. Киселев А.Д., «Бизнес-процесс реинжиниринг. MBA курсы», М.: «Эксмо» баспасы, 2005. – 592 б. - (MBA)
  1. Әбдікеев Н.М., Киселев А.Д. «Корпорациядағы білім менеджменті және бизнес реинжиниринг» - М.: Infra-M, 2011. - 382 б. – ISBN 978-5-16-004300-5
  1. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. «Деректерді талдаудың әдістері мен үлгілері: OLAP және деректерді өңдеу», Санкт-Петербург: BHV-Петербург, 2004, 336 б., ISBN 5-94157-522-X
  1. Герцог IN., Самойленко А., «Деректерді өндіру.Оқу курсы» Санкт-Петербург: Петр, 2001, 386 б.
  1. Чубукова И.А., Data Mining курсы, http://www.intuit.ru/department/database/datamining/
  1. IanH. Виттен, Эйбе Франк, Марк А. Холл, Морган Кауфман, Деректерді өндіру: машинаны оқытудың практикалық құралдары мен әдістері (үшінші басылым), ISBN 978-0-12-374856-0
  1. Петрушин В.А. , Хан Л. , Мультимедиялық деректерді өңдеу және білімдерді ашу

Ресей Федерациясының Білім және ғылым министрлігі

Жоғары кәсіптік білім беретін федералды мемлекеттік бюджеттік оқу орны

«ҰЛТТЫҚ ЗЕРТТЕУ ТОМСК ПОЛИТЕХНИКАЛЫҚ УНИВЕРСИТЕТІ»

Кибернетика институты

Информатика және информатика бағыты

ВТ кафедрасы

Бақылау жұмысы

информатика және есептеуіш техника пәні бойынша

Тақырыбы: Мәліметтерді іздеу әдістері

Кіріспе

Деректерді өндіру. Негізгі ұғымдар мен анықтамалар

1 Деректерді өндіру процесінің қадамдары

2 Интеллектуалды талдау жүйесінің құрамдас бөліктері

3 Мәліметтерді іздеу әдістері

Мәліметтерді іздеу әдістері

1 Ассоциация ережелерін шығару

2 Нейрондық желі алгоритмдері

3 Ең жақын көрші және k-ең жақын көрші әдістері

4 Шешім ағаштары

5 Кластерлеу алгоритмдері

6 Генетикалық алгоритмдер

Қолдану аймақтары

Data Mining құралдарын өндірушілер

Әдістерге сын

Қорытынды

Әдебиеттер тізімі

Кіріспе

Дамудың нәтижесі ақпараттық технологияларжинақталған деректердің орасан зор көлемі болып табылады электронды форматта, жылдам қарқынмен өсуде. Сонымен бірге деректер, әдетте, гетерогенді құрылымға ие (мәтіндер, суреттер, аудио, бейне, гипермәтіндік құжаттар, реляциялық мәліметтер базасы). үшін жинақталған ұзақ мерзімдідеректерде жоспарлау, болжау, шешім қабылдау және процесті бақылау үшін құнды ақпарат болып табылатын үлгілер, үрдістер және қатынастар болуы мүмкін. Дегенмен, адамдар физикалық түрде гетерогенді деректердің мұндай көлемін тиімді талдай алмайды. Дәстүрлі математикалық статистиканың әдістері бұрыннан деректерді талдаудың негізгі құралы болып табылады. Дегенмен, олар жаңа гипотезаларды синтездеуге мүмкіндік бермейді, бірақ тек алдын ала тұжырымдалған гипотезаларды және онлайн аналитикалық өңдеудің (OLAP) негізін құрайтын «дөрекі» барлау талдауын растау үшін ғана пайдаланылуы мүмкін. Көбінесе бұл гипотезаны тұжырымдау, ол кейіннен шешім қабылдау үшін талдау жүргізу кезінде ең қиын міндет болып шығады, өйткені деректердегі барлық заңдылықтар бір қарағанда анық емес. Сондықтан деректерді өңдеу технологиялары ақпараттық технологиялар индустриясында зерттеу және қолдану үшін ең маңызды және перспективалы тақырыптардың бірі ретінде қарастырылады. Бұл жағдайда деректерді өңдеу деректердің үлкен көлеміне негізделген жаңа, дұрыс және ықтимал пайдалы білімді анықтау процесін білдіреді. Осылайша, MIT Technology Review мәліметтерді өңдеуді әлемді өзгертетін он дамып келе жатқан технологияның бірі ретінде сипаттады.

1. Мәліметтерді өндіру. Негізгі ұғымдар мен анықтамалар

Data Mining – бұл «шикі» деректерде бұрын белгісіз, тривиальды емес, іс жүзінде пайдалы және адам қызметінің әртүрлі салаларында шешім қабылдау үшін қажетті түсіндірілетін білімді табу процесі.

Data Mining технологиясының мәні мен мақсатын келесідей тұжырымдауға болады: бұл анық емес, объективті және практикалық заңдылықтар үшін үлкен көлемдегі мәліметтерді іздеуге арналған технология.

Айқын емес заңдылықтар – ақпаратты өңдеудің стандартты әдістерімен немесе сараптамалық талдаумен анықталмайтын заңдылықтар.

Объективті заңдылықтарды әрқашан субъективті болып табылатын сарапшылардың пікірінен айырмашылығы, шындыққа толық сәйкес келетін үлгілер деп түсіну керек.

Бұл деректерді талдау тұжырымдамасы мынаны болжайды:

§ деректер дәл емес, толық емес (кемітілген жерлері бар), қарама-қайшы, біркелкі емес, жанама болуы мүмкін және сонымен бірге үлкен көлемдерге ие болуы мүмкін; сондықтан нақты қолданбалардағы деректерді түсіну айтарлықтай интеллектуалдық күш-жігерді қажет етеді;

§ деректерді талдау алгоритмдерінің өзінде «интеллект элементтері» болуы мүмкін, атап айтқанда, прецеденттерден үйрену, яғни жеке бақылаулар негізінде жалпы қорытындылар жасау мүмкіндігі; мұндай алгоритмдерді әзірлеу де айтарлықтай интеллектуалдық күш-жігерді қажет етеді;

§ бастапқы деректерді ақпаратқа, ал ақпаратты білімге өңдеу процестері қолмен орындалмайды және автоматтандыруды қажет етеді.

Data Mining технологиясы деректердегі көпөлшемді қатынастар фрагменттерін көрсететін үлгілер тұжырымдамасына негізделген. Бұл үлгілер адам оқи алатын пішінде ықшам түрде көрсетілуі мүмкін деректердің ішкі үлгілеріне тән үлгілерді білдіреді.

Үлгілерді іздеу іріктеме құрылымы мен талданатын көрсеткіштер мәндерінің таралу түрі туралы априорлы болжамдармен шектелмейтін әдістерді қолдану арқылы жүзеге асырылады.

Data Mining маңызды ерекшелігі ізделетін үлгілердің стандартты емес және айқын емес сипаты болып табылады. Басқаша айтқанда, Data Mining құралдарының статистикалық деректерді өңдеу құралдарынан және OLAP құралдарынан айырмашылығы, пайдаланушылар алдын ала болжаған өзара тәуелділіктерді тексерудің орнына, олар мұндай өзара тәуелділіктерді қолда бар деректер негізінде дербес таба алады және олардың табиғаты туралы гипотезаларды құра алады. Data Mining әдістерімен анықталған үлгілердің бес стандартты түрі бар:

· ассоциация – оқиғалардың бір-бірімен байланысты болуының жоғары ықтималдығы. Ассоциацияның мысалы ретінде жиі бірге сатып алынатын дүкендегі заттар;

· реттілік – уақытқа байланысты оқиғалар тізбегінің жоғары ықтималдығы. Кезектіліктің мысалы ретінде бір тауарды сатып алғаннан кейін белгілі бір кезең ішінде басқасы жоғары ықтималдықпен сатып алынатын жағдайды айтуға болады;

· классификация – осы немесе басқа оқиғаның немесе объектінің жататын тобын сипаттайтын белгілер бар;

· кластерлеу классификацияға ұқсас заңдылық болып табылады және одан топтардың өздері көрсетілмегендігімен ерекшеленеді - мәліметтерді өңдеу кезінде олар автоматты түрде анықталады;

· уақытша заңдылықтар – белгілі бір деректердің әрекет динамикасында заңдылықтардың болуы. Уақыт үлгісінің типтік мысалы белгілі бір тауарларға немесе қызметтерге сұраныстың маусымдық ауытқуы болып табылады.

1.1 Деректерді өңдеу процесінің қадамдары

Дәстүрлі түрде деректерді өңдеу процесінде келесі кезеңдерді ажыратады:

1. Пәндік саланы зерттеу, нәтижесінде талдаудың негізгі мақсаттары тұжырымдалады.

2. Мәліметтерді жинау.

Деректерді алдын ала өңдеу:

а. Деректерді тазалау – бастапқы деректерден сәйкессіздіктер мен кездейсоқ «шуларды» жою

б. Деректерді біріктіру – бірнеше мүмкін көздерден алынған деректерді бір репозиторийге біріктіру. Деректерді түрлендіру. Бұл кезеңде деректер талдауға қолайлы пішінге түрлендіріледі. Деректерді біріктіру, атрибуттарды іріктеу, деректерді қысу және өлшемді азайту жиі қолданылады.

4. Деректерді талдау. Бұл кезеңнің бөлігі ретінде үлгілерді шығару үшін тау-кен алгоритмдері қолданылады.

5. Табылған үлгілерді интерпретациялау. Бұл кезең шығарылған үлгілерді визуализациялауды, кейбір қызметтік функцияға негізделген шын мәнінде пайдалы үлгілерді анықтауды қамтуы мүмкін.

Жаңа білімді пайдалану.

1.2 Интеллектуалды талдау жүйелерінің құрамдас бөліктері

Әдетте деректерді іздеу жүйелерінде келесі негізгі компоненттер бар:

1. Деректер қоры, деректер қоймасы немесе ақпараттың басқа репозиторийі. Бұл бір немесе бірнеше дерекқорлар, деректер қоймасы, электрондық кестелер немесе тазалауға және біріктіруге болатын репозитарийлердің басқа түрлері болуы мүмкін.

2. Мәліметтер қоры немесе мәліметтер қоймасының сервері. Көрсетілген сервер пайдаланушы сұрауы негізінде маңызды деректерді шығарып алуға жауапты.

Білім базасы. Бұл нәтиже үлгілерінің пайдалылығын іздеу және бағалау жолын бағыттайтын домендік білім.

Білім тау-кен қызметі. Ол деректерді іздеу жүйесінің ажырамас бөлігі болып табылады және сипаттама, ассоциацияны іздеу, классификация, кластерлік талдау және дисперсияны талдау сияқты тапсырмаларға арналған функционалдық модульдер жиынтығын қамтиды.

Үлгілерді бағалау модулі. Бұл құрамдас үлгілердің қызығушылық немесе пайдалылық өлшемдерін есептейді.

Графика пайдаланушы интерфейсі. Бұл модуль пайдаланушы мен деректерді өңдеу жүйесі арасындағы байланысқа, әртүрлі формадағы үлгілерді визуализациялауға жауап береді.

1.3 Мәліметтерді іздеу әдістері

Data Mining технологиясында қолданылатын аналитикалық әдістердің көпшілігі белгілі математикалық алгоритмдер мен әдістер болып табылады. Оларды қолданудағы жаңалық - аппараттық және бағдарламалық қамтамасыз етудің пайда болу мүмкіндіктеріне байланысты белгілі бір нақты мәселелерді шешуде пайдалану мүмкіндігі. Айта кету керек, Data Mining әдістерінің көпшілігі жасанды интеллект теориясы аясында әзірленген. Ең көп қолданылатын әдістерді қарастырайық:

Ассоциация ережелерін шығару.

2. Нейрондық желі алгоритмдері, оның идеясы жүйке тінінің жұмысына ұқсастыққа негізделген және бастапқы параметрлер «нейрондар» арасындағы бар байланыстарға сәйкес түрленетін сигналдар ретінде қарастырылады. және бүкіл желінің жауабы бастапқы деректерге талдау нәтижесінде алынған жауап ретінде қарастырылады.

Бар тарихи деректерден бастапқы деректердің жақын аналогын таңдау. «Ең жақын көрші» әдісі деп те аталады.

Шешім ағаштары – «Иә» немесе «Жоқ» жауабын талап ететін сұрақтар жиынтығына негізделген иерархиялық құрылым.

Кластер үлгілері деректер жиынындағы бірнеше өрістердің ұқсас мәндері негізінде ұқсас оқиғаларды топтарға топтастыру үшін пайдаланылады.

Келесі тарауда біз жоғарыда аталған әдістерді толығырақ сипаттайтын боламыз.

2. Мәліметтерді іздеу әдістері

2.1 Ассоциация ережелерін қорытындылау

Ассоциация ережелері – «егер... онда...» түріндегі ережелер. Деректер жинағында мұндай ережелерді іздеу өзара байланыссыз болып көрінетін деректердегі жасырын қосылымдарды көрсетеді. Қауымдастық ережелерін табудың ең жиі келтірілген мысалдарының бірі - сатып алу себетіндегі тұрақты қосылымдарды табу мәселесі. Бұл мәселе тұтынушылардың қандай өнімдерді бірге сатып алатынын анықтау болып табылады, осылайша маркетологтар сатылымды арттыру үшін осы өнімдерді дүкенге дұрыс орналастыра алады.

Қауымдастық ережелері (X1,X2,…,Xn) -> Y пішіміндегі мәлімдемелер ретінде анықталады, мұнда X1,X2,…,Xn бір транзакцияда болған жағдайда Y транзакцияда болуы мүмкін дегенді білдіреді. Айта кету керек, «мүмкін» сөзі ереженің сәйкестік емес, тек кейбір ықтималдықпен қанағаттандырылатынын білдіреді. Сонымен қатар, Y бір ғана элемент емес, элементтер жиыны болуы мүмкін. X1,X2,…,Xn элементтерін қамтитын транзакцияда Y табу ықтималдығы сенімділік деп аталады. Транзакциялардың жалпы санынан ережені қамтитын транзакциялардың пайызы қолдау деп аталады. Ереженің сенімділігінен асуы тиіс сенімділік деңгейі қызықтылық деп аталады.

Бірлестік ережелерінің әртүрлі түрлері бар. Қарапайым түрде қауымдастық ережелері қауымдастықтың бар немесе жоқтығын ғана хабарлайды. Мұндай ережелер логикалық ассоциация ережелері деп аталады. Мұндай ереженің мысалы: «йогурт сатып алатын тұтынушылар майы аз сары майды да сатып алады».

Бірнеше ассоциация ережелерін біріктіретін ережелер көп деңгейлі немесе жалпыланған ассоциация ережелері деп аталады. Мұндай ережелерді құрастыру кезінде элементтер әдетте иерархия бойынша топтастырылады, ал іздеу ең жоғары тұжырымдамалық деңгейде жүргізіледі. Мысалы, «сүт сатып алатын тұтынушылар нанды да сатып алады». Бұл мысалда сүт пен нан әртүрлі түрлер мен брендтердің иерархиясын қамтиды, бірақ төменгі деңгейде іздеу қызықты ережелерді ашпайды.

Ереженің күрделі түрі - Сандық ассоциация ережелері. Ереженің бұл түрі сандық (мысалы, баға) немесе категориялық (мысалы, жыныс) атрибуттар арқылы ізделеді және ( , ,…,} -> . Мысалы, «жылдық табысы 75 000-нан асатын жасы 30-35 жас аралығындағы сатып алушылар құны 20 000-нан асатын көліктерді сатып алады».

Ережелердің жоғарыда аталған түрлері транзакциялардың табиғаты бойынша уақытқа тәуелді екендігін қарастырмайды. Мысалы, өнім сатылымға шығарылғанға дейін немесе ол нарықтан жоғалып кеткеннен кейін іздеу қолдау шегіне кері әсер етеді. Осыны ескере отырып, уақытша біріктіру ережелерін іздеу алгоритмдерінде атрибуттың өмір сүру уақыты түсінігі енгізілді (Уақытша ассоциация ережелері).

Ассоциация ережелерін іздеу мәселесін әдетте екі бөлікке бөлуге болады: жиі кездесетін элементтер жиынын іздеу және табылған жиі кездесетін жиындарға негізделген ережелерді жасау. Алдыңғы зерттеулер, негізінен, осы жолдарды ұстанып, оларды әртүрлі бағытта кеңейтті.

Априори алгоритмі пайда болғаннан бері бұл алгоритм бірінші қадамда ең жиі қолданылады. Көптеген жақсартулар, мысалы, жылдамдық пен ауқымдылық, Apriori алгоритмін жақсартуға, оның ең жиі кездесетін элементтер жиыны үшін тым көп үміткерлерді жасау қате қасиетін түзетуге бағытталған. Apriori элементтер жиынын тек пайдалана отырып жасайды үлкен жиынтықтар, транзакцияларды қайта тексермей, алдыңғы қадамда табылды. Өзгертілген AprioriTid алгоритмі бірінші өтуде дерекқорды пайдалану арқылы Apriori жүйесін жақсартады. Келесі қадамдарда есептеу кезінде тек бірінші өтуде жасалған және өлшемі бойынша бастапқы дерекқордан әлдеқайда кішірек деректер пайдаланылады. Бұл өнімділіктің үлкен өсуіне әкеледі. Алгоритмнің AprioriHybrid деп аталатын одан әрі жетілдірілген нұсқасын алғашқы бірнеше өтуде Apriori пайдалану арқылы алуға болады, содан кейін k-ші үміткерлер жинақтары толығымен компьютер жадында орналасуы мүмкін болған кезде кейінгі өтулерде AprioriTid-ке ауысу арқылы алуға болады.

Apriori алгоритмін жетілдіру бойынша одан әрі күш-жігер алгоритмді параллельдеумен (санақтарды тарату, деректерді тарату, кандидаттарды тарату және т.б.), оны масштабтаумен (ақылды деректерді тарату, гибридтік тарату), жаңа деректер құрылымдарын енгізумен, мысалы, ағаштар сияқты байланысты. жиі кездесетін элементтер (FP-өсу ).

Екінші қадам негізінен шынайылық пен қызықтылықпен сипатталады. Жаңа өзгертулер дәстүрлі логикалық ереже ережелеріне жоғарыда сипатталған өлшемдік, сапа және уақыт қолдауын қосады. Ережелерді табу үшін эволюциялық алгоритм жиі қолданылады.

2.2 Нейрондық желі алгоритмдері

Жасанды нейрондық желілер адамның жүйке жүйесінің қызметін оның көбеюі мақсатында зерттеуге математикалық аппаратты қолдану нәтижесінде пайда болды. Атап айтқанда: жүйке жүйесінің қателерді үйрену және түзету қабілеті, бұл бізге адам миының жұмысын дөрекі болса да модельдеуге мүмкіндік береді. Нейрондық желінің негізгі құрылымдық және функционалды бөлігі - формальды нейрон, суретте көрсетілген. 1, мұндағы x0, x1,..., xn – кіріс сигнал векторының құрамдас бөліктері, w0,w1,...,wn – нейронның кіріс сигналдарының салмақтарының мәндері, ал y – нейронның шығысы сигнал.

Күріш. 1. Формальді нейрон: синапстар (1), қосқыш (2), түрлендіргіш (3).

Формальды нейрон 3 типті элементтерден тұрады: синапс, сумматор және түрлендіргіш. Синапс екі нейрон арасындағы байланыстың күшін сипаттайды.

Қосқыш бұрын сәйкес салмақтарға көбейтілген кіріс сигналдарын қосады. Түрлендіргіш бір аргументтің функциясын – қосқыштың шығысын жүзеге асырады. Бұл функция нейронның белсендіру функциясы немесе тасымалдау функциясы деп аталады.

Жоғарыда сипатталған формальды нейрондарды кейбір нейрондардың шығыс сигналдары басқаларына кіріс болатындай етіп біріктіруге болады. Нәтижесінде өзара байланысты нейрондардың жиынтығы жасанды нейрондық желілер деп аталады. нейрондық желілер, ANN) немесе қысқаша айтқанда нейрондық желілер.

Нейрондық желідегі орнына байланысты нейрондардың келесі үш жалпы түрі бар:

Кіріс сигналдары берілетін кіріс нейрондары (кіріс түйіндері). Мұндай нейрондарда әдетте бірлік салмағы бар бір кіріс болады, қиғаштық жоқ, нейрондық шығыс мәні кіріс сигналына тең;

Шығыс мәндері нейрондық желінің нәтижелік шығыс сигналдарын көрсететін шығыс түйіндері;

Кіріс сигналдарымен тікелей байланысы жоқ жасырын нейрондар (жасырын түйіндер), ал жасырын нейрондардың шығыс сигналдарының мәндері ANN шығыс сигналдары болып табылмайды.

Нейронаралық қосылыстардың құрылымына қарай ANN екі класын ажыратады:

Сигнал тек кіріс нейрондарынан шығыс нейрондарына таралатын ANN.

Қайталанатын ANN - бар ANN кері байланыс. Мұндай ANN-де сигналдар ANN-де орналасуына қарамастан кез келген нейрондар арасында берілуі мүмкін.

ANN оқытудың екі жалпы тәсілі бар:

Мұғаліммен жаттығу.

Мұғалімсіз оқу.

Бақыланатын оқыту алдын ала жасалған оқу мысалдарының жиынтығын пайдалануды қамтиды. Әрбір мысалда кіріс сигналдарының векторы және берілген тапсырмаға байланысты анықтамалық шығыс сигналдарының сәйкес векторы бар. Бұл жиынтықжаттығулар жиынтығы немесе жаттығу жиынтығы деп аталады. Нейрондық желіні оқыту ANN шығыс сигналдарының мәндері кіріс сигналдарының берілген векторы үшін шығыс сигналдарының қажетті мәндерінен мүмкіндігінше аз ерекшеленетіндей етіп ANN қосылымдарының салмақтарын өзгертуге бағытталған. .

Бақылаусыз оқытуда байланыс салмақтары не нейрондар арасындағы бәсекелестік нәтижесінде, не арасында байланыс бар нейрондардың шығыс сигналдарының корреляциясын ескере отырып реттеледі. Бақылаусыз оқыту жағдайында ешқандай оқу жинағы пайдаланылмайды.

Нейрондық желілер ғарыш кемелерінің пайдалы жүктемесін жоспарлау және валюта бағамын болжау сияқты кең ауқымды мәселелерді шешу үшін қолданылады. Дегенмен, олар модельдің күрделілігіне (бірнеше жүздеген нейрондық қосылыстардың салмағы ретінде жазылған білім адам талдауы мен интерпретациясынан мүлдем тыс) және үлкен оқу жинағында ұзақ оқу уақытына байланысты деректерді өңдеу жүйелерінде жиі қолданылмайды. Екінші жағынан, нейрондық желілер шулы деректерге төзімділік және жоғары дәлдік сияқты деректерді талдау тапсырмаларында пайдалану үшін артықшылықтарға ие.

2.3 Ең жақын көрші және k-ең жақын көрші әдістері

Ең жақын көрші алгоритмінің (en yakın көрші алгоритмі) және k-ең жақын көрші алгоритмінің (KNN) негізі объектілердің ұқсастығы болып табылады. Ең жақын көрші алгоритмі барлық белгілі нысандардың ішінен жаңа бұрын белгісіз нысанға мүмкіндігінше жақын нысанды (объектілер арасындағы қашықтық метрикасын пайдалана отырып, мысалы, евклидтік) таңдайды. Жақын көрші әдісінің негізгі проблемасы оның оқу деректеріндегі шектен тыс мәндерге сезімталдығы болып табылады.

Сипатталған мәселені KNN алгоритмі арқылы болдырмауға болады, ол барлық бақылаулар арасында жаңа нысанға ұқсас k-ең жақын көршілерді анықтайды. Жақын көршілердің сыныптары негізінде жаңа нысанға қатысты шешім қабылданады. Бұл алгоритмнің маңызды міндеті k коэффициентін таңдау болып табылады - ұқсас деп есептелетін жазбалар саны. Көршінің үлесі жаңа объектіге дейінгі қашықтыққа пропорционал болатын алгоритмнің модификациясы (к-өлшенген жақын көршілер әдісі) классификацияның жоғары дәлдігіне қол жеткізуге мүмкіндік береді. Ең жақын көршілер әдісі де болжамның дұрыстығын бағалауға мүмкіндік береді. Мысалы, егер барлық жақын k көршінің классы бірдей болса, онда тексерілетін объектінің бірдей сыныпқа ие болу ықтималдығы өте жоғары.

Алгоритмнің ерекшеліктерінің ішінде оның аномальді шектен тыс көрсеткіштерге төзімділігін атап өткен жөн, өйткені мұндай жазбаның k-ең жақын көршілерінің санына қосылу ықтималдығы төмен. Егер бұл орын алса, онда дауыс беруге әсер ету (әсіресе салмақты) (k>2 үшін) шамалы болуы мүмкін, демек, жіктеу нәтижесіне әсері де аз болады. Сондай-ақ, артықшылықтар - орындаудың қарапайымдылығы, алгоритм нәтижесін түсіндірудің қарапайымдылығы, алгоритмді белгілі бір тапсырмаға сәйкес келтіруге мүмкіндік беретін ең қолайлы комбинация функциялары мен метриканы қолдану арқылы алгоритмді өзгерту мүмкіндігі. KNN алгоритмінің де бірқатар кемшіліктері бар. Біріншіден, алгоритм үшін пайдаланылатын деректер жиынтығы репрезентативті болуы керек. Екіншіден, модельді деректерден бөлуге болмайды: жаңа мысалды жіктеу үшін барлық мысалдар пайдаланылуы керек. Бұл мүмкіндік алгоритмді пайдалануды айтарлықтай шектейді.

2.4 Шешім ағаштары

«Шешім ағаштары» термині жіктеу ережелерін иерархиялық, дәйекті құрылымда көрсетуге негізделген алгоритмдер тобын білдіреді. Бұл деректерді іздеу есептерін шешуге арналған алгоритмдердің ең танымал класы.

Шешім ағаштарын құруға арналған алгоритмдер тобы басқа ұқсас жағдайлар туралы деректердің үлкен көлемі негізінде берілген жағдай үшін параметр мәнін болжауға мүмкіндік береді. Әдетте бұл топтың алгоритмдері барлық бастапқы деректерді бірнеше дискретті топтарға бөлуге мүмкіндік беретін есептерді шешу үшін қолданылады.

Бастапқы деректер жиынына шешім ағашын құру алгоритмдерін қолданған кезде нәтиже ағаш түрінде көрсетіледі. Мұндай алгоритмдер осындай бөлудің бірнеше деңгейін жүзеге асыруға мүмкіндік береді, нәтижесінде пайда болған топтарды (ағаш бұтақтарын) басқа сипаттамалар негізінде кішірек топтарға бөледі. Бөлу барлық нәтиже топтары (ағаш жапырақтары) үшін болжамды мәндер бірдей болғанша (немесе болжанатын параметрдің үздіксіз мәні болған жағдайда жабылғанша) жалғасады. Дәл осы мәндер осы модельге негізделген болжамдар жасау үшін қолданылады.

Шешім ағаштарын құру алгоритмдерінің жұмысы регрессиялық және корреляциялық талдау әдістерін қолдануға негізделген. Бұл отбасының ең танымал алгоритмдерінің бірі ағаш бұтағындағы деректерді екі еншілес тармаққа бөлуге негізделген CART (Классификация және регрессия ағаштары); Сонымен қатар, белгілі бір саланың одан әрі бөлінуі осы саланың қаншалықты бастапқы деректерді сипаттайтынына байланысты. Кейбір басқа ұқсас алгоритмдер тармақты қосымша еншілес тармақтарға бөлуге мүмкіндік береді. Бұл жағдайда бөлу бөлу орын алатын параметр мен кейіннен болжауға тиіс параметр арасындағы тармақпен сипатталған деректер үшін ең жоғары корреляция коэффициенті негізінде жүргізіледі.

Тәсілдің танымалдылығы айқындық пен айқындықпен байланысты. Бірақ шешім ағаштары деректердегі «ең жақсы» (ең толық және дәл) ережелерді таба алмайды. Олар ерекшеліктерді дәйекті қараудың аңғал принципін жүзеге асырады және нақты үлгілердің бөліктерін табады, тек логикалық қорытындының елесін жасайды.

2.5 Кластерлеу алгоритмдері

Кластерлеу – объектілер жиынын кластер деп аталатын топтарға бөлу міндеті. Кластерлеу мен классификацияның негізгі айырмашылығы – топтар тізімі нақты анықталмаған және алгоритмнің жұмыс істеуі кезінде анықталады.

Жалпы кластерлік талдауды қолдану келесі қадамдардан тұрады:

· кластерлеу үшін объектілердің үлгісін таңдау;

· таңдамадағы объектілер бағаланатын айнымалылар жиынын анықтау. Қажет болса, айнымалы мәндерді қалыпқа келтіріңіз;

· объектілер арасындағы ұқсастық шамасының мәндерін есептеу;

· ұқсас объектілердің (кластерлердің) топтарын құру үшін кластерлік талдау әдісін қолдану;

· талдау нәтижелерін ұсыну.

Нәтижелерді қабылдап, талдағаннан кейін оңтайлы нәтиже алынғанша таңдалған метрика мен кластерлеу әдісін реттеуге болады.

Кластерлеу алгоритмдеріне иерархиялық және жалпақ топтар жатады. Иерархиялық алгоритмдер (таксономия алгоритмдері деп те аталады) үлгінің бір бөлігін бөлек кластерлерге ғана емес, кірістірілген бөлімдер жүйесін құрады. Осылайша, алгоритмнің шығысы кластерлер ағашы болып табылады, оның түбірі бүкіл үлгі, ал жапырақтары ең кішкентай кластерлер болып табылады. Жазық алгоритмдер объектілердің бір бөлігін бір-бірімен қиылыспайтын кластерлерге салады.

Кластерлеу алгоритмдерінің тағы бір классификациясы анық және анық емес алгоритмдер болып табылады. Таза (немесе қабаттаспайтын) алгоритмдер әрбір үлгі нысанына кластер нөмірін тағайындайды, яғни әрбір нысан тек бір кластерге жатады. Бұлыңғыр (немесе қиылысатын) алгоритмдер әрбір нысанға объектінің кластерлерге қатынасының дәрежесін көрсететін нақты мәндер жинағын тағайындайды. Осылайша, әрбір объект белгілі бір ықтималдықпен әрбір кластерге жатады.

Иерархиялық кластерлеу алгоритмдерінің ішінде екі негізгі түрі бар: төменнен жоғарыға және жоғарыдан төменге алгоритмдер. Жоғарыдан төменге бағытталған алгоритмдер жоғарыдан төменге принцип бойынша жұмыс істейді: біріншіден, барлық нысандар бір кластерге орналастырылады, содан кейін олар кішірек және кіші кластерлерге бөлінеді. Әр нысанды бөлек кластерге орналастырудан басталатын, содан кейін үлгідегі барлық нысандар бір кластерде қамтылғанша кластерлерді үлкенірек және үлкеніректерге біріктіретін төменнен жоғарыға қарай алгоритмдер жиі кездеседі. Осылайша, кірістірілген бөлімдер жүйесі құрастырылады. Мұндай алгоритмдердің нәтижелері әдетте ағаш түрінде беріледі.

Иерархиялық алгоритмдердің кемшілігі - шешілетін мәселе контекстінде қажетсіз болуы мүмкін толық бөлімдер жүйесі.

Енді жазық алгоритмдерді қарастырайық. Бұл сыныптың ішіндегі ең қарапайымы – квадраттық қателік алгоритмдері. Бұл алгоритмдер үшін кластерлеу мәселесін объектілерді топтарға оңтайлы бөлуді құру ретінде қарастыруға болады. Бұл жағдайда оңтайлылықты бөлудің орташа квадраттық қатесін азайту талабы ретінде анықтауға болады:

,

Қайда в j - кластердің «масса центрі». j(берілген кластер үшін орташа сипаттамалары бар нүкте).

Бұл категориядағы ең көп таралған алгоритм k-means әдісі болып табылады. Бұл алгоритм бір-бірінен мүмкіндігінше алыс орналасқан кластерлердің берілген санын құрастырады. Алгоритмнің жұмысы бірнеше кезеңге бөлінеді:

Кездейсоқ таңдау ккластерлердің бастапқы «масса центрі» болып табылатын нүктелер.

2. Әрбір нысанды ең жақын «масса центрі» бар кластерге тағайындаңыз.

Алгоритмді тоқтату шарты қанағаттандырылмаса, 2-қадамға оралыңыз.

Алгоритмді тоқтату критерийі ретінде әдетте орташа квадрат қатесінің ең аз өзгерісі таңдалады. Сондай-ақ, 2-қадамда кластерден кластерге көшкен нысандар болмаса, алгоритмді тоқтатуға болады. Бұл алгоритмнің кемшіліктеріне бөлуге арналған кластерлердің санын көрсету қажеттілігі жатады.

Ең танымал анық емес кластерлеу алгоритмі c-орталар алгоритмі болып табылады. Бұл k-орталар әдісінің модификациясы. Алгоритм қадамдары:

1. Бастапқы анық емес бөлімді таңдаңыз nнысандар қосулы кмүшелік матрицаны таңдау арқылы кластерлер Уөлшемі n x k.

2. U матрицасын пайдаланып, анық емес қателік критерийінің мәнін табыңыз:

,

Қайда в k – анық емес кластердің «масса центрі». к:

3. Бұл анық емес қате критерийінің мәнін азайту үшін нысандарды қайта топтаңыз.

4. Матрица өзгергенше 2-қадамға оралыңыз Уелеусіз болмайды.

Бұл алгоритм кластерлердің саны алдын ала белгісіз болса немесе әрбір нысанды бір кластерге бір мағыналы тағайындау қажет болса жарамсыз болуы мүмкін.

Алгоритмдердің келесі тобы графиктер теориясына негізделген алгоритмдер. Мұндай алгоритмдердің мәні мынада: объектілер таңдауы график түрінде көрсетіледі. G=(V, E), төбелері объектілерге сәйкес және жиектері объектілер арасындағы «қашықтыққа» тең салмаққа ие. Графикті кластерлеу алгоритмдерінің артықшылығы айқындылық, орындаудың салыстырмалы жеңілдігі және геометриялық ойларға негізделген әртүрлі жақсартуларды енгізу мүмкіндігі болып табылады. Негізгі алгоритмдер қосылатын құрамдастарды анықтау алгоритмі, ең аз таралу ағашын құру алгоритмі және қабат-қабат кластерлеу алгоритмі болып табылады.

Параметрді таңдау үшін РӘдетте жұптық қашықтықтардың таралу гистограммасы құрастырылады. Мәліметтердің нақты анықталған кластерлік құрылымы бар тапсырмаларда гистограмманың екі шыңы болады - біреуі кластер ішілік қашықтыққа, екіншісі - кластер аралық қашықтыққа сәйкес келеді. Параметр Росы шыңдар арасындағы минималды аймақтан таңдалады. Сонымен қатар, қашықтық шегін пайдаланып кластерлердің санын бақылау өте қиын.

Ең аз таралу ағашының алгоритмі алдымен графикте ең аз таралу ағашын құрастырады, содан кейін ең үлкен салмағы бар жиектерді дәйекті түрде жояды. Қабат бойынша кластерлеу алгоритмі объектілер (төбелер) арасындағы қашықтықтың белгілі бір деңгейінде байланыстырылған график компоненттерін анықтауға негізделген. Қашықтық деңгейі қашықтық шегімен белгіленеді в. Мысалы, объектілер арасындағы қашықтық болса, онда .

Қабат бойынша кластерлеу алгоритмі графиктің ішкі графаларының тізбегін жасайды Гкластерлер арасындағы иерархиялық қатынастарды көрсететін :

,

Қайда Гт = (V, Ет ) - деңгей графигі біргет, ,

бірге t - t-ші қашықтық шегі, m - иерархиялық деңгейлер саны,
Г 0 = (V, o), o - арқылы алынған график жиектерінің бос жиыны т 0 = 1,
Гм = Г, яғни қашықтыққа шектеусіз объектілер графигі (графиктің шеттерінің ұзындығы), өйткені т m = 1.

Қашықтық шегін өзгерту арқылы ( бірге 0 , …, бірге m), мұндағы 0 = бірге 0 < бірге 1 < …< бірге m = 1, нәтижесінде алынған кластерлердің иерархиясының тереңдігін бақылауға болады. Осылайша, қабат-қабат кластерлеу алгоритмі деректердің тегіс және иерархиялық бөлімін де жасауға қабілетті.

Кластерлеу келесі мақсаттарға жетуге мүмкіндік береді:

· құрылымдық топтарды анықтау арқылы мәліметтерді түсінуді жақсартады. Таңдаманы ұқсас объектілер топтарына бөлу әрбір кластерге талдаудың басқа әдісін қолдану арқылы деректерді одан әрі өңдеуді және шешім қабылдауды жеңілдетуге мүмкіндік береді;

· мәліметтерді жинақы түрде сақтауға мүмкіндік береді. Ол үшін бүкіл үлгіні сақтаудың орнына әрбір кластерден бір типтік бақылауды сақтауға болады;

· ешқандай кластерге түспеген жаңа атипті объектілерді анықтау.

Әдетте, кластерлеу деректерді талдауда көмекші әдіс ретінде қолданылады.

2.6 Генетикалық алгоритмдер

Генетикалық алгоритмдер әртүрлі типтегі (комбинаторлық, шектеулермен және шектеусіз жалпы есептер) және күрделілік дәрежесі әртүрлі есептерді шешуге мүмкіндік беретін әмбебап оңтайландыру әдістерінің бірі болып табылады. Сонымен бірге, генетикалық алгоритмдер ландшафты тегіс емес кең кеңістікте бір критериалды да, көп критерийлі де іздеу мүмкіндігімен сипатталады.

Әдістердің бұл тобы таңдау, мутация және қиылысу операцияларын қоса алғанда, үлгі ұрпақтарының тізбегі эволюциясының итерациялық процесін пайдаланады. Алгоритмнің басында популяция кездейсоқ түрде құрылады. Кодталған шешімдердің сапасын бағалау үшін фитнес функциясы пайдаланылады, ол әрбір жеке тұлғаның жарамдылығын есептеу үшін қажет. Жеке тұлғаларды бағалау нәтижелері бойынша кесіп өту үшін олардың ең қолайлысы таңдалады. Генетикалық кроссовер операторының қолдануы арқылы таңдалған особьтарды айқастыру нәтижесінде ұрпақтар жасалады, олардың генетикалық ақпараты ата-аналық особьтар арасындағы хромосомалық ақпарат алмасу нәтижесінде қалыптасады. Құрылған ұрпақтар жаңа популяцияны құрайды, ал кейбір ұрпақтар мутацияға ұшырайды, бұл олардың генотиптерінің кездейсоқ өзгеруімен көрінеді. «Популяцияны бағалау» - «Іріктеу» - «Айысу» - «Мутация» тізбегін қамтитын кезең генерация деп аталады. Популяцияның эволюциясы осындай ұрпақтар тізбегінен тұрады.

Адамдарды кесіп өту үшін таңдаудың келесі алгоритмдері ерекшеленеді:

· Панмиксия. Ата-аналық жұпты құрайтын екі адам да бүкіл популяциядан кездейсоқ таңдалады. Кез келген жеке адам бірнеше жұптың мүшесі бола алады. Бұл тәсіл әмбебап болып табылады, бірақ алгоритмнің тиімділігі популяция санының ұлғаюымен төмендейді.

· Таңдау. Ата-аналар кем дегенде орташа дене шынықтыру қабілеті бар адамдар болуы мүмкін. Бұл тәсіл алгоритмнің тезірек конвергенциясын қамтамасыз етеді.

· Инбридинг. Әдіс жақын туысқандық негізінде жұп құруға негізделген. Бұл жерде туыстық деп популяция мүшелерінің арасындағы қашықтық, параметр кеңістігіндегі особьтардың геометриялық қашықтығы да, генотиптер арасындағы Хеминг қашықтығы да мағынасында түсініледі. Сондықтан генотиптік және фенотиптік инбридинг деп ажыратылады. Айыстырылатын жұптың бірінші мүшесі кездейсоқ таңдалады, ал екіншісі оған жақын адам болуы ықтимал. Инбридинг жергілікті тораптарда іздеуді шоғырландыру қасиетімен сипатталуы мүмкін, бұл іс жүзінде ландшафттың экстремалды күдікті аймақтарының айналасындағы популяцияның жекелеген жергілікті топтарға бөлінуіне әкеледі.

· Аутбридинг. Алыс туыстық негізінде жұп құру, ең алыс адамдар үшін. Аутбридинг алгоритмнің бұрыннан табылған шешімдерге жақындауын болдырмауға бағытталған, бұл алгоритмді жаңа, зерттелмеген аймақтарды қарауға мәжбүр етеді.

Жаңа популяцияны құру алгоритмдері:

· Ауыстырумен таңдау. Бірдей генотипі бар барлық особьтардың ішінен жарамдылығы жоғары адамдарға артықшылық беріледі. Осылайша, екі мақсатқа қол жеткізіледі: әртүрлі хромосома жиынтығы бар табылған ең жақсы шешімдер жоғалмайды және популяцияда жеткілікті генетикалық әртүрлілік үнемі сақталады. Ауыстыру табылған ағымдағы шешімнің айналасында топтастырылған тұлғалардың орнына, алыс орналасқан даралардың жаңа популяциясын құрайды. Бұл әдіс мультиэкстремалды есептер үшін қолданылады.

· Элиталық таңдау. Элиталық таңдау әдістері іріктеу халықтың ең жақсы мүшелерінің аман қалуын қамтамасыз етеді. Сонымен қатар, кейбір жақсы тұлғалар кейінгі ұрпаққа еш өзгеріссіз өтеді. Элиталық таңдау арқылы қамтамасыз етілген жылдам конвергенция ата-аналық жұптарды таңдаудың қолайлы әдісімен өтелуі мүмкін. Бұл жағдайда аутбридинг жиі қолданылады. Дәл осы «аутбридинг - элиталық селекцияның» үйлесімі ең тиімділерінің бірі болып табылады.

· Турнирді таңдау. Турнирді таңдау n жеке адамды таңдау үшін n турнирді жүзеге асырады. Әрбір турнир халық арасынан k элементті таңдауға және олардың арасынан ең жақсы жеке тұлғаны таңдауға негізделген. Ең жиі кездесетіні k = 2 болатын турнирді таңдау.

Data Mining саласындағы генетикалық алгоритмдердің ең танымал қолданбаларының бірі - ең оңтайлы модельді іздеу (белгілі бір өрістің ерекшелігіне сәйкес келетін алгоритмді іздеу). Генетикалық алгоритмдер ең алдымен нейрондық желілер мен салмақтардың топологиясын оңтайландыру үшін қолданылады. Дегенмен, оларды тәуелсіз құрал ретінде де пайдалануға болады.

3. Қолданбалар

Data Mining технологиясы шын мәнінде кез келген түрдегі деректерді талдауға арналған әмбебап құралдар жиынтығы болып табылатын қолданбалардың кең ауқымына ие.

Маркетинг

Деректерді өндіру технологиялары қолданылған алғашқы салалардың бірі маркетинг саласы болды. Data Mining әдістерін әзірлеу басталған тапсырма сауда себет талдауы деп аталады.

Бұл тапсырма сатып алушылар бірге сатып алуға бейім өнімдерді анықтау болып табылады. Сауда қоржынын білу жарнамалық науқандарды жүргізуге, тұтынушыларға жеке ұсыныстарды қалыптастыруға, тауарлардың инвентарлық қорларын құру стратегиясын және оларды өткізу аймақтарында орналастыру тәсілдерін әзірлеуге қажет.

Сондай-ақ маркетингте табыстырақ жылжыту үшін өнімнің мақсатты аудиториясын анықтау сияқты міндеттер шешіледі; Кәсіпорындарға түгендеу туралы шешім қабылдауға көмектесетін уақытша үлгіні зерттеу; кәсіпорындарға белгілі бір мінез-құлықпен тұтынушылардың әртүрлі категорияларының қажеттіліктерінің сипатын тануға мүмкіндік беретін болжамды модельдерді құру; клиенттің адалдығын болжау, бұл оның мінез-құлқын талдау кезінде клиенттің кету сәтін алдын ала анықтауға мүмкіндік береді және, мүмкін, құнды клиенттің жоғалуын болдырмайды.

Өнеркәсіп

Бұл саладағы маңызды бағыттардың бірі – мониторинг және сапаны бақылау, мұнда талдау құралдарын пайдалана отырып, жабдықтың істен шығуын, ақаулардың пайда болуын болжауға және жөндеу жұмыстарын жоспарлауға болады. Белгілі бір мүмкіндіктердің танымалдылығын болжау және қандай мүмкіндіктердің әдетте бірге реттелгенін білу өндірісті оңтайландыруға және оны тұтынушылардың нақты қажеттіліктеріне бағыттауға көмектеседі.

Дәрі

Медицинада деректерді талдау да сәтті қолданылады. Тапсырмалардың мысалдарына емтихан нәтижелерін талдау, диагностика, емдеу әдістері мен дәрі-дәрмектердің тиімділігін салыстыру, аурулар мен олардың таралуын талдау, жанама әсерлерді анықтау жатады. Дәрілер мен жанама әсерлер арасындағы байланысты анықтау үшін ассоциация ережелері және дәйекті үлгілер сияқты Data Mining технологиялары сәтті қолданылды.

Молекулярлық генетика және гендік инженерия

Эксперименттік деректердегі заңдылықтарды табудың ең өткір және сонымен бірге айқын міндеті болуы мүмкін молекулалық генетикажәне гендік инженерия. Мұнда ол тірі ағзаның белгілі бір фенотиптік сипаттамаларын бақылайтын генетикалық кодтар ретінде түсінілетін маркерлердің анықтамасы ретінде тұжырымдалған. Мұндай кодтарда жүздеген, мыңдаған немесе одан да көп қатысты элементтер болуы мүмкін. Сондай-ақ аналитикалық деректерді талдау нәтижесі адам ДНҚ тізбегіндегі өзгерістер мен әртүрлі аурулардың даму қаупі арасындағы генетик ғалымдар ашқан байланыс болып табылады.

Қолданбалы химия

Data Mining әдістері қолданбалы химия саласында да қолданылады. Бұл жерде көбінесе олардың қасиеттерін анықтайтын кейбір қосылыстардың химиялық құрылымының сипаттамаларын нақтылау туралы сұрақ туындайды. Бұл тапсырма әсіресе күрделі химиялық қосылыстарды талдау кезінде өзекті болып табылады, олардың сипаттамасы жүздеген және мыңдаған құрылымдық элементтерді және олардың байланыстарын қамтиды.

Қылмыспен күресу

Data Mining құралдары қауіпсіздікте салыстырмалы түрде жақында қолданылды, бірақ осы саладағы деректерді өңдеудің тиімділігін растайтын практикалық нәтижелер қазірдің өзінде алынды. Швейцариялық ғалымдар болашақ оқиғаларды болжау үшін наразылық әрекетін талдау жүйесін және әлемде пайда болған киберқауіптер мен хакерлер әрекеттерін қадағалау жүйесін әзірледі. Соңғы жүйе киберқауіптерді және басқа да тәуекелдерді болжауға мүмкіндік береді ақпараттық қауіпсіздік. Data Mining әдістері несие картасының алаяқтығын анықтау үшін де сәтті қолданылады. Кейінірек алаяқтық болып шыққан бұрынғы транзакцияларды талдай отырып, банк мұндай алаяқтықтың кейбір үлгілерін анықтайды.

Басқа қолданбалар

· Тәуекелді талдау. Мысалы, төленген талаптарға байланысты факторлардың комбинациясын анықтау арқылы сақтандырушылар өздерінің жауапкершілік шығындарын азайта алады. Америка Құрама Штаттарындағы ірі сақтандыру компаниясы некедегі адамдардың шағымдары бойынша төленген сомалар бойдақтардың шағымдары бойынша төленген сомадан екі есе көп екенін анықтаған белгілі жағдай бар. Компания бұл жаңа білімге отбасылық тұтынушыларға жеңілдіктер ұсынудың жалпы саясатын қайта қарау арқылы жауап берді.

· Метеорология. Нейрондық желі әдістерін қолдана отырып, ауа-райын болжау, атап айтқанда, Кохоненнің өздігінен ұйымдастырылатын карталары қолданылады.

· Кадр саясаты. Талдау құралдары HR қызметтеріне олардың түйіндемелерінің деректерін талдау негізінде ең табысты кандидаттарды таңдауға көмектеседі және белгілі бір лауазым үшін идеалды қызметкерлердің сипаттамаларын модельдейді.

4. Data Mining құралдарын өндірушілер

Data Mining құралдары дәстүрлі түрде қымбат бағдарламалық өнімдер болып табылады. Сондықтан соңғы уақытқа дейін бұл технологияның негізгі тұтынушылары банктер, қаржы және сақтандыру компаниялары, ірі сауда кәсіпорындары болды, ал Data Mining қолдануды талап ететін негізгі міндеттер несиелік және сақтандыру тәуекелдерін бағалау және маркетингтік саясатты әзірлеу болып саналды. , тарифтік жоспарлар және клиенттермен жұмыс істеудің басқа принциптері. Соңғы жылдары жағдай белгілі бір өзгерістерге ұшырады: бағдарламалық қамтамасыз ету нарығында салыстырмалы түрде арзан Data Mining құралдары және тіпті еркін таратылатын жүйелер пайда болды, бұл бұл технологияны шағын және орта бизнес үшін қолжетімді етті.

Ақылы құралдар мен деректерді талдау жүйелерінің арасында көшбасшылар SAS институты (SAS Enterprise Miner), SPSS (SPSS, Clementine) және StatSoft (STATISTICA Data Miner). Танымал шешімдер - Angoss (Angoss KnowledgeSTUDIO), IBM (IBM SPSS Modeler), Microsoft (Microsoft Analysis Services) және (Oracle) Oracle Data Mining.

Тегін бағдарламалық қамтамасыз етуді таңдау да әртүрлі. JHepWork, KNIME, Orange, RapidMiner сияқты әмбебап талдау құралдары да, мамандандырылған құралдар да бар, мысалы, Carrot2 – мәтіндік деректер мен іздеу нәтижелерін кластерлеуге арналған құрылым, Chemicalize.org – қолданбалы химия саласындағы шешім, NLTK (Natural Language Toolkit) табиғи тілді өңдеу құралы.

5. Әдістердің сыны

Data Mining нәтижелері көбінесе кейбір алгоритмдердің немесе алгоритмдер жиынтығының «тамаша мүмкіндіктеріне» емес, деректерді дайындау деңгейіне байланысты. Data Mining жұмысының шамамен 75% талдау құралдары қолданылғанға дейін орындалатын деректерді жинаудан тұрады. Құралдарды сауатсыз пайдалану компанияның әлеуетін, кейде миллиондаған долларды босқа жұмсауға әкеледі.

Деректерді өндіру, деректер қоймасы және CRM саласындағы әлемге әйгілі сарапшы Герб Эдельштейннің пікірі: «Екі қарғаның жақында жүргізген зерттеуі Data Mining әлі де дамудың бастапқы сатысында екенін көрсетті. Көптеген ұйымдар бұл технологияға қызығушылық танытады, бірақ мұндай жобаларды белсенді түрде жүзеге асыруда аз ғана. Тағы біреуін анықтауға мүмкіндік алды маңызды нүкте: Data Mining қолданбасын тәжірибеде енгізу процесі күтілгеннен де күрделірек болып шықты.Командаларды Data Mining құралдарын пайдалану оңай деген миф алып кетті. Мұндай құралды терабайттық дерекқорда іске қосу жеткілікті деп болжанады және пайдалы ақпарат бірден пайда болады. Шын мәнінде, сәтті Data Mining жобасы әрекетті түсінуді, деректер мен құралдарды білуді және деректерді талдау процесін талап етеді. Осылайша, Data Mining технологиясын қолданар алдында әдістермен қойылған шектеулерді және онымен байланысты маңызды мәселелерді мұқият талдау, сонымен қатар технологияның мүмкіндіктерін байсалды түрде бағалау қажет. Сыни мәселелерге мыналар жатады:

1. Технология қойылмаған сұрақтарға жауап бере алмайды. Ол аналитикті алмастыра алмайды, тек оның жұмысын жеңілдету және жақсарту үшін күшті құрал береді.

2. Data Mining қолданбасын әзірлеу және пайдалану күрделілігі.

Өйткені бұл технологиякөпсалалы сала болып табылады, Data Mining-ті қамтитын қосымшаны әзірлеу үшін әртүрлі сала мамандарын тарту, сондай-ақ олардың жоғары сапалы өзара әрекеттесуін қамтамасыз ету қажет.

3. Пайдаланушының біліктілігі.

Әр түрлі деректерді өңдеу құралдары интерфейстің пайдаланушыға ыңғайлылығының әртүрлі дәрежелеріне ие және белгілі бір пайдаланушы біліктілігін талап етеді. Сондықтан бағдарламалық қамтамасыз етупайдаланушының дайындық деңгейіне сәйкес болуы керек. Data Mining-ті пайдалану пайдаланушының біліктілігін арттырумен тығыз байланысты болуы керек. Дегенмен, қазіргі уақытта бизнес-процестерді жақсы білетін Data Mining мамандары аз.

4. Деректердің мәнін жақсы түсінбей, пайдалы ақпаратты алу мүмкін емес.

Модельді мұқият таңдау және анықталған тәуелділіктерді немесе үлгілерді түсіндіру қажет. Сондықтан мұндай құралдармен жұмыс істеу домен сарапшысы мен Data Mining құралының маманы арасындағы тығыз ынтымақтастықты қажет етеді. Үлгілерді бағалауға және жаңартуға мүмкіндік беру үшін тұрақты үлгілер бизнес-процестерге интеллектуалды түрде біріктірілуі керек. Жақында деректерді сақтау технологиясының бөлігі ретінде Data Mining жүйелері жеткізілуде.

5. Мәліметтерді дайындаудың қиындығы.

Табысты талдау жоғары сапалы деректерді алдын ала өңдеуді қажет етеді. Сарапшылар мен дерекқорды пайдаланушылардың пікірінше, алдын ала өңдеу процесі бүкіл Data Mining процесінің 80%-ын алуы мүмкін.

Осылайша, технологияның өзі жұмыс істеуі үшін ол көп күш пен уақытты қажет етеді, ол деректерді алдын ала талдауға, үлгіні таңдауға және оны түзетуге кетеді.

6. Жалған, сенімсіз немесе пайдасыз нәтижелердің үлкен пайызы.

Data Mining технологияларын пайдалана отырып, сіз одан әрі жоспарлау, басқару және шешім қабылдауда маңызды артықшылықты қамтамасыз ететін шынымен өте құнды ақпаратты таба аласыз. Дегенмен, Data Mining әдістерін қолдану арқылы алынған нәтижелер көбінесе жалған және мағынасыз тұжырымдарды қамтиды. Көптеген сарапшылар Data Mining құралдары көптеген статистикалық сенімсіз нәтижелерді бере алады деп санайды. Мұндай нәтижелердің пайызын азайту үшін сынақ деректері бойынша алынған үлгілердің сәйкестігін тексеру қажет. Дегенмен, жалған қорытындылардан толығымен аулақ болу мүмкін емес.

7. Жоғары құн.

Сапалы бағдарламалық қамтамасыз етуәзірлеушінің елеулі күш-жігерінің нәтижесі болып табылады. Сондықтан Data Mining бағдарламалық құралы дәстүрлі түрде қымбат бағдарламалық өнім болып табылады.

8. Жеткілікті өкілдік деректердің болуы.

Data Mining құралдары, статистикалық құралдардан айырмашылығы, теориялық тұрғыдан алғанда, тарихи деректердің қатаң анықталған көлемін қажет етпейді. Бұл мүмкіндік сенімсіз, жалған үлгілерді анықтауға және нәтижесінде олардың негізінде дұрыс емес шешімдер қабылдауға себеп болуы мүмкін. Ашылған білімнің статистикалық маңыздылығын бақылау қажет.

нейрондық желі алгоритмі деректерді өндіру

Қорытынды

Дана қысқаша сипаттамасықолдану салалары және Data Mining технологиясына сын және осы саладағы сарапшылардың пікірін береді.

Тізімәдебиет

1. Хан және Мишлин Камбер. Мәліметтерді өндіру: концепциялар мен техникалар. Екінші басылым. - Урбана-Шампейндегі Иллинойс университеті

Берри, Майкл Дж.А. Деректерді өндіру әдістері: маркетинг, сату және тұтынушылармен қарым-қатынасты басқару үшін - 2-ші басылым.

Сиу Нин Лам. Деректерді өндірудегі ассоциация ережелерін ашу. - Урбана-Шампейндегі Иллинойс университетінің информатика кафедрасы




Жоғарғы