ev › məsləhət › Məlum verilənlərdə naməlum nümunələr. Müasir Data Mining-ə giriş. Ən yaxın qonşu və k-ən yaxın qonşu üsulları

Məlum verilənlərdə naməlum nümunələr. Müasir Data Mining-ə giriş. Ən yaxın qonşu və k-ən yaxın qonşu üsulları

Data Mining Tools

Hazırda Data Mining texnologiyası bir sıra kommersiya və sərbəst paylanmış proqram məhsulları ilə təmsil olunur. Bu məhsulların kifayət qədər tam və müntəzəm olaraq yenilənən siyahısını veb saytında tapa bilərsiniz www. kdnuggets. com, Data Mining-ə həsr edilmişdir. Data Mining proqram məhsulları texnologiyanın özünün təsnifatı üçün əsas təşkil edən eyni prinsiplərə görə təsnif edilə bilər. Bununla belə, belə bir təsnifatın praktiki əhəmiyyəti olmayacaqdır. Bazarda yüksək rəqabət və texniki həllərin tamlığı istəyi sayəsində Data Mining məhsullarının bir çoxu analitik texnologiyaların tətbiqinin bütün aspektlərini əhatə edir. Buna görə də, Data Mining məhsullarını necə həyata keçirildiyinə və müvafiq olaraq hansı inteqrasiya potensialını təmin etdiyinə görə təsnif etmək daha məntiqlidir. Aydındır ki, bu da bir konvensiyadır, çünki belə bir meyar məhsullar arasında aydın sərhədləri müəyyən etməyə imkan vermir. Bununla belə, belə bir təsnifatın bir şübhəsiz üstünlüyü var. Bu, məlumatların təhlili sahəsində layihələri işə salarkən, qərar qəbuluna dəstək sistemlərini inkişaf etdirərkən, məlumat anbarlarının yaradılmasında və s.

Beləliklə, Data Mining məhsullarını üç böyük kateqoriyaya bölmək olar:

verilənlər bazası idarəetmə sistemlərinin tərkib hissəsi kimi daxil edilir;

müşayiət olunan infrastrukturu olan Data Mining alqoritmlərinin kitabxanaları;

qutulu və ya masaüstü həllər (“qara qutular”).

İlk iki kateqoriyaya aid məhsullar ən böyük inteqrasiya imkanlarını təmin edir və istənilən sahədə demək olar ki, istənilən tətbiqdə analitik potensialı həyata keçirməyə imkan verir. Qutulu proqramlar, öz növbəsində, Data Mining sahəsində bəzi unikal irəliləyişləri təmin edə bilər və ya müəyyən bir tətbiq üçün ixtisaslaşmış ola bilər. Bununla belə, əksər hallarda onların daha geniş həllərə inteqrasiyası problemlidir.

Kommersiya verilənlər bazası idarəetmə sistemlərinə analitik imkanların daxil edilməsi böyük potensiala malik təbii tendensiyadır. Həqiqətən, məlumatların cəmləşdiyi yerlərdə deyilsə, onları emal etmək üçün vasitələrin harada yerləşdirilməsi ən məntiqlidir? Bu prinsip əsasında Data Mining-in funksionallığı hal-hazırda aşağıdakı kommersiya məlumat bazalarında həyata keçirilir:

Microsoft SQL Server;

Əsas nöqtələr

Data mining böyük miqdarda yığılmış məlumat əsasında avtomatik olaraq digər analiz alətləri (məsələn, OLAP) tərəfindən təsdiqlənə bilən fərziyyələr yaratmağa imkan verir.
Data Mining əvvəllər naməlum, qeyri-trivial, praktiki olaraq faydalı və insanların şərhi üçün əlçatan olan xam məlumatlarda gizli biliklərin maşın (alqoritmlər, süni intellekt alətləri) tərəfindən tədqiqi və kəşfidir.
Data Mining metodları üç əsas problemi həll edir: təsnifat və reqressiya problemi, assosiasiya qaydalarının axtarışı problemi və klasterləşmə problemi. Məqsədlərinə görə təsviri və proqnozlaşdırıcı bölünürlər. Problemlərin həlli üsullarına əsasən, onlar nəzarət edilən təlimə (müəllimlə təlim) və nəzarətsiz öyrənməyə (müəllimsiz təlim) bölünür.
Təsnifat və reqressiya vəzifəsi obyektin müstəqil dəyişənlərindən asılı dəyişənin qiymətini təyin etməkdən ibarətdir. Əgər asılı dəyişən ədədi qiymətlər alırsa, onda biz reqressiya problemindən, əks halda təsnifat problemindən danışırıq.
Assosiasiya qaydalarını axtararkən məqsəd obyektlər və ya hadisələr arasında tez-tez asılılıqları (və ya assosiasiyaları) tapmaqdır. Tapılan asılılıqlar qaydalar şəklində təqdim olunur və həm təhlil edilən məlumatların mahiyyətini daha yaxşı başa düşmək, həm də hadisələri proqnozlaşdırmaq üçün istifadə edilə bilər.
Klasterləşmənin vəzifəsi təhlil edilən məlumatların bütün toplusunda müstəqil qrupları (klasterləri) və onların xüsusiyyətlərini axtarmaqdır. Bu problemin həlli məlumatları daha yaxşı başa düşməyə kömək edir. Bundan əlavə, homojen obyektlərin qruplaşdırılması onların sayını azaltmağa və buna görə də təhlili asanlaşdırmağa imkan verir.
Data Mining üsulları kəsişmə nöqtəsindədir müxtəlif istiqamətlər informasiya texnologiyaları: statistika, neyron şəbəkələri, qeyri-səlis çoxluqlar, genetik alqoritmlər və s.
Ağıllı təhlil aşağıdakı mərhələləri əhatə edir: təhlil probleminin anlaşılması və formalaşdırılması, avtomatlaşdırılmış analiz üçün məlumatların hazırlanması, Data Mining metodlarının tətbiqi və modellərin qurulması, qurulmuş modellərin yoxlanılması və modellərin insanlar tərəfindən şərh edilməsi.
Data Mining üsullarını tətbiq etməzdən əvvəl mənbə məlumatları transformasiya edilməlidir. Transformasiyanın növü istifadə olunan üsullardan asılıdır.
Data Mining metodlarından insan fəaliyyətinin müxtəlif sahələrində səmərəli istifadə oluna bilər: biznes, tibb, elm, telekommunikasiya və s.

3. Mətn məlumatlarının təhlili - Text Mining

Verilənlər bazalarında saxlanılan strukturlaşdırılmış məlumatların təhlili ilkin emal tələb edir: verilənlər bazasının layihələndirilməsi, məlumatların müəyyən qaydalara uyğun daxil edilməsi, xüsusi strukturlarda yerləşdirilməsi (məsələn, əlaqə cədvəlləri) və s. Beləliklə, bilavasitə bu məlumatı təhlil etmək və ondan yeni biliklər əldə etmək üçün əlavə səy tələb edir. Bununla belə, onlar həmişə təhlillə əlaqəli deyil və mütləq istənilən nəticəyə gətirib çıxarmır. Bu səbəbdən strukturlaşdırılmış məlumatların təhlilinin səmərəliliyi azalır. Bundan əlavə, bütün məlumat növləri faydalı məlumatları itirmədən strukturlaşdırıla bilməz. Məsələn, mətn sənədlərini mətnin semantikasını və obyektlər arasındakı əlaqələri itirmədən cədvəl təsvirinə çevirmək demək olar ki, mümkün deyil. Bu səbəbdən belə sənədlər verilənlər bazasında mətn sahələri (BLOB sahələri) kimi transformasiya edilmədən saxlanılır. Eyni zamanda, mətndə böyük miqdarda məlumat gizlədilir, lakin onun strukturlaşdırılmamış təbiəti Data Mining alqoritmlərindən istifadə etməyə imkan vermir. Strukturlaşdırılmamış mətnin təhlili üsulları bu problemi həll edir. Qərb ədəbiyyatında belə təhlilə Mətn Mining deyilir.

Strukturlaşdırılmamış mətnlərdə təhlil üsulları bir neçə sahənin kəsişməsində yerləşir: Data Mining, təbii dil emalı, məlumat axtarışı, məlumatların çıxarılması və biliklərin idarə edilməsi.

Mətn Mədəninin Tərifi: Mətn biliklərinin kəşfi strukturlaşdırılmamış mətn məlumatlarında həqiqətən yeni, potensial olaraq faydalı və başa düşülən nümunələrin aşkar edilməsi üçün qeyri-trivial prosesdir.

Gördüyünüz kimi, o, Data Mining-in tərifindən yalnız yeni “strukturlaşdırılmamış mətn məlumatları” konsepsiyasında fərqlənir. Belə biliklər məntiqi cəhətdən vahid mətni onun strukturunda heç bir məhdudiyyət olmadan təmsil edən sənədlər toplusu kimi başa düşülür. Belə sənədlərə misal ola bilər: veb səhifələr, e-poçt, normativ sənədlər və s. Ümumiyyətlə, belə sənədlər mürəkkəb və böyük ola bilər və yalnız mətni deyil, həm də qrafik məlumatları ehtiva edir. XML (genişlənən işarələmə dili), SGML (Standard Generalized Markup Language) və digər oxşar mətn strukturu konvensiyalarından istifadə edən sənədlərə yarı strukturlaşdırılmış sənədlər deyilir. Onlar həmçinin Mətn Mining metodlarından istifadə etməklə emal edilə bilər.

Mətn sənədlərinin təhlili prosesi bir neçə addım ardıcıllığı kimi təqdim edilə bilər

Məlumat axtarın. İlk addım hansı sənədlərin təhlil edilməli olduğunu müəyyən etmək və onların mövcudluğunu təmin etməkdir. Bir qayda olaraq, istifadəçilər təhlil ediləcək sənədlər toplusunu müstəqil - əl ilə müəyyən edə bilərlər, lakin çox sayda sənədlərlə müəyyən edilmiş meyarlara uyğun olaraq avtomatlaşdırılmış seçim variantlarından istifadə etmək lazımdır.

İlkin sənəd emalı. Bu addımda sənədləri Text Mining metodlarının işlədiyi formada təmsil etmək üçün sadə, lakin zəruri transformasiyalar həyata keçirilir. Bu cür transformasiyaların məqsədi lazımsız sözləri çıxarmaq və mətnə daha sərt forma verməkdir. Əvvəlcədən emal üsulları Bölmədə daha ətraflı təsvir ediləcəkdir.

Məlumat çıxarılması. Seçilmiş sənədlərdən məlumatların çıxarılması onlarda gələcəkdə təhlil ediləcək əsas anlayışların müəyyən edilməsini nəzərdə tutur.

Mətn Mining metodlarının tətbiqi. Bu addımda mətnlərdə mövcud olan nümunələr və əlaqələr çıxarılır. Mətnin təhlili prosesində bu addım əsasdır və bu mərhələdə praktiki problemlər həll edilir.

Nəticələrin təfsiri. Biliyin kəşfi prosesinin son mərhələsi tapıntıların şərh edilməsini əhatə edir. Tipik olaraq, şərh ya nəticələrin təbii dildə təqdim edilməsindən və ya qrafik olaraq vizuallaşdırılmasından ibarətdir.

Vizuallaşdırma mətn təhlili vasitəsi kimi də istifadə edilə bilər. Bunun üçün əsas anlayışlar çıxarılır və qrafik olaraq təqdim olunur. Bu yanaşma istifadəçiyə əsas mövzuları və anlayışları tez müəyyən etməyə və onların əhəmiyyətini müəyyən etməyə kömək edir.

Mətnin əvvəlcədən işlənməsi

Mətn təhlilinin əsas problemlərindən biri sənəddə sözlərin çox olmasıdır. Bu sözlərin hər biri təhlil edilərsə, yeni biliklər üçün axtarış vaxtı kəskin şəkildə artacaq və istifadəçi tələblərini ödəmək ehtimalı azdır. Eyni zamanda, mətndəki bütün sözlərin faydalı məlumat daşımadığı da göz qabağındadır. Bundan əlavə, təbii dillərin çevikliyinə görə formal olaraq fərqli sözlər (sinonimlər və s.) əslində eyni anlayışları ifadə edir. Belə ki, məlumatsız sözlərin silinməsi, o cümlədən mənaca yaxın olan sözlərin vahid formaya gətirilməsi mətnin təhlili vaxtını xeyli azaldır. Təsvir edilən problemlərin aradan qaldırılması mətnin əvvəlcədən işlənməsi mərhələsində həyata keçirilir.

Məlumatsız sözləri silmək və mətnlərin sərtliyini artırmaq üçün adətən aşağıdakı üsullardan istifadə olunur:

Dayanacaq sözlərin çıxarılması. Dayanacaq sözlər köməkçi olan və sənədin məzmunu haqqında az məlumat daşıyan sözlərdir.

Köklənmə morfoloji axtarışdır. Bu, hər sözün normal formasına çevrilməsindən ibarətdir.

L-qramlar morfoloji təhlilə alternativdir və sözün silinməsini dayandırır. Onlar mətni daha sərtləşdirməyə imkan verir, lakin məlumatsız sözlərin sayını azaltmaq problemini həll etmir;

Case çevrilməsi. Bu texnika bütün simvolları böyük və ya kiçik hərflərə çevirməyi nəzərdə tutur.

Ən təsirlisi bu üsulların birgə istifadəsidir.

Mətn Mining Tapşırıqları

Hal-hazırda ədəbiyyatda mətn sənədlərinin təhlilindən istifadə etməklə həll edilə bilən bir çox tətbiqi problemlər təsvir edilmişdir. Bunlara klassik Data Mining tapşırıqları daxildir: təsnifat, klasterləşdirmə və yalnız mətn sənədləri üçün xarakterik olan tapşırıqlar: avtomatik annotasiya, əsas anlayışların çıxarılması və s.

Təsnifat Data Mining sahəsində standart bir işdir. Onun məqsədi hər bir sənəd üçün bu sənədin aid olduğu bir və ya bir neçə əvvəlcədən müəyyən edilmiş kateqoriyaları müəyyən etməkdir. Təsnifat probleminin bir xüsusiyyəti, məxfi sənədlər toplusunda "zibil" olmadığı, yəni sənədlərin hər birinin müəyyən bir kateqoriyaya uyğun olması ehtimalıdır.

Təsnifat probleminin xüsusi halı sənədin mövzusunun müəyyən edilməsi problemidir.

Sənədlərin klasterləşdirilməsinin məqsədi verilmiş sabit dəst arasında semantik cəhətdən oxşar sənədlər qruplarını avtomatik müəyyən etməkdir. Qeyd edək ki, qruplar yalnız sənəd təsvirlərinin qoşa oxşarlığı əsasında formalaşır və bu qrupların heç bir xarakteristikası əvvəlcədən göstərilmir.

Avtomatik annotasiya (ümumiləşdirmə) mənasını saxlamaqla mətni qısaltmağa imkan verir. Bu problemin həlli adətən istifadəçi tərəfindən çıxarılacaq cümlələrin sayını və ya bütün mətnə nisbətdə çıxarılan mətnin faizini təyin etməklə idarə olunur. Nəticə mətndəki ən əhəmiyyətli cümlələri ehtiva edir.

Xüsusiyyətlərin çıxarılmasının əsas məqsədi mətndəki faktları və əlaqələri müəyyən etməkdir. Əksər hallarda bu anlayışlar isimlər və ümumi isimlərdir: insanların adları və soyadları, təşkilatların adları və s. Konsept çıxarma alqoritmləri bəzi terminləri müəyyən etmək üçün lüğətlərdən və digərlərini müəyyən etmək üçün linqvistik nümunələrdən istifadə edə bilər.

Mətn əsaslı naviqasiya istifadəçilərə mövzular və müvafiq terminlər əsasında sənədləri idarə etməyə imkan verir. Bu, əsas anlayışları və onlar arasındakı bəzi əlaqələri müəyyən etməklə həyata keçirilir.

Trend təhlili müəyyən bir müddət ərzində sənədlər toplusunda meylləri müəyyən etməyə imkan verir. Bir trend, məsələn, bir bazar seqmentindən digərinə şirkətin maraqlarında dəyişiklikləri aşkar etmək üçün istifadə edilə bilər.

Assosiasiyaların axtarışı da Data Mining-in əsas vəzifələrindən biridir. Onu həll etmək üçün verilmiş sənədlər toplusunda əsas anlayışlar arasında assosiativ əlaqələr müəyyən edilir.

Sadalanan problemlərin kifayət qədər çox çeşidi, habelə onların həlli üsulları var. Bu, mətn təhlilinin əhəmiyyətini bir daha təsdiqləyir. Bu fəslin qalan hissəsində aşağıdakı problemlərin həlli yolları müzakirə olunur: əsas anlayışın çıxarılması, təsnifat, qruplaşma və avtomatik annotasiya.

Mətn sənədlərinin təsnifatı

Mətn sənədlərinin təsnifatı, eləcə də obyekt təsnifatı zamanı sənədin əvvəllər məlum olan siniflərdən birinə aid edilməsindən ibarətdir. Çox vaxt mətn sənədlərinə münasibətdə təsnifat kateqoriyalara ayırma və ya rubrikasiya adlanır. Aydındır ki, bu adlar sənədlərin kataloqlara, kateqoriyalara və başlıqlara sistemləşdirilməsi vəzifəsindən irəli gəlir. Bu halda kataloq strukturu ya bir səviyyəli, ya da çoxsəviyyəli (iyerarxik) ola bilər.

Formal olaraq, mətn sənədlərinin təsnifatı vəzifəsi dəstlər dəsti ilə təsvir olunur.

Təsnifat məsələsində bu məlumatlar əsasında tədqiq olunan sənəd üçün C çoxluğundan ən çox ehtimal olunan kateqoriyanın tapılmasından ibarət prosedur qurmaq lazımdır.

Əksər mətn təsnifat üsulları bu və ya digər şəkildə eyni kateqoriyaya aid olan sənədlərin eyni xüsusiyyətləri (sözlər və ya ifadələr) ehtiva etməsi fərziyyəsinə əsaslanır və sənəddə belə xüsusiyyətlərin olması və ya olmaması onun bir sənədə aid olub-olmadığını göstərir. xüsusi mövzu.

Bu cür əlamətlər toplusu çox vaxt lüğət adlanır, çünki o, kateqoriyanı xarakterizə edən söz və/yaxud ifadələri özündə birləşdirən leksemlərdən ibarətdir.

Qeyd etmək lazımdır ki, bu əlamətlər toplusu atributlar toplusu ilə xarakterizə olunan Data Mining-də obyektlərin təsnifatından mətn sənədlərinin təsnifatının fərqləndirici xüsusiyyətidir.

d sənədini c kateqoriyasına aid etmək qərarı ümumi xüsusiyyətlərin kəsişməsi əsasında qəbul edilir

Təsnifat metodlarının vəzifəsi bu cür xüsusiyyətləri ən yaxşı şəkildə seçmək və sənədin kateqoriyaya aid edilməsi barədə qərarın veriləcəyi qaydaları formalaşdırmaqdır.

Mətn məlumatlarını təhlil etmək üçün alətlər

Oracle Tools - Oracle Text2

Oracle 7.3.3 versiyasından başlayaraq mətn təhlili alətləri Oracle məhsullarının ayrılmaz hissəsidir. Oracle-da bu alətlər işlənib hazırlanmış və yeni ad - Oracle Text - DBMS-ə inteqrasiya olunmuş proqram paketi alınmışdır ki, bu da strukturlaşdırılmamış mətnlərlə bağlı sorğularla effektiv işləməyə imkan verir. Bu zaman mətnin işlənməsi relyasiya verilənlər bazası ilə işləmək üçün istifadəçiyə verilən imkanlarla birləşdirilir. Xüsusilə, mətn emal proqramlarının yazılması zamanı SQL-dən istifadə mümkün olmuşdur.

Oracle Text alətlərinin həll etməyə yönəldiyi əsas vəzifə, sənədlərin məzmununa görə axtarış tapşırığıdır - lazım olduqda Boolean əməliyyatlarından istifadə edərək birləşdirilən sözlər və ya ifadələr. Axtarış nəticələri tapılan sənədlərdə sorğu sözlərinin rast gəlmə tezliyi nəzərə alınmaqla əhəmiyyətinə görə sıralanır.

IBM-dən alətlər - Mətn1 üçün Intelligent Miner

IBM Intelligent Miner for Text məhsulu işə salınan fərdi utilitlər toplusudur komanda xətti və ya bir-birindən asılı olmayaraq skriptlərdən. Sistem mətn məlumatlarının təhlili problemlərinin həlli üçün bəzi köməkçi proqramların birləşməsini ehtiva edir.

IBM Intelligent Miner for Text özündə ilk növbədə məlumat axtarış mexanizmlərinə əsaslanan güclü alətlər toplusunu birləşdirir ki, bu da bütün məhsulun spesifikliyidir. Sistem Text Mining texnologiyasından kənar müstəqil əhəmiyyətə malik bir sıra əsas komponentlərdən ibarətdir:

SAS İnstitutu Alətləri - Mətn Miner

Amerika şirkəti SAS Institute yazılı nitqdə müəyyən qrammatik və şifahi ardıcıllıqların müqayisəsi üçün SAS Text Miner sistemini buraxmışdır. Text Miner çox yönlüdür, çünki o, müxtəlif formatlı mətn sənədləri ilə - verilənlər bazasında, fayl sistemlərində və daha çox internetdə işləyə bilir.

Text Miner SAS Enterprise Miner mühitində məntiqi mətn emalını təmin edir. Bu, istifadəçilərə strukturlaşdırılmamış mətn məlumatlarını yaş, gəlir və istehlakçı tələbi nümunələri kimi mövcud strukturlaşdırılmış məlumatlarla inteqrasiya edərək məlumatların təhlili prosesini zənginləşdirməyə imkan verir.

Əsas nöqtələr

Mətn biliklərinin kəşfi strukturlaşdırılmamış mətn məlumatlarında həqiqətən yeni, potensial olaraq faydalı və başa düşülən nümunələrin aşkarlanması üçün qeyri-trivial bir prosesdir.

Mətn sənədlərinin təhlili prosesi bir neçə addım ardıcıllığı kimi təqdim edilə bilər: məlumat axtarın, sənədlərin əvvəlcədən işlənməsi, məlumatların çıxarılması, Mətn Mining metodlarının tətbiqi, nəticələrin şərhi.

Məlumatsız sözləri silmək və mətnlərin sərtliyini artırmaq üçün adətən aşağıdakı üsullardan istifadə olunur: dayanacaq sözlərin çıxarılması, köklənmə, L-qramlar, hərflərin ixtisarı.

Mətn məlumatlarının təhlilinin vəzifələri bunlardır: təsnifat, qruplaşma, avtomatik annotasiya, əsas anlayışların çıxarılması, mətn naviqasiyası, trend təhlili, assosiasiyaların axtarışı və s.

Mətnlərdən əsas anlayışların çıxarılması həm ayrıca tətbiqi tapşırıq kimi, həm də mətn təhlilinin ayrıca mərhələsi kimi qəbul edilə bilər. Sonuncu halda, mətndən çıxarılan faktlar müxtəlif təhlil problemlərinin həlli üçün istifadə olunur.

Şablonlardan istifadə edərək əsas anlayışların çıxarılması prosesi iki mərhələdə həyata keçirilir: birinci mərhələdə leksik təhlildən istifadə etməklə mətn sənədlərindən ayrı-ayrı faktlar çıxarılır, ikinci mərhələdə çıxarılan faktların inteqrasiyası və/və ya yeni faktların əldə edilməsi. həyata keçirilən.

Əksər klasterləşdirmə alqoritmləri məlumatların vektor fəza modelində təmsil olunmasını tələb edir ki, bu model informasiya axtarışı üçün geniş istifadə olunur və semantik oxşarlığı məkan yaxınlığı kimi əks etdirmək üçün metaforadan istifadə edir.

Mətn sənədlərinə avtomatik şərh vermək üçün iki əsas yanaşma var: çıxarma (ən vacib fraqmentlərin seçilməsi) və ümumiləşdirmə (əvvəllər toplanmış biliklərdən istifadə etməklə).

Nəticə

Data mining tətbiqi riyaziyyatın ən aktual və populyar sahələrindən biridir. Müasir biznes və istehsal prosesləri böyük həcmdə məlumat yaradır ki, bu da insanların kritik vəziyyətlərin qarşısını almaq bir yana, iş vaxtı ərzində dinamik şəkildə dəyişən böyük həcmdə məlumatları şərh etməsini və onlara cavab verməsini getdikcə çətinləşdirir. Çoxölçülü, heterojen, natamam, qeyri-dəqiq, ziddiyyətli, dolayı məlumatlardan maksimum faydalı bilik əldə etmək üçün "məlumatların istehsalı". Məlumatın həcmi gigabayt və ya hətta terabaytla ölçülürsə, bu, bunu effektiv etməyə kömək edir. Müxtəlif peşəkar sahələrdə qərar qəbul etməyi öyrənə biləcək alqoritmlər qurmağa kömək edir.

Data Mining alətləri lazımi vaxtda düzgün tədbirlər görülməsi üçün əməliyyat məlumatlarını işlək məlumatlara emal etməklə insanları məlumatın həddindən artıq yüklənməsindən qoruyur.

Tətbiqi inkişaflar aşağıdakı istiqamətlərdə həyata keçirilir: iqtisadi sistemlərdə proqnozlaşdırma; istehsal, ticarət, telekommunikasiya və internet şirkətləri üçün marketinq tədqiqatlarının və müştəri mühitlərinin təhlilinin avtomatlaşdırılması; kredit qərarlarının qəbulu və kredit riskinin qiymətləndirilməsinin avtomatlaşdırılması; maliyyə bazarlarının monitorinqi; avtomatik ticarət sistemləri.

Biblioqrafiya

“Məlumatların təhlili texnologiyaları: Data Mining. Vizual Mining. Text Mining, OLAP" A. A. Barseqyan. M. S. Kupriyanov, V. V. Stenanenko, I. İ. Xolod. - 2-ci nəşr, yenidən işlənmiş. və əlavə

http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - İnternet məqaləsi

http://www.piter.com/contents/978549807257/978549807257_p.pdf -Məlumatların təhlili texnologiyaları

Dissertasiya işi >> Bank işi

Klasterdən istifadə edən borcalan, şifahi təhlil, düzəliş faktorları və s., həmçinin... əsasında borcalanın kredit qabiliyyəti intellektual təhlil Data Mining (ilə... İlkin mərhələdə təhlil keçirilib təhlilöz vəsaiti və...

Təhlil və müstəqil həyata keçirən informasiya sistemlərinin müasir bazarının təsnifatı, m
Xülasə >> Kompüter Elmləri
1.3 Rol fərqləndirmə 6 2. Müqayisəli təhlil müxtəlif növlər sistemlər 7 ƏS... sistemləri, o cümlədən: təhlil təhlükəsizlik siyasətləri və onların xüsusiyyətləri, ... proqramlar və ya daha çox tətbiq intellektual təhlil data. Bundan başqa...
Ağıllı istedadlı uşaqların məktəb fəaliyyəti ilə bağlı qabiliyyətləri
Dissertasiya >> Psixologiya
Akademik performans və xüsusiyyətlər arasındakı əlaqə intellektual inkişaf. Nəzəri əsaslarla təhlil tədqiqat problemi... olmadan intellekt etmək idi təhlil onun psixoloji quruluşu. Qiymətləndirmə üçün həlledici intellektual qabiliyyətlərdir...

Sizi Data Mining portalına salamlayırıq - müasir Data Mining metodlarına həsr olunmuş unikal portal.

Data Mining texnologiyaları gizli nümunələri aşkar etmək və proqnozlaşdırıcı modellər qurmaq üçün müasir biznes analitikası və məlumat tədqiqatı üçün güclü vasitədir. Data Mining və ya bilik çıxarılması spekulyativ əsaslandırmaya deyil, real məlumatlara əsaslanır.

düyü. 1. Data Mining Tətbiq Sxemi

Problemin tərifi – Problemin ifadəsi: verilənlərin təsnifatı, seqmentləşdirilməsi, proqnozlaşdırıcı modellərin qurulması, proqnozlaşdırma.
Məlumatların toplanması və hazırlanması – Məlumatların toplanması və hazırlanması, təmizlənməsi, yoxlanılması, dublikatların silinməsi.
Modelin qurulması – Modelin qurulması, dəqiqliyin qiymətləndirilməsi.
Biliyin Yerləşdirilməsi – Verilmiş problemi həll etmək üçün modelin tətbiqi.

Data Mining biznes, marketinq, internet, telekommunikasiya, sənaye, geologiya, tibb, əczaçılıq və digər sahələrdə irimiqyaslı analitik layihələrin həyata keçirilməsi üçün istifadə olunur.

Data Mining, müasir nümunələrin tanınması metodlarından və unikal analitik texnologiyalardan, o cümlədən qərar ağacları və təsnifat, klasterləşdirmə, neyron şəbəkə üsulları və başqaları.

Data mining texnologiyasını ilk dəfə kəşf edən istifadəçi böyük həcmli məlumatların təhlili ilə bağlı çətin problemlərin həllinə yanaşmalar tapmağa imkan verən metodların və effektiv alqoritmlərin çoxluğuna heyran qalır.

Ümumiyyətlə, Data Mining böyük həcmli məlumatların axtarışı üçün nəzərdə tutulmuş texnologiya kimi xarakterizə edilə bilər. qeyri-aşkar, obyektiv və praktiki olaraq faydalı naxışlar.

Data Mining əsaslanır təsirli üsullar və böyük həcmli və ölçülü strukturlaşdırılmamış verilənləri təhlil etmək üçün nəzərdə tutulmuş alqoritmlər.

Əsas məqam odur ki, yüksək həcmli, yüksək ölçülü məlumatların strukturu və əlaqələri yoxdur. Data mining texnologiyasının məqsədi bu strukturları müəyyən etmək və ilk baxışdan xaos və özbaşınalığın hökm sürdüyü nümunələri tapmaqdır.

Əczaçılıq və dərman sənayesində məlumatların öyrənilməsinin tətbiqinin cari nümunəsidir.

Dərmanlarla qarşılıqlı əlaqə müasir səhiyyənin üzləşdiyi artan problemdir.

Vaxt keçdikcə təyin olunan dərmanların sayı (reseptsiz və hər cür əlavələr) artır və bu, həkimlərin və xəstələrin bilmədiyi ciddi yan təsirlərə səbəb ola biləcək dərmanlarla qarşılıqlı təsirlərin olma ehtimalını artırır.

Bu sahə, dərmanın artıq bazara çıxarıldığı və intensiv istifadə edildiyi post-klinik tədqiqatlara aiddir.

Klinik tədqiqatlar bir dərmanın effektivliyinin qiymətləndirilməsinə istinad edir, lakin dərmanın bazarda olan digər dərmanlarla qarşılıqlı təsirini nəzərə almır.

Kaliforniyadakı Stanford Universitetinin tədqiqatçıları FDA-nın dərmanların yan təsirləri haqqında məlumat bazasını araşdırıblar və aşkar ediblər ki, iki çox istifadə edilən dərman - antidepresan paroksetin və xolesterolu azaldan pravastatin - birlikdə istifadə edildikdə diabet inkişaf riskini artırır.

FDA məlumatlarına əsaslanan oxşar analiz tədqiqatı əvvəllər naməlum olan 47 mənfi qarşılıqlı əlaqəni müəyyən etdi.

Xəstələrin qeyd etdiyi mənfi təsirlərin bir çoxunun aşkar edilmədiyinə dair xəbərdarlıqla bu əladır. Məhz bu halda onlayn axtarış ən yaxşı şəkildə yerinə yetirilə bilər.

2020-ci ildə StatSoft Data Analysis Academy-də gələcək Data Mining kursları

Biz Data Science Akademiyasının heyrətamiz videolarından istifadə edərək Data Mining ilə tanışlığımıza başlayırıq.

Videolarımızı izlədiyinizə əmin olun və Data Mining-in nə olduğunu başa düşəcəksiniz!

Video 1. Data Mining nədir?

Video 2. Məlumatların çıxarılması üsullarının nəzərdən keçirilməsi: qərar ağacları, ümumiləşdirilmiş proqnoz modelləri, klasterləşdirmə və daha çox

JavaScript brauzerinizdə deaktiv edilib

Tədqiqat layihəsinə başlamazdan əvvəl məlumatların əldə edilməsi prosesini təşkil etməliyik xarici mənbələr, indi bunun necə edildiyini göstərəcəyik.

Video sizi tanış edəcək unikal texnologiya STATİSTİKA Yerində verilənlər bazası emalı və Data Mining-in real verilənlərlə əlaqəsi.

Video 3. Verilənlər bazası ilə qarşılıqlı əlaqə qaydası: SQL sorğularının qurulması üçün qrafik interfeys, verilənlər bazasının yerində emal texnologiyası

JavaScript brauzerinizdə deaktiv edilib

İndi biz kəşfiyyat məlumatlarının təhlilinin aparılmasında effektiv olan interaktiv qazma texnologiyaları ilə tanış olacağıq. Qazma termininin özü Data Mining texnologiyası ilə geoloji kəşfiyyat arasındakı əlaqəni əks etdirir.

Video 4: İnteraktiv Qazma: İnteraktiv Məlumat Kəşfiyyatı üçün Kəşfiyyat və Qrafika Texnikaları

JavaScript brauzerinizdə deaktiv edilib

İndi biz assosiasiya analizi (assosiasiya qaydaları) ilə tanış olacağıq, bu alqoritmlər real verilənlərdə mövcud olan əlaqələri tapmağa imkan verir. Əsas məqam böyük həcmli verilənlər üzərində alqoritmlərin səmərəliliyidir.

Əlaqələrin təhlili alqoritmlərinin nəticəsi, məsələn, Apriori alqoritmi, müəyyən bir etibarlılıqla, məsələn, 80% ilə tədqiq olunan obyektlər üçün əlaqə qaydalarının tapılmasıdır.

Geologiyada bu alqoritmlərdən mineralların kəşfiyyat analizində istifadə oluna bilər, məsələn, A xüsusiyyətinin B və C xüsusiyyətləri ilə necə əlaqəli olması.

Sən tapa bilərsən konkret misallar bağlantılarımızdan istifadə edərək belə həllər:

Pərakəndə satışda Apriori alqoritmləri və ya onların modifikasiyası müxtəlif məhsullar, məsələn, ətir (ətir - dırnaq boyası - tuş və s.) və ya müxtəlif markaların məhsullarının satışı zamanı əlaqəni öyrənməyə imkan verir.

Saytdakı ən maraqlı bölmələrin təhlili də assosiasiya qaydalarından istifadə etməklə səmərəli şəkildə həyata keçirilə bilər.

Odur ki, növbəti videomuza baxın.

Video 5. Assosiasiya qaydaları

JavaScript brauzerinizdə deaktiv edilib

Burada xüsusi sahələrdə Data Mining tətbiqi nümunələri verilmişdir.

Onlayn ticarət:

saytı ziyarət etməkdən malların alınmasına qədər müştəri trayektoriyalarının təhlili
xidmətin səmərəliliyinin qiymətləndirilməsi, malların çatışmazlığı ilə əlaqədar uğursuzluqların təhlili
ziyarətçilər üçün maraqlı olan məhsulların birləşdirilməsi

Pərakəndə satış: kredit kartları, endirim kartları və s. əsasında müştəri məlumatlarının təhlili.

Data Mining alətləri ilə həll edilən tipik pərakəndə satış tapşırıqları:

alış səbətinin təhlili;
proqnozlaşdırıcı modellərin yaradılması alıcıların və alınmış malların təsnifat modelləri;
alıcı profillərinin yaradılması;
CRM, müxtəlif kateqoriyalı müştərilərin loyallığının qiymətləndirilməsi, loyallıq proqramlarının planlaşdırılması;
zaman silsiləsi tədqiqatı və vaxtdan asılılıqlar, mövsümi amillərin müəyyən edilməsi, effektivliyin qiymətləndirilməsi promosyonlar real məlumatların geniş diapazonunda.

Telekommunikasiya sektoru data mining metodlarından, eləcə də müasir böyük verilənlər texnologiyalarından istifadə üçün qeyri-məhdud imkanlar açır:

zənglərin əsas xüsusiyyətləri (tezlik, müddət və s.), SMS tezliyi əsasında müştərilərin təsnifatı;
müştəri loyallığının müəyyən edilməsi;
saxtakarlığın aşkarlanması və s.

Sığorta:

risk təhlili. Ödənilmiş iddialarla bağlı amillərin birləşməsini müəyyən etməklə, sığortaçılar öz məsuliyyət itkilərini azalda bilərlər. Belə bir hal var ki, sığorta şirkəti evli şəxslərin iddiaları üzrə ödənilən məbləğlərin subayların iddiaları üzrə ödənilən məbləğlərdən iki dəfə çox olduğunu aşkar edib. Şirkət buna ailə müştəriləri üçün endirim siyasətinə yenidən baxaraq cavab verdi.
saxtakarlığın aşkarlanması. Sığorta şirkətləri hüquqşünaslar, həkimlər və iddiaçılar arasında münasibətləri xarakterizə edən iddialarda müəyyən nümunələr axtararaq saxtakarlığı azalda bilər.

Verilənlərin öyrənilməsinin praktik tətbiqi və konkret problemlərin həlli növbəti videomuzda təqdim olunur.

Vebinar 1. Vebinar “Məlumat Mininginin praktiki vəzifələri: problemlər və həllər”

JavaScript brauzerinizdə deaktiv edilib

Vebinar 2. Vebinar "Məlumat Mining və Mətn Mining: real problemlərin həlli nümunələri"

JavaScript brauzerinizdə deaktiv edilib

Siz StatSoft kurslarında verilənlərin öyrənilməsi metodologiyası və texnologiyası haqqında daha dərin bilik əldə edə bilərsiniz.

Data Mining nədir

Hər hansı bir müasir müəssisənin korporativ məlumat bazası adətən müəyyən faktlar və ya obyektlər (məsələn, mallar, onların satışı, müştərilər, hesablar haqqında) haqqında qeydləri saxlayan cədvəllər toplusunu ehtiva edir. Bir qayda olaraq, belə bir cədvəldəki hər bir qeyd konkret obyekti və ya faktı təsvir edir. Məsələn, satış cədvəlindəki qeyddə filan məhsulun o vaxt filan müştəriyə filan idarəçi tərəfindən satıldığı və bütövlükdə bu məlumatdan başqa heç nə olmadığı əks olunur. Bununla belə, bir neçə il ərzində toplanmış çoxlu sayda belə qeydlərin toplanması bir xüsusi qeyd əsasında əldə edilə bilməyən əlavə, daha qiymətli məlumat mənbəyinə çevrilə bilər, yəni nümunələr, tendensiyalar və ya bir-birindən asılılıqlar haqqında məlumat. hər hansı bir məlumat. Bu cür məlumatlara misal olaraq, müəyyən bir məhsulun satışının həftənin günündən, günün vaxtından və ya ilin vaxtından necə asılı olması, müştərilərin hansı kateqoriyası bu və ya digər məhsulu daha çox alması, bir konkret məhsulun alıcılarının hansı nisbətinin satın alınması barədə məlumatlar ola bilər. başqa bir konkret məhsul, hansı kateqoriyadan olan müştərilərin verdiyi krediti vaxtında qaytarmır.

Bu cür məlumatlar adətən proqnozlaşdırmada, strateji planlaşdırmada, risklərin təhlilində istifadə olunur və onun müəssisə üçün dəyəri çox yüksəkdir. Görünür, buna görə də onun axtarışı prosesi Data Mining adlanırdı (ingilis dilində mədənçilik “mədən” deməkdir və çoxlu faktiki məlumatlarda nümunələri axtarmaq həqiqətən də buna bənzəyir). Data Mining termini o qədər də spesifik texnologiyanı deyil, müxtəlif riyazi və statistik alqoritmlər vasitəsilə korrelyasiya, tendensiya, əlaqələr və nümunələrin axtarışı prosesini ifadə edir: klasterləşdirmə, alt nümunələr yaratmaq, reqressiya və korrelyasiya təhlili. Bu axtarışın məqsədi məlumatları biznes proseslərini aydın şəkildə əks etdirən formada təqdim etmək, həmçinin biznesin planlaşdırılması üçün vacib olan prosesləri (məsələn, müəyyən mal və ya xidmətlərə tələbin dinamikası) proqnozlaşdıra biləcəyiniz bir model qurmaqdır. və ya onların əldə edilməsinin müəyyən istehlak xüsusiyyətlərindən asılılığı).

Qeyd edək ki, uzun müddət məlumatların təhlili üçün əsas vasitə olaraq qalan ənənəvi riyazi statistika, həmçinin artıq bir neçə dəfə yazdığımız onlayn analitik emalı (OLAP) alətləri (CD-mizdə bu mövzuya dair materiallara baxın) , kimi problemləri həll etmək üçün həmişə uğurla istifadə edilə bilməz. Bir qayda olaraq, statistik metodlar və OLAP əvvəlcədən hazırlanmış fərziyyələri yoxlamaq üçün istifadə olunur. Bununla belə, çox vaxt fərziyyənin formalaşdırılması sonrakı qərarların qəbulu üçün biznes təhlilini həyata keçirərkən ən çətin məsələyə çevrilir, çünki verilənlərdəki bütün nümunələr ilk baxışdan aydın görünmür.

Əsas müasir texnologiya Data Mining verilənlərin alt nümunələrinə xas olan nümunələri əks etdirən nümunələr konsepsiyasına əsaslanır. Nümunələrin axtarışı bu alt nümunələr haqqında heç bir apriori fərziyyədən istifadə etməyən üsullardan istifadə etməklə həyata keçirilir. Statistik təhlil və ya OLAP adətən “Bu xidmət üçün müştərilər arasında ödənilməmiş hesab-fakturaların orta sayı nə qədərdir?” kimi suallar versə də, Data Mining adətən “Ödənişi olmayan müştərilərin tipik kateqoriyası varmı?” kimi suallara cavab verməyi əhatə edir. Eyni zamanda, çox vaxt marketinq siyasətinə və müştərilərlə işin təşkilinə daha qeyri-trivial yanaşmanı təmin edən ikinci sualın cavabıdır.

Data Mining-in mühüm xüsusiyyəti, axtarılan nümunələrin qeyri-standart və qeyri-aşkar xarakteridir. Başqa sözlə desək, Data Mining alətləri statistik məlumatların emalı alətlərindən və OLAP alətlərindən onunla fərqlənir ki, onlar istifadəçilər tərəfindən əvvəlcədən fərz edilən qarşılıqlı asılılıqları yoxlamaq əvəzinə, mövcud məlumatlar əsasında bu cür qarşılıqlı asılılıqları müstəqil şəkildə tapa bilirlər və onların təbiəti haqqında fərziyyələr qururlar.

Qeyd etmək lazımdır ki, Data Mining alətlərinin istifadəsi statistik alətlərin və OLAP alətlərinin istifadəsini istisna etmir, çünki sonunculardan istifadə edərək məlumatların emalının nəticələri, bir qayda olaraq, lazım olan nümunələrin təbiətinin daha yaxşı başa düşülməsinə kömək edir. axtarılsın.

Data Mining üçün mənbə məlumat

İdeal olaraq düzgün tərtib edilmiş məlumat anbarında olan kifayət qədər böyük miqdarda məlumat varsa, Data Mining-dən istifadə əsaslandırılır (əslində, məlumat anbarlarının özləri adətən qərarların qəbulu ilə bağlı təhlil və proqnozlaşdırma problemlərini həll etmək üçün yaradılır). Məlumat anbarlarının qurulması prinsipləri haqqında da dəfələrlə yazmışıq; müvafiq materialları CD-mizdə tapa bilərsiniz, ona görə də bu məsələnin üzərində dayanmayacağıq. Yalnız xatırladaq ki, anbardakı məlumatlar bütün müəssisə üçün ümumi olan və istənilən vaxt onun fəaliyyətinin şəklini bərpa etməyə imkan verən doldurulmuş bir dəstdir. Onu da qeyd edək ki, məlumatların saxlanması strukturu ona sorğuların mümkün qədər səmərəli şəkildə həyata keçirilməsi üçün nəzərdə tutulub. Bununla belə, yalnız məlumat anbarlarında deyil, həm də OLAP kublarında, yəni əvvəlcədən işlənmiş statistik məlumat dəstlərində nümunələri, korrelyasiyaları və meylləri axtara bilən Data Mining alətləri var.

Data Mining metodları ilə müəyyən edilmiş nümunələrin növləri

V.A. Duke görə, Data Mining metodları ilə müəyyən edilmiş beş standart nümunə növü var:

Assosiasiya - hadisələrin bir-biri ilə əlaqəli olma ehtimalının yüksək olması (məsələn, bir məhsul tez-tez digəri ilə birlikdə alınır);

Ardıcıllıq - zamanla əlaqəli hadisələr zəncirinin yüksək ehtimalı (məsələn, bir məhsulun alınmasından sonra müəyyən müddət ərzində, digərinin yüksək ehtimalla alınacağı);

Təsnifat - bu və ya digər hadisənin və ya obyektin aid olduğu qrupu xarakterizə edən əlamətlər var (adətən, artıq təsnif edilmiş hadisələrin təhlili əsasında müəyyən qaydalar tərtib edilir);

Klasterləşdirmə təsnifata bənzər bir nümunədir və ondan qrupların özləri göstərilməməsi ilə fərqlənir - məlumatların işlənməsi zamanı onlar avtomatik olaraq müəyyən edilir;

Müvəqqəti qanunauyğunluqlar - proqnozlaşdırma üçün istifadə olunan müəyyən məlumatların davranış dinamikasında qanunauyğunluqların olması (tipik nümunə müəyyən mal və ya xidmətlərə tələbin mövsümi dəyişməsidir).

Məlumatların çıxarılması üsulları

Bu gün kifayət qədər çox sayda müxtəlif məlumat əldə etmək üsulları var. V.A.Dyukun təklif etdiyi yuxarıdakı təsnifata əsasən, onların arasında aşağıdakıları ayırd edə bilərik:

Reqressiya, dispersiya və korrelyasiya təhlili (əksər müasir statistik paketlərdə, xüsusən SAS İnstitutunun məhsullarında, StatSoft və s. tətbiq edilir);

Empirik modellərə əsaslanan konkret mövzu sahəsində təhlil metodları (çox vaxt, məsələn, ucuz maliyyə təhlili alətlərində istifadə olunur);

Neyron şəbəkəsi alqoritmləri, ideyası sinir toxumasının fəaliyyəti ilə bənzətmə əsasında qurulur və ilkin parametrlərin "neyronlar" və "neyronlar" arasındakı mövcud əlaqələrə uyğun olaraq çevrilən siqnallar kimi qəbul edilməsindən ibarətdir. bütün şəbəkənin ilkinlərə reaksiyası təhlil məlumatlarının nəticəsi kimi qəbul edilir. Bu halda, bağlantılar həm ilkin məlumatları, həm də düzgün cavabları ehtiva edən böyük bir nümunə ölçüsü vasitəsilə sözdə şəbəkə təlimindən istifadə edərək yaradılır;

Alqoritmlər - mövcud tarixi məlumatlardan orijinal məlumatların yaxın analoqunun seçilməsi. “Ən yaxın qonşu” metodu da adlanır;

Qərar ağacları “Bəli” və ya “Xeyr” cavabını tələb edən suallar toplusuna əsaslanan iyerarxik strukturdur; baxmayaraq bu üsul məlumatların emalı həmişə mövcud nümunələri mükəmməl tapmır, alınan cavabın aydınlığı səbəbindən proqnozlaşdırma sistemlərində olduqca tez-tez istifadə olunur;

Klaster modelləri (bəzən seqmentləşdirmə modelləri də adlanır) verilənlər toplusunda bir neçə sahənin oxşar qiymətləri əsasında oxşar hadisələri qruplaşdırmaq üçün istifadə olunur; proqnozlaşdırma sistemlərinin yaradılması zamanı da çox populyardır;

Məlumatların alt qruplarında sadə məntiqi hadisələrin birləşmələrinin tezliklərini hesablayan məhdud axtarış alqoritmləri;

Təkamül proqramlaşdırması - axtarış prosesi zamanı dəyişdirilmiş ilkin müəyyən edilmiş alqoritm əsasında verilənlərin qarşılıqlı asılılığını ifadə edən alqoritmin axtarışı və yaradılması; bəzən müəyyən funksiya növləri (məsələn, çoxhədlilər) arasında qarşılıqlı asılılıqların axtarışı aparılır.

Bu və digər Data Mining alqoritmləri, eləcə də onları həyata keçirən alətlər haqqında daha ətraflı məlumatı 2001-ci ildə Peter nəşriyyatı tərəfindən nəşr olunmuş V.A.Dyuk və A.P.Samoilenkonun “Məlumat Mining: Təlim kursu” kitabında oxumaq olar. Bu gün bu, rus dilində bu problemə həsr olunmuş bir neçə kitabdan biridir.

Data Mining alətlərinin aparıcı istehsalçıları

Data Mining alətləri, əksər Business Intelligence alətləri kimi, ənənəvi olaraq bahalı proqram alətləridir – onlardan bəzilərinin qiyməti bir neçə on minlərlə dollara çatır. Buna görə də, yaxın vaxtlara qədər bu texnologiyanın əsas istehlakçıları banklar, maliyyə və sığorta şirkətləri, iri ticarət müəssisələri idi və Data Mining-dən istifadəni tələb edən əsas vəzifələr kredit və sığorta risklərinin qiymətləndirilməsi və marketinq siyasətinin hazırlanması hesab olunurdu. , tarif planları və müştərilərlə işin digər prinsipləri. Son illərdə vəziyyət müəyyən dəyişikliklərə məruz qaldı: proqram bazarında bir neçə istehsalçının nisbətən ucuz Data Mining alətləri peyda oldu ki, bu da bu texnologiyanı əvvəllər bu barədə düşünməyən kiçik və orta biznes üçün əlçatan etdi.

TO müasir vasitələr Biznes İntellektinə hesabat generatorları, analitik məlumatların emalı alətləri, BI həlli alətləri (BI Platformaları) və sözdə Enterprise BI Suites daxildir - məlumatların təhlili ilə bağlı bir sıra tədbirlər həyata keçirməyə imkan verən müəssisə miqyaslı məlumatların təhlili və emal alətləri və hesabatların yaradılması və tez-tez BI alətlərinin inteqrasiya olunmuş dəstini və BI proqram inkişaf alətlərini ehtiva edir. Sonuncu, bir qayda olaraq, hesabat alətlərini, OLAP alətlərini və çox vaxt Data Mining alətlərini ehtiva edir.

Gartner Group analitiklərinin fikrincə, müəssisə miqyaslı məlumatların təhlili və emalı alətləri bazarında liderlər Business Objects, Cognos, Information Builders, Microsoft və Oracle şirkətləri də liderliyə iddialıdırlar (Şəkil 1). BI həlləri üçün inkişaf alətlərinə gəldikdə, bu sahədə liderliyə əsas iddiaçılar Microsoft və SAS İnstitutudur (şək. 2).

Qeyd edək ki, Microsoft-un Business Intelligence alətləri geniş şirkətlər üçün nisbətən ucuz məhsullardır. Buna görə də biz bu məqalənin sonrakı hissələrində bu şirkətin məhsullarından istifadə edərək Data Mining-dən istifadənin bəzi praktiki aspektlərinə baxacağıq.

Ədəbiyyat:

1. Hersoq V.A. Data Mining - data mining. - http://www.olap.ru/basic/dm2.asp.

2. Hersoq V.A., Samoilenko A.P. Data Mining: təlim kursu. - Sankt-Peterburq: Peter, 2001.

3. B. de Ville. Microsoft Data Mining. Rəqəmsal mətbuat, 2001.

OLAP sistemləri analitiki verilənləri təhlil edərkən fərziyyələri yoxlamaq vasitəsi ilə təmin edir, yəni analitikin əsas vəzifəsi fərziyyələr yaratmaqdır ki, o, öz bilik və təcrübəsinə əsaslanaraq həll edir.Lakin təkcə insanın biliyi yox, həm də təhlil edilən toplanmış məlumatlar. Bu cür biliklər insanın təkbaşına araşdırma apara bilməyəcəyi böyük miqdarda məlumatda olur. Bu səbəbdən, əhəmiyyətli fayda təmin edə biləcək fərziyyələrin əldən çıxması riski var.

"Gizli" bilikləri aşkar etmək üçün avtomatik təhlilin xüsusi üsullarından istifadə olunur, onların köməyi ilə məlumatın "tıxanmalarından" praktik olaraq bilik çıxarmaq lazımdır. Bu sahəyə “data mining” və ya “data mining” termini təyin edilmişdir.

DataMining-in bir-birini tamamlayan bir çox tərifləri var. Onlardan bəzilərini təqdim edirik.

Data Mining verilənlər bazalarında qeyri-trivial və praktiki olaraq faydalı nümunələrin aşkar edilməsi prosesidir. (Baza Qrupu)

Data Mining biznes üstünlüklərinə nail olmaq üçün əvvəllər məlum olmayan nümunələri (naxışları) aşkar etmək üçün böyük həcmdə məlumatların çıxarılması, tədqiqi və modelləşdirilməsi prosesidir (SAS İnstitutu)

Data Mining, nümunə tanıma üsulları və statistik və riyazi üsulların tətbiqi (GartnerGroup) istifadə edərək böyük həcmdə saxlanılan məlumatı süzərək yeni əhəmiyyətli korrelyasiyaları, nümunələri və meylləri kəşf etməyi hədəfləyən bir prosesdir.

Data Mining, xam məlumatlarda gizli biliklərin “maşın” (alqoritmlər, süni intellekt alətləri) tərəfindən tədqiqi və kəşfidir.əvvəllər naməlum, qeyri-trivial, praktiki olaraq faydalı, təfsir üçün əlçatan idi(A. Bargesyan “Data Analysis Technologies”)

DataMining biznes haqqında faydalı biliklərin kəşf edilməsi prosesidir.(N.M.Abdikeev “KBA”)

Aşkar edilmiş biliyin xassələri

Kəşf edilmiş biliyin xüsusiyyətlərini nəzərdən keçirək.

Bilik yeni, əvvəllər məlum olmayan olmalıdır. İstifadəçiyə artıq məlum olan biliyi kəşf etmək üçün sərf olunan səylər öz bəhrəsini vermir. Buna görə də dəyərli olan yeni, əvvəllər naməlum biliklərdir.
Bilik qeyri-trivial olmalıdır. Təhlilin nəticələri qeyri-aşkar, gözlənilməz əks etdirməlidirgizli bilik adlanan məlumatların nümunələri. Daha çox əldə edilə bilən nəticələr sadə yollarla(məsələn, vizual yoxlama) güclü DataMining metodlarının istifadəsinə haqq qazandırmır.
Bilik praktik olaraq faydalı olmalıdır. Tapılan biliklər kifayət qədər yüksək etibarlılıq dərəcəsi ilə, o cümlədən yeni məlumatlar üzrə tətbiq oluna bilən olmalıdır. Faydalılıq ondan ibarətdir ki, bu bilik tətbiq edildikdə müəyyən faydalar verə bilər.
Bilik insan anlayışı üçün əlçatan olmalıdır. Tapılan nümunələr məntiqi cəhətdən izah edilməlidir, əks halda onların təsadüfi olma ehtimalı var. Bundan əlavə, kəşf edilmiş bilik insanlar üçün başa düşülən formada təqdim edilməlidir.

DataMining-də modellər əldə edilmiş bilikləri təmsil etmək üçün istifadə olunur. Modellərin növləri onları yaratmaq üçün istifadə olunan üsullardan asılıdır. Ən çox yayılanlar bunlardır: qaydalar, qərar ağacları, klasterlər və riyazi funksiyalar.

DataMining Tapşırıqları

Xatırladaq ki, DataMining texnologiyası nümunələr olan şablonlar konsepsiyasına əsaslanır. Gözdən gizlədilən bu nümunələrin kəşfi nəticəsində DataMining problemləri həll edilir. İnsan tərəfindən oxuna bilən formada ifadə oluna bilən müxtəlif növ nümunələr xüsusi DataMining tapşırıqlarına uyğundur.

Hansı tapşırıqların DataMining kimi təsnif edilməsinə dair konsensus yoxdur. Ən mötəbər mənbələr aşağıdakıları sadalayır: təsnifat,

qruplaşma, proqnozlaşdırma, assosiasiya, vizuallaşdırma, təhlil və kəşf

kənarlaşmalar, qiymətləndirmə, əlaqələrin təhlili, yekunlaşdırma.

Aşağıdakı təsvirin məqsədi DataMining problemləri haqqında ümumi fikir vermək, onlardan bəzilərini müqayisə etmək, həmçinin bu problemlərin həlli üçün bəzi üsulları təqdim etməkdir. Ən çox yayılmış Data Mining vəzifələri təsnifat, klasterləşdirmə, assosiasiya, proqnozlaşdırma və vizuallaşdırmadır. Beləliklə, tapşırıqlar istehsal olunan məlumatın növünə görə bölünür, bu, DataMining tapşırıqlarının ən ümumi təsnifatıdır.

Təsnifat

Bir sıra obyektlərin və ya müşahidələrin apriora bölünməsi problemi müəyyən qruplar, siniflər adlanır, onların hər birinin daxilində bir-birinə bənzəyirlər, təxminən eyni xassələrə və xüsusiyyətlərə malikdirlər. Bu vəziyyətdə həll əsasında əldə edilir təhlil atributların (xüsusiyyətlərin) dəyərləri.

Təsnifat ən vacib vəzifələrdən biridir DataMining . -də istifadə olunur marketinq borcalanların kredit qabiliyyətini qiymətləndirərkən, müəyyən edilməsi müştəri loyallığı, nümunənin tanınması , tibbi diaqnostika və bir çox başqa tətbiqlər. Əgər analitik hər bir sinfin obyektlərinin xüsusiyyətlərini bilirsə, onda yeni müşahidə müəyyən bir sinfə aid olduqda, bu xüsusiyyətlər avtomatik olaraq ona genişlənir.

Dərslərin sayı iki ilə məhdudlaşırsa, o zamanikili təsnifat , daha bir çox mürəkkəb problemləri azaltmaq olar. Məsələn, kredit riskinin "Yüksək", "Orta" və ya "Aşağı" kimi dərəcələrini müəyyən etmək əvəzinə, yalnız ikisini istifadə edə bilərsiniz - "Məsələ" və ya "İmtina".

DataMining təsnifat üçün çoxlu müxtəlif modellərdən istifadə edir: neyron şəbəkələri, qərar ağacları , dəstək vektor maşınları, k-ən yaxın qonşular metodu, əhatə edən alqoritmlər və s.çıxış dəyişəni(sinif etiketi ) hər bir müşahidə üçün müəyyən edilir. Formal olaraq təsnifat bölmə əsasında aparılırxüsusiyyət boşluqları sahələrə, hər birinin daxilindəçoxölçülü vektorlar eynilik hesab edilir. Başqa sözlə desək, əgər obyekt müəyyən bir siniflə əlaqəli fəza regionuna düşürsə, o, ona məxsusdur.

Klasterləşmə

Qısa Təsvir. Klasterləşmə ideyanın məntiqi davamıdır

təsnifatlar. Bu daha mürəkkəb bir işdir; klasterləşdirmənin özəlliyi ondan ibarətdir ki, obyekt sinifləri əvvəlcə əvvəlcədən təyin edilmir. Klasterləşmənin nəticəsi obyektlərin qruplara bölünməsidir.

Klasterləşmə probleminin həlli metoduna misal: xüsusi növ neyron şəbəkələrinin “nəzarətsiz” təlimi - özünü təşkil edən Kohonen xəritələri.

Assosiasiyalar

Qısa Təsvir. Assosiasiya qaydalarının axtarışı problemini həll edərkən verilənlər toplusunda əlaqəli hadisələr arasında nümunələr tapılır.

Birləşmə ilə əvvəlki iki DataMining tapşırığı arasındakı fərq: nümunələrin axtarışı təhlil edilən obyektin xüsusiyyətləri əsasında deyil, eyni vaxtda baş verən bir neçə hadisə arasında aparılır. Assosiasiya qaydalarının tapılması məsələsinin həlli üçün ən məşhur alqoritm Apriori alqoritmidir.

Ardıcıllıq və ya ardıcıl birləşmə

Qısa Təsvir. Ardıcıllıq əməliyyatlar arasında müvəqqəti nümunələri tapmağa imkan verir. Ardıcıllıq tapşırığı assosiasiyaya bənzəyir, lakin onun məqsədi eyni vaxtda baş verən hadisələr arasında deyil, zamanla əlaqəli hadisələr arasında (yəni, müəyyən bir zaman intervalında baş verən) nümunələr yaratmaqdır. Başqa sözlə, ardıcıllıq zamanla əlaqəli hadisələr zəncirinin yüksək ehtimalı ilə müəyyən edilir. Əslində, assosiasiya sıfır vaxt gecikməsi ilə ardıcıllığın xüsusi halıdır. Bu DataMining tapşırığına ardıcıl nümunə tapmaq tapşırığı da deyilir.

Ardıcıllıq qaydası: X hadisəsindən sonra Y hadisəsi müəyyən vaxtdan sonra baş verəcək.

Misal. Sakinlər mənzil aldıqdan sonra 60% hallarda iki həftə ərzində soyuducu, 50% hallarda isə iki ay ərzində televizor alırlar. Bu problemin həlli marketinq və idarəetmədə, məsələn, Müştərilərin Həyat Dövrünün İdarə edilməsində geniş istifadə olunur.

Reqressiya, proqnozlaşdırma (proqnozlaşdırma)

Qısa Təsvir. Proqnozlaşdırma probleminin həlli nəticəsində tarixi məlumatların xüsusiyyətlərinə əsasən hədəf rəqəmsal göstəricilərin çatışmayan və ya gələcək dəyərləri qiymətləndirilir.

Belə məsələlərin həlli üçün riyazi statistikanın üsulları, neyron şəbəkələri və s. geniş istifadə olunur.

Əlavə tapşırıqlar

Sapma aşkarlanması, dispersiya və ya kənar analiz

Qısa Təsvir. Bu problemin həllində məqsəd ümumi məlumat toplusundan ən fərqli olan məlumatları aşkar etmək və təhlil etmək, qeyri-xarakterik nümunələri müəyyən etməkdir.

Qiymətləndirmə

Qiymətləndirmə tapşırığı xüsusiyyətin davamlı dəyərlərini proqnozlaşdırmaqdan ibarətdir.

Bağlantı təhlili

Verilənlər dəstində asılılıqları tapmaq vəzifəsi.

Vizuallaşdırma (GraphMining)

Vizuallaşdırma nəticəsində təhlil edilən məlumatların qrafik təsviri yaradılır. Vizuallaşdırma problemini həll etmək üçün verilənlərdə nümunələrin mövcudluğunu göstərmək üçün qrafik üsullardan istifadə olunur.

Vizuallaşdırma üsullarına misal olaraq verilənləri 2-D və 3-D ölçülərində təqdim etmək olar.

Xülasə

Məqsədi təhlil edilən məlumat dəstindən müəyyən obyekt qruplarını təsvir etmək olan tapşırıq.

Yuxarıdakı təsnifata olduqca yaxın olan DataMining tapşırıqlarının aşağıdakılara bölünməsidir: tədqiqat və kəşf, proqnozlaşdırma və təsnifat, izahat və təsvir.

Avtomatik kəşfiyyat və kəşf (pulsuz axtarış)

Nümunə tapşırıq: yeni bazar seqmentlərini kəşf etmək.

Bu sinif problemləri həll etmək üçün klaster analizi metodlarından istifadə olunur.

Proqnozlaşdırma və təsnifat

Məsələn problem: cari dəyərlər əsasında satış artımının proqnozlaşdırılması.

Metodlar: reqressiya, neyron şəbəkələri, genetik alqoritmlər, qərar ağacları.

Təsnifat və proqnozlaşdırma tapşırıqları təhlil olunan obyekt və ya sistemin öyrənilməsi ilə nəticələnən induktiv modelləşdirmə adlanan bir qrup təşkil edir. Bu problemlərin həlli prosesində verilənlər toplusu əsasında ümumi model və ya fərziyyə hazırlanır.

İzahat və Təsvir

Məsələnin nümunəsi: müştərilərin demoqrafik göstəricilərə və satınalma tarixçəsinə əsaslanaraq xarakterizə edilməsi.

Metodlar: qərar ağacları, qayda sistemləri, assosiasiya qaydaları, əlaqə təhlili.

Müştərinin gəliri 50 şərti vahiddən çox olarsa və onun yaşı 30 ildən çoxdursa, o zaman müştərinin sinfi birincidir.

Klasterləşmə və təsnifatın müqayisəsi

Xarakterik	Təsnifat	Klasterləşmə
Təlimin idarəolunması	Nəzarət olunur	Nəzarətsiz
Strategiyalar	Repetitor təlimi	Nəzarətsiz öyrənmə
Sinif etiketinin mövcudluğu	Təlim dəsti göstərən etiketlə müşayiət olunur aid olduğu sinif müşahidə	Təlimçi sinif etiketləri dəstlər məlum deyil
Təsnifat üçün əsas	Yeni məlumatlar təlim toplusuna əsasən təsnif edilir	Bunun üçün çoxlu məlumatlar verilir mövcudluğunun qurulması siniflər və ya məlumat klasterləri

DataMining-in tətbiqi sahələri

Qeyd edək ki, bu gün DataMining texnologiyası biznes problemlərinin həllində ən çox istifadə olunur. Bəlkə də səbəb budur ki, məhz bu istiqamətdə DataMining alətlərindən istifadənin qaytarılması, bəzi mənbələrə görə, 1000%-ə qədər ola bilər və onun həyata keçirilməsi xərcləri tez bir zamanda özünü ödəyə bilər.

Biz DataMining texnologiyasının tətbiqinin dörd əsas sahəsini ətraflı nəzərdən keçirəcəyik: elm, biznes, hökumət tədqiqatları və İnternet.

iş tapşırıqları. Əsas sahələr: bank işi, maliyyə, sığorta, CRM, istehsal, telekommunikasiya, e-ticarət, marketinq, birja və s.

Müştəriyə kredit verməliyəmmi?

Bazar seqmentasiyası

Yeni müştərilərin cəlb edilməsi

Kredit kartı saxtakarlığı

üçün DataMining tətbiqi problemlərin dövlət səviyyəsində həlli. Əsas istiqamətlər: vergidən yayınanların axtarışı; terrorla mübarizədə vasitələr.

üçün DataMining tətbiqi elmi araşdırma. Əsas istiqamətlər: tibb, biologiya, molekulyar genetika və gen mühəndisliyi, bioinformatika, astronomiya, tətbiqi kimya, narkomaniya ilə bağlı tədqiqatlar və s.

həll etmək üçün DataMining istifadə Veb tapşırıqları. Əsas sahələr: axtarış sistemləri, sayğaclar və s.

Elektron ticarət

Elektron ticarət sahəsində DataMining yaratmaq üçün istifadə olunur

Bu təsnifat şirkətlərə konkret müştəri qruplarını müəyyən etməyə və müştərilərin müəyyən edilmiş maraq və ehtiyaclarına uyğun marketinq siyasəti aparmağa imkan verir. Elektron ticarət üçün DataMining texnologiyası WebMining texnologiyası ilə sıx bağlıdır.

Sənaye istehsalında DataMining-in əsas vəzifələri:

· istehsal vəziyyətlərinin hərtərəfli sistemli təhlili;

· istehsal vəziyyətlərinin inkişafının qısamüddətli və uzunmüddətli proqnozu;

· optimallaşdırma həlləri variantlarının işlənib hazırlanması;

· müəyyən parametrlərdən asılı olaraq məhsulun keyfiyyətinin proqnozlaşdırılması

texnoloji proses;

· istehsalın inkişafında gizli tendensiyaların və qanunauyğunluqların aşkar edilməsi

proseslər;

· inkişafın proqnozlaşdırılması istehsal prosesləri;

· gizli təsir faktorlarının aşkar edilməsi;

· arasında əvvəllər məlum olmayan əlaqələrin aşkarlanması və müəyyən edilməsi

istehsal parametrləri və təsir edən amillər;

· istehsal proseslərinin qarşılıqlı əlaqə mühitinin təhlili və proqnozlaşdırılması

onun xüsusiyyətlərində dəyişikliklər;

proseslər;

· təhlil nəticələrinin vizuallaşdırılması, ilkin hesabatların və layihələrin hazırlanması

mümkün tətbiqlərin etibarlılığı və effektivliyinin qiymətləndirilməsi ilə mümkün həllər.

Marketinq

Marketinq sahəsində DataMining geniş istifadə olunur.

Əsas marketinq sualları: “Nə satılır?”, “Necə satılır?”, “Kimdir

istehlakçı?"

Təsnifat və klasterləşmə problemlərinə dair mühazirə istehlakçıların seqmentasiyası kimi marketinq problemlərinin həlli üçün klaster təhlilindən istifadəni ətraflı təsvir edir.

Marketinq problemlərinin həlli üçün digər ümumi üsullar toplusu assosiasiya qaydalarının axtarışı üçün metodlar və alqoritmlərdir.

Burada temporal nümunələrin axtarışından da uğurla istifadə olunur.

Pərakəndə

Pərakəndə ticarətdə, marketinqdə olduğu kimi, aşağıdakılar istifadə olunur:

· assosiasiya qaydalarının axtarışı üçün alqoritmlər (tez-tez baş verən dəstləri müəyyən etmək üçün

alıcıların eyni vaxtda aldıqları mallar). Bu cür qaydaları müəyyən etmək kömək edir

malları mağaza rəflərində yerləşdirmək, malların alınması üçün strategiyalar hazırlamaq

və onların anbarlarda yerləşdirilməsi və s.

· məsələn, müəyyən etmək üçün vaxt ardıcıllığından istifadə

anbarda tələb olunan mal həcmləri.

· müştərilərin qruplarını və ya kateqoriyalarını müəyyən etmək üçün təsnifat və qruplaşma üsulları,

olan bilik malların uğurlu təşviqinə kömək edir.

Fond bazarı

Burada Data texnologiyasından istifadə etməklə həll edilə bilən birja problemlərinin siyahısı verilmişdir

Mining: · maliyyə alətlərinin gələcək dəyərlərinin və onların göstəricilərinin proqnozlaşdırılması

keçmiş dəyərlər;

· trend proqnozu (hərəkətin gələcək istiqaməti - artım, azalma, düz) maliyyə

alət və onun gücü (güclü, orta güclü və s.);

· müəyyən komplektə görə bazarın, sənayenin, sektorun klaster strukturunun müəyyən edilməsi

xüsusiyyətləri;

· portfelin dinamik idarə edilməsi;

· dəyişkənliyin proqnozu;

· riskin qiymətləndirilməsi;

· böhranın başlanğıcını proqnozlaşdırmaq və onun inkişafının proqnozlaşdırılması;

· aktivlərin seçilməsi və s.

Yuxarıda təsvir edilən fəaliyyət sahələrindən əlavə, DataMining texnologiyası məlumatların təhlilinə ehtiyac olan və müəyyən miqdarda retrospektiv məlumatın toplandığı müxtəlif biznes sahələrində istifadə oluna bilər.

CRM-də DataMining tətbiqi

DataMining-dən istifadə üçün ən perspektivli sahələrdən biri bu texnologiyanın analitik CRM-də istifadəsidir.

CRM (CustomerRelationshipManagement) - müştəri münasibətlərinin idarə edilməsi.

Bu texnologiyalar birlikdə istifadə edildikdə, biliklərin çıxarılması müştəri məlumatlarından "pul çıxarılması" ilə birləşdirilir.

Marketinq və satış departamentlərinin işində mühüm cəhət kompilyasiyadırmüştərilərin vahid görünüşü, onların xüsusiyyətləri, xüsusiyyətləri və müştəri bazasının strukturu haqqında məlumat. CRM sözdə profilləşdirmədən istifadə edirmüştərilər haqqında bütün lazımi məlumatların tam görünüşünü təmin edən müştərilər.

Müştəri profilinin yaradılmasına aşağıdakı komponentlər daxildir: müştəri seqmentasiyası, müştərinin gəlirliliyi, müştərinin saxlanması, müştəri reaksiyasının təhlili. Bu komponentlərin hər biri DataMining-dən istifadə etməklə araşdırıla bilər və onları profilləşdirmə komponentləri kimi birlikdə təhlil etmək, nəticədə hər bir fərdi xüsusiyyətdən əldə etmək mümkün olmayan bilikləri təmin edə bilər.

WebMining

WebMining "İnternetdə məlumatların çıxarılması" kimi tərcümə edilə bilər. WebIntelligence və ya Web.

Kəşfiyyat elektron biznesin sürətli inkişafında “yeni bir fəsil açmağa” hazırdır. Hər bir ziyarətçinin davranışını müşahidə edərək onun maraq və üstünlüklərini müəyyən etmək bacarığı e-ticarət bazarında ciddi və kritik rəqabət üstünlüyüdür.

WebMining sistemləri bir çox suallara cavab verə bilər, məsələn, ziyarətçilərdən hansı Veb mağazanın potensial müştərisidir, hansı qrup Veb mağaza müştəriləri daha çox gəlir gətirir, konkret ziyarətçinin və ya ziyarətçilər qrupunun maraqları nədir.

Metodlar

Metodların təsnifatı

İki qrup üsul var:

retrospektiv məlumatlarda əks olunan orta toplanmış təcrübədən istifadəyə əsaslanan statistik metodlar;
kibernetik metodlar, o cümlədən çoxlu heterojen riyazi yanaşmalar.

Bu təsnifatın mənfi cəhəti ondan ibarətdir ki, həm statistik, həm də kibernetik alqoritmlər bu və ya digər şəkildə statistik təcrübənin mövcud vəziyyətin monitorinqinin nəticələri ilə müqayisəsinə əsaslanır.

Bu təsnifatın üstünlüyü onun şərhinin asanlığıdır - o, ilkin müşahidələr massivlərindən (operativ və retrospektiv) bilik çıxarmaq üçün müasir yanaşmanın riyazi vasitələrini təsvir etmək üçün istifadə olunur, yəni. Data Mining tapşırıqlarında.

Yuxarıda təqdim olunan qruplara daha yaxından nəzər salaq.

Statistik üsullar Data mining

Bunlarda metodlar bir-biri ilə əlaqəli dörd bölməni təmsil edir:

statistik məlumatların xarakterinin ilkin təhlili (stasionarlıq, normallıq, müstəqillik, bircinslik fərziyyələrinin yoxlanılması, paylanma funksiyasının növünün, onun parametrlərinin qiymətləndirilməsi və s.);
əlaqələrin müəyyən edilməsi və naxışlar(xətti və qeyri-xətti reqressiya təhlili, korrelyasiya təhlili və s.);
çoxdəyişənli statistik təhlil (xətti və qeyri-xətti diskriminant analizi, klaster analizi, komponent analizi, faktor analizi və s.);
dinamik modellər və zaman sıralarına əsaslanan proqnoz.

Data Mining üçün statistik metodların arsenalı dörd metod qrupuna təsnif edilir:

Mənbə məlumatlarının təsviri təhlili və təsviri.
Əlaqələrin təhlili (korrelyasiya və reqressiya təhlili, faktor təhlili, dispersiya təhlili).
Çoxvariantlı statistik təhlil (komponent analizi, diskriminant analizi, çoxdəyişənli reqressiya təhlili, kanonik korrelyasiya və s.).
Zaman seriyalarının təhlili (dinamik modellər və proqnozlaşdırma).

Kibernetik məlumatların çıxarılması metodları

Data Mining-in ikinci istiqaməti kompüter riyaziyyatı ideyası və süni intellekt nəzəriyyəsinin istifadəsi ilə birləşən müxtəlif yanaşmalardır.

Bu qrupa aşağıdakı üsullar daxildir:

süni neyron şəbəkələri (tanınma, klasterləşdirmə, proqnozlaşdırma);
təkamül proqramlaşdırması (arqumentlərin qrup uçotu metodu üçün alqoritmlər daxil olmaqla);
genetik alqoritmlər (optimallaşdırma);
assosiativ yaddaş (analoqların, prototiplərin axtarışı);
qeyri-səlis məntiq;
qərar ağacları;
ekspert biliklərinin emalı sistemləri.

Klaster təhlili

Klasterləşmənin məqsədi mövcud strukturları axtarmaqdır.

Klasterləşdirmə təsviri prosedurdur, o, heç bir statistik nəticə çıxarmır, lakin kəşfiyyat xarakterli təhlil aparmaq və “məlumatların strukturunu” öyrənmək imkanı verir.

“Klaster” anlayışının özü birmənalı deyil: hər bir tədqiqatın öz “klasterləri” var. Klaster anlayışı “klaster”, “dəstə” kimi tərcümə olunur. Klaster ümumi xassələrə malik olan obyektlər qrupu kimi xarakterizə edilə bilər.

Bir klasterin xüsusiyyətləri iki kimi təsvir edilə bilər:

daxili homojenlik;
xarici izolyasiya.

Analitiklərin bir çox problemləri həll edərkən verdiyi sual, məlumatları vizual strukturlara necə təşkil etməkdir, yəni. taksonomiyaları genişləndirmək.

Klasterləşmə əvvəlcə biologiya, antropologiya və psixologiya kimi elmlərdə ən çox istifadə edilmişdir. İqtisadi məlumatların və hadisələrin spesifik təbiətinə görə klasterləşmə uzun müddət iqtisadi problemlərin həlli üçün az istifadə edilmişdir.

Klasterlər ayrı və ya eksklüziv (üst-üstə düşməyən, eksklüziv) və üst-üstə düşən ola bilər.

Qeyd etmək lazımdır ki, klaster analizinin müxtəlif üsullarının tətbiqi nəticəsində müxtəlif formalı klasterlər əldə etmək olar. Məsələn, “zəncirli” tipli klasterlər uzun “zəncirlər”, uzunsov klasterlər və s. ilə təmsil olunduqda mümkündür və bəzi üsullar ixtiyari formalı çoxluqlar yarada bilir.

Müxtəlif üsullar xüsusi ölçülərdə (məsələn, kiçik və ya böyük) klasterlər yaratmağa çalışa bilər və ya məlumat dəstində müxtəlif ölçülü klasterlərin olduğunu güman edə bilər. Bəzi klaster təhlili üsulları səs-küyə və ya kənar göstəricilərə xüsusilə həssasdır, digərləri isə daha azdır. Fərqli klasterləşdirmə üsullarından istifadə nəticəsində müxtəlif nəticələr əldə edilə bilər, bu normaldır və müəyyən bir alqoritmin işinin xüsusiyyətidir. Klasterləşdirmə metodunu seçərkən bu xüsusiyyətlər nəzərə alınmalıdır.

Klasterləşməyə yanaşmaların qısa təsvirini verək.

Məlumatların ayrılmasına əsaslanan alqoritmlər (Bölmə alqoritmləri), o cümlədən. iterativ:

obyektlərin k klasterə bölünməsi;
Klasterləşməni yaxşılaşdırmaq üçün obyektlərin təkrar paylanması.
İyerarxialqoritmlər:
Aqlomerasiya: hər bir obyekt əvvəlcə bir çoxluq, çoxluqlar,
bir-biri ilə birləşərək daha böyük klaster əmələ gətirirlər və s.

Sıxlığa əsaslanan üsullar:

obyektləri birləşdirmək qabiliyyətinə əsaslanaraq;
səs-küyə məhəl qoymayın və ixtiyari formada çoxluq tapın.

Grid - üsullar (qrid əsaslı metodlar):

obyektlərin grid strukturlarına kvantlaşdırılması.

Model üsulları (Model əsaslı):

verilənlərə ən yaxşı uyğun gələn klasterləri tapmaq üçün modeldən istifadə etməklə.

Klaster analiz üsulları. İterativ üsullar.

Çox sayda müşahidə ilə, klaster analizinin iyerarxik üsulları uyğun deyil. Belə hallarda bölməyə əsaslanan qeyri-ierarxik üsullardan istifadə olunur ki, bu da ilkin populyasiyanın parçalanmasının iterativ üsullarıdır. Bölmə prosesi zamanı dayandırma qaydası təmin olunana qədər yeni klasterlər formalaşır.

Belə qeyri-ierarxik klasterləşmə verilənlər toplusunun müəyyən sayda fərdi klasterlərə bölünməsindən ibarətdir. İki yanaşma var. Birincisi, mənbə məlumatlarının çoxölçülü məkanında ən sıx sahələr kimi klasterlərin sərhədlərini müəyyən etməkdir, yəni. böyük “nöqtələrin sıxlaşmasının” olduğu klasterin müəyyən edilməsi. İkinci yanaşma obyektlər arasındakı fərq ölçüsünü minimuma endirməkdir

k-alqoritmi deməkdir

Ən çox yayılmış qeyri-ierarxik üsul k-means alqoritmidir, buna da deyilir sürətli klaster analizi. Alqoritmin tam təsviri Hartiqan və Vonqda (1978) tapıla bilər. Klasterlərin sayı ilə bağlı ilkin fərziyyələr tələb etməyən iyerarxik metodlardan fərqli olaraq, bu metoddan istifadə etmək üçün klasterlərin ən çox ehtimal olunan sayı haqqında fərziyyə olmalıdır.

k-means alqoritmi bir-birindən mümkün olan ən böyük məsafədə yerləşən k klasterləri qurur. k-orta alqoritminin həll etdiyi problemlərin əsas növü klasterlərin sayı ilə bağlı fərziyyələrin (fərziyyələrin) olmasıdır və onlar mümkün qədər fərqli olmalıdır. k seçimi əvvəlki tədqiqatlara, nəzəri mülahizələrə və ya intuisiyaya əsaslana bilər.

Alqoritmin ümumi ideyası: müəyyən edilmiş sabit sayda k müşahidə klasterləri çoxluqlarla müqayisə edilir ki, klasterdəki ortalamalar (bütün dəyişənlər üçün) mümkün qədər bir-birindən fərqlənsin.

Alqoritmin təsviri

1. Obyektlərin klasterlərə ilkin paylanması.

k sayı seçilir və birinci mərhələdə bu nöqtələr klasterlərin “mərkəzi” hesab olunur.
Hər bir klaster bir mərkəzə uyğun gəlir.

İlkin mərkəzlərin seçimi aşağıdakı kimi edilə bilər:

ilkin məsafəni maksimuma çatdırmaq üçün k-müşahidələrin seçilməsi;
k-müşahidələrin təsadüfi seçimi;
ilk k-müşahidələrin seçilməsi.

Nəticədə, hər bir obyekt müəyyən bir klasterə təyin olunur.

2. İterativ proses.

Klasterlərin mərkəzləri hesablanır, daha sonra klasterlərin orta koordinatlarını hesablamaq üçün istifadə olunur. Obyektlər yenidən bölüşdürülür.

Mərkəzlərin hesablanması və obyektlərin yenidən bölüşdürülməsi prosesi şərtlərdən biri yerinə yetirilənə qədər davam edir:

klaster mərkəzləri sabitləşdi, yəni. bütün müşahidələr cari iterasiyadan əvvəl aid olduqları klasterə aiddir;
təkrarların sayı təkrarların maksimum sayına bərabərdir.

Şəkil ikiyə bərabər olan k üçün k-orta alqoritminin nümunəsini göstərir.

k-orta alqoritminə nümunə (k=2)

Klasterlərin sayının seçilməsi mürəkkəb məsələdir. Bu rəqəmlə bağlı heç bir fərziyyə yoxdursa, əldə edilən nəticələri müqayisə edərək 2 klaster, sonra 3, 4, 5 və s. yaratmaq tövsiyə olunur.

Klasterləşmənin keyfiyyətinin yoxlanılması

K-vasitələri klaster analizinin nəticələrini aldıqdan sonra, klasterləşmənin düzgünlüyünü yoxlamaq lazımdır (yəni, klasterlərin bir-birindən nə qədər fərqli olduğunu qiymətləndirin).

Bunun üçün hər klaster üçün orta dəyərlər hesablanır. Yaxşı qruplaşma bütün ölçmələr və ya ən azı onların əksəriyyəti üçün çox fərqli vasitələr yaratmalıdır.

k-orta alqoritminin üstünlükləri:

istifadə rahatlığı;
istifadə sürəti;
alqoritmin başa düşülməsi və şəffaflığı.

k-orta alqoritminin çatışmazlıqları:

alqoritm orta göstəricini təhrif edə bilən kənar göstəricilərə çox həssasdır.

Mümkün həll Bu problem alqoritmin modifikasiyasından - k-median alqoritmindən istifadə etməkdir;

alqoritm böyük verilənlər bazalarında yavaş ola bilər. Bu problemin mümkün həlli məlumatların seçilməsindən istifadə etməkdir.

Bayes şəbəkələri

Ehtimal nəzəriyyəsində informasiya asılılığı anlayışı şərti asılılıq (və ya ciddi şəkildə: şərti müstəqilliyin olmaması) vasitəsilə modelləşdirilir ki, bu da faktlar haqqında yeni biliklər əldə etdiyimiz zaman bəzi hadisənin nəticələrinə inamımızın necə dəyişdiyini təsvir edir. bəzi başqa faktlar toplusu.

Bu elementləri qrafikdə birləşdirən istiqamətləndirilmiş yol vasitəsilə elementlər arasındakı asılılıqları təmsil etmək rahat və intuitivdir. Əgər x və y elementləri arasındakı əlaqə birbaşa deyilsə və üçüncü z elementi vasitəsilə həyata keçirilirsə, o zaman x və y arasındakı yolda z elementinin olacağını gözləmək məntiqlidir. Bu cür vasitəçi qovşaqlar x və y arasındakı asılılığı “kəsəcək”, yəni. bilavasitə təsir edən amillərin məlum dəyəri ilə onlar arasında şərti müstəqillik vəziyyətini simulyasiya edin.Belə modelləşdirmə dilləri müəyyən bir mövzu sahəsinin anlayışları arasında şərti asılılıqları təsvir etmək üçün istifadə olunan Bayes şəbəkələridir.

Bayes şəbəkələridir qrafik strukturlarıçoxlu sayda dəyişənlər arasında ehtimal əlaqələrini təmsil etmək və həmin dəyişənlər əsasında ehtimala əsaslanan nəticə çıxarmaq.“Sadəlövh” (Bayesian) təsnifatı kifayət qədər şəffaf və başa düşülən təsnifat üsuludur.“Sadəlövh” adlanır, çünki o, qarşılıqlı fərziyyəyə əsaslanır.işarələrin müstəqilliyi.

Təsnifat xüsusiyyətləri:

1. Bütün dəyişənlərdən istifadə etmək və onlar arasında bütün asılılıqları təyin etmək.

2. Dəyişənlər haqqında iki fərziyyənin olması:

bütün dəyişənlər eyni dərəcədə vacibdir;
bütün dəyişənlər statistik cəhətdən müstəqildir, yəni. bir dəyişənin dəyəri digərinin dəyəri haqqında heç nə demir.

Bayes şəbəkələrindən istifadə üçün iki əsas ssenari var:

1. Təsviri təhlil. Mövzu sahəsi qrafik kimi göstərilir, onun qovşaqları anlayışları, oxlarla göstərilən istiqamətləndirilmiş qövslər isə bu anlayışlar arasında birbaşa asılılıqları göstərir. X və y arasındakı əlaqə o deməkdir ki, x-in dəyərini bilmək y-nin dəyəri haqqında daha yaxşı təxmin etməyə kömək edir. Anlayışlar arasında birbaşa əlaqənin olmaması müəyyən bir "ayırıcı" anlayışlar dəstinin məlum dəyərləri ilə onlar arasındakı şərti müstəqilliyi modelləşdirir. Məsələn, bir uşağın ayaqqabı ölçüsü açıq şəkildə uşağın yaş boyu oxuma qabiliyyəti ilə bağlıdır. Beləliklə, daha böyük ayaqqabı ölçüsü uşağın artıq oxuduğuna daha çox inam verir, lakin biz artıq yaşı biliriksə, ayaqqabı ölçüsünü bilmək artıq bizə vermir. əlavə informasiya uşağın oxumaq qabiliyyəti haqqında.

Başqa bir əks nümunə olaraq, siqaret və soyuqdəymə kimi başlanğıcda əlaqəsi olmayan amilləri nəzərdən keçirin. Amma bir simptom biliriksə, məsələn, bir adam səhərlər öskürəkdən əziyyət çəkirsə, o zaman həmin şəxsin siqaret çəkmədiyini bilmək həmin insanın soyuqdəymə olduğuna inamımızı artırır.

2. Təsnifat və proqnozlaşdırma. Bir sıra konsepsiyaların şərti müstəqilliyinə imkan verən Bayes şəbəkəsi, birgə paylanma parametrlərinin sayını azaltmağa imkan verir, onları mövcud məlumat həcmləri üzrə inamla qiymətləndirməyə imkan verir. Deməli, hər biri 10 qiymət ala bilən 10 dəyişənlə birgə paylanmanın parametrlərinin sayı 10 milyard - 1. Bu dəyişənlər arasında yalnız 2 dəyişənin bir-birindən asılı olduğunu fərz etsək, onda parametrlərin sayı 8 olur. * (10-1) + (10*10-1) = 171. Hesablama resursları baxımından real olan birgə paylama modelinə malik olmaqla biz konsepsiyanın naməlum dəyərini, məsələn, ən çox ehtimal olunan dəyəri kimi proqnozlaşdıra bilərik. bu anlayış digər anlayışların məlum dəyərlərini nəzərə alaraq.

DataMining metodu kimi Bayes şəbəkələrinin aşağıdakı üstünlükləri qeyd olunur:

Model bütün dəyişənlər arasında asılılıqları müəyyən edir, bu, asanlaşdırırbəzi dəyişənlərin qiymətlərinin naməlum olduğu vəziyyətləri idarə etmək;

Bayes şəbəkələrini şərh etmək və icazə vermək olduqca asandırProqnozlaşdırılan modelləşdirmə nə olarsa ssenari təhlilini aparmağı asanlaşdırır;

Bayes metodu naxışları təbii şəkildə birləşdirməyə imkan verir,məlumatlardan əldə edilən nəticələr və məsələn, açıq şəkildə əldə edilən ekspert bilikləri;

Bayes şəbəkələrindən istifadə həddindən artıq uyğunlaşma probleminin qarşısını alır(overfitting), yəni modelin həddindən artıq mürəkkəbləşməsi, bu da zəiflikdirbir çox üsullar (məsələn, qərar ağacları və neyron şəbəkələri).

Naive Bayes yanaşmasının aşağıdakı çatışmazlıqları var:

Yalnız bütün girişlər olduqda şərti ehtimalları çoxaltmaq düzgündürdəyişənlər həqiqətən statistik cəhətdən müstəqildirlər; baxmayaraq ki, tez-tez bu üsulstatistik şərt yerinə yetirilmədikdə kifayət qədər yaxşı nəticələr göstərirmüstəqillik, lakin nəzəri olaraq belə bir vəziyyət daha kompleks tərəfindən idarə edilməlidirBayes şəbəkələrinin təliminə əsaslanan üsullar;

Davamlı dəyişənlərin birbaşa emalı mümkün deyil - onlar tələb olunuratributların diskret olması üçün interval miqyasına çevrilməsi; lakin belətransformasiyalar bəzən əhəmiyyətli nümunələrin itirilməsinə səbəb ola bilər;

Naive Bayes yanaşmasında təsnifat nəticəsi yalnız təsir göstərirgiriş dəyişənlərinin fərdi dəyərləri, cütlərin birləşmiş təsiri və yaburada müxtəlif atributların üçqat dəyərləri nəzərə alınmır. Bu yaxşılaşa bilərproqnozlaşdırma dəqiqliyi baxımından təsnifat modelinin keyfiyyəti,lakin sınaqdan keçirilən variantların sayını artıracaq.

Süni neyron şəbəkələri

Süni neyron şəbəkələri (bundan sonra neyron şəbəkələri) sinxron və asinxron ola bilər.Sinxron neyron şəbəkələrində hər an onun vəziyyəti yalnız dəyişir bir neyron. Asinxronda - vəziyyət dərhal bütün neyronlar qrupunda, bir qayda olaraq, hamısında dəyişir qat. İki var əsas memarlıqlar- laylı və tam əlaqəli şəbəkələr.Laylı şəbəkələrdə əsas anlayış təbəqə anlayışıdır.Qat, girişləri eyni ümumi siqnalı qəbul edən bir və ya bir neçə neyrondur.Laylı neyron şəbəkələri neyronların ayrı-ayrı qruplara (qatlara) bölündüyü neyron şəbəkələridir ki, informasiya qat-qat emal edilir.Laylı şəbəkələrdə i-ci təbəqənin neyronları giriş siqnallarını alır, onları çevirir və budaqlanma nöqtələri vasitəsilə (i+1) təbəqənin neyronlarına ötürür. Və s. istehsal edən k-ci təbəqəyə qədərtərcüməçi və istifadəçi üçün çıxış siqnalları. Hər təbəqədəki neyronların sayı digər təbəqələrdəki neyronların sayı ilə əlaqəli deyil və ixtiyari ola bilər.Bir təbəqə daxilində məlumatlar paralel olaraq işlənir və bütün şəbəkədə emal ardıcıl olaraq - təbəqədən təbəqəyə aparılır. Qatlı neyron şəbəkələrinə, məsələn, çoxlaylı qavrayışlar, radial əsaslı funksiya şəbəkələri, koqnitron, qeyri-koqnitron, assosiativ yaddaş şəbəkələri daxildir.Bununla belə, siqnal həmişə təbəqədəki bütün neyronlara göndərilmir. Məsələn, koqnitronda cari təbəqənin hər bir neyronu yalnız əvvəlki təbəqədə ona yaxın olan neyronlardan siqnal alır.

Laylı şəbəkələr, öz növbəsində, tək qatlı və ya çoxqatlı ola bilər.

Tək qatlı şəbəkə- bir təbəqədən ibarət şəbəkə.

Çoxqatlı şəbəkə- bir neçə təbəqədən ibarət şəbəkə.

Çoxqatlı şəbəkədə birinci qat giriş qatı, sonrakı təbəqələr daxili və ya gizli, sonuncu qat isə çıxış təbəqəsi adlanır. Beləliklə, ara təbəqələr çoxqatlı neyron şəbəkəsində giriş və çıxışdan başqa bütün təbəqələrdir.Şəbəkənin giriş səviyyəsi giriş məlumatları ilə, çıxış səviyyəsi isə çıxışla əlaqə saxlayır.Beləliklə, neyronlar giriş, çıxış və gizli ola bilər.Giriş təbəqəsi məlumatları qəbul edən və şəbəkənin gizli qatındakı neyronların girişlərinə paylayan giriş neyronlarından təşkil edilir.Gizli neyron neyron şəbəkəsinin gizli qatında yerləşən neyrondur.Şəbəkənin çıxış təbəqəsinin təşkil olunduğu çıxış neyronları istehsal edirneyron şəbəkəsinin nəticələri.

Mesh şəbəkələrində Hər bir neyron öz çıxışını digər neyronlara, o cümlədən özünə ötürür. Şəbəkənin çıxış siqnalları şəbəkə əməliyyatının bir neçə dövrəsindən sonra neyronların çıxış siqnallarının hamısı və ya bir hissəsi ola bilər.

Bütün giriş siqnalları bütün neyronlara verilir.

Neyron şəbəkələrin öyrədilməsi

Neyron şəbəkədən istifadə etməzdən əvvəl onu öyrətmək lazımdır.Neyroşəbəkənin öyrədilməsi prosesi onun daxili parametrlərinin müəyyən bir vəzifəyə uyğunlaşdırılmasından ibarətdir.Neyron şəbəkəsi alqoritmi iterativdir; onun addımları dövrlər və ya dövrlər adlanır.Epoxa təlim toplusundan bütün nümunələrin təqdim edilməsi və bəlkə də test toplusunda öyrənmə keyfiyyətinin yoxlanılması daxil olmaqla, təlim prosesində bir təkrarlamadır.çoxlu. Təlim prosesi təlim nümunəsi üzrə həyata keçirilir.Təlim dəstinə verilənlər toplusunun giriş dəyərləri və onlara uyğun çıxış qiymətləri daxildir. Təlim zamanı neyron şəbəkə çıxış sahələri ilə giriş sahələri arasında müəyyən asılılıqlar tapır.Beləliklə, biz sualla qarşılaşırıq - hansı giriş sahələrinə (xüsusiyyətlərə) ehtiyacımız var?istifadə etmək lazımdır. Əvvəlcə seçim evristik olaraq edilir, sonragirişlərin sayı dəyişdirilə bilər.

Yarana biləcək problem məlumat dəstindəki müşahidələrin sayıdır. Tələb olunan müşahidələrin sayı ilə şəbəkənin ölçüsü arasında əlaqəni təsvir edən müəyyən qaydalar olsa da, onların düzgünlüyü sübut olunmamışdır.Tələb olunan müşahidələrin sayı həll olunan problemin mürəkkəbliyindən asılıdır. Xüsusiyyətlərin sayı artdıqca müşahidələrin sayı qeyri-xətti olaraq artır; bu problem “ölçülülüyün lənəti” adlanır. Kəmiyyət çatışmazlığı halındaverilənlər üçün xətti modeldən istifadə etmək tövsiyə olunur.

Analitik şəbəkədəki təbəqələrin sayını və hər qatdakı neyronların sayını müəyyən etməlidir.Sonra, çəki və ofsetlərin bu cür dəyərlərini təyin etməlisinizqərar səhvini minimuma endirmək. Təlim xətası adlanan istənilən və qəbul edilmiş çıxış siqnalları arasındakı fərqi minimuma endirmək üçün çəkilər və meyllər avtomatik tənzimlənir.Qurulmuş neyron şəbəkəsi üçün təlim xətası müqayisə edilərək hesablanırçıxış və hədəf (arzu olunan) dəyərlər. Səhv funksiyası yaranan fərqlərdən əmələ gəlir.

Səhv funksiyası prosesdə minimuma endirilməsini tələb edən məqsəd funksiyasıdırneyron şəbəkəsinin nəzarətli öyrənilməsi.Səhv funksiyasından istifadə edərək, təlim zamanı neyron şəbəkənin keyfiyyətini qiymətləndirə bilərsiniz. Məsələn, kvadrat xətlərin cəmindən tez-tez istifadə olunur.Neyron şəbəkənin təlim keyfiyyəti onun qarşıya qoyulan vəzifələri həll etmək qabiliyyətini müəyyənləşdirir.

Neyron şəbəkənin yenidən hazırlanması

Neyroşəbəkələri öyrədərkən tez-tez adlanan ciddi bir çətinlik yaranırhəddindən artıq uyğunlaşma problemi.Həddindən artıq uyğunlaşma və ya çox uyğunlaşma - həddindən artıq uyğunlaşmaneyron şəbəkəsi şəbəkənin itirdiyi xüsusi təlim nümunələri toplusunaümumiləşdirmə qabiliyyəti.Həddindən artıq məşq kifayət qədər çox olmayanda baş verirtəlim nümunələri və ya həddindən artıq mürəkkəb neyron şəbəkə strukturu.Yenidən hazırlıq təlim dəstinin seçilməsi ilə bağlıdırtəsadüfidir. Öyrənin ilk addımlarından xəta azalır. Aktivsəhv (məqsəd funksiyası) parametrlərini azaltmaq üçün sonrakı addımlartəlim dəstinin xüsusiyyətlərinə uyğunlaşmaq. Bununla belə, bu baş verirSeriyanın ümumi nümunələrinə deyil, onun hissəsinin xüsusiyyətlərinə "tənzimləmə" -təlim alt dəsti. Eyni zamanda, proqnozun dəqiqliyi azalır.Şəbəkənin həddindən artıq təlimi ilə mübarizə variantlarından biri təlim nümunəsini iki yerə bölməkdirdəstlər (təlim və sınaq).Neyroşəbəkə təlim dəstində öyrədilir. Qurulmuş model sınaq dəstində yoxlanılır. Bu çoxluqlar kəsişməməlidir.Hər addımda model parametrləri dəyişir, lakin daimi azalmaMəqsəd funksiyasının dəyəri məhz təlim çoxluğunda baş verir. Dəsti ikiyə böldükdə, təlim toplusunda müşahidələrlə paralel olaraq test toplusunda proqnoz xətasının dəyişməsini müşahidə edə bilərik. bəziləriproqnoz səhv addımlarının sayı hər iki dəstdə azalır. Bununla belə, üzərindəMüəyyən bir addımda sınaq dəstindəki xəta artmağa başlayır, məşq dəstindəki xəta isə azalmağa davam edir. Bu an yenidən hazırlığın başlanğıcı hesab olunur

DataMining Alətləri

Qlobal proqram təminatı bazarının DataMining sektorunun inkişafında həm dünyaca məşhur liderlər, həm də yeni inkişaf edən şirkətlər iştirak edir. DataMining alətləri ya müstəqil proqram kimi, ya da əsas məhsula əlavələr kimi təqdim edilə bilər.Sonuncu seçim bir çox proqram təminatı bazarının liderləri tərəfindən həyata keçirilir.Beləliklə, universal statistik paketlərin tərtibatçılarının ənənəvi statistik təhlil metodlarından əlavə, paketə daxil etməsi artıq ənənə halını almışdır.DataMining metodlarının xüsusi dəsti. Bunlar kimi paketlərdir SPSS (SPSS, Clementine), Statistica (StatSoft), SAS İnstitutu (SAS Enterprise Miner). Bəzi OLAP həlli təminatçıları həmçinin Cognos məhsullar ailəsi kimi DataMining metodları dəsti təklif edirlər. DBMS funksionallığına DataMining həllərini daxil edən təchizatçılar var: bunlar Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMIntelligentMinerforData).

Biblioqrafiya

Abdikeev N.M. Danko T.P. İldemenov S.V. Kiselev A.D., “Biznes prosesinin yenidən qurulması. MBA kursu”, M.: Eksmo nəşriyyatı, 2005. - 592 s. - (MBA)

Abdikeev N.M., Kiselev A.D. “Korporasiyada biliklərin idarə edilməsi və biznes reinjinirinqi” - M.: İnfra-M, 2011. - 382 s. – ISBN 978-5-16-004300-5

Barseqyan A.A., Kupriyanov M.S., Stepanenko V.V., Xolod İ.İ. “Məlumatların təhlilinin metodları və modelləri: OLAP və məlumatların işlənməsi”, Sankt-Peterburq: BHV-Peterburq, 2004, 336 s., ISBN 5-94157-522-X

Duke IN., Samoilenko A., “Data Mining.Təlim kursu" Sankt-Peterburq: Peter, 2001, 386 s.

Chubukova I.A., Data Mining kursu, http://www.intuit.ru/department/database/datamining/

IanH. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Data Mining: Practical Machine Learning Tools and Techniques (Üçüncü Nəşr), ISBN 978-0-12-374856-0

Petrushin V.A. , Khan L. , Multimedia Data Mining and Knowledge Discovery

Rusiya Federasiyasının Təhsil və Elm Nazirliyi

Federal Dövlət Büdcə Ali Peşə Təhsili Təşkilatı

"Milli Tədqiqat TOMSK POLİTEXNIK UNİVERSİTETİ"

Kibernetika İnstitutu

İstiqamət İnformatika və Kompüter Elmləri

VT şöbəsi

Test

informatika və kompüter mühəndisliyi fənni üzrə

Mövzu: Data Mining Metodları

Giriş

Data Mining. Əsas anlayışlar və təriflər

1 Data mining prosesində addımlar

2 İntellektual analiz sistemlərinin komponentləri

3 Məlumatların çıxarılması üsulları

Data Mining Metodları

1 Assosiasiya qaydalarının törəməsi

2 Neyron şəbəkəsi alqoritmləri

3 Ən yaxın qonşu və k-ən yaxın qonşu üsulları

4 Qərar ağacları

5 Klasterləşdirmə alqoritmləri

6 Genetik alqoritmlər

Tətbiq sahələri

Data Mining alətlərinin istehsalçıları

Metodların tənqidi

Nəticə

Biblioqrafiya

Giriş

İnkişafın nəticəsi informasiya texnologiyaları-da toplanmış məlumatların böyük miqdarıdır elektron formatda, sürətlə böyüyür. Eyni zamanda, məlumatlar, bir qayda olaraq, heterojen bir quruluşa malikdir (mətnlər, şəkillər, audio, video, hipermətn sənədləri, əlaqəli verilənlər bazaları). üçün yığılmışdır uzun müddətli məlumatlar planlama, proqnozlaşdırma, qərar qəbul etmə və prosesə nəzarət üçün dəyərli məlumatlar olan nümunələr, meyllər və əlaqələri ehtiva edə bilər. Bununla belə, insanlar fiziki olaraq bu cür heterojen məlumatları effektiv şəkildə təhlil edə bilmirlər. Ənənəvi riyazi statistikanın üsulları uzun müddətdir ki, məlumatların təhlili üçün əsas vasitə olduğunu iddia edir. Bununla belə, onlar yeni fərziyyələrin sintezinə imkan vermir, lakin yalnız əvvəlcədən hazırlanmış fərziyyələri və onlayn analitik emalın (OLAP) əsasını təşkil edən “kobud” kəşfiyyat analizini təsdiqləmək üçün istifadə edilə bilər. Çox vaxt, sonrakı qərarların qəbulu üçün təhlil apararkən ən çətin vəzifəyə çevrilən bir fərziyyənin formalaşdırılmasıdır, çünki məlumatdakı bütün nümunələr ilk baxışdan aydın deyil. Buna görə də, Data Mining texnologiyaları informasiya texnologiyaları sənayesində tədqiqat və tətbiq üçün ən vacib və perspektivli mövzulardan biri hesab olunur. Bu halda verilənlərin öyrənilməsi böyük həcmli məlumatlara əsaslanan yeni, düzgün və potensial faydalı biliklərin müəyyən edilməsi prosesinə aiddir. Beləliklə, MIT Technology Review Data Mining-i dünyanı dəyişdirəcək on yeni inkişaf edən texnologiyadan biri kimi təsvir etdi.

1. Data Mining. Əsas anlayışlar və təriflər

Data Mining, insan fəaliyyətinin müxtəlif sahələrində qərar qəbul etmək üçün lazım olan, əvvəllər məlum olmayan, qeyri-trivial, praktiki olaraq faydalı və şərh edilə bilən biliklərin “xam” şəklində aşkar edilməsi prosesidir.

Data Mining texnologiyasının mahiyyəti və məqsədi aşağıdakı kimi formalaşdırıla bilər: bu, qeyri-aşkar, obyektiv və praktik nümunələr üçün böyük həcmli məlumatların axtarışı üçün nəzərdə tutulmuş texnologiyadır.

Qeyri-aşkar qanunauyğunluqlar informasiyanın emalının standart üsulları və ya ekspert təhlili ilə aşkar edilə bilməyən nümunələrdir.

Obyektiv nümunələr həmişə subyektiv olan ekspert rəyindən fərqli olaraq reallığa tam uyğun gələn nümunələr kimi başa düşülməlidir.

Bu məlumat təhlili konsepsiyası aşağıdakıları nəzərdə tutur:

§ məlumatlar qeyri-dəqiq, natamam (çatışmazlıqlar ehtiva edir), ziddiyyətli, heterojen, dolayı ola bilər və eyni zamanda nəhəng həcmlərə malik ola bilər; buna görə də, xüsusi tətbiqlərdə məlumatların başa düşülməsi əhəmiyyətli intellektual səy tələb edir;

§ verilənlərin təhlili alqoritmlərinin özləri “intellekt elementlərinə” malik ola bilər, xüsusən də presedentlərdən öyrənmək, yəni xüsusi müşahidələr əsasında ümumi nəticələr çıxarmaq bacarığı; belə alqoritmlərin işlənib hazırlanması da əhəmiyyətli intellektual səy tələb edir;

§ xam verilənlərin informasiyaya, informasiyanın isə biliyə çevrilməsi prosesləri əl ilə həyata keçirilə bilməz və avtomatlaşdırma tələb olunur.

Data Mining texnologiyası verilənlərdə çoxölçülü əlaqələrin fraqmentlərini əks etdirən şablonlar konsepsiyasına əsaslanır. Bu nümunələr insan tərəfindən oxuna bilən formada kompakt şəkildə ifadə oluna bilən verilənlərin alt nümunələrinə xas olan nümunələri təmsil edir.

Nümunələrin axtarışı nümunənin strukturu və təhlil edilən göstəricilərin dəyərlərinin paylanma növü ilə bağlı a priori fərziyyələrlə məhdudlaşmayan metodlardan istifadə etməklə həyata keçirilir.

· assosiasiya – hadisələrin bir-biri ilə bağlı olma ehtimalının yüksək olması. Assosiasiyaya misal olaraq mağazada tez-tez birlikdə alınan əşyalar ola bilər;

· ardıcıllıq - zamanla əlaqəli hadisələr zəncirinin yüksək ehtimalı. Ardıcıllığa misal olaraq, bir məhsulun alınmasından sonra müəyyən müddət ərzində digərinin yüksək ehtimalla alınacağı bir vəziyyət göstərilə bilər;

· təsnifat - bu və ya digər hadisə və ya obyektin aid olduğu qrupa xas əlamətlər var;

· klasterləşmə təsnifata oxşar nümunədir və ondan qrupların özləri göstərilməməsi ilə fərqlənir - verilənlərin emalı zamanı onlar avtomatik olaraq müəyyən edilir;

· temporal qanunauyğunluqlar - müəyyən məlumatların davranış dinamikasında nümunələrin olması. Vaxt modelinin tipik nümunəsi müəyyən mal və ya xidmətlərə tələbin mövsümi dəyişməsidir.

1.1 Data mining prosesində addımlar

Ənənəvi olaraq verilənlərin əldə edilməsi prosesində aşağıdakı mərhələlər fərqləndirilir:

1. Mövzu sahəsinin öyrənilməsi, bunun nəticəsində təhlilin əsas məqsədləri formalaşdırılır.

2. Məlumatların toplanması.

Məlumatların əvvəlcədən işlənməsi:

a. Məlumatların təmizlənməsi - mənbə məlumatlarından uyğunsuzluqların və təsadüfi "səs-küyün" aradan qaldırılması

b. Verilənlərin inteqrasiyası - bir neçə mümkün mənbədən məlumatların bir depoda birləşdirilməsi. Məlumatların çevrilməsi. Bu mərhələdə məlumatlar təhlil üçün uyğun formaya çevrilir. Məlumatların yığılması, atributların seçilməsi, məlumatların sıxılması və ölçülərin azaldılması tez-tez istifadə olunur.

4. Məlumatların təhlili. Bu mərhələnin bir hissəsi olaraq nümunələri çıxarmaq üçün mədən alqoritmlərindən istifadə olunur.

5. Tapılan naxışların şərhi. Bu mərhələ çıxarılan nümunələrin vizuallaşdırılmasını, bəzi faydalı funksiyalara əsaslanan həqiqətən faydalı nümunələrin müəyyən edilməsini əhatə edə bilər.

Yeni biliklərdən istifadə.

1.2 İntellektual analiz sistemlərinin komponentləri

Tipik olaraq, məlumatların öyrənilməsi sistemləri aşağıdakı əsas komponentlərə malikdir:

1. Verilənlər bazası, məlumat anbarı və ya digər məlumat anbarı. Bu, təmizlənə və inteqrasiya oluna bilən bir və ya bir neçə verilənlər bazası, məlumat anbarı, elektron cədvəllər və ya digər növ anbarlar ola bilər.

2. Verilənlər bazası və ya verilənlər anbarı serveri. Müəyyən edilmiş server istifadəçi sorğusu əsasında əsas məlumatların alınmasına cavabdehdir.

Bilik bazası. Bu, yaranan nümunələrin faydalılığını necə axtarmağı və qiymətləndirməyi istiqamətləndirən domen biliyidir.

Bilik mədənçilik xidməti. O, məlumatların öyrənilməsi sisteminin ayrılmaz hissəsidir və xarakterləşdirmə, assosiasiya axtarışı, təsnifat, klaster təhlili və variasiya təhlili kimi tapşırıqlar üçün funksional modullar toplusunu ehtiva edir.

Nümunələrin qiymətləndirilməsi modulu. Bu komponent nümunələrin maraq və ya faydalılıq ölçülərini hesablayır.

Qrafik istifadəçi interfeysi. Bu modul istifadəçi ilə verilənlərin öyrənilməsi sistemi arasında əlaqəyə, müxtəlif formalarda nümunələrin vizuallaşdırılmasına cavabdehdir.

1.3 Məlumatların çıxarılması üsulları

Data Mining texnologiyasında istifadə olunan analitik metodların əksəriyyəti tanınmış riyazi alqoritmlər və metodlardır. Onların tətbiqində yeni olan, aparat və proqram təminatının yaranan imkanlarına görə müəyyən konkret problemlərin həllində onlardan istifadənin mümkünlüyüdür. Qeyd edək ki, Data Mining metodlarının əksəriyyəti süni intellekt nəzəriyyəsi çərçivəsində hazırlanıb. Ən çox istifadə edilən üsullara nəzər salaq:

Assosiasiya qaydalarının törəməsi.

2. İdeyası sinir toxumasının fəaliyyəti ilə bənzətməyə əsaslanan və ilkin parametrlərin "neyronlar" arasındakı mövcud əlaqələrə uyğun olaraq çevrilən siqnallar kimi qəbul edilməsinə əsaslanan neyron şəbəkəsi alqoritmləri. və bütün şəbəkənin reaksiyası ilkin məlumatlara təhlil nəticəsində yaranan cavab kimi qəbul edilir.

Mövcud tarixi məlumatlardan orijinal məlumatların yaxın analoqunun seçilməsi. “Ən yaxın qonşu” metodu da adlanır.

Qərar ağacları “Bəli” və ya “Xeyr” cavabını tələb edən suallar toplusuna əsaslanan iyerarxik strukturdur.

Klaster modelləri oxşar hadisələri məlumat dəstindəki bir neçə sahənin oxşar dəyərlərinə əsaslanan qruplara qruplaşdırmaq üçün istifadə olunur.

Növbəti fəsildə yuxarıda göstərilən üsulları daha ətraflı təsvir edəcəyik.

2. Data Mining Metodlar

2.1 Assosiasiya qaydalarına dair nəticə

Assosiasiya qaydaları “əgər... onda...” formasının qaydalarıdır. Verilənlər toplusunda bu cür qaydaları axtarmaq, bir-biri ilə əlaqəsi olmayan məlumatlarda gizli əlaqələri aşkar edir. Assosiasiya qaydalarını tapmaq üçün ən çox istinad edilən nümunələrdən biri alış-veriş səbətində sabit əlaqələr tapmaq problemidir. Bu problem müştərilər tərəfindən hansı məhsulların birlikdə alındığını müəyyən etməkdir ki, marketoloqlar satışı artırmaq üçün bu məhsulları mağazaya uyğun şəkildə yerləşdirə bilsinlər.

Assosiasiya qaydaları (X1,X2,…,Xn) -> Y formasının ifadələri kimi müəyyən edilir, burada Y-nin eyni əməliyyatda X1,X2,…,Xn olması şərti ilə əməliyyatda mövcud ola biləcəyi nəzərdə tutulur. Qeyd etmək lazımdır ki, “ol” sözü qaydanın eynilik olmadığını, ancaq bəzi ehtimalla kifayətləndiyini bildirir. Bundan əlavə, Y yalnız bir element deyil, elementlər toplusu ola bilər. X1,X2,...,Xn elementlərini ehtiva edən əməliyyatda Y-nin tapılma ehtimalı güvən adlanır. Əməliyyatların ümumi sayından qaydanı ehtiva edən əməliyyatların faizinə dəstək deyilir. Qaydanın inamını aşmalı olan inam səviyyəsinə maraqlılıq deyilir.

Müxtəlif növ birləşmə qaydaları var. Ən sadə formada assosiasiya qaydaları yalnız birliyin mövcudluğunu və ya yoxluğunu bildirir. Belə qaydalara Boolean Assosiasiya Qaydaları deyilir. Belə bir qaydaya misal: “qatıq alan müştərilər az yağlı kərə yağı da alırlar”.

Bir neçə assosiasiya qaydalarını qruplaşdıran qaydalar Çoxsəviyyəli və ya Ümumiləşdirilmiş Assosiasiya Qaydaları adlanır. Belə qaydaları qurarkən elementlər adətən iyerarxiyaya görə qruplaşdırılır və axtarış ən yüksək konseptual səviyyədə aparılır. Məsələn, “süd alan müştərilər çörək də alır”. Bu nümunədə süd və çörək müxtəlif növ və markaların iyerarxiyasını ehtiva edir, lakin aşağı səviyyədə axtarış maraqlı qaydaları aşkar etməyəcək.

Daha mürəkkəb qayda növü Kəmiyyət Assosiasiyası Qaydalarıdır. Bu qayda növü kəmiyyət (məsələn, qiymət) və ya kateqoriyalı (məsələn, gender) atributlardan istifadə etməklə axtarılır və ( , ,…,} -> . Məsələn, "yaşı 30-35 yaş arasında olan, illik gəliri 75.000-dən çox olan alıcılar qiyməti 20.000-dən yuxarı olan avtomobillər alırlar".

Yuxarıda göstərilən qayda növləri əməliyyatların öz təbiətinə görə zamandan asılı olması faktına toxunmur. Məsələn, məhsul satışa çıxarılmazdan əvvəl və ya o, bazardan yoxa çıxdıqdan sonra axtarış dəstək həddinə mənfi təsir göstərəcək. Bunu nəzərə alaraq, müvəqqəti assosiasiya qaydalarının axtarışı üçün alqoritmlərdə (Müvəqqəti Assosiasiya Qaydaları) atribut ömrü anlayışı tətbiq edilmişdir.

Birləşmə qaydalarının axtarışı problemi ümumiyyətlə iki hissəyə bölünə bilər: tez-tez baş verən element dəstlərinin axtarışı və tapılan tez-tez baş verən dəstlər əsasında qaydalar yaradılması. Əvvəlki tədqiqatlar, əksər hallarda, bu xətləri izləmiş və onları müxtəlif istiqamətlərdə genişləndirmişdir.

Apriori alqoritminin meydana çıxmasından bəri, bu alqoritm ilk addımda ən çox istifadə olunur. Sürət və miqyasda bir çox təkmilləşdirmələr, məsələn, Apriori alqoritmini təkmilləşdirməyə, onun ən çox rast gəlinən elementlər dəstləri üçün çoxlu namizəd yaratmaq kimi səhv xüsusiyyətini düzəltməyə yönəldilmişdir. Apriori yalnız istifadə edərək elementlər dəstini yaradır böyük dəstlər, əməliyyatları yenidən nəzərdən keçirmədən əvvəlki addımda tapıldı. Dəyişdirilmiş AprioriTid alqoritmi yalnız ilk keçiddə verilənlər bazasından istifadə etməklə Apriori üzərində təkmilləşir. Sonrakı addımlarda hesablama zamanı yalnız ilk keçiddə yaradılmış və ölçüsünə görə orijinal verilənlər bazasından xeyli kiçik olan məlumatlar istifadə olunur. Bu, məhsuldarlığın böyük artımına səbəb olur. AprioriHybrid adlanan alqoritmin daha təkmil versiyasını ilk bir neçə keçiddə Aprioridən istifadə etməklə və sonra k-ci namizəd dəstləri artıq tamamilə kompüter yaddaşında yerləşə bildiyi zaman sonrakı keçidlərdə AprioriTid-ə keçməklə əldə etmək olar.

Apriori alqoritmini təkmilləşdirmək üçün əlavə səylər alqoritmin paralelləşdirilməsi (Saymaların paylanması, Məlumatların bölüşdürülməsi, Namizədlərin paylanması və s.), onun miqyasının artırılması (Məlumatların İntellektual Paylanması, Hibrid Distribution), yeni məlumat strukturlarının, məsələn, ağacların tətbiqi ilə bağlıdır. tez-tez baş verən elementlər (FP-böyümə ).

İkinci mərhələ, əsasən, orijinallığı və maraqlılığı ilə xarakterizə olunur. Yeni modifikasiyalar ənənəvi Boolean qayda qaydalarına yuxarıda təsvir edilən ölçü, keyfiyyət və vaxt dəstəyini əlavə edir. Qaydaları tapmaq üçün tez-tez təkamül alqoritmi istifadə olunur.

2.2 Neyron şəbəkə alqoritmləri

Süni neyron şəbəkələri riyazi aparatın insanın sinir sisteminin fəaliyyətinin öyrənilməsinə onun təkrar istehsalı məqsədi ilə tətbiqi nəticəsində meydana çıxdı. Məhz: sinir sisteminin səhvləri öyrənmək və düzəltmək qabiliyyəti, bu, insan beyninin işini təqribən də olsa, simulyasiya etməyə imkan verəcəkdir. Neyron şəbəkəsinin əsas struktur və funksional hissəsi Şəkil 1-də göstərilən formal neyrondur. 1, burada x0, x1,..., xn giriş siqnal vektorunun komponentləri, w0,w1,...,wn neyron giriş siqnallarının çəkilərinin qiymətləri, y isə neyron çıxışıdır. siqnal.

düyü. 1. Formal neyron: sinapslar (1), toplayıcı (2), çevirici (3).

Formal neyron 3 növ elementdən ibarətdir: sinapslar, toplayıcı və çevirici. Sinaps iki neyron arasındakı əlaqənin gücünü xarakterizə edir.

Toplayıcı əvvəllər müvafiq çəkilərlə vurulan giriş siqnallarını əlavə edir. Konvertor bir arqumentin funksiyasını - toplayıcının çıxışını həyata keçirir. Bu funksiya neyronun aktivləşdirmə funksiyası və ya ötürmə funksiyası adlanır.

Yuxarıda təsvir edilən formal neyronlar elə birləşdirilə bilər ki, bəzi neyronların çıxış siqnalları digərlərinə giriş olsun. Nəticədə bir-biri ilə əlaqəli neyronlar toplusu süni neyron şəbəkələri adlanır. neyron şəbəkələri, ANN) və ya qısaca desək, neyron şəbəkələri.

Neyron şəbəkəsindəki mövqeyindən asılı olaraq aşağıdakı üç ümumi neyron növü vardır:

Giriş siqnallarının verildiyi giriş neyronları (giriş qovşaqları). Belə neyronlar adətən vahid çəki ilə bir girişə malikdir, heç bir qərəz yoxdur və neyron çıxış dəyəri giriş siqnalına bərabərdir;

Çıxış dəyərləri neyron şəbəkəsinin nəticədə çıxan çıxış siqnallarını təmsil edən çıxış qovşaqları;

Giriş siqnalları ilə birbaşa əlaqəsi olmayan gizli neyronlar (gizli qovşaqlar), gizli neyronların çıxış siqnallarının dəyərləri ANN-in çıxış siqnalları deyil.

Neyronlararası əlaqələrin strukturuna əsasən ANN-lərin iki sinfi fərqləndirilir:

Siqnalın yalnız giriş neyronlarından çıxış neyronlarına yayıldığı ANN-lər.

Təkrarlanan ANN - ilə ANN rəy. Belə ANN-lərdə siqnallar ANN-də yerləşməsindən asılı olmayaraq istənilən neyronlar arasında ötürülə bilər.

ANN-i öyrətmək üçün iki ümumi yanaşma var:

Müəllimlə məşq.

Müəllimsiz öyrənmək.

Nəzarət olunan təlim əvvəlcədən hazırlanmış təlim nümunələri toplusundan istifadəni nəzərdə tutur. Hər bir misalda giriş siqnallarının vektoru və verilən tapşırıqdan asılı olan istinad çıxış siqnallarının müvafiq vektoru var. Bu dəst təlim dəsti və ya təlim dəsti adlanır. Neyroşəbəkə təlimi ANN çıxış siqnallarının dəyərləri giriş siqnallarının verilmiş vektoru üçün çıxış siqnallarının tələb olunan dəyərlərindən mümkün qədər az fərqlənəcək şəkildə ANN əlaqələrinin çəkilərini dəyişdirməyə yönəldilmişdir. .

Nəzarətsiz öyrənmədə əlaqə çəkiləri ya neyronlar arasında rəqabət nəticəsində, ya da aralarında əlaqə olan neyronların çıxış siqnallarının korrelyasiyası nəzərə alınmaqla tənzimlənir. Nəzarətsiz öyrənmə zamanı heç bir təlim dəsti istifadə edilmir.

Neyron şəbəkələri kosmik gəmilər üçün faydalı yükün planlaşdırılması və valyuta məzənnələrinin proqnozlaşdırılması kimi geniş spektrli problemləri həll etmək üçün istifadə olunur. Bununla belə, modelin mürəkkəbliyi (bir neçə yüz sinirlərarası əlaqənin çəkiləri kimi qeydə alınan biliklər insan təhlili və şərhindən tamamilə kənardır) və böyük bir məşq dəstində uzun məşq müddəti səbəbindən verilənlərin öyrənilməsi sistemlərində tez-tez istifadə edilmir. Digər tərəfdən, neyron şəbəkələri məlumatların təhlili tapşırıqlarında istifadə üçün səs-küylü məlumatlara qarşı müqavimət və yüksək dəqiqlik kimi üstünlüklərə malikdir.

2.3 Ən yaxın qonşu və k-yaxın qonşu üsulları

Ən yaxın qonşu alqoritminin (ən yaxın qonşu alqoritmi) və k-ən yaxın qonşu alqoritminin (KNN) əsasını obyektlərin oxşarlığı təşkil edir. Ən yaxın qonşu alqoritmi bütün məlum obyektlər arasında yeni əvvəllər naməlum obyektə mümkün qədər yaxın olan obyekti (obyektlər arasındakı məsafə metrikasından istifadə etməklə, məsələn, Evklid) seçir. Ən yaxın qonşu metodu ilə bağlı əsas problem onun təlim məlumatlarında kənar göstəricilərə həssaslığıdır.

Təsvir edilən problemdən bütün müşahidələr arasında yeni obyektə bənzər k-yaxın qonşuları müəyyən edən KNN alqoritmi ilə qarşısını almaq olar. Ən yaxın qonşuların siniflərinə əsasən yeni obyektlə bağlı qərar verilir. Bu alqoritmin mühüm vəzifəsi k əmsalını - oxşar hesab ediləcək qeydlərin sayını seçməkdir. Qonşunun töhfəsinin yeni obyektə olan məsafəyə mütənasib olduğu alqoritmin modifikasiyası (k-çəkili ən yaxın qonşular metodu) daha yüksək təsnifat dəqiqliyinə nail olmağa imkan verir. Ən yaxın qonşuların k metodu da proqnozun düzgünlüyünü qiymətləndirməyə imkan verir. Məsələn, k ən yaxın qonşuların hamısı eyni sinifə malikdirsə, sınaqdan keçirilən obyektin eyni sinfə sahib olma ehtimalı çox yüksəkdir.

Alqoritmin xüsusiyyətləri arasında onun anomal kənar göstəricilərə qarşı müqavimətini qeyd etmək lazımdır, çünki belə bir rekordun k-ən yaxın qonşuların sayına daxil olma ehtimalı azdır. Əgər bu baş veribsə, onda səsverməyə (xüsusilə çəkilmiş) təsir (k>2 üçün) çox güman ki, əhəmiyyətsiz olacaq və buna görə də təsnifat nəticəsinə təsir də az olacaq. Həmçinin, üstünlüklər həyata keçirilməsinin sadəliyi, alqoritmin nəticəsinin təfsirinin asanlığı, alqoritmi konkret tapşırığa uyğunlaşdırmağa imkan verən ən uyğun kombinasiya funksiyaları və metriklərdən istifadə etməklə alqoritmi dəyişdirmək imkanıdır. KNN alqoritminin də bir sıra çatışmazlıqları var. Birincisi, alqoritm üçün istifadə olunan məlumat dəsti reprezentativ olmalıdır. İkincisi, modeli verilənlərdən ayırmaq olmaz: yeni nümunəni təsnif etmək üçün bütün nümunələrdən istifadə edilməlidir. Bu xüsusiyyət alqoritmin istifadəsini xeyli məhdudlaşdırır.

2.4 Qərar ağacları

“Qərar ağacları” termini təsnifat qaydalarının iyerarxik, ardıcıl strukturda təmsil olunmasına əsaslanan alqoritmlər ailəsinə aiddir. Bu, verilənlərin öyrənilməsi problemlərinin həlli üçün alqoritmlərin ən məşhur sinfidir.

Qərar ağaclarının qurulması üçün alqoritmlər ailəsi digər oxşar hallar haqqında çoxlu məlumatlara əsaslanaraq müəyyən bir hal üçün parametrin dəyərini proqnozlaşdırmağa imkan verir. Tipik olaraq, bu ailənin alqoritmləri bütün ilkin məlumatları bir neçə diskret qrupa bölməyə imkan verən problemləri həll etmək üçün istifadə olunur.

Qərar ağacının qurulması alqoritmlərini ilkin məlumatlar toplusuna tətbiq edərkən nəticə ağac kimi göstərilir. Bu cür alqoritmlər bu cür bölmənin bir neçə səviyyəsini həyata keçirməyə imkan verir, nəticədə yaranan qrupları (ağac budaqlarını) digər xüsusiyyətlərə əsasən daha kiçiklərə bölür. Bölmə proqnozlaşdırılan dəyərlər eyni olana qədər davam edir (və ya proqnozlaşdırılan parametrin davamlı dəyəri olduqda, bağlanır) bütün nəticələnən qruplar (ağacın yarpaqları). Bu model əsasında proqnozlar vermək üçün istifadə olunan bu dəyərlərdir.

Qərar ağaclarının qurulması üçün alqoritmlərin işləməsi reqressiya və korrelyasiya təhlili metodlarından istifadəyə əsaslanır. Bu ailənin ən məşhur alqoritmlərindən biri ağac budağındakı məlumatların iki uşaq budağa bölünməsinə əsaslanan CART (Təsnifat və Reqressiya Ağacları)dır; Üstəlik, müəyyən bir filialın sonrakı bölünməsi bu filialın nə qədər ilkin məlumatları təsvir etməsindən asılıdır. Bəzi digər oxşar alqoritmlər budağı daha çox uşaq budaqlarına bölməyə imkan verir. Bu halda, bölmə bölmənin baş verdiyi parametr ilə sonradan proqnozlaşdırılmalı olan parametr arasında filial tərəfindən təsvir edilən məlumatlar üçün ən yüksək korrelyasiya əmsalı əsasında aparılır.

Yaklaşmanın populyarlığı aydınlıq və aydınlıqla əlaqələndirilir. Lakin qərar ağacları verilənlərdə “ən yaxşı” (ən tam və dəqiq) qaydaları tapmaqda əsaslı olaraq acizdirlər. Onlar xüsusiyyətlərin ardıcıl baxılmasının sadəlövh prinsipini həyata keçirirlər və əslində real nümunələrin hissələrini tapırlar, yalnız məntiqi nəticə illüziyasını yaradırlar.

2.5 Klasterləşdirmə alqoritmləri

Klasterləşdirmə obyektlər toplusunu klaster adlanan qruplara bölmək vəzifəsidir. Klasterləşdirmə ilə təsnifatın əsas fərqi qrupların siyahısının dəqiq müəyyən edilməməsi və alqoritmin işləməsi zamanı müəyyən edilməsidir.

Ümumilikdə klaster analizinin tətbiqi aşağıdakı addımlardan keçir:

· qruplaşma üçün obyektlərin nümunəsinin seçilməsi;

· nümunədəki obyektlərin qiymətləndiriləcəyi dəyişənlər toplusunun müəyyən edilməsi. Lazım gələrsə, dəyişənlərin dəyərlərini normallaşdırın;

· obyektlər arasında oxşarlıq ölçülərinin qiymətlərinin hesablanması;

· oxşar obyektlərin (klasterlərin) qruplarını yaratmaq üçün klaster təhlili metodunun tətbiqi;

· təhlil nəticələrinin təqdimatı.

Nəticələri qəbul edib təhlil etdikdən sonra optimal nəticə əldə olunana qədər seçilmiş metrik və klasterləşdirmə metodunu tənzimləmək mümkündür.

Klasterləşdirmə alqoritmlərinə iyerarxik və düz qruplar daxildir. İerarxik alqoritmlər (həmçinin taksonomiya alqoritmləri adlanır) nümunənin yalnız bir bölməsini ayrı-ayrı qruplara deyil, iç-içə arakəsmələr sistemini də qurur. Beləliklə, alqoritmin çıxışı kökü bütün nümunə, yarpaqlar isə ən kiçik klasterlər olan klasterlər ağacıdır. Düz alqoritmlər obyektlərin bir hissəsini bir-biri ilə kəsişməyən klasterlərə qurur.

Klasterləşdirmə alqoritmlərinin başqa bir təsnifatı aydın və qeyri-səlis alqoritmlərdir. Aydın (və ya üst-üstə düşməyən) alqoritmlər hər bir nümunə obyektinə klaster nömrəsi təyin edir, yəni hər bir obyekt yalnız bir klasterə aiddir. Qeyri-səlis (və ya kəsişən) alqoritmlər hər bir obyektə obyektin klasterlərlə əlaqə dərəcəsini göstərən bir sıra real dəyərlər təyin edir. Beləliklə, hər bir obyekt müəyyən bir ehtimalla hər klasterə aiddir.

İerarxik klasterləşdirmə alqoritmləri arasında iki əsas növ var: aşağıdan yuxarıya və yuxarıdan aşağıya alqoritmlər. Yuxarıdan aşağıya alqoritmlər yuxarıdan aşağıya prinsipi ilə işləyir: əvvəlcə bütün obyektlər bir klasterdə yerləşdirilir, sonra isə daha kiçik və daha kiçik klasterlərə bölünür. Daha çox yayılmış olan aşağıdan yuxarı alqoritmlərdir ki, onlar hər bir obyekti ayrıca klasterə yerləşdirməklə başlayır və sonra nümunədəki bütün obyektlər bir klasterdə toplanana qədər klasterləri daha böyük və daha böyüklərə birləşdirirlər. Beləliklə, yuvalanmış arakəsmələr sistemi qurulur. Belə alqoritmlərin nəticələri adətən ağac şəklində təqdim olunur.

İerarxik alqoritmlərin dezavantajı həll olunan problem kontekstində lazımsız ola bilən tam bölmələr sistemidir.

İndi düz alqoritmləri nəzərdən keçirək. Bu sinif arasında ən sadəi kvadratik xəta alqoritmləridir. Bu alqoritmlər üçün klaster problemi obyektlərin qruplara optimal bölgüsünün qurulması kimi qəbul edilə bilər. Bu halda, optimallıq bölmənin orta kvadrat xətasını minimuma endirmək tələbi kimi müəyyən edilə bilər:

Harada c j - klasterin “kütlə mərkəzi” j(müəyyən klaster üçün orta xarakteristikası olan nöqtə).

Bu kateqoriyada ən çox yayılmış alqoritm k-means metodudur. Bu alqoritm bir-birindən mümkün qədər uzaqda yerləşən müəyyən sayda klaster qurur. Alqoritmin işi bir neçə mərhələyə bölünür:

Təsadüfi seçin k klasterlərin ilkin “kütlə mərkəzləri” olan nöqtələr.

2. Hər bir obyekti ən yaxın “kütlə mərkəzi” olan klasterə təyin edin.

Alqoritmin dayandırma meyarı təmin edilmirsə, 2-ci addıma qayıdın.

Alqoritmin dayandırılması üçün meyar kimi adətən orta kvadrat xətadakı minimum dəyişiklik seçilir. 2-ci addımda çoxluqdan klasterə keçən obyektlər olmadıqda alqoritmi dayandırmaq da mümkündür. Bu alqoritmin çatışmazlıqlarına bölmək üçün klasterlərin sayını təyin etmək ehtiyacı daxildir.

Ən məşhur qeyri-səlis klasterləşdirmə alqoritmi c-means alqoritmidir. Bu, k-vasitələr metodunun modifikasiyasıdır. Alqoritm addımları:

1. İlkin qeyri-səlis bölməni seçin n obyektlər üzərində kÜzvlük matrisini seçməklə klasterlər Uölçüsü n x k.

2. U matrisindən istifadə edərək qeyri-səlis xəta meyarının qiymətini tapın:

Harada c k - qeyri-səlis klasterin “kütlə mərkəzi” k:

3. Bu qeyri-səlis xəta meyarının dəyərini azaltmaq üçün obyektləri yenidən qruplaşdırın.

4. Matris dəyişənə qədər 2-ci addıma qayıdın Uəhəmiyyətsiz olmayacaq.

Əgər klasterlərin sayı əvvəlcədən məlum deyilsə və ya hər bir obyekti bir klasterə birmənalı olaraq təyin etmək lazımdırsa, bu alqoritm uyğun olmaya bilər.

Növbəti qrup alqoritmlər qrafik nəzəriyyəsinə əsaslanan alqoritmlərdir. Belə alqoritmlərin mahiyyəti ondan ibarətdir ki, obyektlərin seçimi qrafik şəklində təqdim olunur. G=(V, E) təpələri obyektlərə uyğun gələn və kənarları cisimlər arasındakı "məsafə" bərabər çəkiyə malik olan . Qrafik klasterləşdirmə alqoritmlərinin üstünlükləri aydınlıq, nisbi icra asanlığı və həndəsi mülahizələrə əsaslanan müxtəlif təkmilləşdirmələr təqdim etmək imkanıdır. Əsas alqoritmlər əlaqəli komponentlərin müəyyən edilməsi alqoritmi, minimum əhatə edən ağacın qurulması alqoritmi və lay-lay klaster alqoritmidir.

Parametr seçmək üçün R Adətən cüt məsafələrin paylanmasının histoqramı qurulur. Məlumatların yaxşı müəyyən edilmiş klaster strukturu olan tapşırıqlarda histoqramın iki zirvəsi olacaq - biri çoxluqdaxili məsafələrə, ikincisi çoxluqlararası məsafələrə uyğundur. Parametr R bu zirvələr arasındakı minimum zonadan seçilir. Eyni zamanda, məsafə həddindən istifadə edərək klasterlərin sayına nəzarət etmək olduqca çətindir.

Minimum əhatə edən ağac alqoritmi əvvəlcə qrafikdə minimum yayılma ağacı qurur və sonra ardıcıl olaraq ən böyük çəkiyə malik kənarları silir. Lay-lay klasterləşdirmə alqoritmi obyektlər (təpə nöqtələri) arasında müəyyən məsafələr səviyyəsində əlaqəli qrafik komponentlərinin müəyyən edilməsinə əsaslanır. Məsafə səviyyəsi məsafə həddi ilə müəyyən edilir c. Məsələn, obyektlər arasındakı məsafə , onda .

Lay-lay klaster alqoritmi qrafikin alt qrafiklərinin ardıcıllığını yaradır G klasterlər arasında iyerarxik əlaqələri əks etdirən:

Harada G t = (V, E t ) - səviyyə qrafiki ilə t, ,

ilə t - t-ci məsafə həddi, m - iyerarxiya səviyyələrinin sayı,
G 0 = (V, o), o - tərəfindən alınan qrafik kənarlarının boş dəstidir t 0 = 1,
G m = G, yəni məsafə məhdudiyyəti olmayan obyektlərin qrafiki (qrafikin kənarlarının uzunluğu), çünki t m = 1.

Məsafə hədlərini dəyişdirərək ( ilə 0 , …, İlə m), burada 0 = ilə 0 < ilə 1 < …< ilə m = 1, nəticədə yaranan klasterlərin iyerarxiyasının dərinliyinə nəzarət etmək mümkündür. Beləliklə, lay-lay klasterləşdirmə alqoritmi verilənlərin həm düz, həm də iyerarxik bölməsini yaratmağa qadirdir.

Klasterləşmə aşağıdakı məqsədlərə çatmağa imkan verir:

· struktur qrupları müəyyən etməklə məlumatların başa düşülməsini təkmilləşdirir. Nümunəni oxşar obyektlərin qruplarına bölmək hər bir klasterə fərqli təhlil metodunu tətbiq etməklə məlumatların sonrakı emalı və qərar qəbulunu sadələşdirməyə imkan verir;

· məlumatları yığcam saxlamağa imkan verir. Bunu etmək üçün, bütün nümunəni saxlamaq əvəzinə, hər klasterdən bir tipik müşahidə saxlaya bilərsiniz;

· heç bir klasterə düşməyən yeni atipik obyektlərin aşkar edilməsi.

Tipik olaraq, klasterləşdirmə məlumatların təhlilində köməkçi üsul kimi istifadə olunur.

2.6 Genetik alqoritmlər

Genetik alqoritmlər müxtəlif tipli (kombinatorial, məhdudiyyətli və məhdudiyyətsiz ümumi məsələlər) və müxtəlif mürəkkəblik dərəcələrinin həllinə imkan verən universal optimallaşdırma üsulları sırasındadır. Eyni zamanda, genetik alqoritmlər landşaftı hamar olmayan geniş məkanda həm tək meyarlı, həm də çox kriteriyalı axtarışın mümkünlüyü ilə xarakterizə olunur.

Bu metodlar qrupu seçim, mutasiya və kəsişmə əməliyyatları daxil olmaqla, modellərin nəsilləri ardıcıllığının iterativ təkamül prosesindən istifadə edir. Alqoritmin əvvəlində əhali təsadüfi şəkildə formalaşır. Kodlanmış həllərin keyfiyyətini qiymətləndirmək üçün hər bir fərdin uyğunluğunu hesablamaq üçün lazım olan fitnes funksiyasından istifadə olunur. Fərdlərin qiymətləndirilməsinin nəticələrinə əsasən, onların arasından keçid üçün ən uyğun olanı seçilir. Seçilmiş fərdlərin genetik krossover operatorunun tətbiqi ilə kəsişməsi nəticəsində genetik məlumatı valideyn fərdləri arasında xromosom məlumatlarının mübadiləsi nəticəsində formalaşan nəsillər yaradılır. Yaradılan nəsillər yeni populyasiya təşkil edir və nəsillərin bəziləri mutasiyaya uğrayır ki, bu da onların genotiplərində təsadüfi dəyişikliklə ifadə olunur. “Əhalinin qiymətləndirilməsi” - “Seçmə” - “Kəsişmə” - “Mutasiya” ardıcıllığı daxil olmaqla mərhələ nəsil adlanır. Populyasiyanın təkamülü belə nəsillərin ardıcıllığından ibarətdir.

Keçid üçün şəxslərin seçilməsi üçün aşağıdakı alqoritmlər fərqlənir:

· Panmiksiya. Valideyn cütlüyünü təşkil edəcək hər iki şəxs bütün əhali arasından təsadüfi seçilir. İstənilən şəxs bir neçə cütün üzvü ola bilər. Bu yanaşma universaldır, lakin alqoritmin səmərəliliyi əhalinin sayının artması ilə azalır.

· Seçim. Valideynlər ən azı orta fiziki hazırlığa malik şəxslər ola bilərlər. Bu yanaşma alqoritmin daha sürətli yaxınlaşmasını təmin edir.

· Qohumluq. Metod yaxın qohumluğa əsaslanan cütlüyün formalaşmasına əsaslanır. Burada qohumluq həm parametr fəzasında fərdlərin həndəsi məsafəsi, həm də genotiplər arasında olan Heminq məsafəsi mənasında populyasiya üzvləri arasındakı məsafə kimi başa düşülür. Buna görə də genotipik və fenotipik qohumluq arasında fərq qoyulur. Keçiriləcək cütlüyün birinci üzvü təsadüfi seçilir, ikincinin isə ona ən yaxın olan fərd olma ehtimalı daha yüksəkdir. Qohumluq, axtarışların yerli qovşaqlarda cəmlənməsi xüsusiyyəti ilə xarakterizə oluna bilər ki, bu da faktiki olaraq landşaftın ekstremal üçün şübhəli olan əraziləri ətrafında əhalinin ayrı-ayrı yerli qruplara bölünməsinə gətirib çıxarır.

· Outbreeding. Ən uzaq fərdlər üçün uzaq qohumluğa əsaslanan bir cütün formalaşması. Outbreeding, alqoritmin artıq tapılmış həllər üzərində yaxınlaşmasının qarşısını almaq məqsədi daşıyır, alqoritmi yeni, araşdırılmamış sahələrə baxmağa məcbur edir.

Yeni əhalinin formalaşması üçün alqoritmlər:

· Yer dəyişdirmə ilə seçim. Eyni genotipə malik olan bütün fərdlərdən fitnəsi daha yüksək olanlara üstünlük verilir. Beləliklə, iki məqsədə nail olunur: müxtəlif xromosom dəstlərinə malik olan tapılan ən yaxşı həllər itirilmir və populyasiyada kifayət qədər genetik müxtəliflik daim saxlanılır. Köçürmə, tapılan cari həll ətrafında qruplaşan fərdlərin əvəzinə, uzaqda yerləşən fərdlərin yeni populyasiyasını formalaşdırır. Bu üsul multiekstremal problemlər üçün istifadə olunur.

· Elit seçim. Elit seçim üsulları seçimin əhalinin ən yaxşı üzvlərinin sağ qalmasını təmin edəcəyini təmin edir. Eyni zamanda, ən yaxşı fərdlərdən bəziləri heç bir dəyişiklik etmədən sonrakı nəslə ötürülür. Elit seçimlə təmin edilən sürətli yaxınlaşma valideyn cütlərinin seçilməsi üçün uyğun üsulla kompensasiya edilə bilər. Bu vəziyyətdə tez-tez autbredinqdən istifadə olunur. Ən təsirli olanlardan biri olan "outbreeding - elit seleksiya" nın bu birləşməsidir.

· Turnir seçimi. Turnir seçimi n nəfəri seçmək üçün n turnir həyata keçirir. Hər bir turnir əhali arasından k elementin seçilməsi və onların arasından ən yaxşı fərdin seçilməsi üzərində qurulur. Ən çox yayılmış k = 2 ilə turnir seçimidir.

Data Mining sahəsində genetik alqoritmlərin ən populyar tətbiqlərindən biri ən optimal modelin axtarışıdır (müəyyən sahənin xüsusiyyətlərinə uyğun gələn alqoritmin axtarışı). Genetik alqoritmlər ilk növbədə neyron şəbəkələrin və çəkilərin topologiyasını optimallaşdırmaq üçün istifadə olunur. Bununla belə, onlar müstəqil bir vasitə kimi də istifadə edilə bilər.

3. Proqramlar

Data Mining texnologiyası, əslində, istənilən növ məlumatların təhlili üçün universal alətlər toplusu olmaqla, həqiqətən geniş tətbiq sahəsinə malikdir.

Marketinq

Data mining texnologiyalarının tətbiq olunduğu ilk sahələrdən biri marketinq sahəsidir. Data Mining metodlarının inkişafının başladığı vəzifə alış-veriş səbətinin təhlili adlanır.

Bu vəzifə alıcıların birlikdə almağa meylli olduğu məhsulları müəyyən etməkdir. Alış-veriş səbətini bilmək reklam kampaniyalarının aparılması, müştərilərə fərdi tövsiyələrin formalaşdırılması, malların inventarlarının yaradılması strategiyasının işlənib hazırlanması və onların satış sahələrində yerləşdirilməsi yolları üçün lazımdır.

Həmçinin marketinqdə daha uğurlu tanıtım üçün məhsulun hədəf auditoriyasının müəyyən edilməsi kimi vəzifələr həll edilir; Müəssisələrə inventar qərarları verməyə kömək edən müvəqqəti nümunə tədqiqatı; müəssisələrə müəyyən davranışlarla müxtəlif kateqoriyalı müştərilərin ehtiyaclarının xarakterini tanımağa imkan verən proqnozlaşdırıcı modellərin yaradılması; müştəri sədaqətinin proqnozlaşdırılması, onun davranışını təhlil edərkən müştərinin getmə anını əvvəlcədən müəyyən etməyə və bəlkə də dəyərli müştərinin itkisinin qarşısını almağa imkan verir.

sənaye

Bu sahədə vacib sahələrdən biri monitorinq və keyfiyyətə nəzarətdir ki, burada analiz alətlərindən istifadə etməklə avadanlıqların nasazlığını, nasazlıqların baş verməsini proqnozlaşdırmaq və təmir işlərini planlaşdırmaq mümkündür. Müəyyən funksiyaların populyarlığının proqnozlaşdırılması və adətən hansı funksiyaların birlikdə sifariş edildiyini bilmək istehsalı optimallaşdırmağa və onu istehlakçıların real ehtiyaclarına yönəltməyə kömək edir.

Dərman

Tibbdə məlumatların təhlili də kifayət qədər uğurla istifadə olunur. Tapşırıqlara misal olaraq müayinə nəticələrinin təhlili, diaqnostika, müalicə üsullarının və dərman vasitələrinin effektivliyinin müqayisəsi, xəstəliklər və onların yayılmasının təhlili, əlavə təsirlərin müəyyən edilməsi daxildir. Dərmanlar və yan təsirlər arasında əlaqəni müəyyən etmək üçün assosiasiya qaydaları və ardıcıl nümunələr kimi Data Mining texnologiyalarından uğurla istifadə edilmişdir.

Molekulyar genetika və gen mühəndisliyi

Bəlkə də eksperimental məlumatlarda nümunələri aşkar etmək üçün ən kəskin və eyni zamanda aydın vəzifədir molekulyar genetika və gen mühəndisliyi. Burada canlı orqanizmin müəyyən fenotipik xüsusiyyətlərini idarə edən genetik kodlar kimi başa düşülən markerlərin tərifi kimi formalaşdırılır. Bu cür kodlar yüzlərlə, minlərlə və ya daha çox əlaqəli elementləri ehtiva edə bilər. Analitik məlumatların təhlilinin nəticəsi həm də insan DNT ardıcıllığında baş verən dəyişikliklər və müxtəlif xəstəliklərin inkişaf riski arasında genetik alimlər tərəfindən aşkar edilən əlaqədir.

Tətbiqi kimya

Data Mining metodları tətbiqi kimya sahəsində də istifadə olunur. Burada tez-tez xassələrini müəyyən edən müəyyən birləşmələrin kimyəvi quruluşunun xüsusiyyətlərini aydınlaşdırmaq sualı yaranır. Bu tapşırıq, təsviri yüzlərlə və minlərlə struktur elementləri və onların birləşmələrini özündə birləşdirən mürəkkəb kimyəvi birləşmələri təhlil edərkən xüsusilə aktualdır.

Cinayətlə mübarizə

Data Mining alətləri təhlükəsizlik sahəsində nisbətən yaxınlarda istifadə edilmişdir, lakin bu sahədə verilənlərin əldə edilməsinin effektivliyini təsdiqləyən praktiki nəticələr artıq əldə edilmişdir. İsveçrə alimləri gələcək hadisələri proqnozlaşdırmaq üçün etiraz fəaliyyətini təhlil etmək üçün sistem və dünyada yaranan kibertəhlükələri və haker hərəkətlərini izləmək üçün sistem hazırlayıblar. Ən son sistem kiber təhlükələri və digər riskləri proqnozlaşdırmağa imkan verir informasiya təhlükəsizliyi. Kredit kartı saxtakarlığını aşkar etmək üçün Data Mining metodlarından da uğurla istifadə olunur. Sonradan saxta olduğu ortaya çıxan keçmiş əməliyyatları təhlil edərək, bank bu cür dələduzluğun bəzi nümunələrini müəyyən edir.

Digər proqramlar

· Risk təhlili. Məsələn, ödənilmiş iddialarla bağlı amillərin birləşməsini müəyyən etməklə, sığortaçılar öz öhdəlikləri üzrə zərərləri azalda bilərlər. ABŞ-da böyük bir sığorta şirkətinin evli insanların iddiaları üzrə ödənilən məbləğlərin subayların iddiaları üzrə ödənilən məbləğlərdən iki dəfə çox olduğunu aşkar etdiyi məlum bir hadisə var. Şirkət bu yeni biliyə cavab olaraq ailə müştərilərinə endirimlər təklif etmək üzrə ümumi siyasətinə yenidən baxdı.

· Meteorologiya. Neyroşəbəkə üsullarından istifadə edərək hava proqnozu, xüsusən də özünü təşkil edən Kohonen xəritələrindən istifadə olunur.

· Kadr siyasəti. Təhlil alətləri HR xidmətlərinə onların rezyumelərinin məlumat təhlili əsasında ən uğurlu namizədləri seçməyə kömək edir və müəyyən bir vəzifə üçün ideal işçilərin xüsusiyyətlərini modelləşdirir.

4. Data Mining alətlərinin istehsalçıları

Data Mining alətləri ənənəvi olaraq bahalı proqram məhsullarıdır. Buna görə də, yaxın vaxtlara qədər bu texnologiyanın əsas istehlakçıları banklar, maliyyə və sığorta şirkətləri, iri ticarət müəssisələri idi və Data Mining-dən istifadəni tələb edən əsas vəzifələr kredit və sığorta risklərinin qiymətləndirilməsi və marketinq siyasətinin hazırlanması hesab olunurdu. , tarif planları və müştərilərlə işin digər prinsipləri. Son illərdə vəziyyət müəyyən dəyişikliklərə məruz qalmışdır: proqram bazarında nisbətən ucuz Data Mining alətləri və hətta sərbəst paylanmış sistemlər peyda olmuşdur ki, bu da bu texnologiyanı kiçik və orta biznes üçün əlçatan etmişdir.

Ödənişli alətlər və məlumatların təhlili sistemləri arasında liderlər SAS İnstitutu (SAS Enterprise Miner), SPSS (SPSS, Clementine) və StatSoft (STATISTICA Data Miner)dır. Tanınmış həllər Angoss (Angoss KnowledgeSTUDIO), IBM (IBM SPSS Modeler), Microsoft (Microsoft Analysis Services) və (Oracle) Oracle Data Mining-dəndir.

Pulsuz proqram təminatının seçimi də müxtəlifdir. JHepWork, KNIME, Orange, RapidMiner kimi universal analiz alətləri və xüsusi alətlər var, məsələn, Carrot2 - mətn məlumatlarının və axtarış nəticələrinin qruplaşdırılması üçün çərçivə, Chemicalize.org - tətbiqi kimya sahəsində həll, NLTK (Natural Language Toolbar) təbii dil emal aləti.

5. Metodların tənqidi

Data Mining-in nəticələri əsasən bəzi alqoritmin və ya alqoritmlər dəstinin “gözəl imkanlarından” deyil, məlumatların hazırlanması səviyyəsindən asılıdır. Data Mining-də işin təxminən 75%-i təhlil alətləri tətbiq edilməzdən əvvəl baş verən məlumatların toplanmasından ibarətdir. Alətlərdən savadsız istifadə şirkətin potensialının, bəzən isə milyonlarla dolların israfına səbəb olacaq.

Data Mining, Data Warehousing və CRM sahəsində dünya şöhrətli ekspert Herb Edelstein-in rəyi: “İki Qarğanın son araşdırması göstərdi ki, Data Mining hələ inkişafının ilkin mərhələsindədir. Bir çox təşkilat bu texnologiya ilə maraqlanır, lakin yalnız bir neçəsi bu cür layihələri aktiv şəkildə həyata keçirir. Daha birini tapmağı bacardı mühüm məqam: Data Mining-in praktikada tətbiqi prosesi gözlənildiyindən daha mürəkkəbdir.Data Mining alətlərinin istifadəsinin asan olması barədə mif komandaları öz üzərinə götürür. Güman edilir ki, belə bir aləti terabayt verilənlər bazasında işə salmaq kifayətdir və dərhal faydalı məlumatlar görünəcək. Əslində, uğurlu Data Mining layihəsi fəaliyyətin başa düşülməsini, verilənlər və alətlər haqqında bilikləri və məlumatların təhlili prosesini tələb edir”. Beləliklə, Data Mining texnologiyasından istifadə etməzdən əvvəl metodların tətbiq etdiyi məhdudiyyətləri və onunla əlaqəli kritik məsələləri diqqətlə təhlil etmək, həmçinin texnologiyanın imkanlarını ayıq şəkildə qiymətləndirmək lazımdır. Kritik məsələlərə aşağıdakılar daxildir:

1. Texnologiya soruşulmamış suallara cavab verə bilməz. O, analitiki əvəz edə bilməz, ancaq ona işini asanlaşdırmaq və təkmilləşdirmək üçün güclü bir vasitə verir.

2. Data Mining proqramının hazırlanması və istismarının mürəkkəbliyi.

Çünki bu texnologiya multidissiplinar sahədir, Data Mining-i ehtiva edən proqram hazırlamaq üçün müxtəlif sahələrdən mütəxəssisləri cəlb etmək, həmçinin onların yüksək keyfiyyətli qarşılıqlı əlaqəsini təmin etmək lazımdır.

3. İstifadəçinin ixtisasları.

Fərqli Data Mining alətləri interfeysin müxtəlif dərəcədə istifadəçi dostuna malikdir və müəyyən istifadəçi keyfiyyətləri tələb edir. Buna görə də proqram təminatı istifadəçinin təlim səviyyəsinə uyğun olmalıdır. Data Mining-dən istifadə istifadəçinin ixtisaslarının təkmilləşdirilməsi ilə ayrılmaz şəkildə əlaqələndirilməlidir. Bununla belə, hal-hazırda biznes proseslərini yaxşı bilən Data Mining mütəxəssisləri azdır.

4. Məlumatın mahiyyətini yaxşı dərk etmədən faydalı informasiyanın çıxarılması mümkün deyil.

Modelin diqqətlə seçilməsi və aşkar edilmiş asılılıqların və ya nümunələrin şərhi tələb olunur. Buna görə də, bu cür alətlərlə işləmək bir domen mütəxəssisi ilə Data Mining aləti mütəxəssisi arasında sıx əməkdaşlıq tələb edir. Davamlı modellər, modellərin qiymətləndirilməsinə və yenilənməsinə imkan vermək üçün biznes proseslərinə ağıllı şəkildə inteqrasiya edilməlidir. Bu yaxınlarda Data Mining sistemləri məlumat anbarı texnologiyasının bir hissəsi kimi təqdim olunur.

5. Məlumatların hazırlanmasında çətinlik.

Uğurlu təhlil yüksək keyfiyyətli məlumatların əvvəlcədən işlənməsini tələb edir. Analitiklərin və verilənlər bazası istifadəçilərinin fikrincə, ilkin emal prosesi bütün Data Mining prosesinin 80%-ni tuta bilər.

Beləliklə, texnologiyanın özü üçün işləməsi üçün ilkin məlumatların təhlilinə, model seçiminə və onun tənzimlənməsinə gedən çox səy və vaxt tələb olunacaq.

6. Yanlış, etibarsız və ya faydasız nəticələrin böyük faizi.

Data Mining texnologiyalarından istifadə edərək, siz gələcək planlaşdırma, idarəetmə və qərarların qəbul edilməsində əhəmiyyətli üstünlük təmin edə biləcək həqiqətən çox dəyərli məlumat tapa bilərsiniz. Bununla belə, Data Mining metodlarından istifadə etməklə əldə edilən nəticələr çox vaxt yanlış və mənasız nəticələrə malikdir. Bir çox ekspertlər iddia edirlər ki, Data Mining alətləri çoxlu sayda statistik etibarsız nəticələr verə bilər. Belə nəticələrin faizini azaltmaq üçün əldə edilmiş modellərin test məlumatlarına uyğunluğunu yoxlamaq lazımdır. Ancaq yanlış nəticələrdən tamamilə qaçmaq mümkün deyil.

7. Yüksək qiymət.

Keyfiyyətli proqram təminatı tərtibatçının əhəmiyyətli səyinin nəticəsidir. Buna görə də, Data Mining proqramı ənənəvi olaraq bahalı proqram məhsuludur.

8. Kifayət qədər təmsilçi məlumatların mövcudluğu.

Data Mining alətləri, statistik vasitələrdən fərqli olaraq, nəzəri cəhətdən ciddi şəkildə müəyyən edilmiş tarixi məlumatların miqdarını tələb etmir. Bu xüsusiyyət etibarsız, yalançı modellərin aşkarlanmasına və nəticədə onların əsasında yanlış qərarların qəbul edilməsinə səbəb ola bilər. Aşkar edilmiş biliklərin statistik əhəmiyyətinə nəzarət etmək lazımdır.

neyron şəbəkəsi alqoritminin toplanması məlumatların çıxarılması

Nəticə

Dana qısa təsviri tətbiq sahələri və Data Mining texnologiyasının tənqidi və bu sahədə mütəxəssislərin rəyini təmin edir.

Siyahıədəbiyyat

1. Han və Micheline Kamber. Data Mining: Konsepsiyalar və Texnikalar. İkinci Nəşr. - Urbana-Champaign İllinoys Universiteti

Berry, Michael J. A. Data mining üsulları: marketinq, satış və müştəri münasibətlərinin idarə edilməsi üçün - 2-ci nəşr.

Siu Nin Lam. Data Mining-də Assosiasiya Qaydalarının Kəşf edilməsi. - Urbana-Champaign-də İllinoys Universitetinin Kompüter Elmləri Departamenti

Kateqoriyada məşhur:

Kompüterdə karaoke klipini necə yaratmaq olar?

oxumaq

Oynamaq üçün Origin proqramı tələb olunur, lakin FIFA quraşdırılmayıb...

oxumaq

Facebook sosial şəbəkəsində şəxsi səhifənin qeydiyyatı

oxumaq

Sadə Nmap Nmap Skanını necə işə salmaq olar

oxumaq

Şəkli bir neçə dərəcə çevirmək necə...

oxumaq

Yandex brauzerində reklamın söndürülməsi Harada...

oxumaq

Wi-Fi bağlantısı problemlərinin aradan qaldırılması...

oxumaq

Windows 10 profilində parolu dəyişdirin

oxumaq

Simsiz marşrutlaşdırıcıların qurulması üçün təlimatlar...

oxumaq

Sərt diski necə seçmək və hansını almaq daha yaxşıdır...

oxumaq

Meizu kuklalar üçün. Zənglər və ünvan kitabçası....

oxumaq

PDFMaster proqramını yükləyin

oxumaq

Məlum verilənlərdə naməlum nümunələr. Müasir Data Mining-ə giriş. Ən yaxın qonşu və k-ən yaxın qonşu üsulları

3. Mətn məlumatlarının təhlili - Text Mining

Nəticə

Biblioqrafiya

Təhlil və müstəqil həyata keçirən informasiya sistemlərinin müasir bazarının təsnifatı, m

Ağıllı istedadlı uşaqların məktəb fəaliyyəti ilə bağlı qabiliyyətləri

2020-ci ildə StatSoft Data Analysis Academy-də gələcək Data Mining kursları

Video 1. Data Mining nədir?

Video 2. Məlumatların çıxarılması üsullarının nəzərdən keçirilməsi: qərar ağacları, ümumiləşdirilmiş proqnoz modelləri, klasterləşdirmə və daha çox

Video 3. Verilənlər bazası ilə qarşılıqlı əlaqə qaydası: SQL sorğularının qurulması üçün qrafik interfeys, verilənlər bazasının yerində emal texnologiyası

Video 4: İnteraktiv Qazma: İnteraktiv Məlumat Kəşfiyyatı üçün Kəşfiyyat və Qrafika Texnikaları

Video 5. Assosiasiya qaydaları

Vebinar 1. Vebinar “Məlumat Mininginin praktiki vəzifələri: problemlər və həllər”

Vebinar 2. Vebinar "Məlumat Mining və Mətn Mining: real problemlərin həlli nümunələri"

Data Mining üçün mənbə məlumat

Data Mining metodları ilə müəyyən edilmiş nümunələrin növləri

Məlumatların çıxarılması üsulları

Data Mining alətlərinin aparıcı istehsalçıları

Aşkar edilmiş biliyin xassələri

DataMining Tapşırıqları

Təsnifat

Klasterləşmə

Assosiasiyalar

Ardıcıllıq və ya ardıcıl birləşmə

Reqressiya, proqnozlaşdırma (proqnozlaşdırma)

Əlavə tapşırıqlar

Klasterləşmə və təsnifatın müqayisəsi

DataMining-in tətbiqi sahələri

Metodlar

Metodların təsnifatı

Klaster təhlili

k-alqoritmi deməkdir

Bayes şəbəkələri

Süni neyron şəbəkələri

DataMining Alətləri

Biblioqrafiya

1.2 İntellektual analiz sistemlərinin komponentləri

1.3 Məlumatların çıxarılması üsulları

2.1 Assosiasiya qaydalarına dair nəticə

2.2 Neyron şəbəkə alqoritmləri

2.3 Ən yaxın qonşu və k-yaxın qonşu üsulları

2.4 Qərar ağacları

2.5 Klasterləşdirmə alqoritmləri