Neznani vzorci v znanih podatkih. Uvod v sodobno podatkovno rudarjenje. Metoda najbližjega soseda in k-najbližjih sosedov

Orodja za rudarjenje podatkov

Trenutno je tehnologija podatkovnega rudarjenja predstavljena s številnimi komercialnimi in prosto distribuiranimi programskimi izdelki. Dokaj popoln in redno posodobljen seznam teh izdelkov je na voljo na spletni strani www. kdnuggets. com, posvečen podatkovnemu rudarjenju. Programske izdelke podatkovnega rudarjenja je mogoče razvrstiti po enakih načelih, kot so podlaga za razvrstitev same tehnologije. Vendar pa takšna razvrstitev ne bo imela praktične vrednosti. Zaradi velike konkurence na trgu in želje po popolnosti tehničnih rešitev številni izdelki Data Mining pokrivajo dobesedno vse vidike uporabe analitičnih tehnologij. Zato je bolj smiselno razvrstiti izdelke Data Mining glede na to, kako so implementirani in temu primerno kakšen potencial za integracijo ponujajo. Očitno je tudi to konvencija, saj takšno merilo ne omogoča začrtanja jasnih meja med izdelki. Vendar ima takšna razvrstitev eno nedvomno prednost. Omogoča vam hitro odločitev o izbiri ene ali druge že pripravljene rešitve pri inicializaciji projektov na področju analize podatkov, razvoju sistemov za podporo odločanju, ustvarjanju podatkovnih skladišč itd.

Izdelke podatkovnega rudarjenja lahko torej razdelimo v tri velike kategorije:

    vključen kot sestavni del v sisteme za upravljanje baz podatkov;

    knjižnice algoritmov Data Mining s pripadajočo infrastrukturo;

    škatlaste ali namizne rešitve (»črne skrinjice«).

Izdelki v prvih dveh kategorijah zagotavljajo največje možnosti integracije in vam omogočajo, da uresničite analitični potencial v skoraj vsaki aplikaciji na katerem koli področju. Škatlaste aplikacije pa lahko zagotovijo nekaj edinstvenega napredka na področju podatkovnega rudarjenja ali so specializirane za določeno aplikacijo. Vendar jih je v večini primerov problematično vključiti v širše rešitve.

Vključitev analitičnih zmogljivosti v komercialne sisteme za upravljanje baz podatkov je naraven trend z ogromnim potencialom. Res, kje, če ne na mestih, kjer so podatki skoncentrirani, je najbolj smiselno postaviti sredstva za njihovo obdelavo? Na podlagi tega načela je funkcionalnost podatkovnega rudarjenja v trenutno implementiran v naslednje komercialne zbirke podatkov:

    Microsoft SQL Server;

Glavne točke

  • Podatkovno rudarjenje omogoča samodejno, na podlagi velike količine zbranih podatkov, generiranje hipotez, ki jih je mogoče preveriti z drugimi orodji za analizo (na primer OLAP).

    Podatkovno rudarjenje je raziskovanje in odkrivanje s pomočjo stroja (algoritmov, orodij umetne inteligence) skritega znanja v neobdelanih podatkih, ki je bilo prej neznano, netrivialno, praktično uporabno in dostopno človeški interpretaciji.

    Metode podatkovnega rudarjenja rešujejo tri glavne probleme: problem klasifikacije in regresije, problem iskanja asociacijskih pravil in problem združevanja v gruče. Po namenu jih delimo na deskriptivne in napovedne. Glede na načine reševanja problemov jih delimo na nadzorovano učenje (učenje z učiteljem) in nenadzorovano učenje (učenje brez učitelja).

    Naloga klasifikacije in regresije se zmanjša na določitev vrednosti odvisne spremenljivke predmeta iz njegovih neodvisnih spremenljivk. Če odvisna spremenljivka zavzema številčne vrednosti, govorimo o regresijskem problemu, sicer pa o klasifikacijskem problemu.

    Pri iskanju asociacijskih pravil je cilj najti pogoste odvisnosti (ali asociacije) med objekti ali dogodki. Ugotovljene odvisnosti so predstavljene v obliki pravil in jih je mogoče uporabiti tako za boljše razumevanje narave analiziranih podatkov kot za napovedovanje dogodkov.

    Naloga grozdenja je iskanje neodvisnih skupin (grozdov) in njihovih značilnosti v celotnem nizu analiziranih podatkov. Rešitev te težave vam pomaga bolje razumeti podatke. Poleg tega združevanje homogenih predmetov omogoča zmanjšanje njihovega števila in s tem lažjo analizo.

    Metode podatkovnega rudarjenja so na presečišču različne smeri informacijske tehnologije: statistika, nevronske mreže, mehke množice, genetski algoritmi itd.

    Inteligentna analiza vključuje naslednje stopnje: razumevanje in oblikovanje problema analize, priprava podatkov za avtomatizirano analizo, uporaba metod rudarjenja podatkov in izgradnja modelov, preverjanje izdelanih modelov in interpretacija modelov s strani ljudi.

    Pred uporabo tehnik podatkovnega rudarjenja je treba izvorne podatke transformirati. Vrsta transformacije je odvisna od uporabljenih metod.

    Metode podatkovnega rudarjenja se lahko učinkovito uporabljajo na različnih področjih človeške dejavnosti: v gospodarstvu, medicini, znanosti, telekomunikacijah itd.

3. Analiza besedilnih informacij - Text Mining

Analiza strukturiranih informacij, shranjenih v bazah podatkov, zahteva predhodno obdelavo: oblikovanje baze podatkov, vnos informacij v skladu z določenimi pravili, njihovo umestitev v posebne strukture (na primer relacijske tabele) itd. Tako neposredno za analizo teh informacij in pridobivanje novega znanja zahteva dodaten napor. Niso pa vedno povezani z analizo in ne vodijo nujno do želenega rezultata. Zaradi tega se zmanjša učinkovitost analiziranja strukturiranih informacij. Poleg tega vseh vrst podatkov ni mogoče strukturirati brez izgube koristnih informacij. Besedilne dokumente je na primer skoraj nemogoče pretvoriti v tabelarično predstavitev, ne da bi izgubili semantiko besedila in odnose med entitetami. Zaradi tega se takšni dokumenti v bazi podatkov shranijo brez preoblikovanja, kot so besedilna polja (BLOB polja). Hkrati se v besedilu skriva ogromno informacij, vendar njegova nestrukturiranost ne dovoljuje uporabe algoritmov Data Mining. Metode za analizo nestrukturiranega besedila rešujejo ta problem. V zahodni literaturi se taka analiza imenuje Text Mining.

Metode analize v nestrukturiranih besedilih ležijo na stičišču več področij: podatkovnega rudarjenja, obdelave naravnega jezika, iskanja informacij, ekstrakcije informacij in upravljanja znanja.

Opredelitev rudarjenja besedila: Odkrivanje znanja besedila je netrivialen proces odkrivanja resnično novih, potencialno uporabnih in razumljivih vzorcev v nestrukturiranih besedilnih podatkih.

Kot lahko vidite, se od definicije podatkovnega rudarjenja razlikuje le po novem konceptu »nestrukturiranih besedilnih podatkov«. Tako znanje razumemo kot niz dokumentov, ki predstavljajo logično enotno besedilo brez kakršnih koli omejitev glede njegove strukture. Primeri takih dokumentov so: spletne strani, elektronska pošta, regulativni dokumenti itd. Na splošno so lahko takšni dokumenti zapleteni in veliki ter vključujejo ne samo besedilo, ampak tudi grafične informacije. Dokumenti, ki uporabljajo XML (razširljiv označevalni jezik), SGML (standardni generalizirani označevalni jezik) in druge podobne konvencije o strukturi besedila, se imenujejo polstrukturirani dokumenti. Obdelujejo se lahko tudi z metodami Text Mining.

Postopek analize besedilnih dokumentov je mogoče predstaviti kot zaporedje več korakov

    Iskanje informacij. Prvi korak je ugotoviti, katere dokumente je treba analizirati, in zagotoviti njihovo razpoložljivost. Nabor dokumentov za analizo lahko uporabnik praviloma določi samostojno – ročno, pri velikem številu dokumentov pa je treba uporabiti avtomatizirane možnosti izbire po določenih kriterijih.

    Predhodni obdelava dokumentov. V tem koraku se na dokumentih izvedejo preproste, a potrebne transformacije, da jih predstavijo v obliki, s katero delujejo metode rudarjenja besedila. Namen takih transformacij je odstraniti nepotrebne besede in dati besedilu strožjo obliko. Metode predprocesiranja bodo podrobneje opisane v poglavju.

    Pridobivanje informacij. Pridobivanje informacij iz izbranih dokumentov vključuje prepoznavanje ključnih konceptov v njih, ki jih bomo analizirali v prihodnosti.

Uporaba metod rudarjenja besedila. V tem koraku se izluščijo vzorci in odnosi, ki so prisotni v besedilih. Ta korak je glavni v procesu analize besedila in na tem koraku se rešujejo praktični problemi.

Interpretacija rezultatov. Zadnji korak v procesu odkrivanja znanja vključuje interpretacijo ugotovitev. Običajno je interpretacija sestavljena iz predstavitve rezultatov v naravnem jeziku ali njihove grafične vizualizacije.

Vizualizacija se lahko uporablja tudi kot orodje za analizo besedila. Da bi to naredili, so ključni koncepti ekstrahirani in predstavljeni grafično. Ta pristop pomaga uporabniku hitro prepoznati glavne teme in koncepte ter ugotoviti njihovo pomembnost.

Predhodna obdelava besedila

Eden glavnih problemov analize besedila je veliko število besed v dokumentu. Če analiziramo vsako od teh besed, se bo čas iskanja novega znanja močno povečal in verjetno ne bo zadostil zahtevam uporabnikov. Hkrati je očitno, da vse besede v besedilu ne nosijo koristnih informacij. Poleg tega zaradi fleksibilnosti naravnih jezikov formalno različne besede (sinonimi itd.) dejansko pomenijo iste pojme. Tako odstranitev neinformativnih besed, pa tudi približevanje besed, ki so po pomenu blizu eni sami obliki, znatno skrajša čas analize besedila. Odprava opisanih težav se izvede v fazi predobdelave besedila.

Za odstranjevanje neinformativnih besed in povečanje strogosti besedil se običajno uporabljajo naslednje tehnike:

    Odstranjevanje stop besed. Stop besede so besede, ki so pomožne in prinašajo malo informacij o vsebini dokumenta.

    Deblo je morfološko iskanje. Sestoji iz pretvorbe vsake besede v njeno običajno obliko.

    L-grami so alternativa morfološkemu razčlenjevanju in ustavijo odstranjevanje besed. Omogočajo vam, da besedilo postanete strožje, vendar ne rešite težave z zmanjšanjem števila neinformativnih besed;

    Pretvorba velikih in malih črk. Ta tehnika vključuje pretvorbo vseh znakov v velike ali male črke.

Najbolj učinkovita je kombinirana uporaba teh metod.

Naloge rudarjenja besedila

Trenutno je v literaturi opisanih veliko uporabnih problemov, ki jih je mogoče rešiti z analizo besedilnih dokumentov. Sem spadajo klasična opravila podatkovnega rudarjenja: razvrščanje, združevanje v gruče in opravila, ki so značilna samo za besedilne dokumente: samodejno označevanje, ekstrakcija ključnih pojmov itd.

Klasifikacija je standardna naloga na področju podatkovnega rudarjenja. Njegov namen je, da za vsak dokument določi eno ali več vnaprej določenih kategorij, v katere ta dokument spada. Značilnost problema razvrščanja je predpostavka, da niz tajnih dokumentov ne vsebuje "smeti", to pomeni, da vsak dokument ustreza določeni kategoriji.

Poseben primer klasifikacijskega problema je problem določitve predmeta dokumenta.

Namen združevanja dokumentov v gruče je samodejno identificirati skupine pomensko podobnih dokumentov med danim stalnim nizom. Upoštevajte, da se skupine oblikujejo le na podlagi parne podobnosti opisov dokumentov in nobene značilnosti teh skupin niso določene vnaprej.

Samodejna anotacija (povzemanje) vam omogoča, da skrajšate besedilo in ohranite njegov pomen. Rešitev te težave običajno nadzira uporabnik tako, da določi število stavkov, ki jih je treba izvleči, ali odstotek izvlečenega besedila glede na celotno besedilo. Rezultat vključuje najpomembnejše stavke v besedilu.

Primarni cilj ekstrakcije značilnosti je identificirati dejstva in odnose v besedilu. V večini primerov so ti pojmi samostalniki in pogosti samostalniki: imena in priimki ljudi, imena organizacij itd. Algoritmi za ekstrakcijo pojmov lahko uporabljajo slovarje za identifikacijo nekaterih izrazov in jezikovne vzorce za opredelitev drugih.

Navigacija po besedilu omogoča uporabnikom krmarjenje po dokumentih na podlagi tem in ustreznih izrazov. To se naredi z identifikacijo ključnih konceptov in nekaterih odnosov med njimi.

Analiza trendov vam omogoča, da prepoznate trende v nizih dokumentov v določenem časovnem obdobju. Trend se lahko uporabi na primer za zaznavanje sprememb v interesih podjetja iz enega tržnega segmenta v drugega.

Iskanje asociacij je tudi ena glavnih nalog podatkovnega rudarjenja. Da bi jo rešili, so v danem nizu dokumentov identificirani asociativni odnosi med ključnimi pojmi.

Obstaja precej veliko število vrst naštetih težav, pa tudi načinov za njihovo reševanje. To še enkrat potrjuje pomen analize besedila. Preostanek tega poglavja razpravlja o rešitvah za naslednje težave: ekstrakcija ključnih konceptov, klasifikacija, združevanje v gruče in samodejno označevanje.

Klasifikacija besedilnih dokumentov

Klasifikacija besedilnih dokumentov, kot tudi v primeru klasifikacije objektov, je sestavljena iz dodelitve dokumenta enemu od prej znanih razredov. Pogosto se klasifikacija v zvezi z besedilnimi dokumenti imenuje kategorizacija ali rubrikacija. Očitno ta imena izhajajo iz naloge sistematizacije dokumentov v kataloge, kategorije in naslove. V tem primeru je struktura imenika lahko enonivojska ali večnivojska (hierarhična).

Formalno je naloga razvrščanja besedilnih dokumentov opisana z nizom nizov.

Pri problemu klasifikacije je treba na podlagi teh podatkov zgraditi postopek, ki je sestavljen iz iskanja najverjetnejše kategorije iz množice C za proučevani dokument.

Večina metod razvrščanja besedil tako ali drugače temelji na predpostavki, da dokumenti, ki pripadajo isti kategoriji, vsebujejo enake značilnosti (besede ali besedne zveze), prisotnost ali odsotnost takšnih lastnosti v dokumentu pa kaže na njegovo pripadnost ali nepripadnost dokumentu. določeno temo.

Tak nabor funkcij se pogosto imenuje slovar, ker je sestavljen iz leksemov, ki vključujejo besede in/ali besedne zveze, ki označujejo kategorijo.

Opozoriti je treba, da so ti nizi funkcij značilnost klasifikacije besedilnih dokumentov od klasifikacije predmetov v rudarjenju podatkov, za katere je značilen niz atributov.

Odločitev o dodelitvi dokumenta d kategoriji c je sprejeta na podlagi presečišča skupnih značilnosti

Naloga klasifikacijskih metod je, da kar najbolje izberejo take lastnosti in oblikujejo pravila, na podlagi katerih se bo sprejela odločitev o uvrstitvi dokumenta v kategorijo.

Orodja za analizo besedilnih informacij

    Orodja Oracle - Oracle Text2

Od različice Oracle 7.3.3 so orodja za analizo besedila sestavni del izdelkov Oracle. V Oraclu so bila ta orodja razvita in dobila novo ime - Oracle Text - programski paket, integriran v DBMS, ki vam omogoča učinkovito delo s poizvedbami, povezanimi z nestrukturiranimi besedili. V tem primeru je obdelava besedila kombinirana z zmožnostmi, ki so uporabniku na voljo za delo z relacijskimi bazami podatkov. Zlasti je uporaba SQL postala mogoča pri pisanju aplikacij za obdelavo besedil.

Glavna naloga, ki ji je namenjeno reševanje orodij Oracle Text, je naloga iskanja dokumentov po njihovi vsebini - po besedah ​​ali besednih zvezah, ki se po potrebi kombinirajo z logičnimi operacijami. Rezultati iskanja so razvrščeni po pomembnosti, pri čemer se upošteva pogostost pojavljanja poizvedbenih besed v najdenih dokumentih.

    IBM-ova orodja - Inteligentni rudar za besedilo1

Izdelek IBM Intelligent Miner for Text je nabor posameznih pripomočkov, ki se zaženejo iz ukazna vrstica ali iz skriptov neodvisno drug od drugega. Sistem vsebuje kombinacijo nekaterih pripomočkov za reševanje problemov analize besedilnih informacij.

IBM Intelligent Miner for Text združuje zmogljiv nabor orodij, ki temeljijo predvsem na mehanizmih za iskanje informacij, kar je specifika celotnega produkta. Sistem je sestavljen iz številnih osnovnih komponent, ki imajo neodvisen pomen zunaj tehnologije rudarjenja besedila:

    Orodja inštituta SAS - Rudar besedila

Ameriško podjetje SAS Institute je izdalo sistem SAS Text Miner za primerjavo določenih slovničnih in besednih zaporedij v pisnem govoru. Text Miner je zelo vsestranski, saj lahko dela z besedilnimi dokumenti različnih formatov – v bazah podatkov, datotečnih sistemih in naprej na spletu.

Text Miner zagotavlja logično obdelavo besedila v okolju SAS Enterprise Miner. To uporabnikom omogoča, da obogatijo proces analize podatkov z integracijo nestrukturiranih besedilnih informacij z obstoječimi strukturiranimi podatki, kot so starost, dohodek in vzorci povpraševanja potrošnikov.

Glavne točke

    Odkrivanje besedilnega znanja je netrivialen proces odkrivanja resnično novih, potencialno uporabnih in razumljivih vzorcev v nestrukturiranih besedilnih podatkih.

    Postopek analize besedilnih dokumentov lahko predstavimo kot zaporedje več korakov: iskanje informacij, predprocesiranje dokumentov, pridobivanje informacij, uporaba metod Text Mining, interpretacija rezultatov.

    Naslednje tehnike se običajno uporabljajo za odstranjevanje neinformativnih besed in povečanje strogosti besedil: odstranjevanje stop besed, korena, L-gramov, zmanjšanje velikih in malih črk.

    Naloge analize informacij o besedilu so: razvrščanje, združevanje v skupine, samodejno označevanje, ekstrakcija ključnih konceptov, navigacija po besedilu, analiza trendov, iskanje asociacij itd.

    Izločanje ključnih konceptov iz besedil lahko obravnavamo kot ločeno uporabno nalogo in kot ločeno stopnjo analize besedila. V slednjem primeru se dejstva, izluščena iz besedila, uporabijo za reševanje različnih analiznih problemov.

    Postopek izločanja ključnih konceptov s pomočjo predlog poteka v dveh stopnjah: na prvi se iz besedilnih dokumentov s pomočjo leksikalne analize izluščijo posamezna dejstva, na drugi stopnji je integracija izluščenih dejstev in/ali izpeljava novih dejstev. izvede.

    Večina metod razvrščanja besedil tako ali drugače temelji na predpostavki, da dokumenti, ki pripadajo isti kategoriji, vsebujejo enake značilnosti (besede ali besedne zveze), prisotnost ali odsotnost takšnih lastnosti v dokumentu pa kaže na njegovo pripadnost ali nepripadnost dokumentu. določeno temo.

    Večina algoritmov za združevanje v gruče zahteva, da so podatki predstavljeni v modelu vektorskega prostora, ki se pogosto uporablja za iskanje informacij in uporablja metaforo za odraz semantične podobnosti kot prostorske bližine.

    Obstajata dva glavna pristopa k samodejnemu označevanju besedilnih dokumentov: ekstrakcija (izbira najpomembnejših fragmentov) in posploševanje (z uporabo predhodno zbranega znanja).

Zaključek

Podatkovno rudarjenje je eno najbolj relevantnih in priljubljenih področij uporabne matematike. Sodobni poslovni in proizvodni procesi ustvarjajo ogromne količine podatkov, zaradi česar ljudje vse težje razlagajo in se odzivajo na velike količine podatkov, ki se med delovanjem dinamično spreminjajo, kaj šele preprečiti kritične situacije. »Podatkovno rudarjenje« za pridobivanje maksimalnega uporabnega znanja iz večdimenzionalnih, heterogenih, nepopolnih, netočnih, protislovnih, posrednih podatkov. To pomaga učinkovito narediti, če se količina podatkov meri v gigabajtih ali celo terabajtih. Pomaga graditi algoritme, ki se lahko naučijo sprejemati odločitve na različnih poklicnih področjih.

Orodja za rudarjenje podatkov ščitijo ljudi pred preobremenjenostjo z informacijami tako, da obdelujejo operativne podatke v informacije, ki jih je mogoče ukrepati, tako da je mogoče izvesti prave ukrepe ob pravem času.

Aplikativni razvoj poteka na naslednjih področjih: napovedovanje v ekonomskih sistemih; avtomatizacija trženjskih raziskav in analiz strankinih okolij za proizvodna, trgovska, telekomunikacijska in internetna podjetja; avtomatizacija kreditnega odločanja in ocenjevanja kreditnega tveganja; spremljanje finančnih trgov; sistemi avtomatskega trgovanja.

Bibliografija

    »Tehnologije za analizo podatkov: podatkovno rudarjenje. Vizualno rudarjenje. Rudarjenje besedila, OLAP" A. A. Barseghyan. M. S. Kupriyanov, V. V. Stenanenko, I. I. Kholod. - 2. izd., revidirano. in dodatno

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - internetni članek

    http://www.piter.com/contents/978549807257/978549807257_p.pdf - Tehnologije za analizo podatkov

    Diplomsko delo >> Bančništvo

    Izposojevalec z uporabo grozda, verbalno analizo, prilagoditveni faktorji itd., tudi ... kreditna sposobnost posojilojemalca na podlagi intelektualec analizo Podatkovno rudarjenje (z... V začetni fazi analizo potekala analizo lastna sredstva in...

  1. Analiza in klasifikacija sodobnega trga informacijskih sistemov, ki izvajajo diskrecijske, m

    Povzetek >> Računalništvo

    1.3 Diferenciacija vlog 6 2. Primerjalna analizo različne vrste sistemi 7 OS... sistemov, vključno z: analizo varnostne politike in njihove značilnosti, ... aplikacije ali izvajanje več intelektualec analizo podatke. Poleg...

  2. Inteligenten sposobnosti nadarjenih otrok v povezavi s šolsko uspešnostjo

    Diplomsko delo >> Psihologija

    Razmerje med akademsko uspešnostjo in lastnostmi intelektualec razvoj. Na podlagi teoretičnega analizo raziskovalni problem je bil ... intelekt brez analizo svojo psihološko strukturo. Odločilno za oceno intelektualec sposobnosti je...

Pozdravljamo vas na portalu Data Mining - edinstvenem portalu, namenjenem sodobnim metodam Data Mining.

Tehnologije podatkovnega rudarjenja so močno orodje za sodobno poslovno analitiko in raziskovanje podatkov za odkrivanje skritih vzorcev in gradnjo napovednih modelov. Podatkovno rudarjenje ali pridobivanje znanja ne temelji na špekulativnem sklepanju, temveč na resničnih podatkih.

riž. 1. Aplikacijska shema podatkovnega rudarjenja

Definicija problema – Postavitev problema: klasifikacija podatkov, segmentacija, konstrukcija napovednih modelov, napovedovanje.
Zbiranje in priprava podatkov – Zbiranje in priprava podatkov, čiščenje, preverjanje, odstranitev podvojenih zapisov.
Gradnja modela – Gradnja modela, ocena točnosti.
Razširjanje znanja – ​​uporaba modela za rešitev danega problema.

Data Mining se uporablja za izvajanje obsežnih analitičnih projektov v gospodarstvu, marketingu, internetu, telekomunikacijah, industriji, geologiji, medicini, farmaciji in drugih področjih.

Podatkovno rudarjenje vam omogoča, da začnete postopek iskanja pomembnih korelacij in povezav kot rezultat presejanja ogromne količine podatkov z uporabo sodobnih metod prepoznavanja vzorcev in uporabe edinstvenih analitičnih tehnologij, vključno z drevesi odločanja in klasifikacijo, združevanjem v gruče, metodami nevronske mreže in drugi.

Uporabnik, ki prvič odkrije tehnologijo podatkovnega rudarjenja, je presenečen nad obilico metod in učinkovitih algoritmov, ki mu omogočajo najti pristope k reševanju težkih problemov, povezanih z analizo velikih količin podatkov.

Na splošno lahko Data Mining označimo kot tehnologijo, namenjeno iskanju velikih količin podatkov. neočitno, objektivni in praktično uporaben vzorcev.

Podatkovno rudarjenje temelji na učinkovite metode in algoritmi, zasnovani za analizo nestrukturiranih podatkov velikega obsega in razsežnosti.

Ključna točka je, da se zdi, da obsežni in visokodimenzionalni podatki nimajo strukture in povezav. Cilj tehnologije podatkovnega rudarjenja je prepoznati te strukture in najti vzorce, kjer na prvi pogled vladata kaos in poljubnost.

Tukaj je trenutni primer uporabe podatkovnega rudarjenja v farmacevtski industriji in industriji zdravil.

Medsebojno delovanje zdravil je vedno večji problem sodobnega zdravstva.

Sčasoma se število predpisanih zdravil (brez recepta in vseh vrst dodatkov) povečuje, zaradi česar je vedno večja verjetnost, da bo prišlo do interakcij med zdravili, ki lahko povzročijo resne stranske učinke, ki se jih zdravniki in bolniki ne zavedajo.

To področje se nanaša na postklinične raziskave, ko je zdravilo že dano v promet in se intenzivno uporablja.

Klinične študije se nanašajo na oceno učinkovitosti zdravila, ne upoštevajo pa interakcij zdravila z drugimi zdravili na trgu.

Raziskovalci na Univerzi Stanford v Kaliforniji so pregledali bazo podatkov FDA o stranskih učinkih zdravil in ugotovili, da dve pogosto uporabljeni zdravili – antidepresiv paroksetin in zdravilo za zniževanje holesterola pravastatin – povečata tveganje za razvoj sladkorne bolezni, če ju uporabljamo skupaj.

Podobna analizna študija, ki temelji na podatkih FDA, je odkrila 47 predhodno neznanih neželenih interakcij.

To je super, z opozorilom, da številni negativni učinki, ki jih opazijo bolniki, ostanejo neodkriti. V tem primeru lahko spletno iskanje deluje najbolje.

Prihajajoči tečaji podatkovnega rudarjenja na StatSoft Data Analysis Academy leta 2020

Naš uvod v podatkovno rudarjenje začnemo z osupljivimi videoposnetki Data Science Academy.

Oglejte si naše videoposnetke in razumeli boste, kaj je podatkovno rudarjenje!

Video 1. Kaj je podatkovno rudarjenje?


Video 2. Pregled metod podatkovnega rudarjenja: odločitvena drevesa, generalizirani napovedni modeli, združevanje v gruče in še veliko več

JavaScript je onemogočen v vašem brskalniku


Pred začetkom raziskovalnega projekta moramo organizirati postopek pridobivanja podatkov iz zunanji viri, zdaj bomo pokazali, kako se to naredi.

Videoposnetek vam bo predstavil edinstvena tehnologija STATISTICA Obdelava baze podatkov na mestu in povezava podatkovnega rudarjenja z realnimi podatki.

Video 3. Vrstni red interakcije z bazami podatkov: grafični vmesnik za gradnjo poizvedb SQL, tehnologija obdelave baz podatkov na mestu

JavaScript je onemogočen v vašem brskalniku


Sedaj se bomo seznanili z interaktivnimi tehnologijami vrtanja, ki so učinkovite pri izvajanju raziskovalne analize podatkov. Sam izraz vrtanje odraža povezavo med tehnologijo podatkovnega rudarjenja in geološkim raziskovanjem.

Video 4: Interaktivno vrtanje: Raziskovalne in grafične tehnike za interaktivno raziskovanje podatkov

JavaScript je onemogočen v vašem brskalniku


Zdaj se bomo seznanili z asociacijsko analizo (pravili asociacije), ti algoritmi vam omogočajo, da najdete povezave, ki obstajajo v resničnih podatkih. Ključna točka je učinkovitost algoritmov na velikih količinah podatkov.

Rezultat algoritmov za analizo povezav, na primer algoritma Apriori, je ugotovitev povezovalnih pravil za proučevane predmete z dano zanesljivostjo, na primer 80%.

V geologiji se lahko ti algoritmi uporabljajo pri analizi raziskovanja mineralov, na primer, kako je značilnost A povezana s funkcijami B in C.

lahko najdeš konkretni primeri takšne rešitve z uporabo naših povezav:

V maloprodaji algoritmi Apriori ali njihove modifikacije omogočajo preučevanje razmerja med različnimi izdelki, na primer pri prodaji parfumov (parfum – lak za nohte – maskara itd.) ali izdelkov različnih blagovnih znamk.

Analizo najzanimivejših razdelkov na spletnem mestu je mogoče učinkovito izvesti tudi z uporabo povezovalnih pravil.

Zato si oglejte naš naslednji video.

Video 5. Pravila združenja

JavaScript je onemogočen v vašem brskalniku

Tukaj so primeri uporabe podatkovnega rudarjenja na določenih področjih.

Spletno trgovanje:

  • analiza poti strank od obiska spletnega mesta do nakupa blaga
  • ocena učinkovitosti storitev, analiza okvar zaradi pomanjkanja blaga
  • povezava izdelkov, ki so zanimivi za obiskovalce

Maloprodaja: analiza podatkov o strankah na podlagi kreditnih kartic, kartic popustov itd.

Tipične maloprodajne naloge, ki jih rešujejo orodja za rudarjenje podatkov:

  • analiza nakupovalne košarice;
  • ustvarjanje napovednih modelov in modeli klasifikacije kupcev in kupljenega blaga;
  • ustvarjanje profilov strank;
  • CRM, ocenjevanje zvestobe strank različnih kategorij, načrtovanje programov zvestobe;
  • raziskave časovnih vrst in časovne odvisnosti, prepoznavanje sezonskih dejavnikov, ocenjevanje učinkovitosti promocije na velikem obsegu resničnih podatkov.

Telekomunikacijski sektor odpira neomejene možnosti za uporabo metod podatkovnega rudarjenja in sodobnih tehnologij velikih podatkov:

  • razvrstitev strank glede na ključne značilnosti klicev (pogostost, trajanje ipd.), frekvenca SMS;
  • ugotavljanje zvestobe strank;
  • odkrivanje goljufij itd.

Zavarovanje:

  • analiza tveganja. Z ugotavljanjem kombinacij dejavnikov, povezanih s plačanimi odškodninami, lahko zavarovalnice zmanjšajo svoje izgube zaradi odgovornosti. Obstaja primer, ko je zavarovalnica ugotovila, da so izplačani zneski za zahtevke poročenih dvakrat višji od zneskov, izplačanih za zahtevke samskih oseb. Podjetje se je na to odzvalo s spremembo politike popustov za družinske stranke.
  • odkrivanje goljufij. Zavarovalnice lahko zmanjšajo goljufije z iskanjem določenih vzorcev v zahtevkih, ki so značilni za odnose med odvetniki, zdravniki in tožniki.

Praktična uporaba podatkovnega rudarjenja in reševanje specifičnih problemov je predstavljeno v našem naslednjem videu.

Webinar 1. Webinar “Praktične naloge podatkovnega rudarjenja: problemi in rešitve”

JavaScript je onemogočen v vašem brskalniku

Webinar 2. Webinar "Podatkovno rudarjenje in rudarjenje besedila: primeri reševanja resničnih problemov"

JavaScript je onemogočen v vašem brskalniku


Na tečajih StatSoft lahko pridobite bolj poglobljeno znanje o metodologiji in tehnologiji podatkovnega rudarjenja.

Kaj je podatkovno rudarjenje

Podjetniška zbirka podatkov katerega koli sodobnega podjetja običajno vsebuje niz tabel, ki hranijo zapise o določenih dejstvih ali predmetih (na primer o blagu, njihovi prodaji, strankah, računih). Praviloma vsak vnos v takšni tabeli opisuje določen predmet ali dejstvo. Na primer, vnos v prodajno tabelo odraža dejstvo, da je tak in ta izdelek v tistem času prodal tak in ta poslovodja in na splošno ne vsebuje ničesar drugega kot te informacije. Zbirka velikega števila tovrstnih zapisov, ki se kopičijo več let, pa lahko postane vir dodatnih, veliko bolj dragocenih informacij, ki jih ni mogoče pridobiti na podlagi enega določenega zapisa, namreč informacij o vzorcih, trendih ali soodvisnostih med kakršne koli podatke. Primeri takšnih informacij so informacije o tem, kako je prodaja določenega izdelka odvisna od dneva v tednu, ure v dnevu ali letnega časa, katere kategorije kupcev najpogosteje kupujejo ta ali oni izdelek, kolikšen delež kupcev določenega izdelka kupi. drug specifičen produkt, katera kategorija strank najpogosteje ne odplača danega posojila pravočasno.

Tovrstne informacije se običajno uporabljajo pri napovedovanju, strateškem načrtovanju, analizi tveganja in njihova vrednost za podjetje je zelo velika. Očitno so zato postopek iskanja poimenovali Data Mining (rudarjenje v angleščini pomeni "rudarjenje" in iskanje vzorcev v ogromni množici dejanskih podatkov je res podobno temu). Izraz Data Mining ne označuje toliko specifične tehnologije kot proces iskanja korelacije, trendov, odnosov in vzorcev preko različnih matematičnih in statističnih algoritmov: združevanje v gruče, ustvarjanje podvzorcev, regresijska in korelacijska analiza. Namen tega iskanja je predstaviti podatke v obliki, ki jasno odraža poslovne procese, in tudi zgraditi model, s katerim lahko predvidite procese, ki so ključni za poslovno načrtovanje (na primer dinamika povpraševanja po določenem blagu ali storitvah). ali odvisnost njihove pridobitve od določenih takratnih potrošniških lastnosti).

Upoštevajte, da tradicionalna matematična statistika, ki je dolgo časa ostala glavno orodje za analizo podatkov, kot tudi orodja za spletno analitično obdelavo (OLAP), o katerih smo že večkrat pisali (glej materiale na to temo na našem CD-ju), ni vedno mogoče uspešno uporabiti za reševanje tovrstnih težav. Običajno se statistične metode in OLAP uporabljajo za testiranje vnaprej oblikovanih hipotez. Pogosto pa se prav postavitev hipoteze izkaže za najtežjo nalogo pri izvajanju poslovne analize za kasnejše odločanje, saj vsi vzorci v podatkih niso očitni na prvi pogled.

Osnova sodobna tehnologija Podatkovno rudarjenje temelji na konceptu vzorcev, ki odražajo vzorce, ki so lastni podvzorcem podatkov. Iskanje vzorcev se izvaja z metodami, ki ne uporabljajo nobenih apriornih predpostavk o teh podvzorcih. Medtem ko statistična analiza ali OLAP običajno postavlja vprašanja, kot je "Kakšno je povprečno število neplačanih računov med strankami za to storitev?", podatkovno rudarjenje običajno vključuje odgovore na vprašanja, kot je "Ali obstaja tipična kategorija strank, ki ne plačujejo?". Hkrati je odgovor na drugo vprašanje tisti, ki pogosto zagotavlja bolj netrivialen pristop k tržni politiki in organizaciji dela s strankami.

Pomembna lastnost podatkovnega rudarjenja je nestandardna in neočitna narava iskanih vzorcev. Z drugimi besedami, orodja za rudarjenje podatkov se od orodij za statistično obdelavo podatkov in orodij OLAP razlikujejo po tem, da namesto preverjanja vnaprej predvidenih soodvisnosti s strani uporabnikov lahko te soodvisnosti neodvisno najdejo na podlagi razpoložljivih podatkov in gradijo hipoteze o njihovi naravi.

Opozoriti velja, da uporaba orodij Data Mining ne izključuje uporabe statističnih orodij in orodij OLAP, saj rezultati obdelave podatkov z uporabo slednjih praviloma prispevajo k boljšemu razumevanju narave vzorcev, ki naj bi biti iskan.

Izvorni podatki za podatkovno rudarjenje

Uporaba podatkovnega rudarjenja je upravičena, če obstaja dovolj velika količina podatkov, ki so idealno shranjeni v pravilno zasnovanem podatkovnem skladišču (dejansko so sama podatkovna skladišča običajno ustvarjena za reševanje problemov analize in napovedovanja, povezanih s podporo odločanju). Večkrat smo pisali tudi o principih gradnje podatkovnih skladišč; ustrezna gradiva najdete na našem CD-ju, zato se na tem vprašanju ne bomo ukvarjali. Spomnimo se le, da so podatki v skladišču dopolnjen niz, ki je skupen celotnemu podjetju in omogoča obnovitev slike njegovih dejavnosti v katerem koli trenutku. Upoštevajte tudi, da je struktura podatkov za shranjevanje zasnovana tako, da se poizvedbe do nje izvajajo čim bolj učinkovito. Obstajajo pa orodja Data Mining, ki lahko iščejo vzorce, korelacije in trende ne samo v podatkovnih skladiščih, ampak tudi v kockah OLAP, torej v nizih vnaprej obdelanih statističnih podatkov.

Vrste vzorcev, identificiranih z metodami podatkovnega rudarjenja

V.A. Duke pravi, da obstaja pet standardnih vrst vzorcev, ki jih prepoznajo metode podatkovnega rudarjenja:

Asociacija - velika verjetnost, da so dogodki povezani med seboj (na primer, en izdelek je pogosto kupljen skupaj z drugim);

Zaporedje - velika verjetnost verige časovno povezanih dogodkov (na primer, v določenem obdobju po nakupu enega izdelka bo z visoko stopnjo verjetnosti kupljen drug);

Klasifikacija - obstajajo znaki, ki označujejo skupino, ki ji pripada ta ali oni dogodek ali predmet (običajno se na podlagi analize že razvrščenih dogodkov oblikujejo določena pravila);

Grozdenje je vzorec, ki je podoben klasifikaciji in se od nje razlikuje po tem, da same skupine niso specificirane – identificirane so samodejno med obdelavo podatkov;

Časovni vzorci - prisotnost vzorcev v dinamiki obnašanja določenih podatkov (tipični primer so sezonska nihanja povpraševanja po določenem blagu ali storitvah), ki se uporabljajo za napovedovanje.

Metode podatkovnega rudarjenja

Danes obstaja kar veliko število različnih metod podatkovnega rudarjenja. Na podlagi zgornje klasifikacije, ki jo je predlagal V.A. Duke, lahko med njimi ločimo:

Regresijska, variančna in korelacijska analiza (implementirana v večini sodobnih statističnih paketov, predvsem v produktih SAS Institute, StatSoft itd.);

Metode analize na določenem predmetnem področju, ki temeljijo na empiričnih modelih (pogosto uporabljeni npr. v poceni orodjih za finančno analizo);

Algoritmi nevronske mreže, katerih ideja temelji na analogiji z delovanjem živčnega tkiva in je v tem, da se začetni parametri obravnavajo kot signali, ki se transformirajo v skladu z obstoječimi povezavami med "nevroni" in odziv celotnega omrežja na začetne se šteje kot odziv, ki izhaja iz podatkov analize. V tem primeru se povezave ustvarijo s tako imenovanim omrežnim usposabljanjem preko velike velikosti vzorca, ki vsebuje tako začetne podatke kot pravilne odgovore;

Algoritmi - izbira bližnjega analoga izvirnih podatkov iz obstoječih zgodovinskih podatkov. Imenuje se tudi metoda »najbližjega soseda«;

Odločitvena drevesa so hierarhična struktura, ki temelji na nizu vprašanj, ki zahtevajo odgovor "Da" ali "Ne"; čeprav ta metoda obdelava podatkov ne najde vedno popolnoma obstoječih vzorcev, pogosto se uporablja v sistemih za napovedovanje zaradi jasnosti prejetega odgovora;

Modeli gruče (včasih imenovani tudi modeli segmentacije) se uporabljajo za združevanje podobnih dogodkov skupaj na podlagi podobnih vrednosti več polj v nizu podatkov; zelo priljubljen tudi pri ustvarjanju sistemov za napovedovanje;

Algoritmi omejenega iskanja, ki izračunajo frekvence kombinacij preprostih logičnih dogodkov v podskupinah podatkov;

Evolucijsko programiranje - iskanje in generiranje algoritma, ki izraža soodvisnost podatkov, na podlagi prvotno določenega algoritma, spremenjenega med procesom iskanja; včasih se iskanje medsebojnih odvisnosti izvaja med določenimi vrstami funkcij (na primer polinomi).

Več informacij o teh in drugih algoritmih podatkovnega rudarjenja ter o orodjih, ki jih izvajajo, lahko preberete v knjigi "Data Mining: Training Course" avtorjev V. A. Duke in A. P. Samoilenka, ki jo je leta 2001 izdala založba Peter. Danes je to ena redkih knjig v ruščini, ki je posvečena tej problematiki.

Vodilni proizvajalci orodij za rudarjenje podatkov

Orodja za rudarjenje podatkov so, tako kot večina orodij poslovne inteligence, tradicionalno draga programska orodja – nekatera stanejo tudi do nekaj deset tisoč dolarjev. Zato so bili do nedavnega glavni porabniki te tehnologije banke, finančne in zavarovalnice, velika trgovska podjetja, glavne naloge, ki zahtevajo uporabo podatkovnega rudarjenja, pa so bile ocena kreditnih in zavarovalniških tveganj ter razvoj tržnih politik. , tarifni načrti in druga načela dela s strankami. V zadnjih letih so se razmere nekoliko spremenile: na trgu programske opreme so se pojavila razmeroma poceni orodja Data Mining več proizvajalcev, zaradi česar je ta tehnologija postala dostopna malim in srednje velikim podjetjem, ki o tem prej niso razmišljala.

TO sodobna sredstva Poslovna inteligenca vključuje generatorje poročil, orodja za analitično obdelavo podatkov, orodja za razvoj rešitev BI (platforme BI) in tako imenovane zbirke Enterprise BI Suites – orodja za analizo in obdelavo podatkov na ravni podjetja, ki vam omogočajo izvajanje niza dejanj, povezanih z analizo podatkov. in ustvarjanje poročil ter pogosto vključujejo integriran nabor orodij BI in orodij za razvoj aplikacij BI. Slednji praviloma vsebujejo orodja za poročanje, orodja OLAP in pogosto orodja za rudarjenje podatkov.

Po mnenju analitikov skupine Gartner so vodilni na trgu orodij za analizo in obdelavo podatkov na ravni podjetij Business Objects, Cognos, Information Builders, Microsoft in Oracle pa prav tako trdita, da imata vodstvo (slika 1). Kar zadeva razvojna orodja za rešitve BI, sta glavna kandidata za vodstvo na tem področju Microsoft in SAS Institute (slika 2).

Upoštevajte, da so Microsoftova orodja za poslovno obveščanje razmeroma poceni izdelki, ki so na voljo številnim podjetjem. Zato si bomo v naslednjih delih tega članka ogledali nekaj praktičnih vidikov uporabe podatkovnega rudarjenja na primeru izdelkov tega podjetja.

Literatura:

1. Vojvoda V.A. Data Mining - rudarjenje podatkov. - http://www.olap.ru/basic/dm2.asp.

2. Duke V.A., Samoilenko A.P. Podatkovno rudarjenje: tečaj usposabljanja. - Sankt Peterburg: Peter, 2001.

3. B. de Ville. Microsoft Data Mining. Digital Press, 2001.

Sistemi OLAP analitiku omogočajo preverjanje hipotez pri analizi podatkov, torej glavna naloga analitika je generiranje hipotez, ki jih rešuje na podlagi svojega znanja in izkušenj.Vendar nima le človek znanja, ampak tudi zbrani podatki, ki se analizirajo. Takšno znanje vsebuje ogromno informacij, ki jih človek sam ne more raziskati. Zaradi tega obstaja tveganje manjkajočih hipotez, ki bi lahko prinesle pomembne koristi.

Za odkrivanje »skritega« znanja se uporabljajo posebne metode avtomatske analize, s pomočjo katerih je potrebno znanje praktično izluščiti iz »blokad« informacij. Temu področju je bil dodeljen izraz "podatkovno rudarjenje" ali "podatkovno rudarjenje".

Obstaja veliko definicij DataMininga, ki se med seboj dopolnjujejo. Tukaj je nekaj izmed njih.

Podatkovno rudarjenje je proces odkrivanja netrivialnih in praktično uporabnih vzorcev v bazah podatkov. (Osnovna skupina)

Podatkovno rudarjenje je proces pridobivanja, raziskovanja in modeliranja velikih količin podatkov za odkrivanje prej neznanih vzorcev (vzorcev) z namenom doseganja poslovnih prednosti (SAS Institute)

Podatkovno rudarjenje je proces, katerega namen je odkriti nove pomembne korelacije, vzorce in trende s presejanjem velikih količin shranjenih podatkov z uporabo tehnik prepoznavanja vzorcev ter uporabo statističnih in matematičnih tehnik (GartnerGroup).

Podatkovno rudarjenje je raziskovanje in odkrivanje skritega znanja v neobdelanih podatkih s pomočjo »stroja« (algoritmov, orodij umetne inteligence).so bili prej neznani, nepomembni, praktično uporabni, dostopni za razlago(A. Bargesyan »Tehnologije analize podatkov«)

DataMining je proces odkrivanja koristnega znanja o poslovanju (N.M. Abdikeev “KBA”).

Lastnosti odkritega znanja

Razmislimo o lastnostih odkritega znanja.

  • Znanje mora biti novo, prej neznano. Trud, vložen v odkrivanje znanja, ki ga uporabnik že pozna, se ne obrestuje. Zato je dragoceno novo, prej neznano znanje.
  • Znanje mora biti netrivialno. Rezultati analize bi morali odražati neočitno, nepričakovanovzorcev v podatkih, ki predstavljajo tako imenovano skrito znanje. Rezultati, ki bi jih lahko dobili več na preproste načine(na primer vizualni pregled) ne upravičujejo uporabe zmogljivih metod DataMining.
  • Znanje mora biti praktično uporabno. Ugotovljeno znanje mora biti uporabno, tudi na novih podatkih, z dovolj visoko stopnjo zanesljivosti. Uporabnost je v tem, da lahko to znanje ob uporabi prinese določene koristi.
  • Znanje mora biti dostopno človeškemu razumevanju. Najdeni vzorci morajo biti logično razložljivi, sicer obstaja možnost, da so naključni. Poleg tega mora biti odkrito znanje predstavljeno v človeku razumljivi obliki.

V DataMiningu se modeli uporabljajo za predstavitev pridobljenega znanja. Vrste modelov so odvisne od metod, uporabljenih za njihovo ustvarjanje. Najpogostejši so: pravila, odločitvena drevesa, grozdi in matematične funkcije.

Naloge rudarjenja podatkov

Naj spomnimo, da tehnologija DataMining temelji na konceptu predlog, ki so vzorci. Kot rezultat odkritja teh vzorcev, skritih prostemu očesu, so rešeni problemi DataMininga. Različni tipi vzorcev, ki jih je mogoče izraziti v človeku berljivi obliki, ustrezajo določenim nalogam DataMining.

Ni soglasja o tem, katere naloge je treba razvrstiti kot DataMining. Večina verodostojnih virov navaja naslednje: klasifikacija,

grozdenje, napovedovanje, povezovanje, vizualizacija, analiza in odkrivanje

odstopanja, ocena, analiza povezav, seštevanje.

Namen opisa, ki sledi, je podati splošno predstavo o problemih DataMininga, primerjati nekatere od njih in predstaviti nekaj metod, s katerimi se te težave rešujejo. Najpogostejše naloge podatkovnega rudarjenja so klasifikacija, združevanje v gruče, povezovanje, napovedovanje in vizualizacija. Tako so naloge razdeljene glede na vrsto proizvedenih informacij, to je najbolj splošna klasifikacija nalog DataMining.

Razvrstitev

Problem razdelitve niza predmetov ali opazovanj na apriore določene skupine, imenovani razredi, znotraj vsakega od katerih se predpostavlja, da so si med seboj podobni, da imajo približno enake lastnosti in značilnosti. V tem primeru je rešitev pridobljena na podlagi analizo vrednosti atributov (lastnosti).

Klasifikacija je ena najpomembnejših nalog DataMining . Uporablja se v trženje pri ocenjevanju kreditne sposobnosti kreditojemalcev ugotavljanju zvestoba stranke, prepoznavanje vzorcev , medicinska diagnostika in številne druge aplikacije. Če analitik pozna lastnosti predmetov vsakega razreda, potem ko novo opazovanje pripada določenemu razredu, se te lastnosti samodejno razširijo nanj.

Če je število razredov omejeno na dva, potembinarna klasifikacija , na katerega je mogoče zreducirati številne bolj zapletene probleme. Na primer, namesto da bi opredelili takšne stopnje kreditnega tveganja kot "Visoka", "Srednja" ali "Nizka", lahko uporabite samo dve - "Izdaj" ali "Zavrni".

DataMining uporablja veliko različnih modelov za klasifikacijo: nevronske mreže, odločitvena drevesa , podporni vektorski stroji, metoda k-najbližjih sosedov, pokrivni algoritmi itd., pri gradnji katerih se uporablja nadzorovano učenje, koizhodna spremenljivka(oznaka razreda ) je podana za vsako opazovanje. Formalno je klasifikacija narejena na podlagi particijeznačilni prostori na področja, znotraj katerihvečdimenzionalni vektorji veljajo za enake. Z drugimi besedami, če predmet pade v območje prostora, ki je povezano z določenim razredom, mu pripada.

Grozdenje

Kratek opis. Grozdenje je logično nadaljevanje ideje

klasifikacije. To je bolj zapletena naloga, posebnost združevanja v gruče je, da objektni razredi niso prvotno vnaprej določeni. Rezultat združevanja v gruče je razdelitev objektov v skupine.

Primer metode za reševanje problema grozdenja: "nenadzorovano" usposabljanje posebne vrste nevronskih mrež - samoorganizirajočih se Kohonenovih zemljevidov.

Asociacije

Kratek opis. Pri reševanju problema iskanja asociacijskih pravil se najdejo vzorci med povezanimi dogodki v nizu podatkov.

Razlika med asociacijo in dvema prejšnjima nalogama DataMining: iskanje vzorcev se ne izvaja na podlagi lastnosti analiziranega predmeta, temveč med več dogodki, ki se zgodijo hkrati. Najbolj znan algoritem za reševanje problema iskanja asociacijskih pravil je Apriorijev algoritem.

Zaporedje ali zaporedna povezava

Kratek opis. Zaporedje vam omogoča iskanje časovnih vzorcev med transakcijami. Naloga zaporedja je podobna asociaciji, vendar njen cilj ni vzpostaviti vzorcev med dogodki, ki se pojavljajo hkrati, ampak med dogodki, ki so povezani v času (tj. ki se zgodijo v določenem časovnem intervalu). Z drugimi besedami, zaporedje je določeno z visoko verjetnostjo verige časovno povezanih dogodkov. Pravzaprav je asociacija poseben primer zaporedja s časovnim zamikom nič. Ta naloga DataMining se imenuje tudi naloga zaporednega iskanja vzorcev.

Pravilo zaporedja: po dogodku X se po določenem času zgodi dogodek Y.

Primer. Po nakupu stanovanja stanovalci v 60 % primerov v dveh tednih kupijo hladilnik, v dveh mesecih pa v 50 % primerov televizor. Rešitev tega problema se pogosto uporablja v trženju in upravljanju, na primer pri upravljanju življenjskega cikla strank.

Regresija, napovedovanje (Forecasting)

Kratek opis. Kot rezultat reševanja problema napovedovanja se na podlagi značilnosti zgodovinskih podatkov ocenijo manjkajoče ali prihodnje vrednosti ciljnih numeričnih kazalnikov.

Za reševanje takšnih problemov se pogosto uporabljajo metode matematične statistike, nevronske mreže itd.

Dodatne naloge

Zaznavanje odstopanja, analiza variance ali izstopajočih vrednosti

Kratek opis. Cilj reševanja tega problema je zaznati in analizirati podatke, ki se najbolj razlikujejo od splošnega nabora podatkov, in identificirati tako imenovane neznačilne vzorce.

Ocena

Naloga ocenjevanja se zmanjša na napovedovanje neprekinjenih vrednosti lastnosti.

Analiza povezave

Naloga iskanja odvisnosti v naboru podatkov.

Vizualizacija (GraphMining)

Kot rezultat vizualizacije se ustvari grafična podoba analiziranih podatkov. Za rešitev problema vizualizacije se uporabljajo grafične metode za prikaz prisotnosti vzorcev v podatkih.

Primer vizualizacijskih tehnik je predstavitev podatkov v 2-D in 3-D dimenzijah.

Povzemanje

Naloga, katere cilj je opisati specifične skupine objektov iz analiziranega niza podatkov.

Precej blizu zgornji klasifikaciji je delitev nalog DataMining na naslednje: raziskovanje in odkrivanje, napovedovanje in klasifikacija, razlaga in opis.

Samodejno raziskovanje in odkrivanje (brezplačno iskanje)

Primer naloge: odkrivanje novih tržnih segmentov.

Za reševanje tega razreda problemov se uporabljajo metode analize grozdov.

Napoved in razvrstitev

Primer problema: napovedovanje rasti prodaje na podlagi trenutnih vrednosti.

Metode: regresija, nevronske mreže, genetski algoritmi, odločitvena drevesa.

Naloge klasifikacije in napovedovanja sestavljajo skupino tako imenovanega induktivnega modeliranja, katerega rezultat je preučevanje analiziranega predmeta ali sistema. V procesu reševanja teh problemov se na podlagi niza podatkov razvije splošni model ali hipoteza.

Razlaga in opis

Primer težave: opredelitev strank na podlagi demografskih podatkov in zgodovine nakupov.

Metode: odločitvena drevesa, sistemi pravil, asociacijska pravila, analiza povezav.

Če je dohodek stranke večji od 50 konvencionalnih enot in je njegova starost več kot 30 let, potem je razred stranke prvi.

Primerjava združevanja in razvrščanja

Značilno

Razvrstitev

Grozdenje

Nadzorljivost usposabljanja

Nadzorovano

Neobvladljivo

strategije

Usposabljanje z mentorjem

Učenje brez nadzora

Razpoložljivost oznake razreda

Komplet za trening

skupaj z oznako, ki označuje

razred, ki mu pripada

opazovanje

Oznake razredov trenerjev

kompleti niso znani

Osnova za razvrstitev

Novi podatki so razvrščeni glede na učni niz

V ta namen je podanih veliko podatkov

ugotavljanje obstoja

razrede ali podatkovne gruče

Področja uporabe DataMininga

Treba je poudariti, da se tehnologija DataMining danes najbolj uporablja pri reševanju poslovnih problemov. Morda je razlog v tem, da je prav v tej smeri lahko donosnost uporabe orodij DataMining po nekaterih virih tudi do 1000% in se stroški njegove implementacije hitro povrnejo.

Podrobno si bomo ogledali štiri glavna področja uporabe tehnologije DataMining: znanost, poslovanje, vladne raziskave in splet.

poslovne naloge. Glavna področja: bančništvo, finance, zavarovalništvo, CRM, proizvodnja, telekomunikacije, e-trgovina, marketing, borza in druga.

    Ali naj izdam posojilo stranki?

    Delitev trga

    Privabljanje novih strank

    Goljufije s kreditnimi karticami

Aplikacija DataMining za reševanje problemov na državni ravni. Glavne usmeritve: iskanje davčnih utajevalcev; sredstva v boju proti terorizmu.

Aplikacija DataMining za znanstvena raziskava. Glavna področja: medicina, biologija, molekularna genetika in genski inženiring, bioinformatika, astronomija, uporabna kemija, raziskave v zvezi z odvisnostjo od drog in druga.

Uporaba DataMininga za rešitev Spletna opravila. Glavna področja: iskalniki, števci in drugo.

E-poslovanje

Na področju e-trgovine se za generiranje uporablja DataMining

Ta razvrstitev omogoča podjetjem, da identificirajo specifične skupine kupcev in izvajajo marketinško politiko v skladu z ugotovljenimi interesi in potrebami kupcev. Tehnologija DataMining za e-trgovino je tesno povezana s tehnologijo WebMining.

Glavne naloge DataMininga v industrijski proizvodnji:

· celovito sistemsko analizo proizvodnih situacij;

· kratkoročna in dolgoročna napoved razvoja proizvodnih situacij;

· razvoj možnosti optimizacijskih rešitev;

· napovedovanje kakovosti izdelka glede na določene parametre

tehnološki proces;

· odkrivanje skritih trendov in vzorcev v razvoju proizvodnje

procesi;

· napovedovanje vzorcev razvoja proizvodnih procesov;

· odkrivanje skritih dejavnikov vpliva;

· odkrivanje in prepoznavanje prej neznanih odnosov med

proizvodni parametri in vplivni dejavniki;

· analiza interakcijskega okolja proizvodnih procesov in napovedovanje

spremembe njegovih značilnosti;

procesi;

· vizualizacija rezultatov analiz, priprava preliminarnih poročil in projektov

izvedljive rešitve z ocenami zanesljivosti in učinkovitosti možnih izvedb.

Trženje

Na področju trženja se DataMining pogosto uporablja.

Osnovna marketinška vprašanja: »Kaj se prodaja?«, »Kako se prodaja?«, »Kdo se

potrošnik?"

Predavanje o problemih klasifikacije in grozdenja podrobno opisuje uporabo grozdne analize za reševanje marketinških problemov, kot je segmentacija potrošnikov.

Drug pogost nabor metod za reševanje marketinških problemov so metode in algoritmi za iskanje asociacijskih pravil.

Tu se uspešno uporablja tudi iskanje časovnih vzorcev.

Maloprodaja

Tako kot pri trženju se v trgovini na drobno uporabljajo:

· algoritmi za iskanje asociacijskih pravil (za določitev pogosto pojavljajočih se nizov

blago, ki ga kupci kupijo hkrati). Prepoznavanje takih pravil pomaga

postavljati blago na police trgovin, razvijati strategije nakupa blaga

in njihovo postavitev v skladišča itd.

· uporaba časovnih zaporedij, na primer za določanje

zahtevane količine blaga v skladišču.

· metode razvrščanja in združevanja v skupine za identifikacijo skupin ali kategorij strank,

katerih poznavanje prispeva k uspešni promociji blaga.

Borza

Tukaj je seznam težav na borzi, ki jih je mogoče rešiti s tehnologijo podatkov

Rudarjenje: · napovedovanje prihodnjih vrednosti finančnih instrumentov in njihovih indikatorjev

pretekle vrednosti;

· napoved trenda (prihodnja smer gibanja - rast, upad, ravno) finančna

instrument in njegova moč (močan, srednje močan itd.);

· prepoznavanje grozdne strukture trga, panoge, sektorja po določenem nizu

značilnosti;

· dinamično upravljanje portfelja;

· napoved volatilnosti;

· ocena tveganja;

· napovedovanje nastopa krize in napovedovanje njenega razvoja;

· izbor sredstev itd.

Poleg zgoraj opisanih področij dejavnosti se lahko tehnologija DataMining uporablja na najrazličnejših poslovnih področjih, kjer obstaja potreba po analizi podatkov in je bila zbrana določena količina retrospektivnih informacij.

Uporaba DataMininga v CRM

Eno najbolj obetavnih področij za uporabo DataMininga je uporaba te tehnologije v analitičnem CRM.

CRM (CustomerRelationshipManagement) - upravljanje odnosov s strankami.

Ko se te tehnologije uporabljajo skupaj, je pridobivanje znanja združeno s »črpanjem denarja« iz podatkov o strankah.

Pomemben vidik pri delu marketinških in prodajnih oddelkov je sestavljanjecelostni pogled na stranke, informacije o njihovih značilnostih, značilnostih in strukturi baze strank. CRM uporablja tako imenovano profiliranjestrankam, kar zagotavlja popoln vpogled v vse potrebne informacije o strankah.

Profiliranje strank vključuje naslednje komponente: segmentacija strank, dobičkonosnost strank, ohranjanje strank, analiza odzivov strank. Vsako od teh komponent je mogoče preučiti z uporabo DataMininga in njihova skupna analiza kot komponent profiliranja lahko na koncu zagotovi znanje, ki ga je nemogoče pridobiti iz vsake posamezne značilnosti.

WebMining

WebMining lahko prevedemo kot »rudarjenje podatkov v spletu«. WebIntelligence ali Web.

Intelligence je pripravljena »odpreti novo poglavje« v hitrem razvoju elektronskega poslovanja. Sposobnost določanja interesov in preferenc vsakega obiskovalca z opazovanjem njegovega vedenja je resna in kritična konkurenčna prednost na trgu e-trgovine.

Sistemi WebMining lahko odgovorijo na številna vprašanja, na primer, kdo od obiskovalcev je potencialni odjemalec spletne trgovine, katera skupina kupcev spletne trgovine prinaša največ zaslužka, kakšni so interesi posameznega obiskovalca ali skupine obiskovalcev.

Metode

Klasifikacija metod

Obstajata dve skupini metod:

  • statistične metode, ki temeljijo na uporabi povprečnih akumuliranih izkušenj, ki se odražajo v retrospektivnih podatkih;
  • kibernetične metode, vključno s številnimi heterogenimi matematičnimi pristopi.

Slabost te klasifikacije je, da tako statistični kot kibernetični algoritmi tako ali drugače temeljijo na primerjavi statističnih izkušenj z rezultati spremljanja trenutnega stanja.

Prednost te klasifikacije je njena enostavnost interpretacije - uporablja se za opis matematičnih sredstev sodobnega pristopa k pridobivanju znanja iz nizov začetnih opazovanj (operativnih in retrospektivnih), tj. pri nalogah podatkovnega rudarjenja.

Oglejmo si podrobneje zgoraj predstavljene skupine.

Statistične metode Podatkovno rudarjenje

V teh metode predstavljajo štiri med seboj povezane dele:

  • predhodna analiza narave statističnih podatkov (testiranje hipotez o stacionarnosti, normalnosti, neodvisnosti, homogenosti, ocena vrste porazdelitvene funkcije, njenih parametrov itd.);
  • prepoznavanje povezav in vzorcev(linearna in nelinearna regresijska analiza, korelacijska analiza itd.);
  • multivariatna statistična analiza (linearna in nelinearna diskriminantna analiza, analiza grozdov, komponentna analiza, faktorska analiza itd.);
  • dinamični modeli in napovedi na podlagi časovnih vrst.

Arzenal statističnih metod za podatkovno rudarjenje je razvrščen v štiri skupine metod:

  1. Deskriptivna analiza in opis izvornih podatkov.
  2. Analiza razmerij (korelacijska in regresijska analiza, faktorska analiza, analiza variance).
  3. Multivariatna statistična analiza (komponentna analiza, diskriminantna analiza, multivariatna regresijska analiza, kanonične korelacije itd.).
  4. Analiza časovnih vrst (dinamični modeli in napovedi).

Metode kibernetskega rudarjenja podatkov

Druga smer podatkovnega rudarjenja je vrsta pristopov, ki jih združujeta ideja računalniške matematike in uporaba teorije umetne inteligence.

Ta skupina vključuje naslednje metode:

  • umetne nevronske mreže (prepoznavanje, grozdenje, napovedovanje);
  • evolucijsko programiranje (vključno z algoritmi za metodo skupinskega obračunavanja argumentov);
  • genetski algoritmi (optimizacija);
  • asociativni spomin (iskanje analogov, prototipov);
  • mehka logika;
  • odločitvena drevesa;
  • sistemi za obdelavo ekspertnega znanja.

Analiza grozdov

Namen združevanja v gruče je iskanje obstoječih struktur.

Združevanje v gruče je opisni postopek, ne daje nobenih statističnih sklepov, vendar ponuja priložnost za izvajanje raziskovalne analize in preučevanje "strukture podatkov".

Sam pojem "grozd" je dvoumen: vsaka študija ima svoje "grozde". Koncept grozda je preveden kot "grozd", "kup". Grozd lahko označimo kot skupino predmetov, ki imajo skupne lastnosti.

Značilnosti grozda lahko opišemo kot dve:

  • notranja homogenost;
  • zunanja izolacija.

Vprašanje, ki si ga analitiki zastavljajo pri reševanju številnih problemov, je, kako podatke organizirati v vizualne strukture, tj. razširiti taksonomije.

Grozdenje se je sprva najbolj uporabljalo v znanostih, kot so biologija, antropologija in psihologija. Grozdenje se je dolgo časa malo uporabljalo za reševanje gospodarskih problemov zaradi specifičnosti ekonomskih podatkov in pojavov.

Grozdi so lahko nepovezani ali izključujoči (neprekrivajoči se, izključujoči) in prekrivajoči se.

Treba je opozoriti, da lahko z uporabo različnih metod analize grozdov dobimo grozde različnih oblik. Možni so na primer grozdi tipa "veriga", ko so grozdi predstavljeni z dolgimi "verigami", podolgovatimi grozdi itd., nekatere metode pa lahko ustvarijo grozde poljubne oblike.

Različne metode si lahko prizadevajo ustvariti grozde določenih velikosti (npr. majhne ali velike) ali domnevajo, da so v nizu podatkov grozdi različnih velikosti. Nekatere metode analize grozdov so še posebej občutljive na hrup ali odstopanja, druge manj. Zaradi uporabe različnih metod združevanja v gruče lahko pride do različnih rezultatov, kar je normalno in je značilnost delovanja določenega algoritma. Te značilnosti je treba upoštevati pri izbiri metode združevanja v gruče.

Naj na kratko opišemo pristope k grozdenju.

Algoritmi, ki temeljijo na ločevanju podatkov (Partitioning algorithms), vklj. ponavljajoče se:

  • delitev predmetov v k skupin;
  • Iterativna prerazporeditev objektov za izboljšanje združevanja v gruče.
  • Hierarhični algoritmi:
  • aglomeracija: vsak objekt je sprva grozd, grozdi,
  • med seboj povezujejo, tvorijo večjo gručo itd.

Metode, ki temeljijo na gostoti:

  • na podlagi sposobnosti povezovanja predmetov;
  • ignorirajte hrup in poiščite grozde poljubne oblike.

Mreža - metode (mrežne metode):

  • kvantizacija objektov v mrežne strukture.

Metode modela (na osnovi modela):

  • uporabo modela za iskanje skupin, ki najbolje ustrezajo podatkom.

Metode analize grozdov. Iterativne metode.

Pri velikem številu opazovanj hierarhične metode analize grozdov niso primerne. V takšnih primerih se uporabljajo nehierarhične metode, ki temeljijo na delitvi, ki so iterativne metode drobljenja izvorne populacije. Med postopkom delitve se oblikujejo novi grozdi, dokler ni izpolnjeno pravilo ustavitve.

Takšno nehierarhično združevanje je sestavljeno iz razdelitve nabora podatkov na določeno število posameznih skupin. Obstajata dva pristopa. Prvi je določiti meje grozdov kot najbolj zgoščenih območij v večdimenzionalnem prostoru izvornih podatkov, tj. definiranje grozda, kjer je velika "kondenzacija točk". Drugi pristop je zmanjšati mero razlike med predmeti

algoritem k-means

Najpogostejša nehierarhična metoda je algoritem k-means, imenovan tudi hitra analiza grozdov. Popoln opis algoritma je mogoče najti v Hartigan in Wong (1978). Za razliko od hierarhičnih metod, ki ne zahtevajo predhodnih predpostavk o številu grozdov, je za uporabo te metode potrebna hipoteza o najverjetnejšem številu grozdov.

Algoritem k-means konstruira k grozdov, ki se nahajajo na največji možni medsebojni razdalji. Glavna vrsta problemov, ki jih rešuje algoritem k-means, je prisotnost predpostavk (hipotez) o številu grozdov, ki naj bodo čim bolj različne. Izbira k lahko temelji na prejšnjih raziskavah, teoretičnih premislekih ali intuiciji.

Splošna ideja algoritma: dano fiksno število k opazovanih grozdov primerjamo z grozdi tako, da se povprečja v grozdu (za vse spremenljivke) čim bolj razlikujejo med seboj.

Opis algoritma

1. Začetna porazdelitev objektov v grozde.

  • Izbere se število k in v prvem koraku se te točke štejejo za "centre" grozdov.
  • Vsak grozd ustreza enemu središču.

Izbira začetnih težišč se lahko izvede na naslednji način:

  • izbira k-opazovanja za maksimiranje začetne razdalje;
  • naključna izbira k-opazanj;
  • izbor prvih k-opazanj.

Posledično je vsak objekt dodeljen določeni gruči.

2. Iterativni proces.

Izračunajo se središča grozdov, ki se nato uporabijo za izračun koordinatnih povprečij grozdov. Predmeti so ponovno razdeljeni.

Postopek izračuna centrov in prerazporeditve objektov se nadaljuje, dokler ni izpolnjen eden od pogojev:

  • centri grozdov so se stabilizirali, tj. vsa opazovanja pripadajo gruči, ki so ji pripadala pred trenutno ponovitvijo;
  • število ponovitev je enako največjemu številu ponovitev.

Slika prikazuje primer algoritma k-means za k, ki je enak dve.

Primer algoritma k-means (k=2)

Izbira števila grozdov je zapleteno vprašanje. Če ni nobenih predpostavk glede te številke, je priporočljivo ustvariti 2 grozda, nato 3, 4, 5 itd. in primerjati dobljene rezultate.

Preverjanje kakovosti združevanja v gruče

Po prejemu rezultatov k-means analize grozdov preverite pravilnost združevanja v gruče (tj. ocenite, kako različni so grozdi med seboj).

Za to se izračunajo povprečne vrednosti za vsako skupino. Dobro združevanje bi moralo ustvariti zelo različna sredstva za vse dimenzije ali vsaj večino.

Prednosti algoritma k-means:

  • Enostavnost uporabe;
  • hitrost uporabe;
  • razumljivost in preglednost algoritma.

Slabosti algoritma k-means:

  • algoritem je preveč občutljiv na izstopajoče vrednosti, ki lahko popačijo povprečje.

Možna rešitev Ta problem je uporaba modifikacije algoritma - k-median algoritem;

  • algoritem je lahko počasen pri velikih zbirkah podatkov. Možna rešitev te težave je uporaba vzorčenja podatkov.

Bayesove mreže

V teoriji verjetnosti je koncept informacijske odvisnosti modeliran s pogojno odvisnostjo (ali strogo: odsotnost pogojne neodvisnosti), ki opisuje, kako se naše zaupanje v izid nekega dogodka spremeni, ko pridobimo novo znanje o dejstvih, pod pogojem, da smo jih že poznali. nekaj drugih dejstev.

Priročno in intuitivno je predstaviti odvisnosti med elementi prek usmerjene poti, ki te elemente povezuje v graf. Če razmerje med elementoma x in y ni neposredno in se izvaja preko tretjega elementa z, potem je logično pričakovati, da bo na poti med x in y element z. Takšna vmesna vozlišča bodo "odrezala" odvisnost med x in y, tj. simulirajte situacijo pogojne neodvisnosti med njimi z znano vrednostjo neposrednih vplivnih dejavnikov.Takšni jeziki modeliranja so Bayesova omrežja, ki se uporabljajo za opisovanje pogojnih odvisnosti med koncepti določenega predmetnega področja.

Bayesova omrežja so grafične strukture predstaviti verjetnostna razmerja med velikim številom spremenljivk in izvesti verjetnostno sklepanje na podlagi teh spremenljivk.»Naivna« (Bayesova) klasifikacija je dokaj pregledna in razumljiva klasifikacijska metoda, »naivna« pa se imenuje zato, ker temelji na predpostavki medsebojneganeodvisnost znakov.

Klasifikacijske lastnosti:

1. Uporaba vseh spremenljivk in ugotavljanje vseh odvisnosti med njimi.

2. Imeti dve predpostavki o spremenljivkah:

  • vse spremenljivke so enako pomembne;
  • vse spremenljivke so statistično neodvisne, tj. vrednost ene spremenljivke ne pove ničesar o vrednosti druge.

Obstajata dva glavna scenarija za uporabo Bayesovih omrežij:

1. Opisna analiza. Predmetno področje je prikazano kot graf, katerega vozlišča predstavljajo koncepte, usmerjeni loki, prikazani s puščicami, pa ponazarjajo neposredne odvisnosti med temi koncepti. Razmerje med x in y pomeni: poznavanje vrednosti x vam pomaga bolje ugibati o vrednosti y. Odsotnost neposredne povezave med koncepti modelira pogojno neodvisnost med njimi z znanimi vrednostmi določenega niza "ločevalnih" konceptov. Na primer, otrokova velikost čevljev je očitno povezana z otrokovo bralno sposobnostjo skozi starost. Tako večja številka čevlja daje večjo samozavest, da otrok že bere, če pa že poznamo starost, nam poznavanje številke čevlja ne bo več dalo Dodatne informacije o otrokovi sposobnosti branja.


Kot drug, nasproten primer, upoštevajte tako sprva nepovezane dejavnike, kot sta kajenje in prehlad. Toda če poznamo simptom, na primer, da oseba zjutraj kašlja, potem vemo, da oseba ne kadi, poveča naše zaupanje, da je oseba prehlajena.

2. Klasifikacija in napovedovanje. Bayesovo omrežje, ki omogoča pogojno neodvisnost številnih konceptov, omogoča zmanjšanje števila parametrov skupne porazdelitve, kar omogoča njihovo zanesljivo oceno na razpoložljivih količinah podatkov. Torej, z 10 spremenljivkami, od katerih ima vsaka lahko 10 vrednosti, je število parametrov skupne porazdelitve 10 milijard - 1. Če predpostavimo, da sta samo 2 spremenljivki med temi spremenljivkami odvisni druga od druge, potem postane število parametrov 8 * (10-1) + (10*10-1) = 171. Če imamo model skupne porazdelitve, ki je realističen glede na računalniške vire, lahko napovemo neznano vrednost koncepta kot na primer najverjetnejšo vrednost ta koncept glede na znane vrednosti drugih konceptov.

Opažene so naslednje prednosti Bayesovih omrežij kot metode DataMining:

Model definira odvisnosti med vsemi spremenljivkami, kar olajšaobravnavati situacije, v katerih so vrednosti nekaterih spremenljivk neznane;

Bayesova omrežja je precej enostavno interpretirati in dovolitiPrediktivno modeliranje olajša izvedbo analize scenarijev kaj če;

Bayesova metoda vam omogoča naravno kombiniranje vzorcev,sklepati iz podatkov in na primer izrecno pridobljenega strokovnega znanja;

Z uporabo Bayesovih omrežij se izognemo problemu prekomernega opremljanja(overfitting), torej pretirano kompliciranje modela, kar je slabostštevilne metode (na primer drevesa odločanja in nevronske mreže).

Naivni Bayesov pristop ima naslednje pomanjkljivosti:

Pravilno je pomnožiti pogojne verjetnosti le, če so vsi vhodni podatkispremenljivke so resnično statistično neodvisne; čeprav pogosto ta metodakaže precej dobre rezultate, ko statistični pogoj ni izpolnjenneodvisnost, vendar bi teoretično takšno situacijo morali obravnavati bolj kompleksnometode, ki temeljijo na učnih Bayesovih mrežah;

Neposredna obdelava zveznih spremenljivk ni možna – potrebne sopretvorba v intervalno lestvico, tako da so atributi diskretni; kakorkoli takegatransformacije lahko včasih vodijo do izgube pomembnih vzorcev;

Na rezultat klasifikacije pri naivnem Bayesovem pristopu vpliva leposamezne vrednosti vhodnih spremenljivk, skupni vpliv parov oztrojčki vrednosti različnih atributov tukaj niso upoštevani. To bi se lahko izboljšalokakovost klasifikacijskega modela v smislu njegove napovedne natančnosti,vendar bi povečalo število preizkušenih možnosti.

Umetne nevronske mreže

Umetne nevronske mreže (v nadaljevanju nevronske mreže) so lahko sinhrone in asinhrone.V sinhronih nevronskih mrežah se v vsakem trenutku spremeni le njegovo stanje en nevron. Pri asinhronih - stanje se takoj spremeni v celotni skupini nevronov, praviloma v vseh plast. Obstajata dve osnovne arhitekture- večplastna in popolnoma povezana omrežja.Ključni koncept v večplastnih omrežjih je koncept plasti.Plast je eden ali več nevronov, katerih vhodi prejmejo isti skupni signal.Večplastne nevronske mreže so nevronske mreže, pri katerih so nevroni razdeljeni v ločene skupine (plasti), tako da se informacije obdelujejo plast za plastjo.V večplastnih omrežjih nevroni i-te plasti sprejemajo vhodne signale, jih transformirajo in prenašajo preko razvejnih točk do nevronov (i+1) plasti. In tako naprej do k-te plasti, ki proizvajaizhodni signali za tolmača in uporabnika. Število nevronov v vsaki plasti ni povezano s številom nevronov v drugih plasteh in je lahko poljubno.Znotraj ene plasti se podatki obdelujejo vzporedno, v celotnem omrežju pa obdelava poteka zaporedno - od plasti do plasti. Večplastne nevronske mreže vključujejo na primer večplastne perceptrone, radialne bazične funkcijske mreže, kognitronske, nekognitronske, asociativne spominske mreže.Vendar pa signal ni vedno poslan vsem nevronom v plasti. V kognitronu na primer vsak nevron trenutne plasti sprejema signale samo od nevronov, ki so mu blizu v prejšnji plasti.

Večplastna omrežja so lahko enoslojna ali večplastna.

Enoslojno omrežje- omrežje, sestavljeno iz enega sloja.

Večslojno omrežje- mreža z več plastmi.

V večplastnem omrežju se prva plast imenuje vhodna plast, naslednje plasti se imenujejo notranje ali skrite, zadnja plast pa se imenuje izhodna plast. Tako so vmesne plasti vse plasti v večplastni nevronski mreži razen vhodne in izhodne.Vhodna plast omrežja komunicira z vhodnimi podatki, izhodna plast pa z izhodnimi.Tako so nevroni lahko vhodni, izhodni in skriti.Vhodni sloj je organiziran iz vhodnih nevronov, ki sprejemajo podatke in jih distribuirajo na vhode nevronov v skritem sloju omrežja.Skriti nevron je nevron, ki se nahaja v skritem sloju nevronske mreže.Izhodni nevroni, iz katerih je organizirana izhodna plast mreže, proizvajajorezultati nevronske mreže.

V mrežastih omrežjih Vsak nevron prenaša svoje rezultate na druge nevrone, vključno s samim seboj. Izhodni signali omrežja so lahko vsi ali nekateri izhodni signali nevronov po več ciklih delovanja omrežja.

Vsi vhodni signali so podani vsem nevronom.

Usposabljanje nevronskih mrež

Pred uporabo nevronske mreže jo je treba usposobiti.Proces usposabljanja nevronske mreže je sestavljen iz prilagajanja njenih notranjih parametrov določeni nalogi.Algoritem nevronske mreže je iterativen, njegovi koraki se imenujejo epohe ali cikli.Epoha je ena ponovitev v učnem procesu, vključno s predstavitvijo vseh primerov iz učnega niza in po možnosti preverjanjem kakovosti učenja na testnem nizu. veliko. Učni proces se izvaja na učnem vzorcu.Učni nabor vključuje vhodne vrednosti in njihove ustrezne izhodne vrednosti nabora podatkov. Med treningom nevronska mreža najde določene odvisnosti med izhodnimi in vhodnimi polji.Tako se soočimo z vprašanjem - katera vnosna polja (features) potrebujemo?potrebno za uporabo. Sprva je izbira narejena hevristično, natoštevilo vnosov je mogoče spremeniti.

Težava, ki se lahko pojavi, je število opazovanj v nizu podatkov. In čeprav obstajajo določena pravila, ki opisujejo razmerje med zahtevanim številom opazovanj in velikostjo mreže, njihova pravilnost ni dokazana.Število potrebnih opazovanj je odvisno od kompleksnosti problema, ki ga rešujemo. Ko se število značilnosti povečuje, se število opazovanj povečuje nelinearno; ta problem se imenuje "prekletstvo dimenzionalnosti". V primeru nezadostne količinepodatkov, je priporočljiva uporaba linearnega modela.

Analitik mora določiti število plasti v omrežju in število nevronov v vsaki plasti.Nato morate dodeliti takšne vrednosti uteži in odmikov, ki jih lahkozmanjšati napako pri odločitvi. Uteži in odstopanja se samodejno prilagodijo, da zmanjšajo razliko med želenim in prejetim izhodnim signalom, kar se imenuje napaka usposabljanja.Napaka usposabljanja za sestavljeno nevronsko mrežo se izračuna s primerjavoizhodne in ciljne (želene) vrednosti. Funkcija napake se oblikuje iz nastalih razlik.

Funkcija napake je objektivna funkcija, ki zahteva minimizacijo v procesunadzorovano učenje nevronske mreže.S funkcijo napake lahko med treningom ocenite kakovost nevronske mreže. Pogosto se na primer uporablja vsota kvadratov napak.Kakovost usposabljanja nevronske mreže določa njeno sposobnost reševanja dodeljenih nalog.

Preusposabljanje nevronske mreže

Pri usposabljanju nevronskih mrež se pogosto pojavi resna težava, imenovanaproblem prekomernega opremljanja.Overfitting, ali overfitting - overfittingnevronske mreže na določen nabor primerov usposabljanja, pri katerih mreža izgubisposobnost posploševanja.Pretreniranost se pojavi, ko je treninga preveč, premaloprimeri usposabljanja ali preveč zapletena struktura nevronske mreže.Prekvalifikacija je posledica dejstva, da je izbira vadbenega nizaje naključno. Od prvih korakov učenja se napaka zmanjša. Vklopljenonadaljnje korake za zmanjšanje parametrov napake (ciljne funkcije).prilagajati značilnostim vadbenega sklopa. Vendar se to zgodi"prilagoditev" ne splošnim vzorcem serije, temveč značilnostim njenega dela -podmnožica usposabljanja. Hkrati se zmanjša natančnost napovedi.Ena od možnosti za boj proti pretreniranosti omrežja je razdelitev vzorca treninga na dva delakompleti (trening in testiranje).Nevronska mreža se uri na učnem setu. Izdelan model preverimo na testnem setu. Te množice se ne smejo sekati.Z vsakim korakom se parametri modela spreminjajo, vendar nenehno padajoVrednost ciljne funkcije se pojavi ravno na vadbeni množici. Ko niz razdelimo na dva, lahko opazujemo spremembo napake napovedi na testnem nizu vzporedno z opazovanji na učnem nizu. nekajštevilo korakov napake napovedi se pri obeh nizih zmanjša. Vendar pa naPri določenem koraku začne napaka na testnem nizu naraščati, medtem ko se napaka na vadbenem nizu še naprej zmanjšuje. Ta trenutek velja za začetek prekvalifikacije

Orodja DataMining

V razvoj sektorja DataMining na svetovnem trgu programske opreme sodelujejo tako svetovno znani voditelji kot nova podjetja v razvoju. Orodja DataMining so lahko predstavljena kot samostojna aplikacija ali kot dodatki k glavnemu izdelku.Slednjo možnost izvajajo številni vodilni na trgu programske opreme.Tako je že postalo tradicija, da razvijalci univerzalnih statističnih paketov poleg tradicionalnih metod statistične analize v paket vključujejo tudidoločen nabor metod DataMining. To so paketi, podobni SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner). Nekateri ponudniki rešitev OLAP ponujajo tudi niz metod DataMining, kot je družina izdelkov Cognos. Obstajajo dobavitelji, ki DataMining rešitve vključujejo v funkcionalnost DBMS: to so Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMIntelligentMinerforData).

Bibliografija

  1. Abdikeev N.M. Danko T.P. Ildemenov S.V. Kiselev A.D., »Reinženiring poslovnih procesov. MBA tečaj", M.: Založba Eksmo, 2005. - 592 str. - (MBA)
  1. Abdikeev N.M., Kiselev A.D. "Upravljanje znanja v korporaciji in prenova poslovanja" - M .: Infra-M, 2011. - 382 str. – ISBN 978-5-16-004300-5
  1. Barseghyan A.A., Kupriyanov M.S., Stepanenko V.V., Kholod I.I. “Metode in modeli analize podatkov: OLAP in podatkovno rudarjenje”, St. Petersburg: BHV-Petersburg, 2004, 336 str., ISBN 5-94157-522-X
  1. vojvoda IN., Samoilenko A., »Podatkovno rudarjenje.Tečaj usposabljanja" Sankt Peterburg: Peter, 2001, 386 str.
  1. Chubukova I.A., Tečaj rudarjenja podatkov, http://www.intuit.ru/department/database/datamining/
  1. IanH. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Podatkovno rudarjenje: Praktična orodja in tehnike strojnega učenja (tretja izdaja), ISBN 978-0-12-374856-0
  1. Petrušin V.A. , Khan L., Multimedijsko podatkovno rudarjenje in odkrivanje znanja

Ministrstvo za izobraževanje in znanost Ruske federacije

Zvezna državna proračunska izobraževalna ustanova za visoko strokovno izobraževanje

"NACIONALNA RAZISKOVALNA POLITEHNIČNA UNIVERZA TOMSK"

Inštitut za kibernetiko

Smer Informatika in računalništvo

Oddelek za VT

Test

v disciplini informatika in računalništvo

Tema: Metode podatkovnega rudarjenja

Uvod

Podatkovno rudarjenje. Osnovni pojmi in definicije

1 Koraki v procesu podatkovnega rudarjenja

2 Komponente inteligentnih analiznih sistemov

3 Metode podatkovnega rudarjenja

Metode podatkovnega rudarjenja

1 Izpeljava asociacijskih pravil

2 Algoritmi nevronske mreže

3 Metoda najbližjih sosedov in k-najbližjih sosedov

4 Odločitvena drevesa

5 Algoritmi združevanja v gruče

6 Genetski algoritmi

Področja uporabe

Proizvajalci orodij za rudarjenje podatkov

Kritika metod

Zaključek

Bibliografija

Uvod

Rezultat razvoja informacijske tehnologije je ogromna količina podatkov, zbranih v v elektronski obliki, ki raste z veliko hitrostjo. Hkrati imajo podatki praviloma heterogeno strukturo (besedila, slike, avdio, video, hipertekstni dokumenti, relacijske baze podatkov). Nakopičeno za dolgoročno podatki lahko vsebujejo vzorce, trende in razmerja, ki so dragocene informacije za načrtovanje, napovedovanje, odločanje in nadzor procesov. Vendar pa ljudje fizično ne morejo učinkovito analizirati takšne količine heterogenih podatkov. Metode tradicionalne matematične statistike že dolgo veljajo za glavno orodje za analizo podatkov. Vendar pa ne omogočajo sinteze novih hipotez, ampak se lahko uporabljajo le za potrditev vnaprej oblikovanih hipotez in »grobo« raziskovalno analizo, ki predstavlja osnovo spletne analitične obdelave (OLAP). Pogosto se prav oblikovanje hipoteze izkaže za najtežjo nalogo pri izvajanju analize za kasnejše odločanje, saj vsi vzorci v podatkih niso očitni na prvi pogled. Zato tehnologije rudarjenja podatkov veljajo za eno najpomembnejših in obetavnih tem za raziskave in uporabo v industriji informacijske tehnologije. Podatkovno rudarjenje se v tem primeru nanaša na proces identifikacije novega, pravilnega in potencialno uporabnega znanja na podlagi velike količine podatkov. Tako je MIT Technology Review Data Mining označil za eno od desetih nastajajočih tehnologij, ki bodo spremenile svet.

1. Podatkovno rudarjenje. Osnovni pojmi in definicije

Podatkovno rudarjenje je proces odkrivanja v »surovih« podatkih prej neznanega, netrivialnega, praktično uporabnega in razložljivega znanja, potrebnega za odločanje na različnih področjih človekovega delovanja.

Bistvo in namen tehnologije Data Mining lahko formuliramo takole: gre za tehnologijo, ki je zasnovana za iskanje v velikih količinah podatkov za neočitne, objektivne in praktične vzorce.

Neočitni vzorci so vzorci, ki jih ni mogoče odkriti s standardnimi metodami obdelave informacij ali s strokovno analizo.

Objektivne vzorce je treba razumeti kot vzorce, ki v celoti ustrezajo realnosti, za razliko od izvedenskega mnenja, ki je vedno subjektivno.

Ta koncept analize podatkov predvideva, da:

§ podatki so lahko netočni, nepopolni (vsebujejo izpustitve), protislovni, heterogeni, posredni in hkrati velikanskega obsega; zato razumevanje podatkov v specifičnih aplikacijah zahteva velik intelektualni napor;

§ sami algoritmi za analizo podatkov imajo lahko »elemente inteligence«, zlasti zmožnost učenja iz precedensov, to je oblikovanja splošnih zaključkov na podlagi zasebnih opazovanj; razvoj takšnih algoritmov zahteva tudi velik intelektualni napor;

§ procesov predelave neobdelanih podatkov v informacije in informacij v znanje ni mogoče izvesti ročno in zahtevajo avtomatizacijo.

Tehnologija podatkovnega rudarjenja temelji na konceptu predlog, ki odražajo fragmente večdimenzionalnih odnosov v podatkih. Ti vzorci predstavljajo vzorce, značilne za podvzorce podatkov, ki jih je mogoče kompaktno izraziti v človeku berljivi obliki.

Iskanje vzorcev se izvaja z metodami, ki niso omejene z vnaprejšnjimi predpostavkami o strukturi vzorca in vrsti porazdelitev vrednosti analiziranih indikatorjev.

Pomembna lastnost podatkovnega rudarjenja je nestandardna in neočitna narava iskanih vzorcev. Z drugimi besedami, orodja za rudarjenje podatkov se od orodij za statistično obdelavo podatkov in orodij OLAP razlikujejo po tem, da namesto preverjanja vnaprej predvidenih soodvisnosti s strani uporabnikov lahko te soodvisnosti neodvisno najdejo na podlagi razpoložljivih podatkov in gradijo hipoteze o njihovi naravi. Metode podatkovnega rudarjenja identificirajo pet standardnih vrst vzorcev:

· asociacija - velika verjetnost, da so dogodki med seboj povezani. Primer povezave so predmeti v trgovini, ki se pogosto kupujejo skupaj;

· zaporedje - velika verjetnost verige časovno povezanih dogodkov. Primer zaporedja je situacija, ko bo v določenem obdobju po nakupu enega izdelka z veliko verjetnostjo kupljen drug;

· klasifikacija - obstajajo znaki, ki označujejo skupino, ki ji pripada ta ali oni dogodek ali predmet;

· grozdenje je vzorec, ki je podoben klasifikaciji in se od nje razlikuje po tem, da same skupine niso specificirane – identificirajo se samodejno med obdelavo podatkov;

· časovni vzorci - prisotnost vzorcev v dinamiki obnašanja določenih podatkov. Tipičen primer časovnega vzorca so sezonska nihanja povpraševanja po določenem blagu ali storitvah.

1.1 Koraki v procesu podatkovnega rudarjenja

Tradicionalno se v procesu podatkovnega rudarjenja razlikujejo naslednje stopnje:

1. Študija predmetnega področja, na podlagi katere so oblikovani glavni cilji analize.

2. Zbiranje podatkov.

Predhodna obdelava podatkov:

a. Čiščenje podatkov - odpravljanje nedoslednosti in naključnega "šuma" iz izvornih podatkov

b. Integracija podatkov - združevanje podatkov iz več možnih virov v en repozitorij. Pretvorba podatkov. V tej fazi se podatki pretvorijo v obliko, primerno za analizo. Pogosto se uporabljajo združevanje podatkov, vzorčenje atributov, stiskanje podatkov in zmanjšanje dimenzij.

4. Analiza podatkov. Kot del te stopnje se rudarski algoritmi uporabljajo za pridobivanje vzorcev.

5. Interpretacija najdenih vzorcev. Ta stopnja lahko vključuje vizualizacijo ekstrahiranih vzorcev, prepoznavanje resnično uporabnih vzorcev na podlagi neke uporabne funkcije.

Uporaba novega znanja.

1.2 Komponente inteligentnih analiznih sistemov

Običajno imajo sistemi za rudarjenje podatkov naslednje glavne komponente:

1. Baza podatkov, skladišče podatkov ali drugo skladišče informacij. To je lahko ena ali več podatkovnih baz, podatkovnih skladišč, preglednic ali drugih vrst repozitorijev, ki jih je mogoče očistiti in integrirati.

2. Strežnik baze podatkov ali podatkovnega skladišča. Navedeni strežnik je odgovoren za pridobivanje bistvenih podatkov na podlagi zahteve uporabnika.

Baza znanja. To je znanje o domeni, ki vodi, kako iskati in oceniti uporabnost nastalih vzorcev.

Storitev rudarjenja znanja. Je sestavni del sistema podatkovnega rudarjenja in vsebuje niz funkcionalnih modulov za naloge, kot so karakterizacija, asociacijsko iskanje, klasifikacija, analiza grozdov in analiza variance.

Modul za vrednotenje vzorcev. Ta komponenta izračunava mere zanimivosti ali uporabnosti vzorcev.

Grafični Uporabniški vmesnik. Ta modul je odgovoren za komunikacijo med uporabnikom in sistemom podatkovnega rudarjenja, vizualizacijo vzorcev v različnih oblikah.

1.3 Metode podatkovnega rudarjenja

Večina analitičnih metod, ki se uporabljajo v tehnologiji podatkovnega rudarjenja, so dobro znani matematični algoritmi in metode. Novost pri njihovi uporabi je možnost njihove uporabe pri reševanju določenih specifičnih problemov, zaradi nastajajočih zmogljivosti strojne in programske opreme. Opozoriti je treba, da je večina metod Data Mining razvita v okviru teorije umetne inteligence. Oglejmo si najpogosteje uporabljene metode:

Izpeljava asociacijskih pravil.

2. Algoritmi nevronske mreže, katerih ideja temelji na analogiji z delovanjem živčnega tkiva in je v tem, da se začetni parametri obravnavajo kot signali, ki se transformirajo v skladu z obstoječimi povezavami med "nevroni", odziv celotnega omrežja pa se šteje kot odziv, ki izhaja iz analize na izvirne podatke.

Izbiranje podobnega analoga izvirnih podatkov iz obstoječih zgodovinskih podatkov. Imenuje se tudi metoda »najbližjega soseda«.

Odločitvena drevesa so hierarhična struktura, ki temelji na nizu vprašanj, ki zahtevajo odgovor "Da" ali "Ne".

Modeli gruče se uporabljajo za združevanje podobnih dogodkov v skupine na podlagi podobnih vrednosti več polj v naboru podatkov.

V naslednjem poglavju bomo podrobneje opisali zgornje metode.

2. Metode podatkovnega rudarjenja

2.1 Sklepanje asociacijskih pravil

Asociacijska pravila so pravila oblike »če ... potem ...«. Iskanje takih pravil v naboru podatkov razkrije skrite povezave v na videz nepovezanih podatkih. Eden najpogosteje citiranih primerov iskanja asociacijskih pravil je problem iskanja stabilnih povezav v nakupovalnem vozičku. Ta problem je ugotoviti, katere izdelke kupijo kupci skupaj, tako da lahko tržniki te izdelke ustrezno postavijo v trgovino in tako povečajo prodajo.

Asociacijska pravila so opredeljena kot izjave v obliki (X1,X2,…,Xn) -> Y, kjer je implicirano, da je Y lahko prisoten v transakciji pod pogojem, da so X1,X2,…,Xn prisotni v isti transakciji. Opozoriti je treba, da beseda "lahko" implicira, da pravilo ni identiteta, ampak je zadovoljno le z določeno verjetnostjo. Poleg tega je Y lahko niz elementov in ne le en element. Verjetnost, da najdemo Y v transakciji, ki vsebuje elemente X1,X2,…,Xn, se imenuje zaupanje. Odstotek transakcij, ki vsebujejo pravilo, od skupnega števila transakcij se imenuje podpora. Raven zaupanja, ki mora presegati zaupanje pravila, se imenuje zanimivost.

Obstajajo različne vrste asociacijskih pravil. V najpreprostejši obliki asociacijska pravila sporočajo samo prisotnost ali odsotnost asociacije. Takšna pravila se imenujejo logična asociacijska pravila. Primer takega pravila: »kupci, ki kupijo jogurt, kupijo tudi maslo z nizko vsebnostjo maščob.«

Pravila, ki združujejo več povezovalnih pravil, se imenujejo večnivojska ali splošna povezovalna pravila. Pri konstruiranju takšnih pravil so elementi običajno razvrščeni po hierarhiji, iskanje pa poteka na najvišji konceptualni ravni. Na primer, "kupci, ki kupijo mleko, kupijo tudi kruh." V tem primeru mleko in kruh vsebujeta hierarhijo različnih vrst in znamk, vendar iskanje na spodnji ravni ne bo razkrilo zanimivih pravil.

Bolj zapletena vrsta pravila so kvantitativna povezovalna pravila. Ta vrsta pravila se išče z uporabo kvantitativnih (npr. cena) ali kategoričnih (npr. spol) atributov in je definirana kot ( , ,…,} -> . Na primer, "kupci, stari med 30 in 35 let z dohodkom nad 75.000 na leto, kupujejo avtomobile, ki stanejo več kot 20.000."

Zgornje vrste pravil ne obravnavajo dejstva, da so transakcije po svoji naravi časovno odvisne. Na primer, iskanje, preden je bil izdelek objavljen v prodaji ali potem, ko je izginil s trga, bo negativno vplivalo na prag podpore. Ob upoštevanju tega je bil koncept življenjske dobe atributa uveden v algoritme za iskanje začasnih asociacijskih pravil (Temporal Association Rules).

Problem iskanja asociacijskih pravil lahko na splošno razdelimo na dva dela: iskanje pogosto pojavljajočih se nizov elementov in generiranje pravil na podlagi najdenih pogosto pojavljajočih se nizov. Prejšnje študije so večinoma sledile tem smernicam in jih razširile v različne smeri.

Od pojava algoritma Apriori je ta algoritem najpogosteje uporabljen v prvem koraku. Številne izboljšave, na primer v hitrosti in razširljivosti, so usmerjene v izboljšanje algoritma Apriori, v popravljanje njegove zmotne lastnosti generiranja preveč kandidatov za najpogosteje pojavljajoče se nize elementov. Apriori generira nize elementov samo z uporabo veliki kompleti, najden v prejšnjem koraku, brez ponovnega pregleda transakcij. Spremenjeni algoritem AprioriTid izboljša Apriori tako, da uporablja bazo podatkov le pri prvem prehodu. Pri izračunu v naslednjih korakih se uporabljajo samo podatki, ki so bili ustvarjeni v prvem prehodu in so veliko manjši od prvotne baze podatkov. To vodi do velikega povečanja produktivnosti. Nadaljnjo izboljšano različico algoritma, imenovano AprioriHybrid, je mogoče pridobiti z uporabo Apriori na prvih nekaj prehodih in nato preklopom na AprioriTid na kasnejših prehodih, ko je k-ti niz kandidatov že mogoče v celoti locirati v pomnilniku računalnika.

Nadaljnja prizadevanja za izboljšanje algoritma Apriori so povezana s paralelizacijo algoritma (Count Distribution, Data Distribution, Candidate Distribution itd.), njegovim skaliranjem (Intelligent Data Distribution, Hybrid Distribution), uvedbo novih podatkovnih struktur, kot so drevesa pogosto pojavljajoči se elementi (FP-rast ).

Drugi korak zaznamujeta predvsem pristnost in zanimivost. Nove spremembe tradicionalnim pravilom logičnih pravil dodajajo dimenzionalnost, kakovost in časovno podporo, opisano zgoraj. Za iskanje pravil se pogosto uporablja evolucijski algoritem.

2.2 Algoritmi nevronske mreže

Umetne nevronske mreže so se pojavile kot rezultat uporabe matematičnega aparata za preučevanje delovanja človeškega živčnega sistema z namenom njegove reprodukcije. Namreč: sposobnost živčnega sistema za učenje in popravljanje napak, kar naj bi nam omogočilo, čeprav precej grobo, simulacijo dela človeških možganov. Glavni strukturni in funkcionalni del nevronske mreže je formalni nevron, prikazan na sl. 1, kjer so x0, x1,..., xn komponente vektorja vhodnega signala, w0,w1,...,wn so vrednosti uteži vhodnih signalov nevrona in y je izhod nevrona signal.

riž. 1. Formalni nevron: sinapse (1), seštevalec (2), pretvornik (3).

Formalni nevron je sestavljen iz treh vrst elementov: sinapse, seštevalnika in pretvornika. Sinapsa označuje moč povezave med dvema nevronoma.

Seštevalnik sešteje vhodne signale, predhodno pomnožene z ustreznimi utežmi. Pretvornik izvaja funkcijo enega argumenta - izhod seštevalnika. To funkcijo imenujemo aktivacijska funkcija ali prenosna funkcija nevrona.

Zgoraj opisane formalne nevrone je mogoče kombinirati tako, da so izhodni signali nekaterih nevronov vhodni signali za druge. Nastali niz med seboj povezanih nevronov imenujemo umetne nevronske mreže. nevronske mreže, ANN) ali na kratko nevronske mreže.

Obstajajo naslednje tri splošne vrste nevronov, odvisno od njihovega položaja v nevronski mreži:

Vhodni nevroni (vhodna vozlišča), v katere se dovajajo vhodni signali. Takšni nevroni imajo običajno en vhod z enotsko težo, ni pristranskosti in izhodna vrednost nevrona je enaka vhodnemu signalu;

Izhodna vozlišča, katerih izhodne vrednosti predstavljajo nastale izhodne signale nevronske mreže;

Skriti nevroni (skrite vozlišča), ki nimajo neposrednih povezav z vhodnimi signali, medtem ko vrednosti izhodnih signalov skritih nevronov niso izhodni signali ANN.

Glede na strukturo internevronskih povezav ločimo dva razreda ANN:

Napredne ANN, pri katerih se signal širi samo od vhodnih nevronov do izhodnih nevronov.

Ponavljajoče se ANN - ANN z povratne informacije. V takšnih ANN se lahko signali prenašajo med kateri koli nevroni, ne glede na njihovo lokacijo v ANN.

Obstajata dva splošna pristopa k usposabljanju ANN:

Usposabljanje z učiteljem.

Učenje brez učitelja.

Nadzorovano učenje vključuje uporabo vnaprej ustvarjenega niza primerov usposabljanja. Vsak primer vsebuje vektor vhodnih signalov in ustrezen vektor referenčnih izhodnih signalov, ki sta odvisna od naloge, ki jo obravnavamo. Ta komplet ki se imenuje vadbeni niz ali vadbeni niz. Usposabljanje nevronske mreže je namenjeno spreminjanju uteži povezav ANN na način, da se vrednosti izhodnih signalov ANN čim manj razlikujejo od zahtevanih vrednosti izhodnih signalov za dani vektor vhodnih signalov. .

Pri nenadzorovanem učenju se uteži povezav prilagajajo bodisi kot posledica konkurence med nevroni bodisi ob upoštevanju korelacije izhodnih signalov nevronov, med katerimi obstaja povezava. V primeru nenadzorovanega učenja se vadbeni set ne uporablja.

Nevronske mreže se uporabljajo za reševanje širokega nabora problemov, kot je načrtovanje tovora za raketoplane in napovedovanje menjalnih tečajev. Vendar se v sistemih za podatkovno rudarjenje ne uporabljajo pogosto zaradi zapletenosti modela (znanje, zabeleženo kot uteži več sto internevralnih povezav, je povsem onkraj človeške analize in interpretacije) in dolgega časa usposabljanja na velikem nizu usposabljanj. Po drugi strani pa imajo nevronske mreže takšne prednosti za uporabo pri nalogah analize podatkov, kot sta odpornost na hrupne podatke in visoka natančnost.

2.3 Metoda najbližjih sosedov in k-najbližjih sosedov

Osnova algoritma najbližjega soseda (algoritem najbližjega soseda) in k-algoritma najbližjega soseda (KNN) je podobnost objektov. Algoritem najbližjega soseda med vsemi znanimi objekti izbere objekt, ki je čim bližje (z uporabo metrike razdalje med objekti, na primer evklidske) novemu prej neznanemu objektu. Glavna težava metode najbližjega soseda je njena občutljivost na odstopanja v podatkih o usposabljanju.

Opisani težavi se lahko izognemo z algoritmom KNN, ki med vsemi opazovanji identificira k-najbližjih sosedov, ki so podobni novemu objektu. Glede na razrede najbližjih sosedov se sprejme odločitev o novem objektu. Pomembna naloga tega algoritma je izbira koeficienta k - števila zapisov, ki bodo obravnavani kot podobni. Sprememba algoritma, pri kateri je prispevek soseda sorazmeren z razdaljo do novega objekta (k-utežena metoda najbližjih sosedov), omogoča doseganje večje natančnosti klasifikacije. Metoda k najbližjih sosedov vam omogoča tudi ovrednotenje točnosti napovedi. Na primer, če ima vseh k najbližjih sosedov isti razred, potem je verjetnost, da bo predmet, ki se testira, imel isti razred, zelo velika.

Med značilnostmi algoritma je treba omeniti njegovo odpornost na nenormalne izstope, saj je verjetnost, da bo tak zapis vključen v število k-najbližjih sosedov, majhna. Če se je to zgodilo, bo tudi vpliv na glasovanje (zlasti ponderirano) (za k>2) najverjetneje nepomemben, zato bo majhen tudi vpliv na rezultat razvrščanja. Prednosti so tudi enostavnost implementacije, enostavnost interpretacije rezultata algoritma, možnost spreminjanja algoritma z uporabo najprimernejše kombinacije funkcij in metrik, kar omogoča prilagajanje algoritma določeni nalogi. Algoritem KNN ima tudi številne pomanjkljivosti. Prvič, nabor podatkov, uporabljen za algoritem, mora biti reprezentativen. Drugič, modela ni mogoče ločiti od podatkov: vse primere je treba uporabiti za klasifikacijo novega primera. Ta funkcija močno omejuje uporabo algoritma.

2.4 Odločitvena drevesa

Izraz »drevesa odločanja« se nanaša na družino algoritmov, ki temeljijo na predstavitvi klasifikacijskih pravil v hierarhični, zaporedni strukturi. To je najbolj priljubljen razred algoritmov za reševanje problemov podatkovnega rudarjenja.

Družina algoritmov za izdelavo odločitvenih dreves omogoča napovedovanje vrednosti parametra za določen primer na podlagi velike količine podatkov o drugih podobnih primerih. Običajno se algoritmi te družine uporabljajo za reševanje problemov, ki omogočajo razdelitev vseh začetnih podatkov v več diskretnih skupin.

Pri uporabi algoritmov za konstrukcijo odločitvenega drevesa na nabor začetnih podatkov je rezultat prikazan kot drevo. Takšni algoritmi omogočajo izvedbo več nivojev takšne delitve, pri čemer nastale skupine (drevesne veje) razdelijo na manjše glede na druge značilnosti. Delitev se nadaljuje, dokler vrednosti, ki naj bi bile napovedane, ne postanejo enake (ali v primeru zvezne vrednosti napovedanega parametra blizu) za vse nastale skupine (liste drevesa). Prav te vrednosti se uporabljajo za izdelavo napovedi na podlagi tega modela.

Delovanje algoritmov za gradnjo odločitvenih dreves temelji na uporabi metod regresijske in korelacijske analize. Eden najbolj priljubljenih algoritmov te družine je CART (Classification and Regression Trees), ki temelji na delitvi podatkov v drevesni veji na dve podrejeni veji; Poleg tega je nadaljnja delitev posamezne veje odvisna od tega, koliko začetnih podatkov ta veja opisuje. Nekateri drugi podobni algoritmi vam omogočajo, da vejo razdelite na več podrejenih vej. V tem primeru se delitev izvede na podlagi najvišjega korelacijskega koeficienta za podatke, ki jih opisuje veja med parametrom, po katerem pride do delitve, in parametrom, ki ga je treba naknadno napovedati.

Priljubljenost pristopa je povezana z jasnostjo in jasnostjo. Toda odločitvena drevesa v osnovi niso sposobna najti »najboljših« (najbolj popolnih in natančnih) pravil v podatkih. Izvajajo naivno načelo zaporednega gledanja značilnosti in dejansko najdejo dele resničnih vzorcev, kar ustvarja le iluzijo logičnega zaključka.

2.5 Algoritmi združevanja v gruče

Gručenje je naloga razdelitve nabora predmetov v skupine, imenovane grozdi. Glavna razlika med grozdenjem in klasifikacijo je v tem, da seznam skupin ni jasno definiran in se določi med delovanjem algoritma.

Uporaba analize grozdov se na splošno zmanjša na naslednje korake:

· izbor vzorca objektov za združevanje v gruče;

· določitev nabora spremenljivk, s katerimi bomo ocenjevali objekte v vzorcu. Po potrebi normalizirajte vrednosti spremenljivk;

· izračun vrednosti mer podobnosti med objekti;

· uporaba metode analize grozdov za ustvarjanje skupin podobnih objektov (grozdov);

· predstavitev rezultatov analize.

Po prejemu in analizi rezultatov je možno prilagajati izbrano metriko in metodo združevanja v skupine, dokler ne dobimo optimalnega rezultata.

Algoritmi združevanja v gruče vključujejo hierarhične in ravne skupine. Hierarhični algoritmi (imenovani tudi taksonomski algoritmi) ne zgradijo samo ene particije vzorca v nepovezane gruče, temveč sistem ugnezdenih particij. Tako je rezultat algoritma drevo gruč, katerega koren je celoten vzorec, listi pa so najmanjši grozdi. Ploščati algoritmi sestavijo eno particijo objektov v skupine, ki se med seboj ne sekajo.

Druga klasifikacija algoritmov združevanja v gruče je na jasne in mehke algoritme. Jasni algoritmi (ali neprekrivajoči se) vsakemu vzorčnemu objektu dodelijo številko gruče, kar pomeni, da vsak objekt pripada le eni gruči. Mehki (ali sekajoči se) algoritmi vsakemu objektu dodelijo nabor dejanskih vrednosti, ki prikazujejo stopnjo odnosa predmeta do grozdov. Tako vsak objekt z določeno verjetnostjo pripada vsaki skupini.

Med algoritmi hierarhičnega združevanja v gruče obstajata dve glavni vrsti: algoritmi od spodaj navzgor in od zgoraj navzdol. Algoritmi od zgoraj navzdol delujejo po principu od zgoraj navzdol: najprej se vsi objekti postavijo v eno gručo, ki se nato razdeli na vse manjše skupine. Pogostejši so algoritmi od spodaj navzgor, ki začnejo z umestitvijo vsakega predmeta v ločeno gručo in nato združevanjem skupin v večje in večje, dokler niso vsi predmeti v vzorcu v eni sami gruči. Tako je zgrajen sistem ugnezdenih predelnih sten. Rezultati takšnih algoritmov so običajno predstavljeni v obliki drevesa.

Slabost hierarhičnih algoritmov je sistem popolnih particij, ki je lahko nepotreben v kontekstu problema, ki ga rešujemo.

Oglejmo si zdaj ravne algoritme. Najenostavnejši v tem razredu so algoritmi s kvadratno napako. Težavo združevanja v gruče za te algoritme lahko obravnavamo kot konstrukcijo optimalne razdelitve objektov v skupine. V tem primeru lahko optimalnost definiramo kot zahtevo za zmanjšanje srednje kvadratne napake particije:

,

Kje c j - "središče mase" grozda j(točka s povprečnimi značilnostmi za dani grozd).

Najpogostejši algoritem v tej kategoriji je metoda k-povprečij. Ta algoritem zgradi dano število gruč, ki so čim bolj narazen. Delo algoritma je razdeljeno na več stopenj:

Naključno izberite k točke, ki so začetni »centri mase« grozdov.

2. Vsak predmet dodelite skupini z najbližjim »centrom mase«.

Če merilo za zaustavitev algoritma ni izpolnjeno, se vrnite na 2. korak.

Najmanjša sprememba srednje kvadratne napake je običajno izbrana kot kriterij za zaustavitev algoritma. Algoritem je možno tudi ustaviti, če v 2. koraku ni bilo nobenih objektov, ki bi se premaknili iz gruče v gručo. Slabosti tega algoritma vključujejo potrebo po določitvi števila gruč za particioniranje.

Najbolj priljubljen mehki algoritem združevanja v gruče je algoritem c-means. Je modifikacija metode k-povprečij. Koraki algoritma:

1. Izberite začetno mehko particijo n predmetov na k grozdov z izbiro matrike članstva U velikost n x k.

2. Z uporabo matrike U poiščite vrednost merila mehke napake:

,

Kje c k - "središče mase" mehke kopice k:

3. Ponovno združite objekte, da zmanjšate to mehko vrednost kriterija napake.

4. Vrnite se na 2. korak, dokler se matrika ne spremeni U ne bo postalo nepomembno.

Ta algoritem morda ne bo primeren, če je število gruč vnaprej neznano ali če je treba vsak objekt nedvoumno dodeliti eni gruči.

Naslednja skupina algoritmov so algoritmi, ki temeljijo na teoriji grafov. Bistvo takih algoritmov je, da je izbor predmetov predstavljen v obliki grafa. G=(V, E), katerih oglišča ustrezajo objektom in katerih robovi imajo težo, ki je enaka "razdalji" med objekti. Prednosti algoritmov za združevanje grafov so jasnost, relativna enostavnost implementacije in zmožnost uvajanja različnih izboljšav na podlagi geometrijskih premislekov. Glavni algoritmi so algoritem za identifikacijo povezanih komponent, algoritem za izgradnjo minimalnega vpetega drevesa in algoritem za plastno združevanje.

Za izbiro parametra R Običajno se sestavi histogram porazdelitev razdalj po parih. Pri nalogah z dobro definirano strukturo grozda podatkov bo imel histogram dva vrha - eden ustreza razdaljam znotraj grozdov, drugi pa razdaljam med grozdi. Parameter R je izbran iz najmanjšega območja med temi vrhovi. Hkrati je precej težko nadzorovati število grozdov z uporabo praga razdalje.

Algoritem minimalnega vpetega drevesa najprej zgradi minimalno vpeto drevo na grafu in nato zaporedno odstrani robove z največjo težo. Algoritem združevanja po slojih temelji na prepoznavanju povezanih komponent grafa na določeni ravni razdalj med objekti (točkami). Raven razdalje je nastavljena s pragom razdalje c. Na primer, če je razdalja med predmeti , potem .

Algoritem združevanja v gruče plast za plastjo ustvari zaporedje podgrafov grafa G, ki odražajo hierarhične odnose med grozdi:

,

Kje G t = (V, E t ) - graf ravni z t, ,

z t - t-ti prag razdalje, m - število stopenj hierarhije,
G 0 = (V, o), o je prazna množica robov grafa, dobljena z t 0 = 1,
G m = G, to je graf objektov brez omejitev glede razdalje (dolžine robov grafa), saj t m = 1.

S spreminjanjem pragov razdalje ( z 0 , …, Z m), kjer je 0 = z 0 < z 1 < …< z m = 1, je mogoče nadzorovati globino hierarhije nastalih grozdov. Tako je algoritem za združevanje v gruče plast za plastjo sposoben ustvariti tako ravno kot hierarhično razdelitev podatkov.

Grozdenje vam omogoča doseganje naslednjih ciljev:

· izboljša razumevanje podatkov z identifikacijo strukturnih skupin. Razdelitev vzorca v skupine podobnih objektov omogoča poenostavitev nadaljnje obdelave podatkov in odločanja z uporabo drugačne metode analize za vsak grozd;

· omogoča kompaktno shranjevanje podatkov. Če želite to narediti, lahko namesto shranjevanja celotnega vzorca obdržite eno tipično opazovanje iz vsake skupine;

· odkrivanje novih atipičnih objektov, ki niso spadali v noben grozd.

Običajno se združevanje v gruče uporablja kot pomožna metoda pri analizi podatkov.

2.6 Genetski algoritmi

Genetski algoritmi sodijo med univerzalne optimizacijske metode, ki omogočajo reševanje problemov različnih vrst (kombinatoričnih, splošnih problemov z in brez omejitev) in različnih stopenj kompleksnosti. Hkrati je za genetske algoritme značilna možnost tako enokriterijskega kot večkriterijskega iskanja v velikem prostoru, katerega pokrajina ni gladka.

Ta skupina metod uporablja iterativni proces evolucije zaporedja generacij modelov, vključno z operacijami selekcije, mutacije in križanja. Na začetku algoritma se populacija oblikuje naključno. Za oceno kakovosti kodiranih rešitev se uporablja fitnes funkcija, ki je potrebna za izračun kondicije vsakega posameznika. Na podlagi rezultatov ocenjevanja posameznikov se za križanje izberejo najbolj primerni med njimi. Kot rezultat križanja izbranih osebkov z uporabo operaterja genetskega križanja nastanejo potomci, katerih genetske informacije nastanejo kot posledica izmenjave kromosomskih informacij med starševskimi posamezniki. Ustvarjeni potomci tvorijo novo populacijo, nekateri potomci pa mutirajo, kar se izraža v naključni spremembi njihovih genotipov. Stopnja, vključno z zaporedjem "Ocena populacije" - "Izbira" - "Križanje" - "Mutacija", se imenuje generacija. Razvoj populacije je sestavljen iz zaporedja takih generacij.

Razlikujejo se naslednji algoritmi za izbiro posameznikov za križanje:

· Panmiksija. Oba posameznika, ki bosta tvorila starševski par, sta naključno izbrana iz celotne populacije. Vsak posameznik lahko postane član več parov. Ta pristop je univerzalen, vendar se učinkovitost algoritma zmanjšuje z večanjem velikosti populacije.

· Izbira. Starši so lahko posamezniki z vsaj povprečno kondicijo. Ta pristop zagotavlja hitrejšo konvergenco algoritma.

· Parjenje v sorodstvu. Metoda temelji na oblikovanju para na podlagi bližnjega sorodstva. Tukaj sorodnost razumemo kot razdaljo med člani populacije, tako v smislu geometrijske razdalje posameznikov v prostoru parametrov kot Hemingove razdalje med genotipi. Zato ločimo genotipsko in fenotipsko parjenje v sorodstvu. Prvi član para, ki ga je treba križati, je izbran naključno, drugi pa je bolj verjetno posameznik, ki mu je najbližje. Za parjenje v sorodstvu je značilna lastnost koncentriranja iskanja v lokalnih vozliščih, kar dejansko vodi do razdelitve populacije v ločene lokalne skupine okoli območij krajine, ki so sumljive za ekstreme.

· Outbreeding. Oblikovanje para na podlagi daljnega sorodstva, za najbolj oddaljene posameznike. Outbreeding želi preprečiti, da bi se algoritem zbližal z že najdenimi rešitvami, zaradi česar mora algoritem iskati nova, neraziskana področja.

Algoritmi za oblikovanje nove populacije:

· Izbor s premikom. Od vseh posameznikov z enakimi genotipi imajo prednost tisti, katerih kondicija je višja. Tako sta dosežena dva cilja: najboljše najdene rešitve, ki imajo različne kromosomske garniture, se ne izgubijo in se v populaciji stalno vzdržuje zadostna genetska raznolikost. Razseljenost tvori novo populacijo oddaljenih posameznikov, namesto posameznikov, ki se združujejo okoli trenutno najdene rešitve. Ta metoda se uporablja za multiekstremne probleme.

· Elitni izbor. Elitne selekcijske metode zagotavljajo, da bo selekcija zagotovila preživetje najboljših članov populacije. Hkrati pa nekateri najboljši posamezniki brez sprememb preidejo v naslednjo generacijo. Hitro konvergenco, ki jo zagotavlja elitna selekcija, lahko kompenziramo z ustrezno metodo izbire starševskih parov. V tem primeru se pogosto uporablja outbreeding. Prav ta kombinacija "outbreeding - elitna selekcija" je ena najučinkovitejših.

· Izbor turnirja. Izbira turnirjev izvede n turnirjev za izbiro n posameznikov. Vsak turnir temelji na izbiri k elementov iz populacije in izbiri najboljšega posameznika med njimi. Najpogostejši je turnirski izbor s k = 2.

Ena najbolj priljubljenih aplikacij genetskih algoritmov na področju podatkovnega rudarjenja je iskanje najbolj optimalnega modela (iskanje algoritma, ki ustreza specifikam posameznega področja). Genetski algoritmi se uporabljajo predvsem za optimizacijo topologije nevronskih mrež in uteži. Lahko pa se uporabljajo tudi kot samostojno orodje.

3. Aplikacije

Tehnologija podatkovnega rudarjenja ima resnično širok spekter uporabe, saj je pravzaprav skupek univerzalnih orodij za analizo podatkov katere koli vrste.

Trženje

Eno prvih področij, kjer so bile uporabljene tehnologije podatkovnega rudarjenja, je bilo področje marketinga. Naloga, s katero se je začel razvoj metod Data Mining, se imenuje analiza nakupovalne košarice.

Ta naloga je identificirati izdelke, ki jih kupci običajno kupujejo skupaj. Poznavanje nakupovalne košarice je potrebno za vodenje oglaševalskih kampanj, oblikovanje osebnih priporočil kupcem, razvoj strategije za ustvarjanje zalog blaga in načinov njihove postavitve v prodajne prostore.

Tudi v marketingu se rešujejo naloge, kot so določitev ciljne publike izdelka za uspešnejšo promocijo; Raziskava časovnih vzorcev, ki podjetjem pomaga pri odločanju o zalogah; ustvarjanje napovednih modelov, ki podjetjem omogočajo, da prepoznajo naravo potreb različnih kategorij strank z določenim vedenjem; napovedovanje zvestobe strank, ki vam omogoča, da pri analizi njegovega vedenja vnaprej prepoznate trenutek odhoda stranke in po možnosti preprečite izgubo dragocene stranke.

Industrija

Eno izmed pomembnih področij na tem področju je spremljanje in kontrola kakovosti, kjer je mogoče z analiznimi orodji predvideti okvaro opreme, pojav okvar in načrtovati popravila. Napovedovanje priljubljenosti določenih funkcij in poznavanje funkcij, ki so običajno naročene skupaj, pomaga optimizirati proizvodnjo in jo osredotočiti na resnične potrebe potrošnikov.

Zdravilo

V medicini se precej uspešno uporablja tudi analiza podatkov. Primeri nalog so analiza rezultatov preiskav, diagnostika, primerjava učinkovitosti metod zdravljenja in zdravil, analiza bolezni in njihove razširjenosti ter prepoznavanje stranskih učinkov. Tehnologije podatkovnega rudarjenja, kot so asociacijska pravila in zaporedni vzorci, so bile uspešno uporabljene za prepoznavanje povezav med zdravili in stranskimi učinki.

Molekularna genetika in genski inženiring

Morda najbolj akutna in hkrati jasna naloga odkrivanja vzorcev v eksperimentalnih podatkih je v molekularna genetika in genski inženiring. Tukaj je formuliran kot definicija markerjev, ki jih razumemo kot genetske kode, ki nadzorujejo določene fenotipske značilnosti živega organizma. Take kode lahko vsebujejo na stotine, tisoče ali več povezanih elementov. Rezultat analize analitičnih podatkov je tudi povezava, ki so jo odkrili genetiki med spremembami v zaporedju človeške DNK in tveganjem za razvoj različnih bolezni.

Uporabna kemija

Metode podatkovnega rudarjenja se uporabljajo tudi na področju uporabne kemije. Tu se pogosto pojavi vprašanje razjasnitve značilnosti kemijske strukture določenih spojin, ki določajo njihove lastnosti. Ta naloga je še posebej pomembna pri analizi kompleksnih kemičnih spojin, katerih opis vključuje na stotine in tisoče strukturnih elementov in njihovih povezav.

Boj proti kriminalu

Orodja za rudarjenje podatkov se v varnosti uporabljajo relativno nedavno, vendar so že bili pridobljeni praktični rezultati, ki potrjujejo učinkovitost rudarjenja podatkov na tem področju. Švicarski znanstveniki so razvili sistem za analizo protestne dejavnosti z namenom predvidevanja prihodnjih incidentov in sistem za sledenje nastajajočim kibernetskim grožnjam in hekerskim dejanjem po svetu. Najnovejši sistem vam omogoča napovedovanje kibernetskih groženj in drugih tveganj varnost informacij. Metode podatkovnega rudarjenja se uspešno uporabljajo tudi za odkrivanje goljufij s kreditnimi karticami. Z analizo preteklih transakcij, za katere se je kasneje izkazalo, da so bile goljufive, banka ugotavlja nekatere vzorce tovrstnih goljufij.

Druge aplikacije

· Analiza tveganja. Na primer, s prepoznavanjem kombinacij dejavnikov, povezanih s plačanimi odškodninami, lahko zavarovatelji zmanjšajo svoje izgube zaradi odgovornosti. Znan je primer, ko je velika zavarovalnica v ZDA odkrila, da so zneski, plačani za terjatve poročenih oseb, dvakrat višji od zneskov, plačanih za terjatve samskih oseb. Podjetje se je na to novo spoznanje odzvalo s spremembo splošne politike ponujanja popustov družinskim strankam.

· Meteorologija. Napovedovanje vremena z uporabo metod nevronske mreže, zlasti se uporabljajo samoorganizirajoči se zemljevidi Kohonen.

· Kadrovska politika. Orodja za analizo pomagajo kadrovskim službam pri izbiri najuspešnejših kandidatov na podlagi analize podatkov njihovih življenjepisov in modeliranju lastnosti idealnih zaposlenih za posamezno delovno mesto.

4. Proizvajalci orodij za rudarjenje podatkov

Orodja za rudarjenje podatkov so tradicionalno dragi programski izdelki. Zato so bili do nedavnega glavni porabniki te tehnologije banke, finančne in zavarovalnice, velika trgovska podjetja, glavne naloge, ki zahtevajo uporabo podatkovnega rudarjenja, pa so bile ocena kreditnih in zavarovalniških tveganj ter razvoj tržnih politik. , tarifni načrti in druga načela dela s strankami. V zadnjih letih so se razmere nekoliko spremenile: na trgu programske opreme so se pojavila relativno poceni orodja za rudarjenje podatkov in celo prosto distribuirani sistemi, zaradi česar je ta tehnologija postala dostopna malim in srednje velikim podjetjem.

Med plačljivimi orodji in sistemi za analizo podatkov so vodilni SAS Institute (SAS Enterprise Miner), SPSS (SPSS, Clementine) in StatSoft (STATISTICA Data Miner). Dobro znane rešitve so Angoss (Angoss KnowledgeSTUDIO), IBM (IBM SPSS Modeler), Microsoft (Microsoft Analysis Services) in (Oracle) Oracle Data Mining.

Pestra je tudi izbira brezplačne programske opreme. Obstajajo tako univerzalna orodja za analizo, kot so JHepWork, KNIME, Orange, RapidMiner, kot specializirana orodja, na primer Carrot2 - ogrodje za združevanje besedilnih podatkov in rezultatov iskalnih poizvedb, Chemicalize.org - rešitev na področju uporabne kemije, NLTK (Natural Language Toolkit) orodje za obdelavo naravnega jezika.

5. Kritika metod

Rezultati podatkovnega rudarjenja so v veliki meri odvisni od stopnje priprave podatkov in ne od »čudovitih zmožnosti« nekega algoritma ali niza algoritmov. Približno 75 % dela pri rudarjenju podatkov je sestavljeno iz zbiranja podatkov, ki poteka pred uporabo orodij za analizo. Nepismena uporaba orodij bo privedla do izgube potenciala podjetja in včasih do milijonov dolarjev.

Mnenje Herba Edelsteina, svetovno priznanega strokovnjaka na področju Data Mining, Data Warehousing in CRM: »Nedavna študija Two Crows je pokazala, da je Data Mining še vedno v zgodnji fazi razvoja. Veliko organizacij se zanima za to tehnologijo, a le redke jih aktivno izvajajo takšne projekte. Uspelo izvedeti še enega pomembna točka: Proces implementacije podatkovnega rudarjenja v praksi se izkaže za bolj zapletenega, kot je bilo pričakovano.Ekipe so zanesene v mit, da so orodja za rudarjenje podatkov preprosta za uporabo. Predvideva se, da je dovolj zagnati takšno orodje v terabajtni bazi podatkov in uporabne informacije se bodo takoj pojavile. Pravzaprav uspešen projekt podatkovnega rudarjenja zahteva razumevanje dejavnosti, poznavanje podatkov in orodij ter procesa analize podatkov.« Zato je treba pred uporabo tehnologije podatkovnega rudarjenja skrbno analizirati omejitve, ki jih nalagajo metode, in kritična vprašanja, povezana z njo, ter trezno oceniti zmogljivosti tehnologije. Kritična vprašanja vključujejo naslednje:

1. Tehnologija ne more dati odgovorov na vprašanja, ki niso bila zastavljena. Analitika ne more nadomestiti, ampak mu le daje močno orodje, ki mu olajša in izboljša delo.

2. Kompleksnost razvoja in delovanja aplikacije Data Mining.

Zaradi to tehnologijo je multidisciplinarno področje, zato je za razvoj aplikacije, ki vključuje podatkovno rudarjenje, potrebno vključiti strokovnjake z različnih področij ter zagotoviti njihovo kakovostno interakcijo.

3. Kvalifikacije uporabnika.

Različna orodja za rudarjenje podatkov imajo različno stopnjo prijaznosti vmesnika in zahtevajo določene uporabniške kvalifikacije. Zato programsko opremo mora ustrezati stopnji izobrazbe uporabnika. Uporaba podatkovnega rudarjenja mora biti neločljivo povezana z izboljševanjem uporabnikovih kvalifikacij. Vendar pa je trenutno malo strokovnjakov za podatkovno rudarjenje, ki dobro poznajo poslovne procese.

4. Pridobivanje koristnih informacij je nemogoče brez dobrega razumevanja bistva podatkov.

Potrebna je skrbna izbira modela in interpretacija odkritih odvisnosti ali vzorcev. Zato delo s takšnimi orodji zahteva tesno sodelovanje med strokovnjakom za področje in strokovnjakom za orodja za rudarjenje podatkov. Vztrajni modeli morajo biti inteligentno integrirani v poslovne procese, da se omogoči ocenjevanje in posodabljanje modelov. V zadnjem času se sistemi Data Mining dobavljajo kot del tehnologije skladiščenja podatkov.

5. Težava pri pripravi podatkov.

Uspešna analiza zahteva visokokakovostno predobdelavo podatkov. Po mnenju analitikov in uporabnikov baz podatkov lahko postopek predprocesiranja zavzame do 80 % celotnega procesa rudarjenja podatkov.

Da bo tehnologija delovala sama zase, bo torej potrebno veliko truda in časa, ki gre v predhodno analizo podatkov, izbiro modela in njegovo prilagajanje.

6. Velik odstotek lažnih, nezanesljivih ali neuporabnih rezultatov.

S pomočjo Data Mining tehnologij lahko najdete resnično zelo dragocene informacije, ki so lahko pomembna prednost pri nadaljnjem načrtovanju, upravljanju in odločanju. Vendar pa rezultati, pridobljeni z metodami podatkovnega rudarjenja, pogosto vsebujejo napačne in nesmiselne zaključke. Številni strokovnjaki trdijo, da lahko orodja za rudarjenje podatkov proizvedejo ogromno število statistično nezanesljivih rezultatov. Da bi zmanjšali odstotek takih rezultatov, je potrebno preveriti ustreznost dobljenih modelov na testnih podatkih. Nemogoče pa se je povsem izogniti napačnim sklepom.

7. Visoki stroški.

Kakovostno programsko opremo je rezultat velikega truda s strani razvijalca. Zato je programska oprema Data Mining tradicionalno drag programski izdelek.

8. Razpoložljivost zadostnih reprezentativnih podatkov.

Orodja za rudarjenje podatkov za razliko od statističnih teoretično ne zahtevajo strogo določene količine zgodovinskih podatkov. Ta funkcija lahko povzroči odkrivanje nezanesljivih, lažnih modelov in posledično sprejemanje napačnih odločitev na njihovi podlagi. Potrebno je spremljati statistično pomembnost odkritega znanja.

algoritem nevronske mreže združevanje podatkov rudarjenje

Zaključek

Dana kratek opis področja uporabe in podaja kritiko tehnologije Data Mining ter mnenja strokovnjakov s tega področja.

Seznamliterature

1. Han in Micheline Kamber. Podatkovno rudarjenje: koncepti in tehnike. Druga izdaja. - Univerza Illinois v Urbana-Champaign

Berry, Michael J. A. Tehnike podatkovnega rudarjenja: za trženje, prodajo in upravljanje odnosov s strankami - 2. izdaja.

Siu Nin Lam. Odkrivanje asociacijskih pravil v podatkovnem rudarjenju. - Oddelek za računalništvo Univerze Illinois v Urbana-Champaign




Vrh