Nezināmi zināmo datu modeļi. Ievads mūsdienu datu ieguvē. Tuvākā kaimiņa un k-tuvākā kaimiņa metodes

Datu ieguves rīki

Pašlaik datu ieguves tehnoloģiju pārstāv vairāki komerciāli un brīvi izplatīti programmatūras produkti. Diezgan pilnīgs un regulāri atjaunināts šo produktu saraksts ir atrodams tīmekļa vietnē. www. kdnuggets. com, veltīta datu ieguvei. Varat klasificēt datu ieguves programmatūras produktus saskaņā ar tiem pašiem principiem, kas ir pamatā pašas tehnoloģijas klasifikācijai. Tomēr šādai klasifikācijai nebūtu praktiskas vērtības. Pateicoties lielajai konkurencei tirgū un vēlmei pēc tehnisko risinājumu pilnīguma, daudzi Data Mining produkti aptver burtiski visus analītisko tehnoloģiju pielietošanas aspektus. Tāpēc Data Mining produktus lietderīgāk ir klasificēt pēc tā, kā tie tiek ieviesti un attiecīgi kādu integrācijas potenciālu tie sniedz. Acīmredzot tā ir arī vienošanās, jo šāds kritērijs neļauj mums novilkt skaidras robežas starp produktiem. Tomēr šai klasifikācijai ir viena nenoliedzama priekšrocība. Tas ļauj ātri pieņemt lēmumu par viena vai otra gatavā risinājuma izvēli, inicializējot projektus datu analīzes jomā, izstrādājot lēmumu atbalsta sistēmas, veidojot datu noliktavas u.c.

Tātad datu ieguves produktus var nosacīti iedalīt trīs plašās kategorijās:

    iekļauta kā neatņemama sastāvdaļa datu bāzu pārvaldības sistēmās;

    datu ieguves algoritmu bibliotēkas ar saistīto infrastruktūru;

    kastes vai darbvirsmas risinājumi ("melnās kastes").

Pirmo divu kategoriju produkti sniedz vislielākās integrācijas iespējas un ļauj realizēt analītisko potenciālu gandrīz jebkurā pielietojumā jebkurā jomā. Savukārt iesaiņotās lietojumprogrammas var nodrošināt dažus unikālus datu ieguves sasniegumus vai būt specializētas konkrētai lietojumprogrammai. Tomēr vairumā gadījumu ir problemātiski tos integrēt plašākos risinājumos.

Analītisku iespēju iekļaušana komerciālās datubāzes pārvaldības sistēmās ir dabiska tendence ar lielu potenciālu. Patiešām, kur, ja ne datu koncentrācijas vietās, ir vissaprātīgāk izvietot to apstrādes līdzekļus. Pamatojoties uz šo principu, datu ieguves funkcionalitāte pašlaik ir ieviesta šādās komerciālajās datubāzēs:

    Microsoft SQL serveris

Galvenie punkti

  • Datu ieguve ļauj automātiski, pamatojoties uz lielu uzkrāto datu apjomu, ģenerēt hipotēzes, kuras var pārbaudīt ar citiem analīzes rīkiem (piemēram, OLAP).

    Datu ieguve - izpēte un atklāšana ar mašīnu (algoritmi, mākslīgais intelekts) slēptu zināšanu neapstrādātos datos, kas iepriekš nebija zināmi, nav triviāli, praktiski noderīgi un pieejami cilvēka interpretācijai.

    Datu ieguves metodes atrisina trīs galvenās problēmas: klasifikācijas un regresijas problēmu, asociācijas noteikumu meklēšanas problēmu un klasterizācijas problēmu. Pēc mērķa tie ir sadalīti aprakstošajos un paredzamajos. Atbilstoši problēmu risināšanas metodēm tās iedala uzraudzītajā mācībā (mācīšanās ar skolotāju) un nekontrolētā (mācīšanās bez skolotāja).

    Klasifikācijas un regresijas uzdevums ir samazināts līdz objekta atkarīgā mainīgā vērtības noteikšanai pēc tā neatkarīgiem mainīgajiem. Ja atkarīgais mainīgais iegūst skaitliskas vērtības, tad runā par regresijas problēmu, pretējā gadījumā tā ir klasifikācijas problēma.

    Meklējot asociācijas noteikumus, mērķis ir atrast biežas atkarības (vai asociācijas) starp objektiem vai notikumiem. Atrastās atkarības tiek parādītas kārtulu veidā un var tikt izmantotas gan labākai analizējamo datu būtības izpratnei, gan notikumu prognozēšanai.

    Klasterizācijas uzdevums ir meklēt neatkarīgas grupas (klasteri) un to raksturojumus visā analizējamo datu kopā. Šīs problēmas atrisināšana palīdz labāk izprast datus. Turklāt viendabīgu objektu grupēšana ļauj samazināt to skaitu un līdz ar to atvieglot analīzi.

    Datu ieguves metodes atrodas krustojumā dažādos virzienos informācijas tehnoloģijas: statistika, neironu tīkli, izplūdušās kopas, ģenētiskie algoritmi utt.

    Intelektuālā analīze ietver šādas darbības: analīzes problēmas izpratni un formulēšanu, datu sagatavošanu automatizētai analīzei, datu ieguves metožu un modeļu pielietošanu, uzbūvēto modeļu pārbaudi, cilvēku veikto modeļu interpretāciju.

    Pirms datu ieguves metožu izmantošanas sākotnējie dati ir jāpārveido. Pārveidošanas veids ir atkarīgs no izmantotajām metodēm.

    Datu ieguves metodes var efektīvi izmantot dažādās cilvēka darbības jomās: uzņēmējdarbībā, medicīnā, zinātnē, telekomunikācijās utt.

3. Teksta informācijas analīze - Teksta ieguve

Datu bāzēs glabātās strukturētās informācijas analīzei nepieciešama iepriekšēja apstrāde: datu bāzes projektēšana, informācijas ievade saskaņā ar noteiktiem noteikumiem, tās izvietošana īpašās struktūrās (piemēram, relāciju tabulās) utt. Tādējādi tieši analizēt šo informāciju un iegūt no tās jaunas zināšanas. prasa vairāk pūļu. Tomēr tie ne vienmēr ir saistīti ar analīzi un ne vienmēr noved pie vēlamā rezultāta. Līdz ar to tiek samazināta strukturētās informācijas analīzes efektivitāte. Turklāt ne visu veidu datus var strukturēt, nezaudējot noderīgu informāciju. Piemēram, teksta dokumentus ir gandrīz neiespējami pārvērst tabulas skatā, nezaudējot teksta semantiku un attiecības starp entītijām. Šī iemesla dēļ šādi dokumenti tiek glabāti datu bāzē bez transformācijām, piemēram, teksta laukiem (BLOB laukiem). Tajā pašā laikā tekstā ir paslēpts milzīgs informācijas apjoms, taču tā nestrukturētais neļauj izmantot Data Mining algoritmus. Šīs problēmas risinājums ir nestrukturēta teksta analīzes metodes. Rietumu literatūrā šādu analīzi sauc par teksta ieguvi.

Analīzes metodes nestrukturētajos tekstos atrodas vairāku jomu krustpunktā: datu ieguve, dabiskās valodas apstrāde, informācijas izguve, informācijas ieguve un zināšanu pārvaldība.

Teksta ieguves definīcija: zināšanu atklāšana tekstā ir netriviāls process, kurā tiek atklāti patiesi jauni, potenciāli noderīgi un saprotami modeļi nestrukturēta teksta datos.

Kā redzat, tas atšķiras no datu ieguves definīcijas tikai ar jauno jēdzienu "nestrukturēti teksta dati". Šādas zināšanas tiek saprastas kā dokumentu kopums, kas ir loģiski apvienots teksts bez jebkādiem ierobežojumiem tās struktūrā. Šādu dokumentu piemēri ir: tīmekļa lapas, e-pasts, normatīvie dokumenti utt. n. Parasti šādi dokumenti var būt sarežģīti un lieli un satur ne tikai tekstu, bet arī grafisku informāciju. Dokumentus, kuros tiek izmantota paplašināmā iezīmēšanas valoda (XML), standarta vispārīgā iezīmēšanas valoda (SGML) un citas līdzīgas teksta struktūras konvencijas, sauc par daļēji strukturētiem dokumentiem. Tos var apstrādāt arī ar teksta ieguves metodēm.

Analīzes process teksta dokumenti var attēlot kā vairāku darbību secību

    Meklējiet informāciju. Pirmais solis ir noteikt, kuri dokumenti ir jāpārskata, un padarīt tos pieejamus. Parasti analizējamo dokumentu kopu lietotāji var noteikt paši – manuāli, bet lielam dokumentu skaitam ir jāizmanto automatizētas atlases iespējas pēc noteiktiem kritērijiem.

    Dokumentu pirmapstrāde. Šajā solī ar dokumentiem tiek veiktas vienkāršākās, bet nepieciešamās transformācijas, lai tos parādītu tādā formā, ar kādu strādā teksta ieguves metodes. Šādu pārveidojumu mērķis ir noņemt nevajadzīgus vārdus un piešķirt tekstam stingrāku formu. Priekšapstrādes metodes tiks sīkāk aprakstītas sadaļā.

    Informācijas ieguve. Informācijas iegūšana no atlasītajiem dokumentiem ietver galveno jēdzienu izcelšanu tajos, par kuriem tiks veikta turpmāka analīze.

Teksta ieguves metožu pielietošana. Šajā posmā tiek iegūti tekstos esošie modeļi un attiecības. Šis solis ir galvenais teksta analīzes procesā un šajā solī atrisinātie praktiskie uzdevumi.

Rezultātu interpretācija. Zināšanu atklāšanas procesa pēdējais posms ietver rezultātu interpretāciju. Parasti interpretācija ir vai nu rezultātu prezentēšana dabiskā valodā, vai arī to vizualizācija grafiskā formā.

Vizualizāciju var izmantot arī kā teksta analīzes rīku. Lai to izdarītu, tiek iegūti galvenie jēdzieni, kas tiek parādīti grafiski. Šī pieeja palīdz lietotājam ātri noteikt galvenās tēmas un jēdzienus, kā arī noteikt to nozīmi.

Teksta pirmapstrāde

Viena no galvenajām teksta analīzes problēmām ir lielais vārdu skaits dokumentā. Ja katrs no šiem vārdiem tiks analizēts, jaunu zināšanu meklēšanas laiks dramatiski palielināsies un diez vai atbildīs lietotāju prasībām. Tajā pašā laikā ir acīmredzams, ka ne visi teksta vārdi satur noderīgu informāciju. Turklāt dabisko valodu elastības dēļ formāli dažādi vārdi (sinonīmi utt.) faktiski nozīmē vienus un tos pašus jēdzienus. Tādējādi neinformatīvu vārdu noņemšana, kā arī pēc nozīmes līdzīgu vārdu samazināšana vienā formā ievērojami samazina teksta analīzes laiku. Aprakstīto problēmu novēršana tiek veikta teksta priekšapstrādes stadijā.

Lai noņemtu neinformatīvus vārdus un palielinātu tekstu nopietnību, parasti tiek izmantotas šādas metodes:

    Apturēšanas vārdu noņemšana. Apturēšanas vārdi ir palīgvārdi, kas satur maz informācijas par dokumenta saturu.

    Stumbošana - morfoloģiskā meklēšana. Tas sastāv no katra vārda pārvēršanas tā parastajā formā.

    L-grami ir alternatīva morfoloģiskajai parsēšanai un stopvārda noņemšanai. Tie ļauj tekstu padarīt stingrāku, neatrisina neinformatīvo vārdu skaita samazināšanas problēmu;

    Reģistrēties cast. Šis triks ir pārvērst visas rakstzīmes uz lielajiem vai mazajiem burtiem.

Visefektīvākā šo metožu kombinācija.

Teksta ieguves uzdevumi

Šobrīd literatūrā ir aprakstītas daudzas lietišķas problēmas, kuras var atrisināt, izmantojot teksta dokumentu analīzi. Šie ir klasiskie datu ieguves uzdevumi: klasifikācija, klasterizācija un uzdevumi, kas raksturīgi tikai teksta dokumentiem: automātiska anotācija, galveno jēdzienu izvilkšana utt.

Klasifikācija ir standarta uzdevums datu ieguves jomā. Tās mērķis ir katram dokumentam definēt vienu vai vairākas iepriekš noteiktas kategorijas, kurām dokuments pieder. Klasifikācijas problēmas iezīme ir pieņēmums, ka klasificēto dokumentu komplektā nav "atkritumu", t.i., katrs no dokumentiem atbilst kādai noteiktai kategorijai.

Klasifikācijas problēmas īpašs gadījums ir uzdevums noteikt dokumenta priekšmetu.

Dokumentu klasterizācijas mērķis ir automātiski identificēt semantiski līdzīgu dokumentu grupas noteiktā fiksētā kopā. Ņemiet vērā, ka grupas tiek veidotas, tikai pamatojoties uz dokumentu aprakstu pāru līdzību, un iepriekš nav norādītas šo grupu īpašības.

Automātiskā anotācija (rezumēšana) ļauj saīsināt tekstu, saglabājot tā nozīmi. Šīs problēmas risinājumu parasti kontrolē lietotājs, nosakot izvelkamo teikumu skaitu vai izvelkamā teksta procentuālo daudzumu attiecībā pret visu tekstu. Rezultātā ir iekļauti teksta nozīmīgākie teikumi.

Iezīmju iegūšanas galvenais mērķis ir identificēt faktus un attiecības tekstā. Vairumā gadījumu šādi jēdzieni ir lietvārdi un vispārpieņemtie lietvārdi: cilvēku vārdi un uzvārdi, organizāciju nosaukumi utt. Jēdzienu iegūšanas algoritmi var izmantot vārdnīcas, lai identificētu dažus terminus, un valodu modeļus, lai definētu citus.

Teksta bāzes navigācija ļauj lietotājiem pārvietoties pa dokumentiem saistībā ar tēmām un nozīmīgiem terminiem. Tas tiek darīts, nosakot galvenos jēdzienus un dažas attiecības starp tiem.

Tendenču analīze ļauj noteikt tendences dokumentu kopās noteiktā laika periodā. Trends var tikt izmantots, piemēram, lai noteiktu izmaiņas uzņēmuma interesēs no viena tirgus segmenta uz citu.

Asociāciju meklēšana ir arī viens no Data Mining galvenajiem uzdevumiem. Lai to atrisinātu, noteiktā dokumentu komplektā tiek identificētas asociatīvas attiecības starp galvenajiem jēdzieniem.

Ir diezgan daudz šo problēmu šķirņu, kā arī to risināšanas metodes. Tas vēlreiz apstiprina teksta analīzes nozīmi. Pārējā šīs nodaļas daļā ir apskatīti šādu uzdevumu risinājumi: atslēgas jēdzienu iegūšana, klasifikācija, klasterizācija un automātiskā anotācija.

Teksta dokumentu klasifikācija

Teksta dokumentu klasifikācija, kā arī objektu klasifikācijas gadījumā sastāv no dokumenta piešķiršanas kādai no iepriekš zināmajām klasēm. Bieži vien klasifikāciju saistībā ar teksta dokumentiem sauc par kategorizēšanu vai rubrikāciju. Acīmredzot šie nosaukumi nāk no uzdevuma sakārtot dokumentus katalogos, kategorijās un virsrakstos. Šajā gadījumā direktoriju struktūra var būt viena līmeņa vai daudzlīmeņu (hierarhiska).

Formāli teksta dokumentu klasificēšanas uzdevumu raksturo kopu kopa.

Klasifikācijas uzdevumā, pamatojoties uz šiem datiem, ir jāizveido procedūra, kas ietver pētāmā dokumenta ticamākās kategorijas atrašanu no kopas C.

Lielākā daļa teksta klasifikācijas metožu kaut kādā veidā balstās uz pieņēmumu, ka vienai kategorijai piederošie dokumenti satur vienas un tās pašas pazīmes (vārdus vai frāzes), un šādu pazīmju esamība vai neesamība dokumentā norāda uz tā piederību vai nepiederību noteiktai tēmai.

Šādu pazīmju kopu bieži sauc par vārdnīcu, jo tā sastāv no leksēmām, kas ietver vārdus un/vai frāzes, kas raksturo kategoriju.

Jāatzīmē, ka šīs pazīmju kopas ir teksta dokumentu klasifikācijas atšķirīga iezīme no datu ieguves objektu klasifikācijas, ko raksturo atribūtu kopa.

Lēmumu par dokumenta d piešķiršanu c kategorijai pieņem, pamatojoties uz kopīgu pazīmju krustpunktu

Klasifikācijas metožu uzdevums ir pēc iespējas labāk atlasīt šādas pazīmes un formulēt noteikumus, uz kuru pamata tiks pieņemts lēmums par dokumenta piešķiršanu rubrikai.

Teksta informācijas analīzes rīki

    Oracle Tools — Oracle Text2

Sākot ar Oracle 7.3.3, teksta analīzes rīki ir Oracle produktu neatņemama sastāvdaļa. Oracle šie rīki ir izstrādājuši un ieguvuši jaunu nosaukumu - Oracle Text - DBVS integrētu programmatūras pakotni, kas ļauj efektīvi strādāt ar vaicājumiem, kas saistīti ar nestrukturētiem tekstiem. Tajā pašā laikā teksta apstrāde tiek apvienota ar iespējām, kas tiek nodrošinātas lietotājam darbam ar relāciju datu bāzēm. Jo īpaši, rakstot lietojumprogrammas teksta apstrādei, kļuva iespējams izmantot SQL.

Galvenais uzdevums, uz kuru orientēti Oracle Text rīki, ir uzdevums meklēt dokumentus pēc to satura – pēc vārdiem vai frāzēm, kuras nepieciešamības gadījumā tiek kombinētas, izmantojot Būla darbības. Meklēšanas rezultāti tiek sarindoti pēc svarīguma, ņemot vērā vaicājuma vārdu sastopamības biežumu atrastajos dokumentos.

    Līdzekļi no IBM — Intelligent Miner for Text1

Produkts IBM Intelligent Miner for Text ir atsevišķu utilītu komplekts, kas palaists no komandrinda vai no skriptiem neatkarīgi. Sistēma satur dažu utilītu kombināciju teksta informācijas analīzes problēmu risināšanai.

IBM Intelligent Miner for Text apvieno jaudīgu rīku komplektu, kura pamatā galvenokārt ir informācijas izguves mehānismi, kas ir raksturīgi visam produktam. Sistēma sastāv no vairākiem pamata komponentiem, kuriem ir neatkarīga vērtība ārpus teksta ieguves tehnoloģijas:

    SAS institūts — teksta ieguves rīki

Amerikāņu uzņēmums SAS Institute ir izlaidis SAS Text Miner sistēmu noteiktu gramatisko un verbālo secību salīdzināšanai rakstiskā runā. Text Miner ir ļoti daudzpusīgs, jo var strādāt ar dažādu formātu teksta dokumentiem – datubāzēs, failu sistēmās un pēc tam tīmeklī.

Text Miner nodrošina loģisku teksta apstrādi SAS Enterprise Miner pakotnes vidē. Tas ļauj lietotājiem bagātināt datu analīzes procesu, integrējot nestrukturētu teksta informāciju ar esošajiem strukturētajiem datiem, piemēram, vecumu, ienākumiem un iepirkšanās modeļiem.

Galvenie punkti

    Zināšanu atklāšana tekstā ir netriviāls process, kurā tiek atklāti patiešām jauni, potenciāli noderīgi un saprotami modeļi nestrukturēta teksta datos.

    Teksta dokumentu analīzes procesu var attēlot kā vairāku darbību secību: meklēt informāciju, dokumentu pirmapstrāde, informācijas ieguve, Text Mining metožu pielietošana, rezultātu interpretācija.

    Parasti, lai noņemtu neinformatīvus vārdus un palielinātu tekstu smagumu, tiek izmantotas šādas metodes: stopvārdu noņemšana, celms, L-grami, reģistra samazināšana.

    Teksta informācijas analīzes uzdevumi ir: klasificēšana, klasterizācija, automātiskā anotācija, galveno jēdzienu iegūšana, teksta navigācija, tendenču analīze, asociāciju meklēšana utt.

    Galveno jēdzienu izvilkšanu no tekstiem var uzskatīt gan par atsevišķu lietišķu uzdevumu, gan kā atsevišķu teksta analīzes posmu. Pēdējā gadījumā no teksta iegūtie fakti tiek izmantoti dažādu analīzes problēmu risināšanai.

    Galveno jēdzienu iegūšanas process, izmantojot veidnes, tiek veikts divos posmos: pirmajā posmā atsevišķi fakti tiek iegūti no teksta dokumentiem, izmantojot leksisko analīzi, otrajā posmā iegūto faktu integrācija un/vai jaunu faktu atvasināšana. tiek veikta.

    Lielākā daļa teksta klasifikācijas metožu kaut kādā veidā balstās uz pieņēmumu, ka vienai kategorijai piederošie dokumenti satur vienas un tās pašas pazīmes (vārdus vai frāzes), un šādu pazīmju esamība vai neesamība dokumentā norāda uz tā piederību vai nepiederību noteiktai tēmai.

    Lielākajai daļai klasterizācijas algoritmu ir nepieciešams, lai dati tiktu attēloti kā vektoru telpas modelis, ko plaši izmanto informācijas izguvei un izmanto metaforu, lai attēlotu semantisko līdzību kā telpisko tuvumu.

    Ir divas galvenās pieejas teksta dokumentu automātiskai anotācijai: izvilkšana (izceļot svarīgākos fragmentus) un vispārināšana (izmantojot iepriekš savāktās zināšanas).

Secinājums

Datu ieguve ir viena no aktuālākajām un populārākajām lietišķās matemātikas jomām. Mūsdienu biznesa un ražošanas procesi ģenerē milzīgus datu apjomus, un cilvēkiem kļūst arvien grūtāk interpretēt un reaģēt uz lielu datu apjomu, kas izpildlaikā dinamiski mainās, nemaz nerunājot par kritisku situāciju novēršanu. "Datu ieguve", lai iegūtu maksimāli daudz noderīgu zināšanu no daudzdimensionāliem, neviendabīgiem, nepilnīgiem, neprecīziem, pretrunīgiem, netiešiem datiem. Tas palīdz to izdarīt efektīvi, ja datu apjoms tiek mērīts gigabaitos vai pat terabaitos. Palīdz veidot algoritmus, kas var iemācīties pieņemt lēmumus dažādās profesionālajās jomās.

Datu ieguve pasargā cilvēkus no informācijas pārslodzes, pārvēršot operatīvos datus noderīgā informācijā, lai īstajā laikā varētu veikt pareizās darbības.

Lietišķās izstrādes tiek veiktas šādās jomās: prognozēšana ekonomikas sistēmās; mārketinga pētījumu automatizācija un klientu vides analīze ražošanas, tirdzniecības, telekomunikāciju un interneta uzņēmumiem; kredītlēmumu pieņemšanas un kredītriska novērtēšanas automatizācija; finanšu tirgu uzraudzība; automātiskās tirdzniecības sistēmas.

Bibliogrāfija

    Datu analīzes tehnoloģijas: datu ieguve. vizuālā ieguve. Teksta ieguve, OLAP” A. A. Barseghyan. M. S. Kuprijanovs, V. V. Stenaņenko, I. I. Holods. - 2. izdevums, pārskatīts. un papildu

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm — raksts internetā

    http://www.piter.com/contents/978549807257/978549807257_p.pdf — datu analīzes tehnoloģijas

    Diplomdarbs >> Banku darbība

    Aizņēmējs, izmantojot kopu, verbāls analīze, korekcijas koeficienti utt., arī ... aizņēmēja kredītspēju, pamatojoties uz intelektuāls analīze Datu ieguve (ar... Sākotnējā posmā analīze notika analīze pašu līdzekļi un...

  1. Analīze un modernā tirgus informācijas sistēmu klasifikācija, kas īsteno diskrecionāro, m

    Abstract >> Informātika

    1.3. Lomu diferenciācija 6 2. Salīdzinošā analīze dažādi veidi sistēmas 7 OS... sistēmas, tostarp: analīze drošības politikas un to īpašības, ... lietojumprogrammas vai ieviešana vairāk intelektuāls analīze datus. Turklāt...

  2. intelektuāls apdāvinātu bērnu spējas saistībā ar skolas sniegumu

    Diplomdarbs >> Psiholoģija

    Akadēmiskā snieguma un pazīmju attiecības intelektuāls attīstību. Pamatojoties uz teorētisko analīze izpētes problēma bija... bez intelekta analīze viņa psiholoģiskā struktūra. Izšķiroša vērtēšanai intelektuāls spēja ir...

Laipni lūdzam datu ieguves portālā - unikālā portālā, kas veltīts mūsdienu datu ieguves metodēm.

Datu ieguves tehnoloģijas ir jaudīgs rīks mūsdienu biznesa informācijas un datu ieguvei, lai atklātu slēptos modeļus un izveidotu paredzamus modeļus. Datu ieguve vai zināšanu ieguve nav balstīta uz spekulatīviem argumentiem, bet gan uz reāliem datiem.

Rīsi. 1. Datu ieguves pielietojuma shēma

Problēmas definīcija - Problēmas definīcija: datu klasifikācija, segmentēšana, paredzamo modeļu veidošana, prognozēšana.
Datu vākšana un sagatavošana - datu vākšana un sagatavošana, tīrīšana, pārbaude, ierakstu dublikātu noņemšana.
Modeļu veidošana – modeļa veidošana, precizitātes novērtēšana.
Zināšanu izvietošana – modeļa pielietošana problēmas risināšanai.

Datu ieguve tiek izmantota liela mēroga analītisko projektu īstenošanai uzņēmējdarbībā, mārketingā, internetā, telekomunikācijās, rūpniecībā, ģeoloģijā, medicīnā, farmācijā un citās jomās.

Datu ieguve ļauj sākt nozīmīgu korelāciju un savienojumu atrašanas procesu, izsijājot milzīgu datu apjomu, izmantojot modernas modeļu atpazīšanas metodes un unikālas analītisko tehnoloģiju, tostarp lēmumu un klasifikācijas kokus, klasterizāciju, neironu tīklu metodes. , un citi.

Lietotājs, kurš pirmo reizi atklāj datu ieguves tehnoloģiju, ir pārsteigts par metožu un efektīvu algoritmu pārpilnību, kas ļauj atrast pieejas sarežģītu problēmu risināšanai, kas saistītas ar liela datu apjoma analīzi.

Kopumā datu ieguvi var raksturot kā tehnoloģiju, kas paredzēta liela datu apjoma meklēšanai. nav acīmredzams, objektīvs un praktiski noderīga modeļiem.

Datu ieguves pamatā ir efektīvas metodes un algoritmi, kas izstrādāti, lai analizētu liela apjoma un izmēra nestrukturētus datus.

Galvenais ir tas, ka liela apjoma un augstas dimensijas datiem, šķiet, nav struktūras un attiecību. Datu ieguves tehnoloģijas mērķis ir identificēt šīs struktūras un atrast modeļus, kuros, no pirmā acu uzmetiena, valda haoss un patvaļa.

Šeit ir faktisks piemērs datu ieguves izmantošanai farmācijas un zāļu nozarēs.

Narkotiku mijiedarbība ir pieaugoša problēma, ar ko saskaras mūsdienu veselības aprūpe.

Laika gaitā parakstīto zāļu (bezrecepšu un visu veidu uztura bagātinātāju) skaits palielinās, padarot arvien lielāku iespējamību, ka zāļu mijiedarbība var izraisīt nopietnas blakusparādības, par kurām ārsti un pacienti nezina.

Šī joma attiecas uz pēcklīniskiem pētījumiem, kad zāles jau ir pieejamas tirgū un tiek plaši izmantotas.

Klīniskie pētījumi attiecas uz zāļu efektivitātes novērtējumu, bet slikti ņem vērā šo zāļu mijiedarbību ar citām tirgū esošajām zālēm.

Pētnieki no Stenfordas universitātes Kalifornijā pētīja FDA (Food and Drug Administration) zāļu blakusparādību datubāzi un atklāja, ka divas bieži lietotās zāles - antidepresants paroksetīns un pravastatīns, ko lieto holesterīna līmeņa pazemināšanai - palielina diabēta attīstības risku, ja tos lieto kopā.

Līdzīgs analīzes pētījums, kas balstīts uz FDA datiem, atklāja 47 iepriekš nezināmas nevēlamās mijiedarbības.

Tas ir ievērojams, ar piesardzību, ka daudzas no negatīvajām sekām, ko atzīmējuši pacienti, paliek neatklātas. Tikai šajā gadījumā tīkla meklēšana spēj parādīt sevi vislabākajā veidā.

Gaidāmie datu ieguves kursi StatSoft datu analīzes akadēmijā 2020. gadā

Mēs sākam savu iepazīšanos ar datu ieguvi, izmantojot brīnišķīgos Datu analīzes akadēmijas video.

Noteikti noskatieties mūsu video, un jūs sapratīsiet, kas ir datu ieguve!

Video 1. Kas ir datu ieguve?


2. videoklips: datu ieguves pārskats: lēmumu koki, vispārināti paredzamie modeļi, klasterizācija un daudz kas cits

JavaScript jūsu pārlūkprogrammā ir atspējots


Pirms pētniecības projekta uzsākšanas mums ir jāorganizē datu iegūšanas process no ārējie avoti, tagad mēs parādīsim, kā tas tiek darīts.

Video jūs iepazīstinās ar unikāla tehnoloģija STATISTIKA Vietējā datu bāzes apstrāde un datu ieguves savienojums ar reāliem datiem.

3. video. Mijiedarbības kārtība ar datu bāzēm: grafiskais interfeiss SQL vaicājumu veidošanai In-place datu bāzes apstrādes tehnoloģija

JavaScript jūsu pārlūkprogrammā ir atspējots


Tagad mēs iepazīsimies ar interaktīvām urbšanas tehnoloģijām, kas ir efektīvas izpētes datu analīzes veikšanā. Pats termins urbšana atspoguļo saikni starp datu ieguves tehnoloģiju un ģeoloģisko izpēti.

4. video. Interaktīvā urbšana: izpētes un diagrammu veidošanas metodes interaktīvai datu izpētei

JavaScript jūsu pārlūkprogrammā ir atspējots


Tagad mēs iepazīsimies ar asociāciju analīzi (asociācijas noteikumiem), šie algoritmi ļauj atrast attiecības, kas pastāv reālos datos. Galvenais punkts ir algoritmu efektivitāte lielam datu apjomam.

Saišu analīzes algoritmu, piemēram, Apriori algoritma, rezultāts ir atrast noteikumus pētāmo objektu saitēm ar noteiktu ticamību, piemēram, 80%.

Ģeoloģijā šos algoritmus var izmantot derīgo izrakteņu izpētes analīzē, piemēram, kā pazīme A ir saistīta ar pazīmēm B un C.

tu vari atrast konkrēti piemērišādi risinājumi mūsu saitēs:

Mazumtirdzniecībā Apriori algoritmi vai to modifikācijas ļauj izpētīt dažādu produktu attiecības, piemēram, pārdodot smaržas (smaržas - laka - skropstu tuša u.c.) vai dažādu zīmolu produktus.

Vietnes interesantāko sadaļu analīzi var arī efektīvi veikt, izmantojot asociācijas noteikumus.

Tāpēc skatiet mūsu nākamo videoklipu.

Video 5. Biedrības noteikumi

JavaScript jūsu pārlūkprogrammā ir atspējots

Sniegsim piemērus datu ieguves pielietojumam konkrētās jomās.

Interneta tirdzniecība:

  • klientu trajektoriju analīze no vietnes apmeklējuma līdz preču iegādei
  • pakalpojumu efektivitātes novērtējums, preču trūkuma dēļ radušos kļūdu analīze
  • saistot produktus, kas interesē apmeklētājus

Mazumtirdzniecība: klientu informācijas analīze, pamatojoties uz kredītkartēm, atlaižu kartēm utt.

Tipiski mazumtirdzniecības uzdevumi, ko atrisina datu ieguves rīki:

  • iepirkumu groza analīze;
  • paredzamo modeļu izveide un pircēju un iegādāto preču klasifikācijas modeļi;
  • pircēju profilu izveide;
  • CRM, dažādu kategoriju klientu lojalitātes novērtēšana, lojalitātes programmu plānošana;
  • laikrindu pētījumi un laika atkarības, sezonālo faktoru izvēle, efektivitātes novērtējums akcijas plašā reālo datu diapazonā.

Telekomunikāciju nozare paver neierobežotas iespējas datu ieguves metožu, kā arī moderno lielo datu tehnoloģiju pielietošanai:

  • klientu klasifikācija, pamatojoties uz zvanu galvenajām īpašībām (biežums, ilgums utt.), SMS biežums;
  • klientu lojalitātes identificēšana;
  • krāpšanas definīcija utt.

Apdrošināšana:

  • riska analīze. Identificējot ar izmaksātajām atlīdzībām saistīto faktoru kombinācijas, apdrošinātāji var samazināt savus atbildības zaudējumus. Ir zināms gadījums, kad apdrošināšanas kompānija atklāja, ka laulībā esošo personu pieteikumos izmaksātās summas ir divreiz lielākas par vientuļo personu pieteikumiem. Uzņēmums uz to reaģēja, pārskatot atlaižu politiku ģimenes klientiem.
  • krāpšanas atklāšana. Apdrošināšanas kompānijas var samazināt krāpšanu, meklējot atlīdzību pieteikumos stereotipus, kas raksturo attiecības starp advokātiem, ārstiem un prasītājiem.

Datu ieguves praktiskā pielietošana un konkrētu problēmu risināšana ir parādīta mūsu nākamajā video.

Vebinārs 1. Vebinārs "Datu ieguves praktiskie uzdevumi: problēmas un risinājumi"

JavaScript jūsu pārlūkprogrammā ir atspējots

Vebinārs 2. Vebinārs "Datu ieguve un teksta ieguve: reālu problēmu risināšanas piemēri"

JavaScript jūsu pārlūkprogrammā ir atspējots


Padziļinātas zināšanas par datu ieguves metodoloģiju un tehnoloģiju var iegūt StatSoft kursos.

Kas ir datu ieguve

Jebkura mūsdienu uzņēmuma korporatīvajā datu bāzē parasti ir tabulu kopa, kurā tiek glabāti ieraksti par noteiktiem faktiem vai objektiem (piemēram, par precēm, to pārdošanu, klientiem, rēķiniem). Parasti katrs ieraksts šādā tabulā apraksta konkrētu objektu vai faktu. Piemēram, ieraksts pārdošanas tabulā atspoguļo to, ka tādu un tādu preci tādam un tādam klientam tobrīd pārdeva tāds un tāds menedžeris, un kopumā tajā nav nekas cits kā šī informācija. Tomēr liela skaita šādu ierakstu uzkrāšanās, kas uzkrāta vairāku gadu laikā, var kļūt par papildu, daudz vērtīgākas informācijas avotu, ko nevar iegūt, pamatojoties uz vienu konkrētu ierakstu, proti, informācija par modeļiem, tendencēm vai savstarpējām atkarībām starp jebkuriem datiem. . Šādas informācijas piemēri ir informācija par to, kā konkrētas preces pārdošanas apjomi ir atkarīgi no nedēļas dienas, diennakts laika vai sezonas, kuras pircēju kategorijas visbiežāk iegādājas konkrēto preci, kāda daļa vienas konkrētas preces pircēju iegādājas citu konkrētu preci. , kura klientu kategorija visbiežāk neatmaksā kredītu laikā.

Šāda veida informācija parasti tiek izmantota prognozēšanā, stratēģiskajā plānošanā, riska analīzē, un tās vērtība uzņēmumam ir ļoti augsta. Acīmredzot tāpēc to meklēšanas process tika saukts par datu ieguvi (angļu valodā mining nozīmē “ieguve”, un modeļu meklēšana milzīgā faktisko datu kopā ir ļoti līdzīga tam). Termins datu ieguve attiecas ne tik daudz uz konkrētu tehnoloģiju, cik uz pašu korelāciju, tendenču, attiecību un modeļu meklēšanas procesu, izmantojot dažādus matemātiskos un statistiskos algoritmus: klasterizāciju, apakšizlases, regresijas un korelācijas analīzi. Šīs meklēšanas mērķis ir sniegt datus tādā formā, kas skaidri atspoguļo biznesa procesus, kā arī izveidot modeli, ar kura palīdzību var prognozēt procesus, kas ir būtiski biznesa plānošanai (piemēram, pieprasījuma dinamika pēc noteiktām precēm vai vai to iegādes atkarība no konkrētām patērētāja īpašībām).

Ņemiet vērā, ka tradicionālā matemātiskā statistika, kas ilgu laiku bija galvenais datu analīzes rīks, kā arī tiešsaistes analītiskās apstrādes (OLAP) rīki, par kuriem mēs jau esam rakstījuši daudzkārt (skatiet materiālus par šo tēmu mūsu kompaktdiskā) var. ne vienmēr var veiksmīgi izmantot šādu problēmu risināšanai. Parasti statistikas metodes un OLAP izmanto, lai pārbaudītu iepriekš formulētas hipotēzes. Tomēr bieži vien hipotēzes formulēšana izrādās visgrūtākais uzdevums, īstenojot biznesa analīzi turpmākai lēmumu pieņemšanai, jo ne visi datu modeļi ir acīmredzami no pirmā acu uzmetiena.

Pamats modernās tehnoloģijas Datu ieguves pamatā ir modeļu koncepcija, kas atspoguļo modeļus, kas raksturīgi datu apakšizlasēm. Raksti tiek meklēti ar metodēm, kas neizmanto nekādus a priori pieņēmumus par šiem apakšizlasēm. Ja statistiskā analīze vai OLAP lietojumprogrammas parasti formulē tādus jautājumus kā “Kāds ir vidējais šī pakalpojuma klientu neapmaksāto rēķinu skaits?”, datu ieguve parasti nozīmē atbildes uz tādiem jautājumiem kā “Vai ir tipiska klientu kategorija, kas to nedara?” apmaksāt rēķinus?" Tajā pašā laikā tieši atbilde uz otro jautājumu nereti sniedz netriviālāku pieeju mārketinga politikai un darba organizēšanai ar klientiem.

Svarīga datu ieguves iezīme ir meklēto modeļu nestandarta un nepārprotamība. Citiem vārdiem sakot, datu ieguves rīki atšķiras no statistikas datu apstrādes rīkiem un OLAP rīkiem ar to, ka tā vietā, lai pārbaudītu savstarpējo atkarību, ko lietotāji paredz, viņi var paši atrast šādas savstarpējās atkarības, pamatojoties uz pieejamajiem datiem, un izvirzīt hipotēzes par to būtību.

Jāņem vērā, ka datu ieguves rīku izmantošana neizslēdz statistikas rīku un OLAP rīku izmantošanu, jo datu apstrādes rezultāti, izmantojot pēdējos, parasti palīdz labāk izprast to modeļu raksturu, kuriem vajadzētu būt. jāmeklē.

Sākotnējie dati par datu ieguvi

Datu ieguves izmantošana ir pamatota, ja ir pietiekami liels datu apjoms, kas ideālā gadījumā atrodas pareizi izveidotā datu noliktavā (patiesībā pašas datu noliktavas parasti tiek veidotas, lai atrisinātu ar lēmumu atbalstu saistītās analīzes un prognozēšanas problēmas). Vairākkārt rakstījām arī par datu noliktavu veidošanas principiem; attiecīgie materiāli ir atrodami mūsu kompaktdiskā, tāpēc pie šī jautājuma nekavēsimies. Mēs tikai atgādinām, ka krātuvē esošie dati ir papildināts komplekts, kas ir kopīgs visam uzņēmumam un ļauj jebkurā brīdī atjaunot priekšstatu par tā darbībām. Ņemiet vērā arī to, ka uzglabāšanas datu struktūra ir veidota tā, lai pieprasījumu izpilde tai tiktu veikta pēc iespējas efektīvāk. Tomēr ir datu ieguves rīki, kas var meklēt modeļus, korelācijas un tendences ne tikai datu noliktavās, bet arī OLAP kubos, tas ir, iepriekš apstrādātu statistikas datu kopās.

Ar datu ieguves metodēm atklātie modeļu veidi

Saskaņā ar V.A.Dyuk teikto, ir pieci standarta modeļu veidi, kas identificēti ar datu ieguves metodēm:

Asociācija - liela varbūtība savstarpēji savienot notikumus (piemēram, viena prece bieži tiek iegādāta kopā ar citu);

Secība - liela laika saistītu notikumu ķēdes iespējamība (piemēram, noteiktā laika periodā pēc vienas preces iegādes ar lielu varbūtības pakāpi tiks iegādāta cita);

Klasifikācija - ir pazīmes, kas raksturo grupu, kurai pieder tas vai cits notikums vai objekts (parasti noteikti noteikumi tiek formulēti, pamatojoties uz jau klasificētu notikumu analīzi);

Klasterizācija ir klasifikācijai līdzīgs modelis un atšķiras no tā ar to, ka pašas grupas šajā gadījumā netiek iestatītas - tās tiek noteiktas automātiski datu apstrādes laikā;

Laika modeļi - modeļu klātbūtne noteiktu datu uzvedības dinamikā (tipisks piemērs ir sezonālās pieprasījuma svārstības pēc noteiktām precēm vai pakalpojumiem), ko izmanto prognozēšanai.

Datu ieguves metodes programmā Data Mining

Mūsdienās ir diezgan daudz dažādu datu ieguves metožu. Pamatojoties uz iepriekš minēto V.A. Djuka ierosināto klasifikāciju, starp tiem ir:

Regresijas, dispersijas un korelācijas analīze (ieviesta lielākajā daļā mūsdienu statistikas pakotņu, jo īpaši SAS Institute, StatSoft uc produktos);

Uz empīriskiem modeļiem balstītas analīzes metodes konkrētā priekšmeta jomā (bieži izmanto, piemēram, lētos finanšu analīzes rīkos);

Neironu tīklu algoritmi, kuru ideja ir balstīta uz analoģiju ar nervu audu darbību un slēpjas faktā, ka sākotnējie parametri tiek uzskatīti par signāliem, kas tiek pārveidoti saskaņā ar esošajiem savienojumiem starp "neironiem", un kā atbilde, kas izriet no analīzes, visa tīkla reakcija uz sākotnējiem datiem. Saites šajā gadījumā tiek izveidotas, izmantojot tā saukto tīkla mācīšanos, izmantojot lielu paraugu, kurā ir gan oriģinālie dati, gan pareizās atbildes;

Algoritmi - sākotnējo datu tuva analoga izvēle no jau pieejamajiem vēsturiskajiem datiem. To sauc arī par tuvākā kaimiņa metodi;

Lēmumu koki - hierarhiska struktūra, kuras pamatā ir jautājumu kopums, kas nozīmē atbildi "Jā" vai "Nē"; lai gan šī metode datu apstrāde ne vienmēr ideāli atrod esošos modeļus, to diezgan bieži izmanto prognozēšanas sistēmās saņemtās atbildes skaidrības dēļ;

Klasteru modeļi (dažreiz saukti arī par segmentācijas modeļiem) tiek izmantoti, lai grupētu līdzīgus notikumus grupās, pamatojoties uz vairāku datu kopas lauku līdzīgām vērtībām; ir ļoti populāri arī prognozēšanas sistēmu izveidē;

Ierobežoti meklēšanas algoritmi, kas aprēķina vienkāršu loģisku notikumu kombināciju frekvences datu apakšgrupās;

Evolūcijas programmēšana - datu savstarpējo atkarību izsaka algoritma meklēšana un ģenerēšana, balstoties uz sākotnēji norādītu, meklēšanas procesā modificētu algoritmu; dažreiz savstarpējo atkarību meklēšana tiek veikta starp jebkura veida funkcijām (piemēram, polinomiem).

Sīkāka informācija par šiem un citiem datu ieguves algoritmiem, kā arī rīkiem, kas tos ievieš, atrodama V.A. grāmatā “Data Mining: a training course”. Šodien tā ir viena no nedaudzajām grāmatām krievu valodā, kas veltīta šai problēmai.

Vadošie datu ieguves rīku ražotāji

Datu ieguves rīki, tāpat kā lielākā daļa Business Intelligence rīku, tradicionāli pieder pie dārgiem programmatūras rīkiem – dažu no tiem cena sasniedz vairākus desmitus tūkstošu dolāru. Tāpēc vēl nesen galvenie šīs tehnoloģijas patērētāji bija bankas, finanšu un apdrošināšanas kompānijas, lielie tirdzniecības uzņēmumi, un par galvenajiem uzdevumiem, kas prasīja Data Mining izmantošanu, tika uzskatīts kredītrisku un apdrošināšanas risku novērtējums un mārketinga izstrāde. politika, tarifu plāni un citi darba ar klientiem principi. Pēdējos gados situācija ir piedzīvojusi zināmas izmaiņas: programmatūras tirgū ir parādījušies salīdzinoši lēti vairāku ražotāju Data Mining rīki, kas padarīja šo tehnoloģiju pieejamu maziem un vidējiem uzņēmumiem, kas par to iepriekš nebija domājuši.

UZ mūsdienīgi līdzekļi Business Intelligence ietver atskaišu ģeneratorus, analītisko datu apstrādes rīkus, BI risinājumu izstrādes rīkus (BI platformas) un tā sauktos Enterprise BI Suite — uzņēmuma mēroga datu analīzes un apstrādes rīkus, kas ļauj veikt ar datu analīzi saistītu darbību kopumu. un atskaites, un bieži vien ietver integrētu BI rīku un BI lietojumprogrammu izstrādes rīku komplektu. Pēdējie parasti satur gan ziņošanas rīkus, gan OLAP rīkus, kā arī bieži datu ieguves rīkus.

Pēc Gartner Group analītiķu domām, biznesa objekti, Cognos, Information Builders ir līderi uzņēmuma mēroga datu analīzes un apstrādes tirgū, un Microsoft un Oracle arī pretendē uz līdera lomu (1. attēls). Runājot par BI risinājumu izstrādes rīkiem, galvenie pretendenti uz līdera lomu šajā jomā ir Microsoft un SAS Institute (2. att.).

Ņemiet vērā, ka Microsoft Business Intelligence rīki ir salīdzinoši lēti produkti, kas pieejami plašam uzņēmumu lokam. Tāpēc šī raksta turpmākajās daļās mēs apsvērsim dažus praktiskus datu ieguves izmantošanas aspektus, izmantojot šī uzņēmuma produktus kā piemēru.

Literatūra:

1. Hercogs V.A. Data Mining - datu ieguve. - http://www.olap.ru/basic/dm2.asp.

2. Djuks V.A., Samojļenko A.P. Datu ieguve: apmācības kurss. - Sanktpēterburga: Pēteris, 2001.

3. B. de Ville. Microsoft datu ieguve. Digitālā prese, 2001.

OLAP sistēmas sniedz analītiķim iespēju pārbaudīt hipotēzes, analizējot datus, proti, analītiķa galvenais uzdevums ir ģenerēt hipotēzes, kuras viņš risina, pamatojoties uz savām zināšanām un pieredzi, taču zināšanas ir ne tikai cilvēkam, bet arī uzkrātie dati, kas tiek analizēti. Šādas zināšanas satur milzīgs informācijas apjoms, ko cilvēks pats nav spējīgs izpētīt. Šajā sakarā pastāv iespēja izlaist hipotēzes, kas var dot ievērojamu labumu.

Lai atklātu "slēptās" zināšanas, tiek izmantotas īpašas automātiskās analīzes metodes, ar kuru palīdzību ir praktiski jāizvelk zināšanas no informācijas "bloķējumiem". Šim virzienam ir piešķirts termins "datu ieguve (DataMining)" vai "datu ieguve".

Ir daudzas DataMining definīcijas, kas viena otru papildina. Šeit ir daži no tiem.

DataMining ir netriviālu un praktiski noderīgu modeļu atklāšanas process datu bāzēs. (bāzes grupa)

Datu ieguve ir liela datu apjoma iegūšanas, izpētes un modelēšanas process, lai atklātu iepriekš nezināmus modeļus (rakstus), lai gūtu biznesa priekšrocības (SAS institūts).

DataMining ir process, kura mērķis ir atklāt jaunas nozīmīgas korelācijas, modeļus un tendences, izsijājot lielu daudzumu saglabāto datu, izmantojot modeļu atpazīšanas metodes, kā arī statistikas un matemātiskās metodes (GartnerGroup).

DataMining ir “mašīnas” (algoritmu, mākslīgā intelekta rīku) pētījums un atklāšana neapstrādātos slēpto zināšanu datos.iepriekš nezināms, netriviāls, praktiski noderīgs, pieejams interpretācijaicilvēks (A. Bargesjans "Datu analīzes tehnoloģijas")

DataMining ir process, kurā tiek atklātas noderīgas zināšanas par uzņēmējdarbību. (N.M. Abdikeev "KBA")

Atklājamo zināšanu īpašības

Apsveriet atklājamo zināšanu īpašības.

  • Zināšanām jābūt jaunām, iepriekš nezināmām. Pūles, kas iztērētas, lai atklātu zināšanas, kas jau ir zināmas lietotājam, neatmaksājas. Tāpēc vērtīgas ir jaunas, iepriekš nezināmas zināšanas.
  • Zināšanām jābūt netriviālām. Analīzes rezultātiem jāatspoguļo nepārprotami, negaidītidatu modeļi, kas veido tā sauktās slēptās zināšanas. Rezultāti, kurus varētu iegūt vairāk vienkāršus veidus(piemēram, vizuāli pārbaudot) neattaisno jaudīgu DataMining metožu izmantošanu.
  • Zināšanām vajadzētu būt praktiski noderīgām. Atrastajām zināšanām jābūt piemērojamām, tostarp attiecībā uz jauniem datiem, ar pietiekami augstu ticamības pakāpi. Noderīgums slēpjas faktā, ka šīs zināšanas var dot zināmu labumu to pielietošanā.
  • Zināšanām jābūt pieejamām cilvēka izpratnei. Atrastajiem modeļiem jābūt loģiski izskaidrojamiem, pretējā gadījumā pastāv iespēja, ka tie ir nejauši. Turklāt atklātās zināšanas būtu jāsniedz cilvēkam saprotamā formā.

Programmā DataMining iegūto zināšanu attēlošanai tiek izmantoti modeļi. Modeļu veidi ir atkarīgi no to izveides metodēm. Visizplatītākie ir: noteikumi, lēmumu koki, kopas un matemātiskās funkcijas.

Datu ieguves uzdevumi

Atgādinām, ka DataMining tehnoloģija balstās uz modeļu koncepciju, kas ir likumsakarības. Šo no neapbruņotas acs slēpto likumsakarību atklāšanas rezultātā tiek atrisinātas DataMining problēmas. Dažiem DataMining uzdevumiem atbilst dažāda veida modeļi, kurus var izteikt cilvēkam lasāmā formā.

Nav vienprātības par to, kādi uzdevumi būtu jāpiešķir DataMining. Lielākajā daļā autoritatīvu avotu ir norādīts: klasifikācija,

klasterēšana, prognozēšana, asociācija, vizualizācija, analīze un atklāšana

novirzes, izvērtēšana, attiecību analīze, summēšana.

Sekojošā apraksta mērķis ir sniegt pārskatu par DataMining problēmām, salīdzināt dažas no tām, kā arī iepazīstināt ar dažām metodēm, ar kurām šīs problēmas tiek risinātas. Visizplatītākie DataMining uzdevumi ir klasificēšana, klasterizācija, asociācija, prognozēšana un vizualizācija. Tādējādi uzdevumi tiek sadalīti atbilstoši saražotās informācijas veidiem, šī ir vispārīgākā DataMining uzdevumu klasifikācija.

Klasifikācija

Problēma par objektu vai novērojumu kopas sadalīšanu a priori dotās grupas, ko sauc par klasēm, katrā no kurām tiek pieņemts, ka tās ir līdzīgas viena otrai, kurām ir aptuveni vienādas īpašības un pazīmes. Šajā gadījumā risinājums tiek iegūts, pamatojoties uz analīze atribūtu (iezīmju) vērtības.

Klasifikācija ir viens no svarīgākajiem uzdevumiem datu ieguve . Tas tiek piemērots iekšā mārketings izvērtējot kredītņēmēju kredītspēju, nosakot klientu lojalitāte, modeļa atpazīšana , medicīniskā diagnostika un daudzas citas lietojumprogrammas. Ja analītiķis zina katras klases objektu īpašības, tad, kad jauns novērojums pieder noteiktai klasei, šīs īpašības uz to attiecas automātiski.

Ja nodarbību skaits ir ierobežots līdz divām, tadbinārā klasifikācija , līdz kurām var samazināt daudzas sarežģītākas problēmas. Piemēram, tā vietā, lai definētu tādas kredītriska pakāpes kā "Augsts", "Vidējs" vai "Zems", var izmantot tikai divas - "Problēma" vai "Atteikt".

Klasifikācijai DataMining izmanto daudz dažādu modeļu: neironu tīkli, lēmumu koki , atbalsta vektoru mašīnas, k-tuvākie kaimiņi, pārklājuma algoritmi utt., kas tiek konstruēti, izmantojot uzraudzītu mācīšanos, kadizvades mainīgais(klases etiķete ) ir norādīts katram novērojumam. Formāli klasifikācija ir balstīta uz nodalījumufunkciju telpas jomās, katrā no kurāmdaudzdimensiju vektori tiek uzskatīti par identiskiem. Citiem vārdiem sakot, ja objekts ir iekritis telpas reģionā, kas saistīts ar noteiktu klasi, tas pieder tai.

Klasterizācija

Īss apraksts. Klasterizācija ir loģisks idejas turpinājums

klasifikācija. Šis uzdevums ir sarežģītāks, klasterizācijas īpatnība ir tāda, ka objektu klases sākotnēji nav iepriekš noteiktas. Klasterizācijas rezultāts ir objektu sadalīšana grupās.

Klasterizācijas problēmas risināšanas metodes piemērs: īpaša veida neironu tīklu apmācība "bez skolotāja" - Kohonena pašorganizējošās kartes.

Asociācija (asociācijas)

Īss apraksts. Risinot asociāciju noteikumu meklēšanas problēmu, tiek atrasti modeļi starp saistītiem notikumiem datu kopā.

Atšķirība starp asociāciju un diviem iepriekšējiem DataMining uzdevumiem ir tāda, ka modeļu meklēšana nav balstīta uz analizētā objekta īpašībām, bet gan starp vairākiem notikumiem, kas notiek vienlaikus. Vispazīstamākais asociācijas noteikumu atrašanas problēmas risināšanas algoritms ir Apriori algoritms.

Secība vai secīga asociācija

Īss apraksts. Secība ļauj atrast laika modeļus starp darījumiem. Secības uzdevums ir līdzīgs asociācijai, bet tās mērķis ir izveidot modeļus nevis starp vienlaicīgi notiekošiem notikumiem, bet gan starp notikumiem, kas saistīti laikā (t.i., kas notiek noteiktā laika intervālā). Citiem vārdiem sakot, secību nosaka laikā saistītu notikumu ķēdes lielā varbūtība. Faktiski asociācija ir īpašs gadījums secībai ar nulles laika nobīdi. Šo DataMining problēmu sauc arī par secīgu modeļu problēmu.

Secības noteikums: pēc notikuma X notikums Y notiks pēc noteikta laika.

Piemērs. Pēc dzīvokļa iegādes īrnieki 60% gadījumu divu nedēļu laikā iegādājas ledusskapi, bet divu mēnešu laikā 50% gadījumu tiek iegādāts televizors. Šīs problēmas risinājums tiek plaši izmantots mārketingā un vadībā, piemēram, klienta dzīves cikla pārvaldībā (CustomerLifecycleManagement).

Regresija, prognozēšana (prognozēšana)

Īss apraksts. Prognozēšanas problēmas risināšanas rezultātā, pamatojoties uz vēsturisko datu īpašībām, tiek novērtētas mērķa skaitlisko rādītāju trūkstošās vai nākotnes vērtības.

Šādu problēmu risināšanai plaši tiek izmantotas matemātiskās statistikas metodes, neironu tīkli utt.

Papildu uzdevumi

Noviržu vai novirzes noteikšana (DeviationDetection), dispersijas vai izņēmuma analīze

Īss apraksts. Šīs problēmas risināšanas mērķis ir tādu datu noteikšana un analīze, kas visvairāk atšķiras no vispārējā datu kopuma, tā saukto neraksturīgo modeļu identificēšana.

Aplēse

Novērtēšanas uzdevums ir samazināts līdz objekta nepārtrauktu vērtību prognozēšanai.

Saišu analīze (LinkAnalysis)

Uzdevums atrast atkarības datu kopā.

Vizualizācija (vizualizācija, grafikas ieguve)

Vizualizācijas rezultātā tiek izveidots analizējamo datu grafiskais attēls. Lai atrisinātu vizualizācijas problēmu, tiek izmantotas grafiskās metodes, lai parādītu modeļu klātbūtni datos.

Vizualizācijas metožu piemērs ir datu prezentācija 2-D un 3-D dimensijās.

Apkopojums

Uzdevums, kura mērķis ir konkrētu objektu grupu apraksts no analizējamās datu kopas.

Diezgan tuvu augstākminētajai klasifikācijai ir DataMining uzdevumu iedalījums sekojošos: izpēte un atklāšana, prognozēšana un klasifikācija, skaidrojums un apraksts.

Automātiska izpēte un atklāšana (bezmaksas meklēšana)

Uzdevuma piemērs: jaunu tirgus segmentu atklāšana.

Šīs klases problēmu risināšanai tiek izmantotas klasteru analīzes metodes.

Prognozēšana un klasifikācija

Problēmas paraugs: prognozējiet pārdošanas pieaugumu, pamatojoties uz pašreizējām vērtībām.

Metodes: regresija, neironu tīkli, ģenētiskie algoritmi, lēmumu koki.

Klasifikācijas un prognozēšanas uzdevumi veido tā sauktās induktīvās modelēšanas grupu, kuras rezultātā tiek pētīts analizējamais objekts vai sistēma. Šo problēmu risināšanas procesā uz datu kopas pamata tiek izstrādāts vispārējs modelis jeb hipotēze.

Paskaidrojums un apraksts

Problēmas paraugs: klientu raksturošana pēc demogrāfijas un pirkumu vēstures.

Metodes: lēmumu koki, noteikumu sistēmas, asociācijas noteikumi, saišu analīze.

Ja klienta ienākumi ir vairāk nekā 50 konvencionālās vienības un viņa vecums ir lielāks par 30 gadiem, tad klienta klase ir pirmā.

Klasterizācijas un klasifikācijas salīdzinājums

Raksturīgs

Klasifikācija

Klasterizācija

Mācību vadāmība

kontrolēts

nekontrolējams

Stratēģijas

Mācīšanās kopā ar skolotāju

Mācīšanās bez skolotāja

Klases etiķetes klātbūtne

Treniņu komplekts

kopā ar etiķeti, kas norāda

klase, kurai tas pieder

novērojums

Nodarbību etiķešu mācīšana

komplekti nezināmi

Klasifikācijas pamats

Jaunie dati tiek klasificēti, pamatojoties uz apmācību komplektu

Šim nolūkam ir dots daudz datu

eksistences konstatēšana

klases vai datu kopas

DataMining darbības jomas

Jāpiebilst, ka mūsdienās DataMining tehnoloģija visplašāk tiek izmantota biznesa problēmu risināšanā. Iespējams, iemesls ir tāds, ka tieši šajā virzienā DataMining rīku izmantošanas atdeve saskaņā ar dažiem avotiem var sasniegt 1000%, un tā ieviešanas izmaksas var ātri atmaksāties.

Mēs detalizēti apskatīsim četrus galvenos DataMining tehnoloģijas lietojumus: zinātni, uzņēmējdarbību, valdības pētniecību un tīmekli.

biznesa uzdevumi. Galvenās jomas: banku darbība, finanses, apdrošināšana, CRM, ražošana, telekomunikācijas, e-komercija, mārketings, akciju tirgus un citas.

    Vai izsniegt klientam aizdevumu

    Tirgus segmentācija

    Jaunu klientu piesaiste

    Krāpšana ar kredītkartēm

DataMining pieteikums priekš valsts līmeņa problēmu risināšana. Galvenie virzieni: nodokļu nemaksātāju meklēšana; līdzekļiem cīņā pret terorismu.

DataMining pieteikums priekš zinātniskie pētījumi. Galvenās jomas: medicīna, bioloģija, molekulārā ģenētika un gēnu inženierija, bioinformātika, astronomija, lietišķā ķīmija, narkotiku atkarības pētījumi un citas.

DataMining izmantošana risinājumam Tīmekļa uzdevumi. Galvenie virzieni: meklētājprogrammas (meklētājprogrammas), skaitītāji un citi.

E-komercija

E-komercijas jomā ģenerēšanai izmanto DataMining

Šī klasifikācija ļauj uzņēmumiem identificēt konkrētas klientu grupas un veikt mārketinga politiku atbilstoši klientu identificētajām interesēm un vajadzībām. DataMining tehnoloģija e-komercijai ir cieši saistīta ar WebMining tehnoloģiju.

Galvenie DataMining uzdevumi rūpnieciskajā ražošanā:

kompleksa ražošanas situāciju sistēmu analīze;

· ražošanas situāciju attīstības īstermiņa un ilgtermiņa prognoze;

optimizācijas risinājumu variantu izstrāde;

Produkta kvalitātes prognozēšana atkarībā no dažiem parametriem

tehnoloģiskais process;

slēpto tendenču un ražošanas attīstības modeļu atklāšana

procesi;

attīstības modeļu prognozēšana ražošanas procesi;

slēpto ietekmes faktoru noteikšana;

iepriekš nezināmu attiecību atklāšana un identificēšana starp

ražošanas parametri un ietekmes faktori;

ražošanas procesu mijiedarbības vides analīze un prognozēšana

izmaiņas tā īpašībās;

procesi;

analīzes rezultātu vizualizācija, provizorisko atskaišu un projektu sagatavošana

realizējamus risinājumus ar aplēsēm par iespējamo ieviešanu uzticamību un efektivitāti.

Mārketings

Mārketinga jomā DataMining tiek plaši izmantots.

Mārketinga pamatjautājumi "Kas ir pārdošanā?", "Kā tas pārdod?", "Kas ir

patērētājs?"

Lekcijā par klasifikācijas un klasterizācijas problēmām ir detalizēti aprakstīta klasteru analīzes izmantošana mārketinga problēmu risināšanai, piemēram, patērētāju segmentācijai.

Vēl viens izplatīts mārketinga problēmu risināšanas metožu kopums ir asociācijas noteikumu meklēšanas metodes un algoritmi.

Šeit veiksmīgi tiek izmantota arī temporālo modeļu meklēšana.

Mazumtirdzniecība

Mazumtirdzniecībā, tāpat kā mārketingā, izmantojiet:

Algoritmi asociācijas noteikumu meklēšanai (bieži sastopamu kopu noteikšanai

preces, kuras pircēji pērk vienlaikus). Šādu noteikumu noteikšana palīdz

izvietot preces tirdzniecības stāvu plauktos, izstrādāt preču iegādes stratēģijas

un to izvietošana noliktavās utt.

laika secību izmantošana, piemēram, lai noteiktu

nepieciešamo inventāra daudzumu noliktavā.

klasifikācijas un klasterizācijas metodes, lai identificētu klientu grupas vai kategorijas,

kuru zināšanas veicina veiksmīgu preču popularizēšanu.

Akciju tirgus

Šeit ir saraksts ar akciju tirgus problēmām, kuras var atrisināt, izmantojot datu tehnoloģiju

Kalnrūpniecība: finanšu instrumentu un rādītāju nākotnes vērtību prognozēšana

pagātnes vērtības;

finanšu tendences (nākotnes kustības virziens - izaugsme, kritums, plakana) prognoze

instruments un tā stiprums (stiprs, vidēji spēcīgs utt.);

tirgus, nozares, nozares klasteru struktūras sadalījums atbilstoši noteiktam kopumam

īpašības;

· dinamiska portfeļa vadība;

nepastāvības prognoze;

riska novērtēšana;

krīzes iestāšanās prognoze un tās attīstības prognoze;

aktīvu atlase utt.

Papildus iepriekš aprakstītajām darbības jomām DataMining tehnoloģiju var pielietot visdažādākajās biznesa jomās, kur ir nepieciešama datu analīze un ir uzkrāts zināms daudzums retrospektīvas informācijas.

DataMining pielietojums CRM

Viens no daudzsološākajiem DataMining lietojumiem ir šīs tehnoloģijas izmantošana analītiskajā CRM.

CRM (Customer Relationship Management) - klientu attiecību pārvaldība.

Ja šīs tehnoloģijas tiek izmantotas kopā, zināšanu ieguve tiek apvienota ar "naudas ieguvi" no klientu datiem.

Svarīgs aspekts mārketinga un pārdošanas nodaļu darbā ir sagatavošanāsholistisks skatījums uz klientiem, informācija par to iezīmēm, īpašībām, klientu bāzes struktūru. CRM izmanto tā saukto profilēšanuklientiem, sniedzot pilnīgu priekšstatu par visu nepieciešamo informāciju par klientiem.

Klientu profilēšana ietver šādas sastāvdaļas: klientu segmentēšana, klientu rentabilitāte, klientu noturēšana, klientu atbildes analīze. Katru no šiem komponentiem var izpētīt, izmantojot DataMining, un, analizējot tos kopā kā profilēšanas komponentus, var iegūt zināšanas, kuras nevar iegūt no katra atsevišķa rakstura.

tīmekļa ieguve

WebMining var tulkot kā "datu ieguve tīmeklī". WebIntelligence vai Web.

Intelligence ir gatava "atvērt jaunu nodaļu" straujajā e-biznesa attīstībā. Spēja noteikt katra apmeklētāja intereses un vēlmes, novērojot viņa uzvedību, ir nopietna un būtiska konkurences priekšrocība e-komercijas tirgū.

WebMining sistēmas var atbildēt uz daudziem jautājumiem, piemēram, kurš no apmeklētājiem ir potenciālais interneta veikala klients, kura interneta veikala klientu grupa nes lielākos ienākumus, kādas ir konkrēta apmeklētāja vai apmeklētāju grupas intereses.

Metodes

Metožu klasifikācija

Ir divas metožu grupas:

  • statistikas metodes, kas balstītas uz vidējās uzkrātās pieredzes izmantošanu, kas atspoguļojas retrospektīvos datos;
  • kibernētiskās metodes, tostarp daudzas neviendabīgas matemātiskas pieejas.

Šādas klasifikācijas trūkums ir tāds, ka gan statistiskie, gan kibernētiskie algoritmi vienā vai otrā veidā paļaujas uz statistikas pieredzes salīdzinājumu ar pašreizējās situācijas uzraudzības rezultātiem.

Šādas klasifikācijas priekšrocība ir tās ērtība interpretācijai - to izmanto, aprakstot mūsdienu pieejas matemātiskos rīkus zināšanu iegūšanai no sākotnējo novērojumu masīviem (operatīviem un retrospektīviem), t.i. Datu ieguves uzdevumos.

Sīkāk apskatīsim iepriekš minētās grupas.

Statistikas metodes Datu ieguve

Šajos metodes sastāv no četrām savstarpēji saistītām sadaļām:

  • statistisko datu rakstura iepriekšēja analīze (stacionaritātes, normalitātes, neatkarības, viendabīguma hipotēžu pārbaude, sadalījuma funkcijas veida novērtējums, tā parametri utt.);
  • identificējot saites un modeļiem(lineārā un nelineārā regresijas analīze, korelācijas analīze utt.);
  • daudzdimensiju statistiskā analīze (lineārā un nelineārā diskriminanta analīze, klasteru analīze, komponentu analīze, faktoru analīze utt.);
  • dinamiskie modeļi un prognozes, kuru pamatā ir laika rindas.

Statistikas metožu arsenāls Datu ieguve ir iedalīta četrās metožu grupās:

  1. Sākotnējo datu aprakstošā analīze un apraksts.
  2. Sakarību analīze (korelācijas un regresijas analīze, faktoru analīze, dispersijas analīze).
  3. Daudzfaktoru statistiskā analīze (komponentu analīze, diskriminantu analīze, daudzfaktoru regresijas analīze, kanoniskās korelācijas utt.).
  4. Laika rindu analīze (dinamiskie modeļi un prognozēšana).

Kibernētiskās datu ieguves metodes

Otrs datu ieguves virziens ir pieeju kopums, ko vieno ideja par datoru matemātiku un mākslīgā intelekta teorijas izmantošanu.

Šajā grupā ietilpst šādas metodes:

  • mākslīgie neironu tīkli (atpazīšana, klasterizācija, prognoze);
  • evolucionārā programmēšana (ieskaitot argumentu grupu uzskaites metodes algoritmus);
  • ģenētiskie algoritmi (optimizācija);
  • asociatīvā atmiņa (analogu, prototipu meklēšana);
  • neskaidra loģika;
  • lēmumu koki;
  • ekspertu zināšanu apstrādes sistēmas.

klasteru analīze

Klasterizācijas mērķis ir meklēt esošās struktūras.

Klasterizācija ir aprakstoša procedūra, tā neizdara nekādus statistiskus secinājumus, bet sniedz iespēju veikt pētniecisku analīzi un izpētīt "datu struktūru".

Pats jēdziens "klasteri" ir definēts neviennozīmīgi: katram pētījumam ir savas "kopas". Jēdziens klasteris (klasteris) tiek tulkots kā "kopa", "ķekars". Klasteru var raksturot kā objektu grupu, kam ir kopīgas īpašības.

Ir divas klastera īpašības:

  • iekšējā viendabīgums;
  • ārējā izolācija.

Jautājums, ko analītiķi uzdod daudzās problēmās, ir tas, kā sakārtot datus vizuālās struktūrās, t.i. paplašināt taksonomijas.

Sākotnēji klasterizāciju visplašāk izmantoja tādās zinātnēs kā bioloģija, antropoloģija un psiholoģija. Klasterizācija ilgu laiku ir maz izmantota ekonomisko problēmu risināšanai ekonomisko datu un parādību specifikas dēļ.

Kopas var būt nepārklājošas vai ekskluzīvas (nepārklājas, ekskluzīvas) un krustojošas (pārklājas).

Jāatzīmē, ka dažādu klasteranalīzes metožu pielietošanas rezultātā var iegūt dažādu formu klasteri. Piemēram, ir iespējami "ķēdes" tipa klasteri, kad kopas attēlo garas "ķēdes", iegarenas kopas utt., un dažas metodes var izveidot patvaļīgas formas kopas.

Dažādu metožu mērķis var būt noteikta lieluma (piemēram, mazu vai lielu) kopu izveidošana vai dažāda lieluma kopu pieņemšana datu kopā. Dažas klasteru analīzes metodes ir īpaši jutīgas pret troksni vai novirzēm, savukārt citas ir mazāk jutīgas. Dažādu klasterizācijas metožu pielietošanas rezultātā var iegūt dažādus rezultātus, tas ir normāli un ir konkrēta algoritma darbības iezīme. Šīs īpašības jāņem vērā, izvēloties klasterizācijas metodi.

Sniegsim īsu klasterizācijas pieeju aprakstu.

Algoritmi, kuru pamatā ir datu sadalīšana (Partitioningalgorithms), t.sk. iteratīvs:

  • objektu sadalīšana k klasteros;
  • objektu iteratīva pārdale, lai uzlabotu klasterizāciju.
  • Hierarhiskie algoritmi (Hierarhijas algoritmi):
  • aglomerācija: katrs objekts sākotnēji ir kopa, kopas,
  • savienojoties savā starpā, veido lielāku kopu utt.

Metodes, kuru pamatā ir objektu koncentrācija (uz blīvumu balstītas metodes):

  • pamatojoties uz objektu savienojamību;
  • ignorēt trokšņus, atrodot patvaļīgas formas kopas.

Režģis - metodes (uz režģa balstītas metodes):

  • objektu kvantēšana režģa struktūrās.

Modeļa metodes (pamatojoties uz modeli):

  • izmantojot modeli, lai atrastu klasterus, kas vislabāk atbilst datiem.

Klasteru analīzes metodes. iteratīvas metodes.

Ar lielu skaitu novērojumu klasteru analīzes hierarhiskās metodes nav piemērotas. Šādos gadījumos tiek izmantotas nehierarhiskas metodes, kuru pamatā ir dalīšana, kas ir iteratīvas sākotnējās populācijas sadalīšanas metodes. Sadalīšanas procesā tiek veidoti jauni klasteri, līdz tiek izpildīts apstāšanās noteikums.

Šāda nehierarhiska klasterizācija sastāv no datu kopas sadalīšanas noteiktā skaitā atšķirīgu klasteru. Ir divas pieejas. Pirmais ir definēt klasteru robežas kā blīvākos apgabalus sākotnējo datu daudzdimensionālajā telpā, t.i. klastera definīcija, kur ir liela "punktu koncentrācija". Otrā pieeja ir samazināt objektu atšķirības mēru

Algoritms k-means (k-means)

Starp nehierarhiskām metodēm visizplatītākais ir k-means algoritms, ko sauc arī par ātra klasteru analīze. Pilns algoritma apraksts ir atrodams Hartigan un Wong (1978). Atšķirībā no hierarhiskām metodēm, kas neprasa provizoriskus pieņēmumus par klasteru skaitu, lai varētu izmantot šo metodi, ir nepieciešama hipotēze par visticamāko klasteru skaitu.

K-mean algoritms izveido k klasterus, kas atrodas pēc iespējas tālāk viena no otras. Galvenais problēmu veids, ko risina k-means algoritms, ir pieņēmumu (hipotēžu) klātbūtne par klasteru skaitu, bet tiem jābūt pēc iespējas atšķirīgiem. Skaitļa k izvēle var būt balstīta uz iepriekšējiem pētījumiem, teorētiskiem apsvērumiem vai intuīciju.

Algoritma vispārīgā ideja: noteikts fiksēts skaits k novērojumu kopas tiek salīdzinātas ar klasteriem tādā veidā, ka vidējie rādītāji klasterī (visiem mainīgajiem) pēc iespējas vairāk atšķiras viens no otra.

Algoritma apraksts

1. Sākotnējais objektu sadalījums pa klasteriem.

  • Tiek izvēlēts skaitlis k, un pirmajā solī šie punkti tiek uzskatīti par klasteru "centriem".
  • Katrs klasteris atbilst vienam centram.

Sākotnējo centroīdu izvēli var veikt šādi:

  • izvēloties k-novērojumus, lai maksimāli palielinātu sākotnējo attālumu;
  • nejauša k-novērojumu atlase;
  • pirmo k-novērojumu izvēle.

Rezultātā katrs objekts tiek piešķirts noteiktai klasterim.

2. Iteratīvs process.

Tiek aprēķināti klasteru centri, kas tad un tālāk tiek uzskatīti par klasteru koordinātu vidējiem. Objekti atkal tiek pārdalīti.

Centru aprēķināšanas un objektu pārdales process turpinās, līdz tiek izpildīts viens no šiem nosacījumiem:

  • klasteru centri ir nostabilizējušies, t.i. visi novērojumi pieder klasterim, kuram tie piederēja pirms pašreizējās iterācijas;
  • iterāciju skaits ir vienāds ar maksimālo iterāciju skaitu.

Attēlā parādīts k-vidējo algoritma darbības piemērs, ja k ir vienāds ar divi.

K-vidējā algoritma (k=2) piemērs

Klasteru skaita izvēle ir sarežģīts jautājums. Ja par šo skaitli nav pieņēmumu, tad, salīdzinot rezultātus, ieteicams izveidot 2 klasterus, tad 3, 4, 5 utt.

Klasterizācijas kvalitātes pārbaude

Pēc klasteru analīzes rezultātu iegūšanas, izmantojot k-means metodi, jāpārbauda klasterizācijas pareizība (t.i., jānovērtē, kā klasteri atšķiras viens no otra).

Lai to izdarītu, tiek aprēķinātas katras klastera vidējās vērtības. Labai klasterizācijai vajadzētu radīt ļoti atšķirīgus līdzekļus visiem mērījumiem vai vismaz lielākajai daļai no tiem.

K-means algoritma priekšrocības:

  • lietošanas ērtums;
  • lietošanas ātrums;
  • algoritma skaidrība un caurspīdīgums.

K-means algoritma trūkumi:

  • algoritms ir pārāk jutīgs pret novirzēm, kas var izkropļot vidējo.

Iespējamais risinājumsšī problēma ir izmantot algoritma modifikāciju -k-mediānas algoritms;

  • algoritms var būt lēns lielās datu bāzēs. Iespējamais šīs problēmas risinājums ir datu izlases izmantošana.

Bajesa tīkli

Varbūtības teorijā informācijas atkarības jēdzienu modelē nosacītā atkarība (vai strikti: nosacītās neatkarības trūkums), kas apraksta, kā mainās mūsu pārliecība par kāda notikuma iznākumu, kad mēs iegūstam jaunas zināšanas par faktiem, ņemot vērā, ka mēs jau zinājām. daži citi fakti.

Ir ērti un intuitīvi attēlot atkarības starp elementiem, izmantojot virzītu ceļu, kas savieno šos elementus grafikā. Ja saistība starp elementiem x un y nav tieša un tiek veikta caur trešo elementu z, tad ir loģiski sagaidīt, ka ceļā starp x un y būs elements z. Šādi starpmezgli "nogriezīs" atkarību starp x un y, t.i. modelēt nosacītas neatkarības situāciju starp tām ar zināmu tiešo ietekmes faktoru vērtību.Šādas modelēšanas valodas ir Beijesa tīkli, kas kalpo, lai aprakstītu nosacītās atkarības starp noteiktas tēmas jomas jēdzieniem.

Bajesa tīkli ir grafiskās struktūras lai attēlotu varbūtības attiecības starp lielu skaitu mainīgo un veiktu varbūtības secinājumus, pamatojoties uz šiem mainīgajiem."Naivā" (baijeziskā) klasifikācija ir diezgan caurspīdīga un saprotama klasifikācijas metode. Par "naivu" to sauc, jo tā izriet no savstarpējas pieņēmuma.funkcijas neatkarība.

Klasifikācijas īpašības:

1. Visu mainīgo izmantošana un visu atkarību noteikšana starp tiem.

2. Ir divi pieņēmumi par mainīgajiem:

  • visi mainīgie ir vienlīdz svarīgi;
  • visi mainīgie ir statistiski neatkarīgi, t.i. Viena mainīgā vērtība neko neizsaka par otra vērtību.

Ir divi galvenie Beijesa tīklu izmantošanas scenāriji:

1. Aprakstošā analīze. Tēmas apgabals tiek attēlots kā grafiks, kura mezgli attēlo jēdzienus, un ar bultiņām attēlotie virzītie loki ilustrē tiešās attiecības starp šiem jēdzieniem. Attiecība starp x un y nozīmē, ka, zinot x vērtību, varat labāk uzminēt par y vērtību. Tiešas saiknes trūkums starp jēdzieniem modelē nosacīto neatkarību starp tiem, ņemot vērā zināmās vērtības noteiktam "atdalošo" jēdzienu kopumam. Piemēram, bērna apavu izmērs ir acīmredzami saistīts ar bērna spēju lasīt cauri vecumam. Tādējādi lielāks apavu izmērs dod lielāku pārliecību, ka bērns jau lasa, bet, ja jau zinām vecumu, tad apavu izmēra zināšana mums vairs nedos. Papildus informācija par bērna spēju lasīt.


Kā citu, pretēju piemēru, apsveriet tādus sākotnēji nesaistītus faktorus kā smēķēšana un saaukstēšanās. Bet, ja zinām kādu simptomu, piemēram, ka cilvēks cieš no rīta klepus, tad apziņa, ka cilvēks nesmēķē, vairo pārliecību, ka cilvēkam ir saaukstēšanās.

2. Klasifikācija un prognozēšana. Beijesa tīkls, pieļaujot vairāku jēdzienu nosacītu neatkarību, ļauj samazināt kopīgo sadalījuma parametru skaitu, ļaujot tos droši novērtēt uz pieejamajiem datu apjomiem. Tātad ar 10 mainīgajiem, no kuriem katrs var iegūt 10 vērtības, kopīgo sadalījuma parametru skaits ir 10 miljardi - 1. Ja pieņemam, ka starp šiem mainīgajiem ir viens no otra atkarīgi tikai 2 mainīgie, tad parametru skaits kļūst par 8 * ( 10-1) + (10 * 10-1) = 171. Ja ir kopīgā sadalījuma modelis, kas ir reāls skaitļošanas resursu ziņā, mēs varam paredzēt jēdziena nezināmo vērtību kā, piemēram, šī jēdziena visticamāko vērtību. jēdziens ar zināmām citu jēdzienu vērtībām.

Viņi atzīmē šādas Bajesa tīklu priekšrocības kā datu ieguves metode:

Modelī ir definētas atkarības starp visiem mainīgajiem, kas to atvieglorīkoties situācijās, kad dažu mainīgo vērtības nav zināmas;

Bajesa tīkli ir diezgan vienkārši interpretēti un pieļaujami stadijāprognozējamo modelēšanu ir viegli veikt scenārija "kā būtu, ja būtu" analīzi;

Bajesa metode ļauj dabiski apvienot modeļus,iegūti no datiem un, piemēram, ekspertu zināšanām, kas iegūtas tieši;

Izmantojot Bajesa tīklus, tiek novērsta pārmērīga uzstādīšana(overfitting), tas ir, pārmērīga modeļa sarežģītība, kas ir vājumsdaudzas metodes (piemēram, lēmumu koki un neironu tīkli).

Naivai Beijesa pieejai ir šādi trūkumi:

Nosacīto varbūtību reizināšana ir pareiza tikai tad, ja visas ievadesmainīgie patiešām ir statistiski neatkarīgi; lai gan šī metode ir biežiuzrāda diezgan labus rezultātus, ja stāvoklis statistikasneatkarība, bet teorētiski šāda situācija būtu jārisina sarežģītākmetodes, kuru pamatā ir Bajesa tīklu apmācība;

Neiespējama nepārtrauktu mainīgo tieša apstrāde - tie ir nepieciešamikonvertēšana uz intervālu skalu, lai atribūti būtu diskrēti; tomēr tāditransformācijas dažkārt var novest pie jēgpilnu modeļu zaudēšanas;

Klasifikācijas rezultātu naivā Beijesa pieejā ietekmē tikaiievades mainīgo individuālās vērtības, kombinētā pāru ietekme vaišeit netiek ņemti vērā dažādu atribūtu vērtību trīskārši. Tas varētu uzlabotiesklasifikācijas modeļa kvalitāte tā paredzamās precizitātes ziņā,tomēr palielinātu pārbaudīto variantu skaitu.

Mākslīgie neironu tīkli

Mākslīgie neironu tīkli (turpmāk – neironu tīkli) var būt sinhroni un asinhroni.Sinhronajos neironu tīklos katrā laika brīdī tikai viens neirons. Asinhroni - stāvoklis nekavējoties mainās visai neironu grupai, kā likums, visam slānis. Var atšķirt divus pamata arhitektūras- slāņveida un pilnībā savienoti tīkli.Slāņu tīklu galvenais jēdziens ir slāņa jēdziens.Slānis - viens vai vairāki neironi, kuru ieejas tiek apgādātas ar vienu un to pašu kopējo signālu.Slāņu neironu tīkli ir neironu tīkli, kuros neironi ir sadalīti atsevišķās grupās (slāņos), lai informācijas apstrāde tiktu veikta slāņos.Slāņu tīklos i-tā slāņa neironi saņem ieejas signālus, tos pārveido un caur atzarošanas punktiem nodod slāņa neironiem (i + 1). Un tā līdz kth slānim, kas dodizejas signāli tulkam un lietotājam. Neironu skaits katrā slānī nav saistīts ar neironu skaitu citos slāņos, tas var būt patvaļīgs.Viena slāņa ietvaros dati tiek apstrādāti paralēli, un visā tīklā apstrāde tiek veikta secīgi - no slāņa uz slāni. Slāņu neironu tīkli ietver, piemēram, daudzslāņu perceptronus, radiālo bāzes funkciju tīklus, kognitronu, nekognitonu, asociatīvās atmiņas tīklus.Tomēr signāls ne vienmēr tiek piemērots visiem slāņa neironiem. Piemēram, kognitronā katrs pašreizējā slāņa neirons saņem signālus tikai no neironiem, kas ir tuvu tam iepriekšējā slānī.

Savukārt slāņu tīkli var būt vienslāņu un daudzslāņu.

Viena slāņa tīkls- tīkls, kas sastāv no viena slāņa.

Daudzslāņu tīkls- tīkls ar vairākiem slāņiem.

Daudzslāņu tīklā pirmais slānis tiek saukts par ievades slāni, nākamie slāņi tiek saukti par iekšējo vai slēpto, un pēdējais slānis ir izvades slānis. Tādējādi starpslāņi ir visi slāņi daudzslāņu neironu tīklā, izņemot ievadi un izvadi.Tīkla ievades slānis realizē savienojumu ar ievaddatiem, izvades slānis - ar izvadi.Tādējādi neironus var ievadīt, izvadīt un paslēpt.Ievades slānis ir sakārtots no ievades neironiem, kas saņem datus un izplata tos neironu ievadēm tīkla slēptajā slānī.Slēptais neirons ir neirons, kas atrodas neironu tīkla slēptajā slānī.Izejas neironi, no kuriem tiek organizēts tīkla izejas slānis, ražoneironu tīkla rezultāti.

Pilnībā savienotos tīklos katrs neirons pārraida savu izejas signālu pārējiem neironiem, ieskaitot sevi. Tīkla izejas signāli var būt visi vai daži neironu izejas signāli pēc vairākiem tīkla pulksteņa cikliem.

Visi ieejas signāli tiek ievadīti visiem neironiem.

Neironu tīklu apmācība

Pirms neironu tīkla izmantošanas tas ir jāapmāca.Neironu tīkla mācību process sastāv no tā iekšējo parametru pielāgošanas konkrētam uzdevumam.Neironu tīkla algoritms ir iteratīvs, tā soļus sauc par laikmetiem vai cikliem.Laikmets - viena iterācija mācību procesā, ieskaitot visu apmācību komplekta piemēru prezentāciju un, iespējams, apmācības kvalitātes pārbaudi uz kontroles. komplekts. Mācību process tiek veikts uz apmācības parauga.Apmācības paraugā ir iekļautas ievades vērtības un tām atbilstošās izvades vērtības no datu kopas. Apmācības gaitā neironu tīkls atrod dažas izvades lauku atkarības no ievades laukiem.Tādējādi mēs saskaramies ar jautājumu - kādi ievades lauki (funkcijas) mums ir nepieciešaminepieciešams lietot. Sākotnēji izvēle tiek veikta heiristiski, tadvar mainīt ieeju skaitu.

Sarežģītība var radīt jautājumu par novērojumu skaitu datu kopā. Un, lai gan ir daži noteikumi, kas apraksta saistību starp nepieciešamo novērojumu skaitu un tīkla lielumu, to pareizība nav pierādīta.Nepieciešamo novērojumu skaits ir atkarīgs no risināmās problēmas sarežģītības. Palielinoties pazīmju skaitam, novērojumu skaits palielinās nelineāri, šo problēmu sauc par "dimensiju lāstu". Ar nepietiekamu daudzumudatiem, ieteicams izmantot lineāro modeli.

Analītiķim jānosaka slāņu skaits tīklā un neironu skaits katrā slānī.Tālāk jums ir jāpiešķir tādas svara un novirzes vērtības, kuras varsamazināt kļūdas lēmumu pieņemšanā. Svari un novirzes tiek automātiski pielāgoti tā, lai samazinātu atšķirību starp vēlamo un izejas signālu, ko sauc par mācīšanās kļūdu.Mācīšanās kļūdu konstruētajam neironu tīklam aprēķina, salīdzinotizejas un mērķa (vēlamās) vērtības. Kļūdas funkcija tiek veidota no iegūtajām atšķirībām.

Kļūdas funkcija ir objektīva funkcija, kas šajā procesā ir jāsamazinakontrolēta neironu tīkla mācīšanās.Izmantojot kļūdu funkciju, apmācības laikā varat novērtēt neironu tīkla kvalitāti. Piemēram, bieži tiek izmantota kļūdu kvadrātu summa.Spēja atrisināt uzdotos uzdevumus ir atkarīga no neironu tīklu apmācības kvalitātes.

Neironu tīklu pārkvalifikācija

Apmācot neironu tīklus, bieži rodas nopietnas grūtības, t.spārmērības problēma.Overfitting, vai overfitting - overfittingneironu tīkls noteiktam apmācības piemēru kopumam, kurā tīkls zaudēvispārināšanas spēja.Overfitting notiek, ja treniņš ir pārāk garš, nepietiekamsapmācības piemēri vai pārāk sarežģīta neironu tīkla struktūra.Overfitting ir saistīts ar to, ka apmācības (apmācības) komplekta izvēleir nejaušs. No pirmajiem apmācības soļiem kļūda tiek samazināta. Ieslēgtsturpmākās darbības, lai samazinātu kļūdas (objektīvās funkcijas) parametruspielāgota treniņu komplekta īpašībām. Tomēr tas notiek"pielāgošana" nevis sērijas vispārīgajiem modeļiem, bet gan tās daļas iezīmēm -apmācības apakškopa. Šajā gadījumā prognozes precizitāte samazinās.Viena no iespējām, kā risināt tīkla pārkvalifikāciju, ir sadalīt apmācības paraugu divās daļāskomplekti (apmācība un ieskaite).Apmācības komplektā tiek apmācīts neironu tīkls. Testa komplektā tiek pārbaudīts konstruētais modelis. Šīs kopas nedrīkst krustoties.Ar katru soli modeļa parametri mainās, taču pastāvīgs samazinājumsmērķa funkcijas vērtība notiek tieši treniņu komplektā. Sadalot kopu divās daļās, mēs varam novērot prognozes kļūdas izmaiņas testa komplektā paralēli novērojumiem treniņu komplektā. Dažasprognozēšanas kļūdu soļu skaits samazinās abās kopās. Tomēr tālāknoteiktā solī kļūda testa komplektā sāk palielināties, bet kļūda treniņu komplektā turpina samazināties. Šis brīdis tiek uzskatīts par pārkvalifikācijas sākumu.

Datu ieguves rīki

Globālā programmatūras tirgus DataMining sektora attīstību aizņem gan pasaulslaveni līderi, gan jauni topošie uzņēmumi. DataMining rīkus var piedāvāt vai nu kā atsevišķu lietojumprogrammu, vai kā galvenā produkta papildinājumus.Pēdējo iespēju ievieš daudzi programmatūras tirgus līderi.Tātad jau ir kļuvusi par tradīciju, ka universālo statistikas pakešu izstrādātāji papildus tradicionālajām statistiskās analīzes metodēm iekļauj pakotnēnoteikts DataMining metožu kopums. Tie ir tādi iepakojumi kā SPSS (SPSS, Clementine), Statistica (StatSoft), SAS institūts (SAS Enterprise Miner). Daži OLAP risinājumu izstrādātāji piedāvā arī DataMining paņēmienu kopumu, piemēram, Cognos produktu saimi. Ir pakalpojumu sniedzēji, kas iekļauj DataMining risinājumus DBVS funkcionalitātē: tie ir Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMintelligentMinerforData).

Bibliogrāfija

  1. Abdikejevs N.M. Danko T.P. Ildemenovs S.V. Kiseļevs A.D., “Uzņēmējdarbības procesu pārveidošana. MBA kurss”, Maskava: Izdevniecība Eksmo, 2005. - 592 lpp. - (MBA)
  1. Abdikejevs N.M., Kiseļevs A.D. "Zināšanu vadība korporācijās un biznesa reinženierija" - M.: Infra-M, 2011.- 382 lpp. – ISBN 978-5-16-004300-5
  1. Barseghjans A.A., Kuprijanovs M.S., Stepaņenko V.V., Holods I.I. "Datu analīzes metodes un modeļi: OLAP un datu ieguve", Sanktpēterburga: BHV-Petersburg, 2004, 336 lpp., ISBN 5-94157-522-X
  1. Hercogs IN., Samoiļenko A., “Datu ieguve.Apmācības kurss "SPb: Piter, 2001, 386s.
  1. Čubukova I.A., Datu ieguves kurss, http://www.intuit.ru/department/database/datamining/
  1. IanH. Vitens, Eibe Franks, Marks A. Hols, Morgans Kaufmans, Datu ieguve: praktiski mašīnmācīšanās rīki un metodes (trešais izdevums), ISBN 978-0-12-374856-0
  1. Petrušins V.A. , Khan L., Multivides datu ieguve un zināšanu atklāšana

Krievijas Federācijas Izglītības un zinātnes ministrija

Federālā valsts budžeta augstākās profesionālās izglītības iestāde

"VALSTS PĒTNIECĪBA TOMSKAS POLITEHNISKĀ UNIVERSITĀTE"

Kibernētikas institūts

Virziens Informātika un datortehnika

VT nodaļa

Pārbaude

informātikas un datortehnikas disciplīnā

Tēma: Datu ieguves metodes

Ievads

datu ieguve. Pamatjēdzieni un definīcijas

1 Datu ieguves procesa posmi

2 Datu ieguves sistēmu sastāvdaļas

3 Datu ieguves metodes programmā Data Mining

Datu ieguves metodes

1 Asociācijas noteikumu atvasināšana

2 Neironu tīklu algoritmi

3 Tuvākā kaimiņa un k-tuvākā kaimiņa metodes

4 Lēmumu koki

5 Klasterizācijas algoritmi

6 Ģenētiskie algoritmi

Lietojumprogrammas

Datu ieguves rīku ražotāji

Metožu kritika

Secinājums

Bibliogrāfija

Ievads

Attīstības rezultāts informācijas tehnoloģijas ir lielais datu apjoms, kas uzkrāts elektroniskā formātā aug ātrā tempā. Tajā pašā laikā datiem, kā likums, ir neviendabīga struktūra (teksti, attēli, audio, video, hiperteksta dokumenti, relāciju datu bāzes). Uzkrāts par ilgtermiņa dati var saturēt modeļus, tendences un attiecības, kas ir vērtīga informācija plānošanā, prognozēšanā, lēmumu pieņemšanā un procesu kontrolē. Taču cilvēks fiziski nespēj efektīvi analizēt šādus neviendabīgu datu apjomus. Tradicionālās matemātiskās statistikas metodes jau sen pretendē uz galvenā datu analīzes instrumenta lomu. Tomēr tie neļauj sintezēt jaunas hipotēzes, un tos var izmantot tikai, lai apstiprinātu iepriekš formulētas hipotēzes un "aptuvenu" pētniecisko analīzi, kas veido tiešsaistes analītiskās apstrādes (OLAP) pamatu. Bieži vien hipotēzes formulēšana izrādās visgrūtākais uzdevums, veicot analīzi turpmākai lēmumu pieņemšanai, jo ne visi datu modeļi ir acīmredzami no pirmā acu uzmetiena. Tāpēc datu ieguves tehnoloģijas tiek uzskatītas par vienu no svarīgākajām un perspektīvākajām tēmām pētniecībā un lietošanā informācijas tehnoloģiju nozarē. Šajā gadījumā datu ieguve tiek saprasta kā jaunu, pareizu un potenciāli noderīgu zināšanu noteikšanas process, pamatojoties uz lielām datu kopām. Tādējādi MIT Technology Review raksturoja datu ieguvi kā vienu no desmit jaunajām tehnoloģijām, kas mainīs pasauli.

1. Datu ieguve. Pamatjēdzieni un definīcijas

Datu ieguve ir process, kurā "neapstrādātos" datos tiek atklāti iepriekš nezināmi, netriviāli, praktiski noderīgi un pieejami zināšanu interpretācijai, kas nepieciešamas lēmumu pieņemšanai dažādās cilvēka darbības jomās.

Datu ieguves tehnoloģijas būtību un mērķi var formulēt šādi: tā ir tehnoloģija, kas izstrādāta, lai lielos datu apjomos meklētu nepārprotamus, objektīvus un praktiskus modeļus.

Neredzami modeļi ir modeļi, kurus nevar noteikt ar standarta informācijas apstrādes metodēm vai eksperts.

Ar objektīviem likumiem jāsaprot likumi, kas pilnībā atbilst realitātei, atšķirībā no ekspertu atzinuma, kas vienmēr ir subjektīvs.

Šī datu analīzes koncepcija liecina, ka:

§ dati var būt neprecīzi, nepilnīgi (satur nepilnības), pretrunīgi, neviendabīgi, netieši un tajā pašā laikā ar milzīgiem apjomiem; tāpēc, lai izprastu datus konkrētās lietojumprogrammās, ir vajadzīgas ievērojamas intelektuālas pūles;

§ pašiem datu analīzes algoritmiem var būt “inteliģences elementi”, jo īpaši spēja mācīties no precedentiem, tas ir, izdarīt vispārīgus secinājumus, pamatojoties uz konkrētiem novērojumiem; šādu algoritmu izstrāde prasa arī ievērojamu intelektuālo piepūli;

§ Neapstrādātu datu apstrādes procesus informācijā un informāciju zināšanās nevar veikt manuāli, un tiem ir nepieciešama automatizācija.

Datu ieguves tehnoloģija ir balstīta uz veidņu (rakstu) koncepciju, kas atspoguļo daudzdimensiju attiecību fragmentus datos. Šie modeļi ir modeļi, kas raksturīgi datu apakšizlasēm, kurus var izteikt īsi cilvēkiem lasāmā formā.

Veidņu meklēšana tiek veikta ar metodēm, kuras neierobežo a priori pieņēmumi par izlases struktūru un analizēto rādītāju vērtību sadalījuma veidu.

Svarīga datu ieguves iezīme ir meklēto modeļu nestandarta un nepārprotamība. Citiem vārdiem sakot, datu ieguves rīki atšķiras no statistikas datu apstrādes rīkiem un OLAP rīkiem ar to, ka tā vietā, lai pārbaudītu savstarpējo atkarību, ko lietotāji paredz, viņi var paši atrast šādas savstarpējās atkarības, pamatojoties uz pieejamajiem datiem, un izvirzīt hipotēzes par to būtību. Ir pieci standarta modeļu veidi, kas identificēti ar datu ieguves metodēm:

asociācija - liela notikumu savienošanas iespējamība savā starpā. Asociācijas piemērs ir preces veikalā, ko bieži pērk kopā;

secība - liela varbūtība, ka notikumu ķēde ir saistīta laikā. Secības piemērs ir situācija, kad noteiktā laika periodā pēc vienas preces iegādes ar lielu varbūtības pakāpi tiks iegādāta cita prece;

Klasifikācija - ir pazīmes, kas raksturo grupu, kurai pieder tas vai cits notikums vai objekts;

klasterizācija - modelis, kas līdzīgs klasifikācijai un atšķiras no tā ar to, ka pašas grupas nav norādītas - tās tiek noteiktas automātiski datu apstrādes procesā;

· temporālie modeļi - modeļu klātbūtne noteiktu datu uzvedības dinamikā. Tipisks laika modeļa piemērs ir sezonālas pieprasījuma svārstības pēc noteiktām precēm vai pakalpojumiem.

1.1. Datu ieguves procesa soļi

Tradicionāli datu ieguves procesā izšķir šādus posmus:

1. Priekšmeta jomas izpēte, kuras rezultātā tiek formulēti analīzes galvenie mērķi.

2. Datu vākšana.

Datu priekšapstrāde:

a. Datu tīrīšana - pretrunu un nejaušu "trokšņu" novēršana no sākotnējiem datiem

b. Datu integrācija – datu apvienošana no vairākiem iespējamiem avotiem vienā repozitorijā. Datu konvertēšana. Šajā posmā dati tiek pārveidoti analīzei piemērotā formā. Bieži tiek izmantota datu apkopošana, atribūtu diskretizācija, datu saspiešana un izmēru samazināšana.

4. Datu analīze. Šajā posmā modeļu iegūšanai tiek izmantoti ieguves algoritmi.

5. Atrasto modeļu interpretācija. Šis posms var ietvert iegūto modeļu vizualizāciju, patiešām noderīgu modeļu identificēšanu, pamatojoties uz kādu lietderības funkciju.

Jaunu zināšanu izmantošana.

1.2. Kalnrūpniecības sistēmu sastāvdaļas

Parasti datu ieguves sistēmās izšķir šādas galvenās sastāvdaļas:

1. Datu bāze, datu noliktava vai cita informācijas krātuve. Tā var būt viena vai vairākas datu bāzes, datu noliktava, izklājlapas, cita veida krātuves, kuras var tīrīt un integrēt.

2. Datu bāzes vai datu noliktavas serveris. Norādītais serveris ir atbildīgs par attiecīgo datu izvilkšanu, pamatojoties uz lietotāja pieprasījumu.

Zināšanu pamats. Tās ir domēna zināšanas, kas norāda, kā meklēt un novērtēt iegūto modeļu lietderību.

Zināšanu ieguves pakalpojums. Tā ir datu ieguves sistēmas neatņemama sastāvdaļa un satur funkcionālu moduļu kopumu tādiem uzdevumiem kā raksturojums, asociācijas meklēšana, klasifikācija, klasteru analīze un dispersijas analīze.

Modeļa novērtēšanas modulis. Šis komponents aprēķina interesējošos vai modeļu lietderības rādītājus.

Grafisks lietotāja interfeiss. Šis modulis ir atbildīgs par komunikāciju starp lietotāju un datu ieguves sistēmu, paraugu vizualizāciju dažādās formās.

1.3. Datu ieguves metodes

Lielākā daļa datu ieguves tehnoloģijā izmantoto analītisko metožu ir labi zināmi matemātiski algoritmi un metodes. Jaunums to pielietojumā ir iespēja tos izmantot noteiktu specifisku problēmu risināšanai, pateicoties jaunām aparatūras un programmatūras iespējām. Jāpiebilst, ka lielākā daļa datu ieguves metožu tika izstrādātas mākslīgā intelekta teorijas ietvaros. Apsveriet visplašāk izmantotās metodes:

Asociācijas noteikumu atvasināšana.

2. Neironu tīklu algoritmi, kuru ideja ir balstīta uz analoģiju ar nervu audu darbību un slēpjas faktā, ka sākotnējie parametri tiek uzskatīti par signāliem, kas tiek pārveidoti saskaņā ar esošajiem savienojumiem starp "neironiem". ", un visa tīkla atbilde tiek uzskatīta par atbildi, kas izriet no sākotnējo datu analīzes.

Sākotnējo datu tuva analoga atlase no jau pieejamajiem vēsturiskajiem datiem. To sauc arī par tuvākā kaimiņa metodi.

Lēmumu koki ir hierarhiska struktūra, kuras pamatā ir jautājumu kopums, uz kuriem jāatbild "Jā" vai "Nē".

Klasteru modeļi tiek izmantoti, lai grupētu līdzīgus notikumus grupās, pamatojoties uz vairāku datu kopas lauku līdzīgām vērtībām.

Nākamajā nodaļā mēs sīkāk aprakstīsim iepriekš minētās metodes.

2. Datu ieguves metodes

2.1. Biedrības noteikumu atvasināšana

Asociācijas noteikumi ir noteikumi formā "ja...tad...". Meklējot šādus noteikumus datu kopā, tiek atklātas slēptās attiecības šķietami nesaistītos datos. Viens no visbiežāk pieminētajiem asociācijas noteikumu meklēšanas piemēriem ir stabilu attiecību atrašanas problēma iepirkumu grozā. Šī problēma ir noteikt, kuras preces pircēji pērk kopā, lai tirgotāji varētu atbilstoši ievietot šos produktus veikalā, lai palielinātu pārdošanas apjomu.

Asociācijas noteikumi tiek definēti kā paziņojumi formā (X1,X2,…,Xn) -> Y, kur saprot, ka Y var būt klāt darījumā ar nosacījumu, ka X1,X2,…,Xn ir tajā pašā darījumā. Ņemiet vērā, ka vārds "var" nozīmē, ka noteikums nav identitāte, bet tikai ar zināmu varbūtību. Turklāt Y var būt elementu kopa, nevis tikai viens elements. Varbūtību atrast Y darījumā, kurā ir elementi X1,X2,…,Xn, sauc par pārliecību. To darījumu procentuālo daļu, kas satur noteikumu, no kopējā darījumu skaita sauc par atbalstu. Pārliecības līmeni, kam jāpārsniedz likuma noteiktība, sauc par interesantību.

Ir dažādi asociācijas noteikumu veidi. Vienkāršākajā veidā asociācijas noteikumi ziņo tikai par asociācijas esamību vai neesamību. Šādus noteikumus sauc par Būla asociācijas noteikumiem. Šāda noteikuma piemērs ir “klienti, kuri iegādājas jogurtu, iegādājas arī sviestu ar zemu tauku saturu”.

Noteikumus, kas apkopo vairākus asociācijas noteikumus kopā, sauc par daudzlīmeņu vai vispārinātajiem asociācijas noteikumiem. Konstruējot šādus noteikumus, elementi parasti tiek grupēti pēc hierarhijas, un meklēšana tiek veikta visaugstākajā konceptuālajā līmenī. Piemēram, "klienti, kas pērk pienu, pērk arī maizi". Šajā piemērā piens un maize satur dažādu veidu un zīmolu hierarhiju, taču, meklējot zemākajā līmenī, netiks parādīti nekādi interesanti noteikumi.

Sarežģītāks noteikumu veids ir kvantitatīvās asociācijas noteikumi. Šāda veida kārtula tiek meklēta, izmantojot kvantitatīvos (piem., cena) vai kategoriskos (piemēram, dzimuma) atribūtus, un ir definēta kā ( , ,…,} -> . Piemēram, "klienti, kuri ir vecumā no 30 līdz 35 gadiem ar ienākumiem, kas pārsniedz 75 000 gadā, pērk automašīnas, kuru vērtība pārsniedz 20 000".

Iepriekš minētie noteikumu veidi neietekmē to, ka darījumi pēc savas būtības ir atkarīgi no laika. Piemēram, meklēšana, pirms produkts ir iekļauts pārdošanā vai pēc tam, kad tas ir pazudis no tirgus, negatīvi ietekmēs atbalsta slieksni. Paturot to prātā, laika asociācijas noteikumu meklēšanas algoritmos ir ieviests atribūta mūža jēdziens.

Asociācijas noteikumu meklēšanas problēmu var plaši iedalīt divās daļās: bieži sastopamu elementu kopu meklēšana un noteikumu ģenerēšana, pamatojoties uz atrastajām bieži sastopamajām kopām. Iepriekšējie pētījumi lielākoties ir sekojuši šīm līnijām un paplašinājuši tos dažādos virzienos.

Kopš Apriori algoritma parādīšanās šis algoritms ir bijis visbiežāk izmantotais pirmajā solī. Daudzi uzlabojumi, piemēram, ātrumā un mērogojamībā, ir vērsti uz Apriori algoritma uzlabošanu, lai labotu tā kļūdaino īpašību ģenerēt pārāk daudz kandidātu visbiežāk sastopamajām elementu kopām. Apriori ģenerē elementu kopas, izmantojot tikai lieli komplekti atrasts iepriekšējā darbībā, nepārskatot darījumus. Modificētais AprioriTid algoritms uzlabo Apriori, izmantojot datubāzi tikai pirmajā piegājienā. Aprēķinos turpmākajās darbībās tiek izmantoti tikai pirmajā piegājienā izveidotie dati, kas ir daudz mazāki nekā sākotnējā datubāze. Tā rezultātā ievērojami palielinās produktivitāte. Vēl vairāk uzlabotu algoritma versiju, ko sauc par AprioriHybrid, var iegūt, izmantojot Apriori dažās pirmajās piegājienos, un pēc tam vēlākajās piegājienos, kad k. kandidātu kopas jau var pilnībā ievietot datora atmiņā, pārejot uz AprioriTid.

Turpmākie centieni uzlabot Apriori algoritmu ir saistīti ar algoritma paralēlizāciju (skaitu sadalījums, datu sadale, kandidātu izplatīšana u.c.), tā mērogošanu (Intelligent Data Distribution, Hybrid Distribution), jaunu datu struktūru, piemēram, koku, ieviešanu. bieži sastopamo elementu (FP-growth ).

Otro soli galvenokārt raksturo autentiskums un interesants. Jaunās modifikācijas pievieno iepriekš aprakstīto dimensiju, kvalitāti un laika atbalstu tradicionālajiem Būla kārtulas noteikumiem. Noteikumu atrašanai bieži tiek izmantots evolūcijas algoritms.

2.2. Neironu tīklu algoritmi

Mākslīgie neironu tīkli parādījās, izmantojot matemātisko aparātu cilvēka nervu sistēmas darbības izpētei, lai to reproducētu. Proti: nervu sistēmas spēja mācīties un labot kļūdas, kam vajadzētu ļaut mums, lai arī diezgan rupji, modelēt cilvēka smadzeņu darbu. Neironu tīkla galvenā strukturālā un funkcionālā daļa ir formālais neirons, kas parādīts attēlā. 1, kur x0 , x1,..., xn ir ieejas signālu vektora sastāvdaļas, w0 ,w1,...,wn ir neirona ieejas signālu svaru vērtības, un y ir neirona izejas signāls.

Rīsi. 1. Formālais neirons: sinapses (1), summētājs (2), pārveidotājs (3).

Formālais neirons sastāv no 3 veidu elementiem: sinapsēm, summatora un pārveidotāja. Sinapse raksturo savienojuma stiprumu starp diviem neironiem.

Summators veic ieejas signālu saskaitīšanu, kas iepriekš reizināti ar atbilstošajiem svariem. Pārveidotājs realizē viena argumenta funkciju - summētāja izvadi. Šo funkciju sauc par neirona aktivizācijas funkciju vai pārsūtīšanas funkciju.

Iepriekš aprakstītos formālos neironus var apvienot tā, ka dažu neironu izejas signāli tiek ievadīti citiem. Iegūto savstarpēji savienoto neironu kopumu sauc par mākslīgajiem neironu tīkliem (mākslīgiem neironu tīkli, ANN) jeb, īsi sakot, neironu tīkli.

Ir šādi trīs vispārīgi neironu veidi atkarībā no to atrašanās vietas neironu tīklā:

Ievades neironi, kuriem tiek pielietoti ievades signāli. Šādiem neironiem parasti ir viena ieeja ar vienības svaru, nav novirzes, un neirona izejas vērtība ir vienāda ar ieejas signālu;

Izvades mezgli, kuru izejas vērtības atspoguļo iegūtos neironu tīkla izejas signālus;

Slēptie mezgli, kuriem nav tiešu savienojumu ar ieejas signāliem, savukārt slēpto neironu izejas signālu vērtības nav ANN izejas signāli.

Saskaņā ar starpneironu savienojumu struktūru izšķir divas ANN klases:

Tiešās izplatīšanās ANN, kurā signāls izplatās tikai no ieejas neironiem uz izejas neironiem.

Atkārtoti ANN — ANNs ar atsauksmes. Šādos ANN signālus var pārraidīt starp jebkuriem neironiem neatkarīgi no to atrašanās vietas ANN.

Ir divas vispārīgas pieejas ANN apmācībai:

Apmācība ar skolotāju.

Mācīšanās bez skolotāja.

Uzraudzītā mācīšanās ietver iepriekš izveidota apmācības piemēru kopuma izmantošanu. Katrs piemērs satur ieejas signālu vektoru un atbilstošu atsauces izejas signālu vektoru, kas ir atkarīgi no veicamā uzdevuma. Šis komplekts sauc par treniņu komplektu vai treniņu komplektu. Neironu tīkla apmācība ir vērsta uz tādām ANN savienojumu svaru izmaiņām, kurās ANN izejas signālu vērtība pēc iespējas mazāk atšķiras no nepieciešamajām izejas signālu vērtībām konkrētam vektoram. no ieejas signāliem.

Nepārraudzītā mācībā savienojuma svari tiek pielāgoti vai nu konkurences starp neironiem rezultātā, vai arī ņemot vērā to neironu izejas signālu korelāciju, starp kuriem ir savienojums. Ja mācīšanās notiek bez uzraudzības, apmācības paraugs netiek izmantots.

Neironu tīkli tiek izmantoti dažādu problēmu risināšanai, piemēram, kosmosa kuģu lietderīgās slodzes plānošanai un valūtas kursu prognozēšanai. Tomēr tos bieži neizmanto datu ieguves sistēmās modeļa sarežģītības dēļ (zināšanas, kas fiksētas kā vairāku simtu starpneironu savienojumu svars, cilvēkam ir pilnīgi neiespējami analizēt un interpretēt) un ilgu apmācību laiku lielam treniņam. komplekts. No otras puses, neironu tīkliem ir tādas priekšrocības izmantošanai datu analīzes uzdevumos kā izturība pret trokšņainiem datiem un augsta precizitāte.

2.3 Tuvākā kaimiņa un k-tuvākā kaimiņa metodes

Tuvākā kaimiņa algoritms un k-tuvākā kaimiņa algoritms (KNN) ir balstīts uz objektu līdzību. Tuvākā kaimiņa algoritms no visiem zināmajiem objektiem atlasa objektu, kas ir pēc iespējas tuvāk (izmantojot attāluma metriku starp objektiem, piemēram, Eiklīda) jaunam iepriekš nezināmam objektam. Galvenā problēma ar tuvākā kaimiņa metodi ir tās jutība pret novirzēm apmācības datos.

No aprakstītās problēmas var izvairīties ar KNN algoritmu, kas atšķir k-tuvākos kaimiņus no visiem novērojumiem, kas ir līdzīgi jaunam objektam. Pamatojoties uz tuvāko kaimiņu klasēm, tiek pieņemts lēmums par jauno objektu. Svarīgs šī algoritma uzdevums ir koeficienta k izvēle - to ierakstu skaits, kas tiks uzskatīti par līdzīgiem. Algoritma modifikācija, kurā kaimiņa ieguldījums ir proporcionāls attālumam līdz jaunajam objektam (k-svērto tuvāko kaimiņu metode), ļauj sasniegt lielāku klasifikācijas precizitāti. Arī k tuvāko kaimiņu metode ļauj novērtēt prognozes precizitāti. Piemēram, ja visiem k tuvākajiem kaimiņiem ir viena klase, tad varbūtība, ka pārbaudāmajam objektam būs tāda pati klase, ir ļoti augsta.

Starp algoritma iezīmēm ir vērts atzīmēt pretestību anomāliem izņēmumiem, jo ​​varbūtība, ka šāds rekords nonāks tuvāko k-tuvāko kaimiņu skaitā, ir mazs. Ja tā notiek, tad arī ietekme uz balsošanu (īpaši svērto) (k>2) arī, visticamāk, būs nenozīmīga, un līdz ar to arī ietekme uz klasifikācijas iznākumu būs neliela. Tāpat priekšrocības ir vienkārša realizācija, algoritma rezultāta interpretācijas vienkāršība, iespēja modificēt algoritmu, izmantojot piemērotākās kombinācijas funkcijas un metriku, kas ļauj pielāgot algoritmu konkrētam uzdevumam. KNN algoritmam ir arī vairāki trūkumi. Pirmkārt, algoritmam izmantotajai datu kopai jābūt reprezentatīvai. Otrkārt, modeli nevar atdalīt no datiem: visi piemēri ir jāizmanto, lai klasificētu jaunu piemēru. Šī funkcija ievērojami ierobežo algoritma izmantošanu.

2.4. Lēmumu koki

Termins "lēmumu koki" attiecas uz algoritmu saimi, kuras pamatā ir klasifikācijas noteikumu attēlojums hierarhiskā, secīgā struktūrā. Šī ir vispopulārākā datu ieguves problēmu risināšanas algoritmu klase.

Algoritmu saime lēmumu koku konstruēšanai dod iespēju paredzēt parametra vērtību konkrētam gadījumam, pamatojoties uz lielu datu apjomu par citiem līdzīgiem gadījumiem. Parasti šīs saimes algoritmi tiek izmantoti, lai atrisinātu problēmas, kas ļauj sadalīt visus sākotnējos datus vairākās atsevišķās grupās.

Lietojot lēmumu koka algoritmus sākotnējo datu kopai, rezultāts tiek parādīts kā koks. Šādi algoritmi ļauj veikt vairākus šādas atdalīšanas līmeņus, sadalot iegūtās grupas (koku zarus) mazākās, pamatojoties uz citām pazīmēm. Sadalīšana turpinās, līdz prognozējamās vērtības ir vienādas (vai, ja paredzamā parametra vērtība ir nepārtraukta, tuvu) visām saņemtajām grupām (koka lapām). Šīs vērtības tiek izmantotas, lai veiktu prognozes, pamatojoties uz šo modeli.

Lēmumu koku konstruēšanas algoritmu darbība balstās uz regresijas un korelācijas analīzes metožu izmantošanu. Viens no populārākajiem šīs saimes algoritmiem ir CART (Classification and Regression Trees), kas balstīts uz koka zara datu sadalīšanu divos pabērnzaros; vienas vai otras nozares tālāka sadalīšana ir atkarīga no tā, cik daudz sākotnējo datu apraksta šī nozare. Daži citi līdzīgi algoritmi ļauj sadalīt filiāli vairākos pakārtotos zaros. Šajā gadījumā dalījums tiek veikts, pamatojoties uz augstāko korelācijas koeficientu datiem, kas aprakstīti zarā starp parametru, saskaņā ar kuru notiek dalīšana, un parametru, kas jāprognozē tālāk.

Pieejas popularitāte ir saistīta ar redzamību un saprotamību. Taču lēmumu koki būtībā nespēj datos atrast “labākos” (vispilnīgākos un precīzākos) noteikumus. Viņi īsteno naivo secīgas zīmju skatīšanās principu un faktiski atrod reālu rakstu daļas, radot tikai loģiskā secinājuma ilūziju.

2.5. Klasterizācijas algoritmi

Klasterizācija ir uzdevums sadalīt objektu kopu grupās, ko sauc par klasteriem. Galvenā atšķirība starp klasterizāciju un klasifikāciju ir tāda, ka grupu saraksts nav skaidri definēts un tiek noteikts algoritma gaitā.

Klasteru analīzes izmantošana vispārīgi tiek samazināta līdz šādiem soļiem:

objektu parauga atlase klasterēšanai;

mainīgo lielumu kopas definīcija, pēc kuras tiks novērtēti izlasē iekļautie objekti. Ja nepieciešams - mainīgo vērtību normalizēšana;

līdzības mērījumu vērtību aprēķināšana starp objektiem;

klasteranalīzes metodes pielietošana līdzīgu objektu grupu (klasteru) veidošanai;

· analīzes rezultātu prezentācija.

Pēc rezultātu saņemšanas un analīzes ir iespējams pielāgot izvēlēto metriku un klasterizācijas metodi, līdz tiek iegūts optimāls rezultāts.

Starp klasterizācijas algoritmiem izšķir hierarhiskas un plakanas grupas. Hierarhiskie algoritmi (saukti arī par taksonomijas algoritmiem) neveido vienu parauga nodalījumu nesadalītos klasteros, bet gan ligzdotu nodalījumu sistēmu. Tādējādi algoritma izvade ir klasteru koks, kura sakne ir viss paraugs, bet lapas ir mazākās kopas. Plakanie algoritmi veido vienu objektu nodalījumu nekrustojas klasteros.

Vēl viena klasterizācijas algoritmu klasifikācija ir skaidrajos un neskaidros algoritmos. Skaidri (vai nepārklājoši) algoritmi katram parauga objektam piešķir klastera numuru, tas ir, katrs objekts pieder tikai vienam klasterim. Izplūdušie (vai krustojošie) algoritmi katram objektam piešķir reālu vērtību kopu, kas parāda objekta saistību ar klasteriem pakāpi. Tādējādi katrs objekts ar zināmu varbūtību pieder katram klasterim.

Ir divi galvenie hierarhiskās klasterizācijas algoritmu veidi: augošais un dilstošais algoritms. No augšas uz leju algoritmi darbojas no augšas uz leju: vispirms visi objekti tiek ievietoti vienā klasterī, kas pēc tam tiek sadalīts mazākos un mazākos klasteros. Biežāk sastopami augšupvērstie algoritmi, kas sākotnēji katru līdzekli ievieto atsevišķā klasterī un pēc tam apvieno kopas lielākās un lielākās kopās, līdz visas parauga funkcijas ir ietvertas vienā klasterī. Tādējādi tiek izveidota ligzdotu nodalījumu sistēma. Šādu algoritmu rezultāti parasti tiek parādīti koka formā.

Hierarhisko algoritmu trūkums ir pilnīgu nodalījumu sistēma, kas var būt lieka risināmās problēmas kontekstā.

Tagad apskatīsim plakanos algoritmus. Vienkāršākie šajā klasē ir kvadrātisko kļūdu algoritmi. Šo algoritmu klasterizācijas problēmu var uzskatīt par optimāla objektu sadalījuma grupās konstruēšanu. Šajā gadījumā optimālumu var definēt kā prasību samazināt vidējās kvadrātiskās sadalīšanas kļūdu:

,

Kur c j - klastera "masas centrs". j(punkts ar vidējām raksturlielumu vērtībām konkrētam klasterim).

Visizplatītākais algoritms šajā kategorijā ir k-means metode. Šis algoritms izveido noteiktu skaitu klasteru, kas atrodas pēc iespējas tālāk viena no otras. Algoritma darbs ir sadalīts vairākos posmos:

Izvēlies nejauši k punkti, kas ir kopu sākotnējie "masas centri".

2. Piešķiriet katru objektu klasterim ar tuvāko "masas centru".

Ja algoritma apturēšanas kritērijs nav izpildīts, atgriezieties pie 2. darbības.

Kā kritērijs algoritma darbības apturēšanai parasti tiek izvēlētas minimālās vidējās kvadrātiskās kļūdas izmaiņas. Algoritmu var apturēt arī tad, ja 2. solī nebija objektu, kas pārvietoti no kopas uz klasteri. Šī algoritma trūkumi ietver nepieciešamību norādīt sadalīšanai paredzēto klasteru skaitu.

Vispopulārākais izplūdušās klasterizācijas algoritms ir c-means algoritms. Tā ir k-means metodes modifikācija. Algoritma soļi:

1. Izvēlieties sākotnējo izplūdušo nodalījumu n objekti ieslēgti k klasterus, izvēloties dalības matricu U Izmērs n x k.

2. Izmantojot matricu U, atrodiet izplūdušās kļūdas kritērija vērtību:

,

Kur c k - izplūdušas kopas "masas centrs". k:

3. Pārgrupējiet objektus, lai samazinātu šo izplūdušās kļūdas kritērija vērtību.

4. Atgriezieties pie 2. darbības, līdz matrica mainās U nekļūs mazsvarīgs.

Šis algoritms var nebūt piemērots, ja klasteru skaits nav iepriekš zināms vai arī ir nepieciešams unikāli attiecināt katru objektu uz vienu klasteru.

Nākamā algoritmu grupa ir algoritmi, kuru pamatā ir grafu teorija. Šādu algoritmu būtība ir tāda, ka objektu atlase tiek attēlota kā grafiks G=(V, E), kuras virsotnes atbilst objektiem un kuru malām ir svars, kas vienāds ar "attālumu" starp objektiem. Grafu klasterizācijas algoritmu priekšrocība ir redzamība, relatīvā ieviešanas vienkāršība un iespēja veikt dažādus uzlabojumus, pamatojoties uz ģeometriskiem apsvērumiem. Galvenie algoritmi ir savienoto komponentu iegūšanas algoritms, minimālā aptverošā koka konstruēšanas algoritms un slāņu klasterizācijas algoritms.

Lai izvēlētos parametru R parasti tiek konstruēta pāru attālumu sadalījumu histogramma. Uzdevumos ar precīzi definētu klasteru datu struktūru histogrammai būs divi maksimumi - viens atbilst klasteru iekšējiem attālumiem, otrais - starpkopu attālumiem. Parametrs R ir izvēlēts no minimuma zonas starp šīm virsotnēm. Tajā pašā laikā ir diezgan grūti kontrolēt klasteru skaitu, izmantojot attāluma slieksni.

Minimālā aptverošā koka algoritms vispirms grafikā izveido minimālo aptverošo koku un pēc tam secīgi noņem malas ar lielāko svaru. Slāņa slāņa klasterizācijas algoritms ir balstīts uz savienotu grafu komponentu atlasi noteiktā attālumā starp objektiem (virsotnēm). Attāluma līmeni nosaka attāluma slieksnis c. Piemēram, ja attālums starp objektiem ir , tad .

Slāņu klasterizācijas algoritms ģenerē grafiku apakšgrafu secību G, kas atspoguļo hierarhiskās attiecības starp klasteriem:

,

Kur G t = (V, E t ) - līmeņa grafiks Ar t , ,

Ar t — t-tais attāluma slieksnis, m — hierarhijas līmeņu skaits,
G 0 = (V, o), o - tukša grafa malu kopa, kas iegūta ar t 0 = 1,
G m = G, tas ir, objektu grafiks bez attāluma (grafikas malu garuma) ierobežojumiem, jo t m = 1.

Mainot attāluma sliekšņus ( Ar 0 , …, Ar m ), kur 0 = Ar 0 < Ar 1 < …< Ar m = 1, ir iespējams kontrolēt iegūto klasteru hierarhijas dziļumu. Tādējādi slāņa slāņa klasterizācijas algoritms spēj izveidot gan plakanu datu nodalījumu, gan hierarhisku.

Klasterizācija sasniedz šādus mērķus:

Uzlabo datu izpratni, identificējot strukturālās grupas. Izlases sadalīšana līdzīgu objektu grupās ļauj vienkāršot turpmāko datu apstrādi un lēmumu pieņemšanu, katram klasterim piemērojot savu analīzes metodi;

Ļauj kompakti uzglabāt datus. Lai to izdarītu, tā vietā, lai saglabātu visu paraugu, var atstāt vienu tipisku novērojumu no katra klastera;

· jaunu netipisku objektu noteikšana, kas neietilpst nevienā klasterī.

Parasti klasterizāciju izmanto kā papildu metodi datu analīzē.

2.6. Ģenētiskie algoritmi

Ģenētiskie algoritmi ir viena no universālajām optimizācijas metodēm, kas ļauj atrisināt dažāda veida (kombinatoriskas, vispārīgas problēmas ar un bez ierobežojumiem) un dažādas sarežģītības pakāpes problēmas. Tajā pašā laikā ģenētiskajiem algoritmiem ir raksturīga gan viena kritērija, gan vairāku kritēriju meklēšanas iespēja lielā telpā, kuras ainava nav gluda.

Šī metožu grupa izmanto iteratīvu modeļu paaudžu secības evolūcijas procesu, tostarp atlases, mutācijas un krustošanas operācijas. Algoritma sākumā populācija tiek veidota nejauši. Kodēto risinājumu kvalitātes novērtēšanai tiek izmantota fitnesa funkcija, kas nepieciešama, lai aprēķinātu katra indivīda piemērotību. Pamatojoties uz personu novērtēšanas rezultātiem, šķērsošanai tiek izvēlēti piemērotākie no viņiem. Izvēlēto indivīdu šķērsošanas rezultātā, izmantojot ģenētisko krustošanas operatoru, tiek radīti pēcnācēji, kuru ģenētiskā informācija veidojas hromosomu informācijas apmaiņas rezultātā starp vecākiem indivīdiem. Izveidotie pēcnācēji veido jaunu populāciju, un daži no pēcnācējiem mutē, kas izpaužas kā nejaušas izmaiņas viņu genotipos. Posmu, kas ietver secību "Iedzīvotāju skaita novērtējums" - "Atlase" - "Šķērsošana" - "Mutācija", sauc par paaudzi. Iedzīvotāju evolūcija sastāv no šādu paaudžu virknes.

Izšķir šādus algoritmus personu atlasei šķērsošanai:

Panmiksija. Abas personas, kas veido vecāku pāri, tiek nejauši atlasītas no visas populācijas. Jebkurš indivīds var kļūt par vairāku pāru locekli. Šī pieeja ir universāla, taču algoritma efektivitāte samazinās līdz ar iedzīvotāju skaita pieaugumu.

· Atlase. Par vecākiem var kļūt personas, kuru fiziskā sagatavotība nav zemāka par vidējo. Šī pieeja nodrošina ātrāku algoritma konverģenci.

Inbrīdings. Metodes pamatā ir pāra veidošana, pamatojoties uz ciešām attiecībām. Radniecība šeit attiecas uz attālumu starp populācijas locekļiem gan indivīdu ģeometriskā attāluma izpratnē parametru telpā, gan Heminga attāluma izpratnē starp genotipiem. Līdz ar to pastāv genotipiskā un fenotipiskā radniecība. Pirmais pāra dalībnieks šķērsošanai tiek izvēlēts nejauši, un otrais, visticamāk, būs viņam tuvākais indivīds. Inbredingu var raksturot ar īpašību meklēt koncentrēšanos lokālos mezglos, kas faktiski noved pie populācijas sadalīšanās atsevišķās lokālās grupās ap ainavas apgabaliem, kuros ir aizdomas par ekstrēmu.

Outbreeding. Pāra veidošana uz attālu attiecību pamata, attālākajiem indivīdiem. Outbreeding ir vērsts uz to, lai novērstu algoritma konverģenci ar jau atrastiem risinājumiem, liekot algoritmam izpētīt jaunas, neizpētītas jomas.

Algoritmi jaunas populācijas veidošanai:

Atlase ar nobīdi. No visiem indivīdiem ar vienādiem genotipiem priekšroka tiek dota tiem, kuru piemērotība ir augstāka. Tādējādi tiek sasniegti divi mērķi: netiek zaudēti labākie atrastie risinājumi ar dažādām hromosomu kopām, populācijā pastāvīgi tiek uzturēta pietiekama ģenētiskā daudzveidība. Pārvietošanās veido jaunu tālu esošo indivīdu populāciju, nevis indivīdus, kas grupējas ap pašreizējo atrasto risinājumu. Šo metodi izmanto vairāku ekstrēmu problēmu risināšanai.

Elites atlase. Elitārās atlases metodes nodrošina, ka labākie populācijas locekļi noteikti izdzīvos, kad tie tiek atlasīti. Tajā pašā laikā daži no labākajiem indivīdiem bez izmaiņām pāriet nākamajā paaudzē. Ātro konverģenci, ko nodrošina elites atlase, var kompensēt ar atbilstošu vecāku pāru atlases metodi. Šajā gadījumā bieži tiek izmantota outbreeding. Tieši šī "autbrīdinga – elites atlases" kombinācija ir viena no efektīvākajām.

· Turnīra izvēle. Turnīru atlase īsteno n turnīrus, lai atlasītu n personas. Katrs turnīrs ir balstīts uz k elementu atlasi no iedzīvotājiem un labākā indivīda izvēli no tiem. Visizplatītākā ir turnīru izvēle ar k = 2.

Viens no pieprasītākajiem ģenētisko algoritmu pielietojumiem datu ieguves jomā ir optimālākā modeļa meklēšana (konkrētās jomas specifikai atbilstoša algoritma meklēšana). Ģenētiskie algoritmi galvenokārt tiek izmantoti, lai optimizētu neironu tīklu topoloģiju un svarus. Tomēr tos var izmantot arī kā atsevišķu rīku.

3. Pieteikumi

Datu ieguves tehnoloģijai ir patiešām plašs lietojumu klāsts, kas faktiski ir universālu rīku komplekts jebkura veida datu analīzei.

Mārketings

Viena no pirmajām jomām, kurā tika izmantotas datu ieguves tehnoloģijas, bija mārketinga joma. Uzdevumu, ar kuru sākās datu ieguves metožu izstrāde, sauc par iepirkumu groza analīzi.

Šis uzdevums ir noteikt preces, kuras pircēji mēdz iegādāties kopā. Zināšanas par iepirkumu grozu ir nepieciešamas reklāmas kampaņām, personīgu ieteikumu veidošanai klientiem, preču krājumu veidošanas stratēģijas izstrādei un to izvietošanas veidiem tirdzniecības vietās.

Arī mārketingā tiek risināti tādi uzdevumi kā konkrēta produkta mērķauditorijas noteikšana tā veiksmīgākai virzīšanai; laika modeļu izpēte, kas palīdz uzņēmumiem pieņemt lēmumus par inventarizāciju; paredzamo modeļu izveide, kas ļauj uzņēmumiem atpazīt dažādu kategoriju klientu vajadzību raksturu ar noteiktu uzvedību; prognozēt klientu lojalitāti, kas ļauj iepriekš noteikt klienta aiziešanas brīdi, analizējot viņa uzvedību un, iespējams, novērst vērtīga klienta zaudēšanu.

Rūpniecība

Viena no būtiskām jomām šajā jomā ir monitorings un kvalitātes kontrole, kur, izmantojot analīzes rīkus, iespējams prognozēt iekārtu bojājumus, darbības traucējumu parādīšanos un plānot remontdarbus. Atsevišķu funkciju popularitātes prognozēšana un pārzināšana, kuras funkcijas parasti tiek pasūtītas kopā, palīdz optimizēt ražošanu, orientējot to uz reālajām patērētāju vajadzībām.

Medicīna

Medicīnā diezgan veiksmīgi tiek izmantota arī datu analīze. Uzdevumu piemērs var būt izmeklējumu rezultātu analīze, diagnostika, ārstēšanas un medikamentu efektivitātes salīdzināšana, slimību un to izplatības analīze, blakusparādību noteikšana. Datu ieguves tehnoloģijas, piemēram, asociācijas noteikumi un secīgi modeļi, ir veiksmīgi izmantotas, lai noteiktu saistību starp narkotiku lietošanu un blakusparādībām.

Molekulārā ģenētika un gēnu inženierija

Iespējams, ka ir pats akūtākais un tajā pašā laikā nepārprotami uzdevums atklāt modeļus eksperimentālajos datos molekulārā ģenētika un gēnu inženierija. Šeit tas ir formulēts kā marķieru definīcija, kas tiek saprasta kā ģenētiskie kodi, kas kontrolē noteiktas dzīva organisma fenotipiskās iezīmes. Šādos kodos var būt simtiem, tūkstošiem vai vairāk saistītu vienumu. Datu analītiskās analīzes rezultāts ir arī ģenētiķu atklātā saistība starp izmaiņām cilvēka DNS secībā un dažādu slimību attīstības risku.

Lietišķā ķīmija

Datu ieguves metodes tiek izmantotas arī lietišķās ķīmijas jomā. Šeit bieži rodas jautājums par noteiktu savienojumu ķīmiskās struktūras iezīmju noskaidrošanu, kas nosaka to īpašības. Šis uzdevums ir īpaši aktuāls sarežģītu ķīmisko savienojumu analīzē, kuru aprakstā ir iekļauti simtiem un tūkstošiem struktūras elementu un to saišu.

Cīņa pret noziedzību

Drošībā Data Mining rīki tiek izmantoti salīdzinoši nesen, taču jau ir iegūti praktiski rezultāti, kas apliecina datu ieguves efektivitāti šajā jomā. Šveices zinātnieki ir izstrādājuši sistēmu protesta aktivitāšu analīzei, lai prognozētu nākotnes incidentus, un sistēmu, kas izseko jaunus kiberdraudus un hakeru darbības pasaulē. Jaunākā sistēma ļauj prognozēt kiberdraudus un citus riskus informācijas drošība. Tāpat datu ieguves metodes tiek veiksmīgi izmantotas kredītkaršu krāpšanas atklāšanā. Analizējot pagātnes darījumus, kas vēlāk izrādījās krāpnieciski, banka atklāj dažus šādas krāpšanas stereotipus.

Citas lietojumprogrammas

· Riska analīze. Piemēram, identificējot ar izmaksātajām atlīdzībām saistīto faktoru kombinācijas, apdrošinātāji var samazināt savus atbildības zaudējumus. Amerikas Savienotajās Valstīs ir labi zināms gadījums, kad liela apdrošināšanas kompānija konstatēja, ka summas, kas izmaksātas pēc laulāto personu pieteikumiem, ir divreiz lielākas par vientuļo personu pieteikumiem. Uzņēmums ir reaģējis uz šīm jaunajām zināšanām, pārskatījot savu vispārējo ģimenes atlaižu politiku.

· Meteoroloģija. Laikapstākļu prognozēšana ar neironu tīklu metodēm, jo ​​īpaši tiek izmantotas Kohonena pašorganizējošās kartes.

· Personāla politika. Analīzes rīki palīdz personāla departamentiem atlasīt veiksmīgākos kandidātus, pamatojoties uz viņu CV datu analīzi, modelēt ideālu darbinieku īpašības konkrētam amatam.

4. Datu ieguves rīku ražotāji

Datu ieguves rīki tradicionāli pieder pie dārgiem programmatūras produktiem. Tāpēc vēl nesen galvenie šīs tehnoloģijas patērētāji bija bankas, finanšu un apdrošināšanas kompānijas, lielie tirdzniecības uzņēmumi, un galvenie uzdevumi, kas prasīja Data Mining izmantošanu, bija kredītu un apdrošināšanas risku novērtēšana un mārketinga politikas, tarifu izstrāde. plāni un citi darba ar klientiem principi. Pēdējos gados situācija ir piedzīvojusi zināmas izmaiņas: programmatūras tirgū ir parādījušies salīdzinoši lēti Data Mining rīki un pat bezmaksas izplatīšanas sistēmas, kas padarīja šo tehnoloģiju pieejamu maziem un vidējiem uzņēmumiem.

Starp apmaksātajiem datu analīzes rīkiem un sistēmām līderi ir SAS Institute (SAS Enterprise Miner), SPSS (SPSS, Clementine) un StatSoft (STATISTICA Data Miner). Labi zināmi risinājumi ir no Angoss (Angoss KnowledgeSTUDIO), IBM (IBM SPSS Modeler), Microsoft (Microsoft Analysis Services) un (Oracle) Oracle Data Mining.

Arī bezmaksas programmatūras izvēle ir dažāda. Ir gan universāli analīzes rīki, piemēram, JHepWork, KNIME, Orange, RapidMiner, gan specializēti rīki, piemēram, Carrot2 - ietvars teksta datu un meklēšanas vaicājumu rezultātu grupēšanai, Chemicalize.org - risinājums lietišķās ķīmijas jomā, NLTK (Natural Language Toolkit) dabiskās valodas apstrādes rīks.

5. Metožu kritika

Datu ieguves rezultāti lielā mērā ir atkarīgi no datu sagatavošanas līmeņa, nevis no kāda algoritma vai algoritmu kopas "brīnišķīgajām iespējām". Aptuveni 75% no datu ieguves darba ir datu vākšana, kas tiek veikta pat pirms analīzes rīku izmantošanas. Analfabēta rīku izmantošana novedīs pie uzņēmuma potenciāla izniekošanas un dažreiz miljoniem dolāru.

Herba Edelšteina, pasaulslavena eksperta datu ieguves, datu noliktavas un CRM jomā, viedoklis: “Nesen veiktais Two Crows pētījums parādīja, ka datu ieguve joprojām ir agrīnā attīstības stadijā. Daudzas organizācijas interesējas par šo tehnoloģiju, taču tikai dažas aktīvi īsteno šādus projektus. Atrada citu svarīgs punkts: Datu ieguves ieviešanas process praksē izrādās sarežģītāks nekā gaidīts. Komandas aizrāvās ar mītu, ka datu ieguves rīki ir ērti lietojami. Tiek pieņemts, ka pietiek ar šāda rīka palaišanu terabaitu datu bāzē, un uzreiz parādīsies noderīga informācija. Faktiski veiksmīgam datu ieguves projektam ir nepieciešama izpratne par darbības būtību, zināšanas par datiem un rīkiem, kā arī datu analīzes process. Tādējādi pirms datu ieguves tehnoloģijas izmantošanas ir rūpīgi jāizanalizē metožu radītie ierobežojumi un ar to saistītās kritiskās problēmas, kā arī saprātīgi jāizvērtē tehnoloģijas iespējas. Kritiskie jautājumi ietver:

1. Tehnoloģijas nevar sniegt atbildes uz jautājumiem, kas nav uzdoti. Tas nevar aizstāt analītiķi, bet tikai dod viņam spēcīgu instrumentu, lai atvieglotu un uzlabotu viņa darbu.

2. Datu ieguves lietojumprogrammas izstrādes un darbības sarežģītība.

Tāpēc ka šī tehnoloģija ir multidisciplināra joma, lai izstrādātu aplikāciju, kas ietver Data Mining, nepieciešams iesaistīt dažādu nozaru speciālistus, kā arī nodrošināt to kvalitatīvu mijiedarbību.

3. Lietotāja kvalifikācija.

Dažādiem datu ieguves rīkiem ir atšķirīga saskarnes “draudzīguma” pakāpe, un tiem ir nepieciešamas noteiktas lietotāja prasmes. Tāpēc programmatūra jāatbilst lietotāja prasmju līmenim. Datu ieguves izmantošanai jābūt nesaraujami saistītai ar lietotāja prasmju uzlabošanu. Tomēr pašlaik ir maz datu ieguves speciālistu, kas labi pārzina biznesa procesus.

4. Noderīgas informācijas iegūšana nav iespējama bez labas datu būtības izpratnes.

Nepieciešama rūpīga modeļa atlase un atrasto atkarību vai modeļu interpretācija. Tāpēc darbam ar šādiem rīkiem ir nepieciešama cieša sadarbība starp domēna ekspertu un datu ieguves rīku speciālistu. Pastāvīgiem modeļiem jābūt labi integrētiem biznesa procesos, lai varētu novērtēt un atjaunināt modeļus. Nesen datu ieguves sistēmas tika piegādātas kā daļa no datu noliktavas tehnoloģijas.

5. Datu sagatavošanas sarežģītība.

Veiksmīgai analīzei nepieciešama augstas kvalitātes datu pirmapstrāde. Pēc analītiķu un datu bāzes lietotāju domām, priekšapstrādes process var aizņemt līdz 80% no visa datu ieguves procesa.

Tādējādi, lai tehnoloģija darbotos pati par sevi, būs jāpieliek daudz pūļu un laika, kas tiks veltīts iepriekšējai datu analīzei, modeļa izvēlei un tā pielāgošanai.

6. Liela daļa nepatiesu, neuzticamu vai bezjēdzīgu rezultātu.

Ar Data Mining tehnoloģiju palīdzību jūs varat atrast patiešām ļoti vērtīgu informāciju, kas var dot ievērojamas priekšrocības turpmākajā plānošanā, pārvaldībā un lēmumu pieņemšanā. Tomēr rezultāti, kas iegūti, izmantojot datu ieguves metodes, diezgan bieži satur nepatiesus un bezjēdzīgus secinājumus. Daudzi eksperti apgalvo, ka datu ieguves rīki var radīt milzīgu daudzumu statistiski neuzticamu rezultātu. Lai samazinātu šādu rezultātu procentuālo daļu, ir jāpārbauda iegūto modeļu atbilstība testa datiem. Tomēr nav iespējams pilnībā izvairīties no nepatiesiem secinājumiem.

7. Augstas izmaksas.

Kvalitatīvi programmatūra ir izstrādātāja ievērojamu pūļu rezultāts. Tāpēc datu ieguves programmatūru tradicionāli dēvē par dārgiem programmatūras produktiem.

8. Pietiekamu reprezentatīvu datu pieejamība.

Datu ieguves rīkiem, atšķirībā no statistikas, teorētiski nav nepieciešams stingri noteikts vēsturisko datu apjoms. Šī funkcija var izraisīt neuzticamu, viltus modeļu atklāšanu un rezultātā, pamatojoties uz tiem, pieņemt nepareizus lēmumus. Ir nepieciešams kontrolēt atklāto zināšanu statistisko nozīmīgumu.

neironu tīklu algoritmu klasterizācijas datu ieguve

Secinājums

Dana īss apraksts par Datu ieguves tehnoloģijas pielietojuma jomas un kritika un šīs jomas ekspertu viedoklis.

Sarakstsliteratūra

1. Han un Micheline Kamber. Datu ieguve: jēdzieni un metodes. otrais izdevums. - Ilinoisas Universitāte Urbana-Champaign

Berijs, Maikls J. A. Datu ieguves metodes: mārketingam, pārdošanai un klientu attiecību pārvaldībai — 2. izd.

Siu Ning Lam. Asociācijas noteikumu atklāšana datu ieguvē. - Ilinoisas Universitātes Datorzinātņu nodaļa Urbana-Champaign




Tops