Modele necunoscute în datele cunoscute. Introducere în data mining modern. Metodele celui mai apropiat vecin și k-cel mai apropiat vecini

Instrumente de extragere a datelor

În prezent, tehnologia Data Mining este reprezentată de o serie de produse software comerciale și distribuite gratuit. O listă destul de completă și actualizată în mod regulat a acestor produse poate fi găsită pe site www. kdnuggets. com, dedicat minării de date. Produsele software Data Mining pot fi clasificate după aceleași principii care stau la baza clasificării tehnologiei în sine. Cu toate acestea, o astfel de clasificare nu va avea nicio valoare practică. Datorită concurenței ridicate pe piață și a dorinței de soluții tehnice complete, multe dintre produsele Data Mining acoperă literalmente toate aspectele aplicării tehnologiilor analitice. Prin urmare, este mai logic să clasificăm produsele Data Mining în funcție de modul în care sunt implementate și, în consecință, de ce potențial de integrare oferă. Evident, aceasta este și o convenție, deoarece un astfel de criteriu nu ne permite să conturăm granițe clare între produse. Cu toate acestea, o astfel de clasificare are un avantaj indubitabil. Vă permite să luați rapid o decizie cu privire la alegerea uneia sau a altei soluții gata făcute atunci când inițializați proiecte în domeniul analizei datelor, dezvoltării sistemelor de suport decizional, creării de depozite de date etc.

Deci, produsele Data Mining pot fi împărțite în trei mari categorii:

    incluse ca parte integrantă în sistemele de management al bazelor de date;

    biblioteci de algoritmi Data Mining cu infrastructura însoțitoare;

    soluții în cutie sau desktop („cutii negre”).

Produsele din primele două categorii oferă cele mai mari oportunități de integrare și vă permit să realizați potențialul analitic în aproape orice aplicație din orice domeniu. Aplicațiile în cutie, la rândul lor, pot oferi unele progrese unice în domeniul Data Mining-ului sau pot fi specializate pentru o anumită aplicație. Cu toate acestea, în majoritatea cazurilor, acestea sunt problematice pentru a fi integrate în soluții mai largi.

Includerea capacităților analitice în sistemele comerciale de gestionare a bazelor de date este o tendință naturală cu un potențial enorm. Într-adevăr, unde, dacă nu în locurile în care sunt concentrate datele, are cel mai logic să plasăm mijloacele de prelucrare a acestora? Pe baza acestui principiu, funcționalitatea Data Mining în în prezent implementate în următoarele baze de date comerciale:

    Microsoft SQL Server;

Punctele principale

  • Data mining vă permite să generați automat, pe baza unei cantități mari de date acumulate, ipoteze care pot fi verificate de alte instrumente de analiză (de exemplu, OLAP).

    Miningul de date este cercetarea și descoperirea de către o mașină (algoritmi, instrumente de inteligență artificială) a cunoștințelor ascunse în date brute care anterior erau necunoscute, netriviale, practic utile și accesibile interpretării umane.

    Metodele Data Mining rezolvă trei probleme principale: problema clasificării și regresiei, problema căutării regulilor de asociere și problema grupării. În funcție de scopul lor, ele sunt împărțite în descriptive și predictive. Pe baza metodelor de rezolvare a problemelor, acestea se împart în învățare supravegheată (învățare cu profesor) și învățare nesupravegheată (învățare fără profesor).

    Sarcina clasificării și regresiei se rezumă la determinarea valorii variabilei dependente a unui obiect din variabilele sale independente. Dacă variabila dependentă ia valori numerice, atunci vorbim despre o problemă de regresie, în caz contrar - despre o problemă de clasificare.

    Când căutați reguli de asociere, scopul este de a găsi dependențe (sau asocieri) frecvente între obiecte sau evenimente. Dependențele găsite sunt prezentate sub formă de reguli și pot fi folosite atât pentru a înțelege mai bine natura datelor analizate, cât și pentru a prezice evenimente.

    Sarcina grupării este de a căuta grupuri independente (clustere) și caracteristicile acestora în întregul set de date analizate. Rezolvarea acestei probleme vă ajută să înțelegeți mai bine datele. În plus, gruparea obiectelor omogene face posibilă reducerea numărului acestora și, prin urmare, facilitarea analizei.

    Metodele Data Mining sunt la intersecție directii diferite tehnologii informaționale: statistici, rețele neuronale, seturi fuzzy, algoritmi genetici etc.

    Analiza inteligentă include următoarele etape: înțelegerea și formularea problemei de analiză, pregătirea datelor pentru analiza automată, aplicarea metodelor Data Mining și construirea modelelor, verificarea modelelor construite și interpretarea modelelor de către oameni.

    Înainte de a aplica tehnicile de Data Mining, datele sursă trebuie transformate. Tipul de transformare depinde de metodele utilizate.

    Metodele Data Mining pot fi utilizate eficient în diverse domenii ale activității umane: afaceri, medicină, știință, telecomunicații etc.

3. Analiza informațiilor text – Text Mining

Analiza informațiilor structurate stocate în baze de date necesită o prelucrare prealabilă: proiectarea unei baze de date, introducerea informațiilor după anumite reguli, plasarea acesteia în structuri speciale (de exemplu, tabele relaționale), etc. Astfel, direct pentru analiza acestor informații și obținerea de noi cunoștințe din aceasta. necesită efort suplimentar. Cu toate acestea, ele nu sunt întotdeauna legate de analiză și nu conduc neapărat la rezultatul dorit. Din această cauză, eficiența analizei informațiilor structurate scade. În plus, nu toate tipurile de date pot fi structurate fără a pierde informații utile. De exemplu, documentele text sunt aproape imposibil de convertit într-o reprezentare tabelară fără a pierde semantica textului și relațiile dintre entități. Din acest motiv, astfel de documente sunt stocate în baza de date fără transformare, precum câmpurile de text (câmpurile BLOB). În același timp, o cantitate imensă de informații este ascunsă în text, dar natura sa nestructurată nu permite utilizarea algoritmilor de Data Mining. Metodele de analiză a textului nestructurat rezolvă această problemă. În literatura occidentală, o astfel de analiză se numește Text Mining.

Metodele de analiză a textelor nestructurate se află la intersecția mai multor domenii: Data Mining, procesarea limbajului natural, regăsirea informațiilor, extragerea informațiilor și managementul cunoștințelor.

Definiția text Mining: Descoperirea cunoștințelor de text este procesul non-trivial de descoperire a unor modele cu adevărat noi, potențial utile și ușor de înțeles în datele text nestructurate.

După cum puteți vedea, diferă de definiția Data Mining doar prin noul concept de „date text nestructurate”. O astfel de cunoaștere este înțeleasă ca un set de documente care reprezintă un text unificat din punct de vedere logic, fără nicio restricție asupra structurii acestuia. Exemple de astfel de documente sunt: ​​pagini web, e-mail, documente de reglementare etc. În general, astfel de documente pot fi complexe și mari și includ nu numai text, ci și informații grafice. Documentele care utilizează XML (Extensible Markup Language), SGML (Standard Generalized Markup Language) și alte convenții similare cu structura textului sunt numite documente semi-structurate. Ele pot fi, de asemenea, procesate folosind metodele Text Mining.

Procesul de analiză a documentelor text poate fi reprezentat ca o succesiune de mai multe etape

    Căutați informații. Primul pas este identificarea documentelor care trebuie analizate și asigurarea disponibilității acestora. De regulă, utilizatorii pot determina setul de documente care urmează să fie analizate independent - manual, dar cu un număr mare de documente este necesar să se utilizeze opțiuni de selecție automată conform criteriilor specificate.

    Preliminar prelucrarea documentelor. La acest pas, se efectuează transformări simple, dar necesare asupra documentelor pentru a le reprezenta într-o formă cu care funcționează metodele Text Mining. Scopul unor astfel de transformări este de a elimina cuvintele inutile și de a da textului o formă mai strictă. Metodele de preprocesare vor fi descrise mai detaliat în secțiunea.

    Extragerea informațiilor. Extragerea informațiilor din documentele selectate presupune identificarea conceptelor cheie din acestea, care vor fi analizate în viitor.

Aplicarea metodelor Text Mining. În acest pas sunt extrase modele și relații prezente în texte. Acest pas este cel principal în procesul de analiză a textului, iar problemele practice sunt rezolvate la acest pas.

Interpretarea rezultatelor. Ultimul pas în procesul de descoperire a cunoștințelor implică interpretarea constatărilor. De obicei, interpretarea constă fie în prezentarea rezultatelor în limbaj natural, fie în vizualizarea lor grafic.

Vizualizarea poate fi folosită și ca instrument de analiză a textului. Pentru a face acest lucru, conceptele cheie sunt extrase și prezentate grafic. Această abordare ajută utilizatorul să identifice rapid principalele subiecte și concepte și să determine importanța acestora.

Preprocesarea textului

Una dintre principalele probleme ale analizei textului este numărul mare de cuvinte dintr-un document. Dacă fiecare dintre aceste cuvinte este analizat, timpul de căutare pentru noi cunoștințe va crește brusc și este puțin probabil să satisfacă cerințele utilizatorului. În același timp, este evident că nu toate cuvintele din text poartă informații utile. În plus, datorită flexibilității limbilor naturale, cuvintele diferite din punct de vedere formal (sinonime etc.) înseamnă de fapt aceleași concepte. Astfel, eliminarea cuvintelor neinformative, precum și aducerea cuvintelor care sunt apropiate ca înțeles de o singură formă, reduce semnificativ timpul de analiză a textului. Eliminarea problemelor descrise se realizează în etapa de preprocesare a textului.

Următoarele tehnici sunt de obicei folosite pentru a elimina cuvintele neinformative și pentru a crește rigoarea textelor:

    Eliminarea cuvintelor stop. Cuvintele stop sunt cuvinte auxiliare și care conțin puține informații despre conținutul documentului.

    Îndepărtarea este o căutare morfologică. Constă în convertirea fiecărui cuvânt în forma sa normală.

    L-gramele sunt o alternativă la analiza morfologică și eliminarea cuvintelor stop. Ele vă permit să faceți textul mai strict, dar nu rezolvă problema reducerii numărului de cuvinte neinformative;

    Conversie de caz. Această tehnică presupune convertirea tuturor caracterelor în majuscule sau minuscule.

Cea mai eficientă este utilizarea combinată a acestor metode.

Sarcini de extragere a textului

În prezent, în literatura de specialitate sunt descrise multe probleme aplicate care pot fi rezolvate folosind analiza documentelor text. Acestea includ sarcini clasice de Data Mining: clasificare, grupare și sarcini tipice doar pentru documentele text: adnotare automată, extragerea conceptelor cheie etc.

Clasificarea este o sarcină standard în domeniul Data Mining. Scopul său este de a defini pentru fiecare document una sau mai multe categorii predefinite cărora le aparține acest document. O caracteristică a problemei de clasificare este presupunerea că setul de documente clasificate nu conține „gunoaie”, adică fiecare dintre documente corespunde unei anumite categorii.

Un caz special al problemei de clasificare este problema determinării subiectului unui document.

Scopul grupării documentelor este de a identifica automat grupuri de documente similare din punct de vedere semantic dintr-un set fix dat. Rețineți că grupurile sunt formate numai pe baza asemănării în perechi a descrierilor documentelor și nu sunt specificate în prealabil caracteristicile acestor grupuri.

Adnotarea automată (rezumat) vă permite să scurtați textul, păstrându-i în același timp sensul. Soluția la această problemă este de obicei controlată de utilizator prin determinarea numărului de propoziții care trebuie extrase sau a procentului de text extras în raport cu întregul text. Rezultatul include cele mai semnificative propoziții din text.

Scopul principal al extragerii caracteristicilor este identificarea faptelor și a relațiilor din text. În cele mai multe cazuri, aceste concepte sunt substantive și substantive comune: numele și prenumele persoanelor, numele organizațiilor etc. Algoritmii de extragere a conceptelor pot folosi dicționare pentru a identifica anumiți termeni și modele lingvistice pentru a-i defini pe alții.

Navigarea pe bază de text permite utilizatorilor să navigheze în documente pe baza subiectelor și a termenilor relevanți. Acest lucru se realizează prin identificarea conceptelor cheie și a unor relații între ele.

Analiza tendințelor vă permite să identificați tendințele în seturi de documente pe o perioadă de timp. O tendință poate fi folosită, de exemplu, pentru a detecta schimbări în interesele unei companii de la un segment de piață la altul.

Căutarea asociațiilor este, de asemenea, una dintre sarcinile principale ale Data Mining. Pentru a o rezolva, relațiile asociative dintre conceptele cheie sunt identificate într-un set dat de documente.

Există un număr destul de mare de varietăți ale problemelor enumerate, precum și metode de rezolvare a acestora. Acest lucru confirmă încă o dată importanța analizei textului. Restul acestui capitol discută soluții la următoarele probleme: extragerea conceptului cheie, clasificarea, gruparea și adnotarea automată.

Clasificarea documentelor text

Clasificarea documentelor text, precum și în cazul clasificării obiectelor, constă în atribuirea unui document uneia dintre clasele cunoscute anterior. Adesea, clasificarea în raport cu documentele text se numește clasificare sau rubricare. Evident, aceste denumiri provin din sarcina de sistematizare a documentelor în cataloage, categorii și titluri. În acest caz, structura directorului poate fi fie cu un singur nivel, fie pe mai multe niveluri (ierarhică).

În mod formal, sarcina clasificării documentelor text este descrisă de un set de seturi.

În problema clasificării este necesară construirea unei proceduri pe baza acestor date, care constă în găsirea categoriei celei mai probabile din setul C pentru documentul studiat.

Majoritatea metodelor de clasificare a textului se bazează într-un fel sau altul pe presupunerea că documentele aparținând aceleiași categorii conțin aceleași caracteristici (cuvinte sau fraze), iar prezența sau absența unor astfel de caracteristici într-un document indică apartenența sau neapartenența acestuia la un subiect anume.

Un astfel de set de caracteristici este adesea numit dicționar, deoarece este format din lexeme care includ cuvinte și/sau fraze care caracterizează categoria.

Trebuie remarcat faptul că aceste seturi de caracteristici sunt o trăsătură distinctivă a clasificării documentelor text din clasificarea obiectelor în Data Mining, care sunt caracterizate printr-un set de atribute.

Decizia de a atribui documentul d categoriei c se ia pe baza intersectării caracteristicilor comune

Sarcina metodelor de clasificare este de a selecta cel mai bine astfel de caracteristici și de a formula reguli pe baza cărora se va lua o decizie privind atribuirea unui document unei categorii.

Instrumente pentru analiza informațiilor text

    Instrumente Oracle - Oracle Text2

Începând cu versiunea Oracle 7.3.3, instrumentele de analiză a textului sunt parte integrantă a produselor Oracle. În Oracle, aceste instrumente au fost dezvoltate și au primit o nouă denumire - Oracle Text - un pachet software integrat într-un SGBD care vă permite să lucrați eficient cu interogări legate de texte nestructurate. În acest caz, procesarea textului este combinată cu capabilitățile oferite utilizatorului pentru lucrul cu baze de date relaționale. În special, utilizarea SQL a devenit posibilă la scrierea aplicațiilor de procesare a textului.

Sarcina principală pe care instrumentele Oracle Text vizează rezolvarea este sarcina de a căuta documente după conținutul lor - după cuvinte sau expresii, care, dacă este necesar, sunt combinate folosind operații booleene. Rezultatele căutării sunt ordonate după importanță, ținând cont de frecvența de apariție a cuvintelor de interogare în documentele găsite.

    Instrumente de la IBM - Intelligent Miner for Text1

Produsul IBM Intelligent Miner for Text este un set de utilități individuale lansate din Linie de comanda sau din scripturi independent unul de celălalt. Sistemul conține o combinație a unor utilități pentru rezolvarea problemelor de analiză a informațiilor text.

IBM Intelligent Miner for Text combină un set puternic de instrumente bazate în principal pe mecanisme de regăsire a informațiilor, care reprezintă specificul întregului produs. Sistemul constă dintr-un număr de componente de bază care au o semnificație independentă dincolo de tehnologia Text Mining:

    Instrumente SAS Institute - Text Miner

Compania americană SAS Institute a lansat sistemul SAS Text Miner pentru compararea anumitor secvențe gramaticale și verbale în vorbirea scrisă. Text Miner este foarte versatil deoarece poate lucra cu documente text de diferite formate - în baze de date, sisteme de fișiere și mai departe pe web.

Text Miner oferă procesare logică a textului în mediul SAS Enterprise Miner. Acest lucru permite utilizatorilor să îmbogățească procesul de analiză a datelor prin integrarea informațiilor text nestructurate cu datele structurate existente, cum ar fi vârsta, venitul și modelele de cerere ale consumatorilor.

Punctele principale

    Descoperirea cunoștințelor de text este un proces non-trivial de descoperire a unor modele cu adevărat noi, potențial utile și ușor de înțeles în datele text nestructurate.

    Procesul de analiză a documentelor text poate fi reprezentat ca o secvență de mai mulți pași: cauta informatii, preprocesarea documentelor, extragerea informatiilor, aplicarea metodelor Text Mining, interpretarea rezultatelor.

    Următoarele tehnici sunt de obicei folosite pentru a elimina cuvintele neinformative și pentru a crește rigoarea textelor: eliminarea cuvintelor stop, stemming, L-grams, reducere de majuscule.

    Sarcinile analizei informațiilor de text sunt: ​​clasificarea, gruparea, adnotarea automată, extragerea conceptelor cheie, navigarea textului, analiza tendințelor, căutarea asocierilor etc.

    Extragerea conceptelor cheie din texte poate fi considerată atât ca o sarcină aplicată separată, cât și ca o etapă separată a analizei textului. În acest din urmă caz, faptele extrase din text sunt folosite pentru a rezolva diverse probleme de analiză.

    Procesul de extragere a conceptelor cheie folosind șabloane se desfășoară în două etape: în prima, faptele individuale sunt extrase din documente text cu ajutorul analizei lexicale, în a doua etapă, integrarea faptelor extrase și/sau derivarea unor fapte noi este realizată. efectuate.

    Majoritatea metodelor de clasificare a textului se bazează într-un fel sau altul pe presupunerea că documentele aparținând aceleiași categorii conțin aceleași caracteristici (cuvinte sau fraze), iar prezența sau absența unor astfel de caracteristici într-un document indică apartenența sau neapartenența acestuia la un subiect anume.

    Majoritatea algoritmilor de grupare necesită ca datele să fie reprezentate într-un model de spațiu vectorial, care este utilizat pe scară largă pentru regăsirea informațiilor și utilizează o metaforă pentru a reflecta similitudinea semantică ca proximitate spațială.

    Există două abordări principale pentru adnotarea automată a documentelor text: extragerea (selectarea celor mai importante fragmente) și generalizarea (folosind cunoștințele colectate anterior).

Concluzie

Exploatarea datelor este una dintre cele mai relevante și populare domenii ale matematicii aplicate. Procesele moderne de afaceri și de producție generează cantități masive de date, ceea ce face din ce în ce mai dificil pentru oameni să interpreteze și să răspundă la cantități mari de date care se schimbă dinamic în timpul rulării, cu atât mai puțin să prevină situațiile critice. „Data mining” pentru a extrage cunoștințele utile maxime din date multidimensionale, eterogene, incomplete, inexacte, contradictorii, indirecte. Vă ajută să faceți acest lucru în mod eficient dacă volumul de date este măsurat în gigaocteți sau chiar în teraocteți. Ajută la construirea de algoritmi care pot învăța să ia decizii în diverse domenii profesionale.

Instrumentele de exploatare a datelor protejează oamenii de supraîncărcarea de informații prin procesarea datelor operaționale în informații utile, astfel încât acțiunile potrivite să poată fi întreprinse la momentele potrivite.

Dezvoltarile aplicate se realizeaza in urmatoarele domenii: prognoza in sistemele economice; Automatizarea cercetării de marketing și analizei mediilor client pentru companii de producție, comerț, telecomunicații și Internet; automatizarea procesului de luare a deciziilor de credit și a evaluării riscului de credit; monitorizarea pietelor financiare; sisteme automate de tranzacționare.

Bibliografie

    „Tehnologii de analiză a datelor: Data Mining. Exploatare vizuală. Text Mining, OLAP" A. A. Barseghyan. M. S. Kupriyanov, V. V. Stenanenko, I. I. Kholod. - Ed. a II-a, revizuită. si suplimentare

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - articol pe internet

    http://www.piter.com/contents/978549807257/978549807257_p.pdf -Tehnologii de analiză a datelor

    Teză >> Bancar

    Împrumutat folosind cluster, verbal analiză, factori de ajustare etc., de asemenea... bonitatea împrumutatului pe baza intelectual analiză Data Mining (cu... La etapa inițială analizăținută analiză fonduri proprii si...

  1. Analizăşi clasificarea pieţei moderne a sistemelor informaţionale care implementează discreţionare, m

    Rezumat >> Informatică

    1.3 Diferențierea rolurilor 6 2. Comparativ analiză tipuri variate sisteme 7 OS... sisteme, inclusiv: analiză politici de securitate și caracteristicile acestora, ... aplicații sau implementarea mai multor intelectual analiză date. In afara de asta...

  2. Inteligent abilitățile copiilor supradotați în legătură cu performanța școlară

    Teză >> Psihologie

    Relația dintre performanța academică și caracteristici intelectual dezvoltare. Pe baza teoretică analiză problema cercetării a fost... a intelige fără analiză structura sa psihologică. Decisiv pentru evaluare intelectual abilitățile este...

Vă urăm bun venit pe portalul Data Mining - un portal unic dedicat metodelor moderne de Data Mining.

Tehnologiile Data Mining sunt un instrument puternic pentru analiza afacerilor moderne și cercetarea datelor pentru a detecta tipare ascunse și pentru a construi modele predictive. Exploatarea datelor sau extragerea cunoștințelor se bazează nu pe raționamente speculative, ci pe date reale.

Orez. 1. Schema de aplicație pentru data mining

Definirea problemei – Enunțarea problemei: clasificarea datelor, segmentarea, construirea modelelor predictive, prognoză.
Colectarea și pregătirea datelor – Colectarea și pregătirea datelor, curățarea, verificarea, eliminarea înregistrărilor duplicate.
Construire model – Construire model, evaluarea preciziei.
Implementarea cunoștințelor – Aplicarea unui model pentru a rezolva o problemă dată.

Data Mining este folosit pentru a implementa proiecte analitice la scară largă în afaceri, marketing, internet, telecomunicații, industrie, geologie, medicină, produse farmaceutice și alte domenii.

Data Mining vă permite să începeți procesul de găsire a corelațiilor și conexiunilor semnificative ca urmare a verificării unei cantități uriașe de date folosind metode moderne de recunoaștere a modelelor și utilizarea tehnologiilor analitice unice, inclusiv arbori de decizie și clasificare, clustering, metode de rețele neuronale și alții.

Un utilizator care descoperă tehnologia data mining pentru prima dată este uimit de abundența de metode și algoritmi eficienți care îi permit să găsească abordări pentru rezolvarea problemelor dificile asociate cu analiza unor volume mari de date.

În general, Data Mining poate fi caracterizată ca o tehnologie concepută pentru a căuta volume mari de date. neevident, obiectiv si practic util modele.

Miningul de date se bazează pe metode eficienteși algoritmi conceputi pentru a analiza date nestructurate de volum și dimensiune mare.

Punctul cheie este că datele cu volum mare, cu dimensiuni mari par să nu aibă structură și conexiuni. Scopul tehnologiei data mining este de a identifica aceste structuri și de a găsi modele în care, la prima vedere, domnește haosul și arbitrariul.

Iată un exemplu actual de aplicare a exploatării datelor în industria farmaceutică și a medicamentelor.

Interacțiunile medicamentoase reprezintă o problemă în creștere cu care se confruntă asistența medicală modernă.

In timp, numarul de medicamente prescrise (fara reteta si tot felul de suplimente) creste, facand din ce in ce mai probabil ca vor exista interactiuni medicament-medicament care pot provoca efecte secundare grave de care medicii si pacientii nu sunt constienti.

Acest domeniu se referă la cercetarea post-clinică, când medicamentul a fost deja lansat pe piață și este utilizat intensiv.

Studiile clinice se referă la evaluarea eficacității unui medicament, dar nu iau în considerare interacțiunile medicamentului cu alte medicamente de pe piață.

Cercetătorii de la Universitatea Stanford din California au examinat baza de date a FDA privind efectele secundare ale medicamentelor și au descoperit că două medicamente utilizate în mod obișnuit - paroxetina antidepresivă și pravastatina, medicamentul pentru scăderea colesterolului - cresc riscul de a dezvolta diabet dacă sunt utilizate împreună.

Un studiu de analiză similar bazat pe datele FDA a identificat 47 de interacțiuni adverse necunoscute anterior.

Acest lucru este grozav, cu avertismentul că multe dintre efectele negative observate de pacienți rămân nedetectate. În acest caz, căutarea online poate avea rezultate optime.

Cursuri viitoare de Data Mining la StatSoft Data Analysis Academy în 2020

Începem introducerea noastră în Data Mining folosind uimitoare videoclipuri Data Science Academy.

Asigurați-vă că urmăriți videoclipurile noastre și veți înțelege ce este Data Mining!

Video 1. Ce este data mining?


Video 2. Revizuirea metodelor de data mining: arbori de decizie, modele predictive generalizate, clustering și multe altele

JavaScript este dezactivat în browserul dvs


Înainte de a începe un proiect de cercetare, trebuie să organizăm un proces de obținere a datelor de la surse externe, acum vom arăta cum se face acest lucru.

Videoclipul vă va prezenta tehnologie unică STATISTICA Procesarea in loc a bazei de date și conexiunea Data Mining cu date reale.

Video 3. Ordinea interacțiunii cu bazele de date: interfață grafică pentru construirea de interogări SQL, tehnologie de procesare a bazelor de date in loc

JavaScript este dezactivat în browserul dvs


Acum ne vom familiariza cu tehnologiile interactive de foraj care sunt eficiente în efectuarea analizei exploratorii a datelor. Termenul de foraj în sine reflectă legătura dintre tehnologia Data Mining și explorarea geologică.

Videoclipul 4: Foraj interactiv: Tehnici de explorare și grafică pentru explorarea interactivă a datelor

JavaScript este dezactivat în browserul dvs


Acum ne vom familiariza cu analiza de asociere (reguli de asociere), acești algoritmi vă permit să găsiți conexiuni care există în date reale. Punctul cheie este eficiența algoritmilor pe volume mari de date.

Rezultatul algoritmilor de analiză a conexiunii, de exemplu, algoritmul Apriori, este găsirea regulilor de conectare pentru obiectele studiate cu o fiabilitate dată, de exemplu, 80%.

În geologie, acești algoritmi pot fi utilizați în analiza de explorare a mineralelor, de exemplu, modul în care caracteristica A este legată de caracteristicile B și C.

puteți găsi exemple concrete astfel de soluții folosind link-urile noastre:

În comerțul cu amănuntul, algoritmii Apriori sau modificările acestora fac posibilă studierea relației dintre diferite produse, de exemplu, la vânzarea parfumurilor (parfum - lac de unghii - rimel etc.) sau a produselor diferitelor mărci.

Analiza celor mai interesante secțiuni de pe site poate fi, de asemenea, efectuată eficient folosind reguli de asociere.

Așa că vezi următorul nostru videoclip.

Video 5. Regulile de asociere

JavaScript este dezactivat în browserul dvs

Iată exemple de aplicare a Data Mining-ului în domenii specifice.

Tranzacționare online:

  • analiza traiectoriilor clienților de la vizitarea site-ului până la achiziționarea de bunuri
  • evaluarea eficienței serviciului, analiza defecțiunilor din cauza lipsei de bunuri
  • conectarea produselor care sunt interesante pentru vizitatori

Retail: analiza informațiilor clienților pe baza cardurilor de credit, cardurilor de reducere etc.

Sarcini tipice de retail rezolvate de instrumentele Data Mining:

  • analiza coșului de cumpărături;
  • crearea de modele predictiveși modele de clasificare a cumpărătorilor și bunurilor achiziționate;
  • crearea de profiluri de cumpărător;
  • CRM, evaluarea fidelitatii clientilor din diferite categorii, planificarea programelor de fidelizare;
  • cercetarea serii temporaleși dependențe de timp, identificarea factorilor sezonieri, evaluarea eficacității promotii pe o gamă largă de date reale.

Sectorul telecomunicațiilor deschide oportunități nelimitate pentru utilizarea metodelor de extragere a datelor, precum și a tehnologiilor moderne de date mari:

  • clasificarea clienților pe baza caracteristicilor cheie ale apelurilor (frecvență, durată etc.), frecvență SMS;
  • identificarea loialității clienților;
  • detectarea fraudei etc.

Asigurare:

  • analiza de risc. Prin identificarea combinațiilor de factori asociați cu daunele plătite, asigurătorii își pot reduce pierderile din răspundere. Există un caz în care o companie de asigurări a descoperit că sumele plătite pentru daunele persoanelor căsătorite erau de două ori mai mari decât sumele plătite pentru daunele persoanelor singure. Compania a răspuns la aceasta prin revizuirea politicii sale de reduceri pentru clienții de familie.
  • detectarea fraudei. Companiile de asigurări pot reduce frauda căutând anumite modele în daune care caracterizează relațiile dintre avocați, medici și reclamanți.

Aplicația practică a extragerii de date și rezolvarea unor probleme specifice este prezentată în următorul nostru videoclip.

Webinar 1. Webinar „Sarcini practice ale Data Mining: probleme și soluții”

JavaScript este dezactivat în browserul dvs

Webinar 2. Webinar „Data Mining și Text Mining: exemple de rezolvare a problemelor reale”

JavaScript este dezactivat în browserul dvs


Puteți obține cunoștințe mai aprofundate despre metodologia și tehnologia data mining în cursurile StatSoft.

Ce este data mining

Baza de date corporativă a oricărei întreprinderi moderne conține de obicei un set de tabele care stochează înregistrări despre anumite fapte sau obiecte (de exemplu, despre bunuri, vânzările acestora, clienți, conturi). De regulă, fiecare intrare dintr-un astfel de tabel descrie un obiect sau un fapt specific. De exemplu, o intrare în tabelul de vânzări reflectă faptul că un astfel de produs a fost vândut unui astfel de client la acel moment de către un manager și, în general, nu conține nimic altceva decât această informație. Totuși, strângerea unui număr mare de astfel de înregistrări, acumulate pe parcursul mai multor ani, poate deveni o sursă de informații suplimentare, mult mai valoroase, care nu pot fi obținute pe baza unei înregistrări specifice, și anume, informații despre tipare, tendințe sau interdependențe între orice date. Exemple de astfel de informații sunt informații despre modul în care vânzările unui anumit produs depind de ziua săptămânii, ora din zi sau perioada anului, care categorii de clienți cumpără cel mai adesea acest produs sau acel produs, ce proporție de cumpărători ai unui anumit produs cumpără. un alt produs specific, care categorie de clienti nu ramburseaza cel mai adesea creditul acordat la timp.

Acest tip de informații este de obicei folosit în prognoză, planificare strategică, analiza riscului, iar valoarea sa pentru întreprindere este foarte mare. Aparent, de aceea procesul de căutare a fost numit Data Mining (mining în engleză înseamnă „minerit”, iar căutarea modelelor într-un set imens de date faptice este într-adevăr asemănătoare cu asta). Termenul Data Mining denotă nu atât o tehnologie specifică, cât procesul de căutare a corelațiilor, tendințelor, relațiilor și tiparelor prin diverși algoritmi matematici și statistici: clustering, crearea de subeșantioane, regresie și analiză de corelație. Scopul acestei căutări este de a prezenta datele într-o formă care reflectă în mod clar procesele de afaceri și, de asemenea, de a construi un model cu ajutorul căruia puteți prezice procese care sunt critice pentru planificarea afacerii (de exemplu, dinamica cererii pentru anumite bunuri sau servicii). sau dependenţa dobândirii lor de anumite caracteristici atunci consumatorului).

Rețineți că statisticile matematice tradiționale, care au rămas pentru o lungă perioadă de timp instrumentul principal pentru analiza datelor, precum și instrumentele pentru procesarea analitică online (OLAP), despre care am scris deja de mai multe ori (a se vedea materialele pe acest subiect pe CD-ul nostru) , nu poate fi întotdeauna utilizat cu succes pentru a rezolva astfel de probleme. De obicei, metodele statistice și OLAP sunt folosite pentru a testa ipotezele preformulate. Cu toate acestea, de multe ori formularea unei ipoteze se dovedește a fi cea mai dificilă sarcină la implementarea analizei de afaceri pentru luarea deciziilor ulterioare, deoarece nu toate tiparele din date sunt evidente la prima vedere.

Baza tehnologie moderna Data Mining se bazează pe conceptul de modele care reflectă modele inerente subeșantioanelor de date. Căutarea tiparelor este efectuată folosind metode care nu folosesc nicio ipoteză a priori despre aceste subeșantioane. În timp ce analiza statistică sau OLAP pun de obicei întrebări precum „Care este numărul mediu de facturi neplătite în rândul clienților pentru acest serviciu?”, Data Mining implică de obicei răspunsul la întrebări precum „Există o categorie tipică de clienți neplătitori?”. În același timp, este răspunsul la a doua întrebare care oferă adesea o abordare mai netrivială a politicii de marketing și a organizării muncii cu clienții.

O caracteristică importantă a Data Mining-ului este natura non-standard și neevidentă a tiparelor căutate. Cu alte cuvinte, instrumentele Data Mining diferă de instrumentele de procesare a datelor statistice și instrumentele OLAP prin faptul că, în loc să verifice interdependențe presupuse de către utilizatori, ei sunt capabili să găsească astfel de interdependențe în mod independent pe baza datelor disponibile și să construiască ipoteze despre natura lor.

Trebuie remarcat faptul că utilizarea instrumentelor de Data Mining nu exclude utilizarea instrumentelor statistice și a instrumentelor OLAP, deoarece rezultatele prelucrării datelor folosind acestea din urmă, de regulă, contribuie la o mai bună înțelegere a naturii tiparelor care ar trebui fi căutat.

Sursă de date pentru Data Mining

Utilizarea Data Mining este justificată dacă există o cantitate suficient de mare de date, în mod ideal conținute într-un depozit de date proiectat corect (de fapt, depozitele de date în sine sunt create de obicei pentru a rezolva problemele de analiză și prognoză asociate cu suportul decizional). De asemenea, am scris în repetate rânduri despre principiile construirii depozitelor de date; materialele relevante pot fi găsite pe CD-ul nostru, așa că nu ne vom opri asupra acestei probleme. Să ne amintim doar că datele din depozit sunt un set completat, comun pentru întreaga întreprindere și care permite restabilirea unei imagini a activităților sale în orice moment. De asemenea, rețineți că structura datelor de stocare este proiectată astfel încât interogările către aceasta să fie efectuate cât mai eficient posibil. Cu toate acestea, există instrumente de Data Mining care pot căuta modele, corelații și tendințe nu numai în depozitele de date, ci și în cuburi OLAP, adică în seturi de date statistice preprocesate.

Tipuri de modele identificate prin metodele Data Mining

Potrivit V.A. Duke, există cinci tipuri standard de modele identificate prin metodele Data Mining:

Asociere - o mare probabilitate ca evenimentele să fie conectate între ele (de exemplu, un produs este adesea achiziționat împreună cu altul);

Secvență - o probabilitate mare a unui lanț de evenimente legate în timp (de exemplu, într-o anumită perioadă de la achiziționarea unui produs, altul va fi achiziționat cu un grad ridicat de probabilitate);

Clasificare - există semne care caracterizează grupul căruia îi aparține un eveniment sau un obiect (de obicei, pe baza analizei unor evenimente deja clasificate, se formulează anumite reguli);

Clusteringul este un model similar cu clasificarea și diferă de acesta prin faptul că grupurile în sine nu sunt specificate - sunt identificate automat în timpul prelucrării datelor;

Modele temporale - prezența modelelor în dinamica comportamentului anumitor date (un exemplu tipic sunt fluctuațiile sezoniere ale cererii pentru anumite bunuri sau servicii) utilizate pentru prognoză.

Metode de extragere a datelor

Astăzi există un număr destul de mare de metode diferite de extragere a datelor. Pe baza clasificării de mai sus propuse de V.A. Duke, dintre acestea putem distinge:

Analiza de regresie, varianță și corelație (implementată în majoritatea pachetelor statistice moderne, în special în produsele SAS Institute, StatSoft etc.);

Metode de analiză într-un domeniu specific, bazate pe modele empirice (deseori utilizate, de exemplu, în instrumente ieftine de analiză financiară);

Algoritmi de rețea neuronală, a căror idee se bazează pe o analogie cu funcționarea țesutului nervos și constă în faptul că parametrii inițiali sunt considerați ca semnale care sunt transformate în conformitate cu conexiunile existente între „neuroni” și răspunsul întregii rețele la cele inițiale este considerat răspunsul rezultat din datele de analiză. În acest caz, conexiunile sunt create folosind așa-numitul training de rețea printr-o dimensiune mare a eșantionului care conține atât date inițiale, cât și răspunsuri corecte;

Algoritmi - selectarea unui analog apropiat al datelor originale din datele istorice existente. Denumită și metoda „cel mai apropiat vecin”;

Arborele de decizie sunt o structură ierarhică bazată pe un set de întrebări care necesită un răspuns „Da” sau „Nu”; cu toate că aceasta metoda prelucrarea datelor nu găsește întotdeauna perfect tipare existente, este destul de des folosită în sistemele de prognoză datorită clarității răspunsului primit;

Modelele cluster (uneori numite și modele de segmentare) sunt folosite pentru a grupa evenimente similare pe baza valorilor similare ale mai multor câmpuri dintr-un set de date; de asemenea, foarte popular atunci când se creează sisteme de prognoză;

Algoritmi de căutare restricționate care calculează frecvențele combinațiilor de evenimente logice simple în subgrupuri de date;

Programare evolutivă - căutarea și generarea unui algoritm care exprimă interdependența datelor, pe baza unui algoritm specificat inițial, modificat în timpul procesului de căutare; uneori căutarea interdependenţelor se realizează între anumite tipuri de funcţii (de exemplu, polinoame).

Mai multe informații despre aceștia și alți algoritmi de Data Mining, precum și despre instrumentele care îi implementează, pot fi citite în cartea „Data Mining: Training Course” de V.A. Duke și A.P. Samoilenko, publicată de editura Peter în 2001. Astăzi, aceasta este una dintre puținele cărți în limba rusă dedicate acestei probleme.

Producători de top de instrumente de data mining

Instrumentele de extragere a datelor, la fel ca majoritatea instrumentelor de Business Intelligence, sunt instrumente software costisitoare - unele dintre ele costă până la câteva zeci de mii de dolari. Prin urmare, până de curând, principalii consumatori ai acestei tehnologii erau băncile, companiile financiare și de asigurări, marile întreprinderi comerciale, iar principalele sarcini care necesită utilizarea Data Mining-ului erau considerate a fi evaluarea riscurilor de credit și de asigurare și dezvoltarea politicilor de marketing. , planuri tarifareși alte principii de lucru cu clienții. În ultimii ani, situația a suferit anumite schimbări: pe piața de software au apărut instrumente de Data Mining relativ ieftine de la mai mulți producători, ceea ce a făcut această tehnologie accesibilă întreprinderilor mici și mijlocii care nu s-au gândit până acum la asta.

LA mijloace moderne Business Intelligence include generatoare de rapoarte, instrumente de procesare a datelor analitice, instrumente de dezvoltare a soluțiilor BI (Platforme BI) și așa-numitele Enterprise BI Suites - instrumente de analiză și procesare a datelor la scară întreprinderi care vă permit să efectuați un set de acțiuni legate de analiza datelor. și crearea de rapoarte și includ adesea un set integrat de instrumente BI și instrumente de dezvoltare a aplicațiilor BI. Acestea din urmă, de regulă, conțin instrumente de raportare, instrumente OLAP și, adesea, instrumente de data mining.

Potrivit analiștilor Gartner Group, liderii de pe piața instrumentelor de analiză și procesare a datelor la scară întreprindere sunt Business Objects, Cognos, Information Builders și Microsoft și Oracle pretind, de asemenea, leadership (Fig. 1). În ceea ce privește instrumentele de dezvoltare pentru soluțiile BI, principalii concurenți la leadership în acest domeniu sunt Microsoft și SAS Institute (Fig. 2).

Rețineți că instrumentele Microsoft Business Intelligence sunt produse relativ ieftine disponibile pentru o gamă largă de companii. De aceea, vom analiza câteva aspecte practice ale utilizării Data Mining folosind exemplul produselor acestei companii în părțile ulterioare ale acestui articol.

Literatură:

1. Ducele V.A. Data Mining - data mining. - http://www.olap.ru/basic/dm2.asp.

2. Ducele V.A., Samoilenko A.P. Data Mining: curs de formare. - Sankt Petersburg: Peter, 2001.

3. B. de Ville. Microsoft Data Mining. Presa digitală, 2001.

Sistemele OLAP oferă analistului un mijloc de testare a ipotezelor atunci când analizează datele, adică sarcina principală a analistului este de a genera ipoteze, pe care le rezolvă pe baza cunoștințelor și experienței sale.Cu toate acestea, nu numai o persoană are cunoștințe, ci și datele acumulate care sunt analizate . O astfel de cunoaștere este conținută într-o cantitate imensă de informații pe care o persoană nu le poate cerceta singură. Din acest motiv, există riscul de a lipsi ipoteze care ar putea oferi beneficii semnificative.

Pentru a detecta cunoștințele „ascunse”, se folosesc metode speciale de analiză automată, cu ajutorul cărora este necesară extragerea practic a cunoștințelor din „blocarele” informațiilor. Termenul „exploatare de date” sau „exploatare de date” a fost atribuit acestei zone.

Există multe definiții ale DataMining care se completează reciproc. Aici sunt câțiva dintre ei.

Data Mining este procesul de descoperire a modelelor netriviale și practic utile în bazele de date. (BaseGroup)

Data Mining este procesul de extragere, explorare și modelare a unor volume mari de date pentru a descoperi modele (patterns) necunoscute anterior pentru a obține avantaje de afaceri (SAS Institute)

Data Mining-ul este un proces care are ca scop descoperirea de noi corelații, modele și tendințe semnificative, prin trecerea la cantități mari de date stocate folosind tehnici de recunoaștere a modelelor plus aplicarea tehnicilor statistice și matematice (GartnerGroup)

Data Mining este cercetarea și descoperirea de către o „mașină” (algoritmi, instrumente de inteligență artificială) a cunoștințelor ascunse în datele brute.erau necunoscute anterior, nebanale, practic utile, accesibile pentru interpretarede către om (A. Bargesyan „Tehnologii de analiză a datelor”)

DataMining este procesul de descoperire a cunoștințelor utile despre afaceri (N.M. Abdikeev „KBA”)

Proprietățile cunoștințelor descoperite

Să luăm în considerare proprietățile cunoștințelor descoperite.

  • Cunoștințele trebuie să fie noi, necunoscute anterior. Efortul depus pentru descoperirea cunoștințelor deja cunoscute utilizatorului nu dă roade. Prin urmare, cunoștințele noi, necunoscute anterior, sunt valoroase.
  • Cunoștințele nu trebuie să fie banale. Rezultatele analizei ar trebui să reflecte neevidente, neașteptatetipare în date care constituie așa-numitele cunoștințe ascunse. Rezultate care s-ar fi putut obține mai mult în moduri simple(de exemplu, inspecția vizuală) nu justifică utilizarea unor metode puternice de DataMining.
  • Cunoștințele trebuie să fie practic utile. Cunoștințele găsite trebuie să fie aplicabile, inclusiv asupra datelor noi, cu un grad suficient de ridicat de fiabilitate. Utilitatea constă în faptul că aceste cunoștințe pot aduce anumite beneficii atunci când sunt aplicate.
  • Cunoașterea trebuie să fie accesibilă înțelegerii umane. Modelele găsite trebuie să fie explicabile logic, altfel există posibilitatea ca acestea să fie aleatorii. În plus, cunoștințele descoperite trebuie prezentate într-o formă care să fie înțeleasă de oameni.

În DataMining, modelele sunt folosite pentru a reprezenta cunoștințele dobândite. Tipurile de modele depind de metodele folosite pentru a le crea. Cele mai comune sunt: ​​reguli, arbori de decizie, clustere și funcții matematice.

Sarcini de datamining

Să ne amintim că tehnologia DataMining se bazează pe conceptul de șabloane, care sunt modele. Ca urmare a descoperirii acestor tipare, ascunse cu ochiul liber, problemele de DataMining sunt rezolvate. Diferite tipuri de modele care pot fi exprimate într-o formă care poate fi citită de om corespund sarcinilor specifice DataMining.

Nu există un consens asupra sarcinilor care ar trebui clasificate ca DataMining. Cele mai multe surse autorizate enumeră următoarele: clasificare,

grupare, predicție, asociere, vizualizare, analiză și descoperire

abateri, evaluare, analiza legaturilor, insumare.

Scopul descrierii care urmează este de a oferi o idee generală a problemelor de DataMining, de a compara unele dintre ele și de a prezenta, de asemenea, câteva metode prin care aceste probleme sunt rezolvate. Cele mai comune sarcini de Data Mining sunt clasificarea, gruparea, asocierea, prognoza și vizualizarea. Astfel, sarcinile sunt împărțite în funcție de tipul de informații produse, aceasta este cea mai generală clasificare a sarcinilor DataMining.

Clasificare

Problema împărțirii unui set de obiecte sau observații în a priori grupuri specificate, numite clase, în cadrul fiecăreia dintre care se presupune că sunt similare între ele, având aproximativ aceleași proprietăți și caracteristici. În acest caz, soluția se obține pe baza analiză valorile atributelor (trăsăturilor).

Clasificarea este una dintre cele mai importante sarcini Data Mining . Este folosit în marketing la evaluarea bonităţii debitorilor, determinând loialitatea clienților, recunoasterea formelor , diagnosticare medicală și multe alte aplicații. Dacă analistul cunoaște proprietățile obiectelor fiecărei clase, atunci când o nouă observație aparține unei anumite clase, aceste proprietăți sunt extinse automat la aceasta.

Dacă numărul de clase este limitat la două, atunciclasificare binară , la care pot fi reduse multe probleme mai complexe. De exemplu, în loc să definiți astfel de grade de risc de credit ca „Ridicat”, „Mediu” sau „Scăzut”, puteți utiliza doar două - „Problemă” sau „Refuz”.

DataMining utilizează multe modele diferite pentru clasificare: rețele neuronale, arbori de decizie , mașini vectori suport, metoda k-nearest neighbors, algoritmi de acoperire etc., în construcția cărora se folosește învățarea supravegheată atunci cândvariabila de iesire(eticheta clasei ) este specificat pentru fiecare observație. Formal, clasificarea se face pe baza partițieispații caracteristice în zone, în fiecare dintre acesteavectori multidimensionali sunt considerate identice. Cu alte cuvinte, dacă un obiect cade într-o regiune a spațiului asociată cu o anumită clasă, acesta îi aparține.

Clustering

Scurta descriere. Clusteringul este o continuare logică a ideii

clasificări. Aceasta este o sarcină mai complexă; particularitatea grupării este că clasele de obiecte nu sunt inițial predefinite. Rezultatul grupării este împărțirea obiectelor în grupuri.

Un exemplu de metodă pentru rezolvarea unei probleme de clustering: antrenament „nesupravegheat” a unui tip special de rețele neuronale - hărți Kohonen auto-organizate.

Asociațiile

Scurta descriere. Când se rezolvă problema căutării regulilor de asociere, se găsesc tipare între evenimentele înrudite dintr-un set de date.

Diferența dintre asociere și cele două sarcini anterioare de DataMining: căutarea modelelor se realizează nu pe baza proprietăților obiectului analizat, ci între mai multe evenimente care au loc simultan. Cel mai cunoscut algoritm pentru rezolvarea problemei găsirii regulilor de asociere este algoritmul Apriori.

Secvență sau asociere secvențială

Scurta descriere. Secvența vă permite să găsiți modele temporale între tranzacții. Sarcina de secvență este similară cu asocierea, dar scopul său este de a stabili modele nu între evenimente care apar simultan, ci între evenimente legate în timp (adică, care au loc la un anumit interval de timp). Cu alte cuvinte, o secvență este determinată de o probabilitate mare a unui lanț de evenimente legate în timp. De fapt, o asociere este un caz special al unei secvențe cu un decalaj de timp de zero. Această sarcină DataMining este numită și sarcina de găsire a modelelor secvențiale.

Regula secvenței: după evenimentul X, evenimentul Y va avea loc după un anumit timp.

Exemplu. După achiziționarea unui apartament, locuitorii în 60% din cazuri achiziționează un frigider în decurs de două săptămâni, iar în decurs de două luni în 50% din cazuri achiziționează un televizor. Soluția la această problemă este utilizată pe scară largă în marketing și management, de exemplu, în managementul ciclului de viață al clienților.

Regresie, prognoză (Forecasting)

Scurta descriere. Ca urmare a soluționării problemei de prognoză, valorile lipsă sau viitoare ale indicatorilor numerici țintă sunt estimate pe baza caracteristicilor datelor istorice.

Pentru rezolvarea unor astfel de probleme sunt utilizate pe scară largă metode de statistică matematică, rețele neuronale etc.

Sarcini suplimentare

Detectarea abaterii, analiza variației sau a valorii aberante

Scurta descriere. Scopul rezolvării acestei probleme este de a detecta și analiza datele care sunt cele mai diferite de setul general de date, identificând așa-numitele modele necaracteristice.

Estimare

Sarcina de estimare se reduce la prezicerea valorilor continue ale unei caracteristici.

Analiza legăturii

Sarcina de a găsi dependențe într-un set de date.

Vizualizare (GraphMining)

Ca rezultat al vizualizării, este creată o imagine grafică a datelor analizate. Pentru a rezolva problema de vizualizare, se folosesc metode grafice pentru a arăta prezența modelelor în date.

Un exemplu de tehnici de vizualizare este prezentarea datelor în dimensiuni 2-D și 3-D.

Rezumat

O sarcină al cărei scop este de a descrie grupuri specifice de obiecte din setul de date analizat.

Destul de aproape de clasificarea de mai sus este împărțirea sarcinilor DataMining în următoarele: cercetare și descoperire, prognoză și clasificare, explicație și descriere.

Explorare și descoperire automată (căutare gratuită)

Exemplu de sarcină: descoperirea de noi segmente de piață.

Pentru rezolvarea acestei clase de probleme se folosesc metode de analiză a clusterelor.

Predicție și clasificare

Exemplu de problemă: estimarea creșterii vânzărilor pe baza valorilor curente.

Metode: regresie, rețele neuronale, algoritmi genetici, arbori de decizie.

Sarcinile de clasificare și prognoză constituie un grup de așa-numită modelare inductivă, care are ca rezultat studiul obiectului sau sistemului analizat. În procesul de rezolvare a acestor probleme, se elaborează un model sau o ipoteză generală pe baza unui set de date.

Explicație și descriere

Exemplu de problemă: caracterizarea clienților pe baza datelor demografice și a istoricului de achiziții.

Metode: arbori de decizie, sisteme de reguli, reguli de asociere, analiza conexiunilor.

Dacă venitul clientului este mai mare de 50 de unități convenționale și vârsta lui este mai mare de 30 de ani, atunci clasa clientului este prima.

Compararea grupării și clasificării

Caracteristică

Clasificare

Clustering

Controlabilitatea antrenamentului

Controlat

Incontrolabil

Strategii

Antrenament tutorat

Învățare nesupravegheată

Disponibilitatea etichetei de clasă

Set de antrenament

însoțită de o etichetă care indică

clasa căreia îi aparține

observare

Etichete pentru clasa de formatori

seturile sunt necunoscute

Baza clasificării

Datele noi sunt clasificate pe baza setului de antrenament

O mulțime de date sunt date în acest scop

stabilirea existenţei

clase sau clustere de date

Domenii de aplicare ale DataMining

Trebuie remarcat faptul că astăzi tehnologia DataMining este cea mai utilizată în rezolvarea problemelor de afaceri. Poate că motivul este că tocmai în această direcție rentabilitatea utilizării instrumentelor de DataMining poate fi, potrivit unor surse, de până la 1000%, iar costurile implementării acestuia se pot amortiza rapid.

Vom analiza în detaliu patru domenii principale de aplicare a tehnologiei DataMining: știință, afaceri, cercetare guvernamentală și web.

sarcini de afaceri. Domenii principale: bancar, finanțe, asigurări, CRM, producție, telecomunicații, comerț electronic, marketing, bursă și altele.

    Ar trebui să acord un împrumut clientului?

    Segmentarea pieței

    Atragerea de noi clienți

    Frauda cu cardul de credit

Aplicarea DataMining pentru rezolvarea problemelor la nivel de stat. Direcții principale: căutarea evazilor fiscale; mijloace în lupta împotriva terorismului.

Aplicarea DataMining pentru cercetare științifică. Domenii principale: medicină, biologie, genetică moleculară și inginerie genetică, bioinformatică, astronomie, chimie aplicată, cercetare legată de dependența de droguri și altele.

Folosind DataMining pentru a rezolva Sarcini web. Domenii principale: motoare de căutare, contoare și altele.

Comerț electronic

În domeniul comerțului electronic, DataMining este folosit pentru a genera

Această clasificare permite companiilor să identifice anumite grupuri de clienți și să conducă politici de marketing în conformitate cu interesele și nevoile identificate ale clienților. Tehnologia DataMining pentru comerțul electronic este strâns legată de tehnologia WebMining.

Principalele sarcini ale DataMining în producția industrială:

· analiza cuprinzătoare de sistem a situațiilor de producție;

· prognoza pe termen scurt si lung a evolutiei situatiilor de productie;

· dezvoltarea de optiuni pentru solutii de optimizare;

· prognozarea calitatii unui produs in functie de anumiti parametri

proces tehnologic;

· detectarea tendințelor și tiparelor ascunse în dezvoltarea producției

procese;

· prognozarea modelelor de dezvoltare Procese de producție;

· detectarea factorilor de influență ascunși;

· detectarea și identificarea relațiilor necunoscute anterior între

parametrii de producție și factorii de influență;

· analiza mediului de interacţiune a proceselor de producţie şi prognoză

modificări ale caracteristicilor sale;

procese;

· vizualizarea rezultatelor analizelor, intocmirea rapoartelor preliminare si a proiectelor

soluții fezabile cu evaluări ale fiabilității și eficacității posibilelor implementări.

Marketing

În domeniul marketingului, DataMining este utilizat pe scară largă.

Întrebări de bază de marketing: „Ce se vinde?”, „Cum se vinde?”, „Cine este

consumator?"

Prelegerea despre problemele de clasificare și clustering descrie în detaliu utilizarea analizei cluster pentru a rezolva probleme de marketing, cum ar fi segmentarea consumatorilor.

Un alt set comun de metode pentru rezolvarea problemelor de marketing sunt metodele și algoritmii de căutare a regulilor de asociere.

Căutarea tiparelor temporale este, de asemenea, folosită cu succes aici.

Cu amănuntul

În comerțul cu amănuntul, ca și în marketing, se folosesc următoarele:

· algoritmi pentru căutarea regulilor de asociere (pentru a determina seturi frecvente de

bunuri pe care cumpărătorii le cumpără în același timp). Identificarea unor astfel de reguli ajută

plasați mărfurile pe rafturile magazinelor, dezvoltați strategii de cumpărare a mărfurilor

și plasarea lor în depozite etc.

· utilizarea secvențelor de timp, de exemplu, pentru a determina

volumele necesare de mărfuri în depozit.

· metode de clasificare și grupare pentru a identifica grupuri sau categorii de clienți,

cunoașterea cărora contribuie la promovarea cu succes a mărfurilor.

Bursa de valori

Iată o listă a problemelor pieței de valori care pot fi rezolvate folosind tehnologia Data

Minerit: · prognozarea valorilor viitoare ale instrumentelor financiare și indicatorilor acestora

valorile trecute;

· prognoza tendințelor (direcția viitoare de mișcare - creștere, declin, plat) financiar

instrumentul și puterea acestuia (puternic, moderat puternic etc.);

· identificarea structurii cluster a pieţei, industriei, sectorului conform unui anumit set

caracteristici;

· management dinamic al portofoliului;

· prognoza volatilitatii;

· evaluare a riscurilor;

· prezicerea declanșării unei crize și prognozarea dezvoltării acesteia;

· selectarea activelor etc.

Pe lângă domeniile de activitate descrise mai sus, tehnologia DataMining poate fi utilizată într-o mare varietate de domenii de afaceri în care este nevoie de analiza datelor și s-a acumulat o anumită cantitate de informații retrospective.

Aplicarea DataMining în CRM

Una dintre cele mai promițătoare domenii pentru utilizarea DataMining este utilizarea acestei tehnologii în CRM analitic.

CRM (CustomerRelationshipManagement) - managementul relațiilor cu clienții.

Atunci când aceste tehnologii sunt utilizate împreună, extragerea cunoștințelor este combinată cu „extragerea de bani” din datele clienților.

Un aspect important în activitatea departamentelor de marketing și vânzări este compilareao viziune holistică a clienților, informații despre caracteristicile acestora, caracteristicile și structura bazei de clienți. CRM folosește așa-numita profilareclienți, oferind o imagine completă a tuturor informațiilor necesare despre clienți.

Profilarea clienților include următoarele componente: segmentarea clienților, profitabilitatea clienților, reținerea clienților, analiza răspunsului clienților. Fiecare dintre aceste componente poate fi examinată folosind DataMining, iar analiza lor împreună ca componente de profilare poate oferi în cele din urmă cunoștințe care sunt imposibil de obținut din fiecare caracteristică individuală.

WebMining

WebMining poate fi tradus ca „exploatare de date pe web”. WebIntelligence sau Web.

Intelligence este gata să „deschidă un nou capitol” în dezvoltarea rapidă a afacerilor electronice. Capacitatea de a determina interesele și preferințele fiecărui vizitator prin observarea comportamentului acestuia este un avantaj competitiv serios și critic pe piața de comerț electronic.

Sistemele WebMining pot răspunde la multe întrebări, de exemplu, care dintre vizitatori este un potențial client al magazinului web, ce grup de clienți ai magazinului web aduce cele mai multe venituri, care sunt interesele unui anumit vizitator sau grup de vizitatori.

Metode

Clasificarea metodelor

Există două grupe de metode:

  • metode statistice bazate pe utilizarea experienței medii acumulate, care se reflectă în date retrospective;
  • metode cibernetice, inclusiv multe abordări matematice eterogene.

Dezavantajul acestei clasificări este că atât algoritmii statistici, cât și cei cibernetici se bazează într-un fel sau altul pe o comparație a experienței statistice cu rezultatele monitorizării situației actuale.

Avantajul acestei clasificări este ușurința sa de interpretare - este folosită pentru a descrie mijloacele matematice ale unei abordări moderne de extragere a cunoștințelor din șiruri de observații inițiale (operative și retrospective), de exemplu. în sarcinile Data Mining.

Să aruncăm o privire mai atentă asupra grupurilor prezentate mai sus.

Metode statistice Exploatarea datelor

În aceste metodele reprezintă patru secțiuni interdependente:

  • analiza preliminară a naturii datelor statistice (testarea ipotezelor de staționaritate, normalitate, independență, omogenitate, aprecierea tipului funcției de distribuție, a parametrilor acesteia etc.);
  • identificarea legăturilor și modele(analiza de regresie liniară și neliniară, analiza de corelație etc.);
  • analiza statistică multivariată (analiza discriminantă liniară și neliniară, analiza cluster, analiza componentelor, analiza factorială etc.);
  • modele dinamice și prognoză bazate pe serii de timp.

Arsenalul de metode statistice pentru Data Mining este clasificat în patru grupe de metode:

  1. Analiza descriptivă și descrierea datelor sursă.
  2. Analiza relațiilor (analiza de corelație și regresie, analiza factorială, analiza varianței).
  3. Analiza statistică multivariată (analiza componentelor, analiza discriminantă, analiza regresiei multivariate, corelații canonice etc.).
  4. Analiza seriilor temporale (modele dinamice si prognoza).

Metode cibernetice de extragere a datelor

A doua direcție a Data Mining este o varietate de abordări unite de ideea matematicii computerizate și de utilizarea teoriei inteligenței artificiale.

Acest grup include următoarele metode:

  • rețele neuronale artificiale (recunoaștere, grupare, prognoză);
  • programare evolutivă (inclusiv algoritmi pentru metoda contabilizării de grup a argumentelor);
  • algoritmi genetici (optimizare);
  • memorie asociativă (căutare analogi, prototipuri);
  • logica fuzzy;
  • arbori de decizie;
  • sisteme expert de procesare a cunoștințelor.

Analiza grupului

Scopul grupării este de a căuta structuri existente.

Gruparea este o procedură descriptivă, nu face inferențe statistice, dar oferă o oportunitate de a efectua analize exploratorii și de a studia „structura datelor”.

Însuși conceptul de „cluster” este definit ambiguu: fiecare studiu are propriile „clustere”. Conceptul de cluster este tradus ca „cluster”, „bunch”. Un cluster poate fi caracterizat ca un grup de obiecte care au proprietăți comune.

Caracteristicile unui cluster pot fi descrise ca două:

  • omogenitate internă;
  • izolare externă.

O întrebare pe care analiștii și-o pun atunci când rezolvă multe probleme este cum să organizăm datele în structuri vizuale, de exemplu. extinde taxonomiile.

Clustering-ul a fost inițial cel mai utilizat în științe precum biologia, antropologia și psihologia. Clustering-ul a fost puțin utilizat pentru rezolvarea problemelor economice pentru o lungă perioadă de timp, datorită naturii specifice a datelor și fenomenelor economice.

Clusterele pot fi disjunctive sau exclusive (nesuprapune, exclusive) și suprapuse.

Trebuie remarcat faptul că, în urma aplicării diferitelor metode de analiză a clusterelor, pot fi obținute clustere de diferite forme. De exemplu, clusterele de tip „lanț” sunt posibile, atunci când clusterele sunt reprezentate de „lanțuri” lungi, clustere alungite etc., iar unele metode pot crea clustere de formă arbitrară.

Diverse metode se pot strădui să creeze grupuri de dimensiuni specifice (de exemplu, mici sau mari) sau să presupună că există grupuri de dimensiuni diferite în setul de date. Unele metode de analiză a clusterelor sunt deosebit de sensibile la zgomot sau valori aberante, altele mai puțin. Ca urmare a utilizării diferitelor metode de grupare, pot fi obținute rezultate diferite; acest lucru este normal și este o caracteristică a funcționării unui anumit algoritm. Aceste caracteristici trebuie luate în considerare atunci când alegeți o metodă de grupare.

Să dăm o scurtă descriere a abordărilor grupării.

Algoritmi bazați pe separarea datelor (algoritmi de partiționare), incl. iterativ:

  • împărțirea obiectelor în k clustere;
  • Redistribuirea iterativă a obiectelor pentru a îmbunătăți gruparea.
  • Ierarhialgoritmi:
  • aglomerare: fiecare obiect este inițial un cluster, clustere,
  • conectându-se între ele, formează un grup mai mare etc.

Metode bazate pe densitate:

  • bazat pe capacitatea de a conecta obiecte;
  • ignora zgomotul și găsește grupuri de formă arbitrară.

Grilă - metode (metode bazate pe grilă):

  • cuantificarea obiectelor în structuri de grilă.

Metode de model (pe bază de model):

  • folosind modelul pentru a găsi clustere care se potrivesc cel mai bine cu datele.

Metode de analiză a clusterelor. Metode iterative.

Cu un număr mare de observații, metodele ierarhice de analiză a clusterelor nu sunt potrivite. În astfel de cazuri, se folosesc metode neierarhice bazate pe divizare, care sunt metode iterative de fragmentare a populației inițiale. În timpul procesului de divizare, se formează noi clustere până când regula de oprire este îndeplinită.

O astfel de grupare neierarhică constă în împărțirea unui set de date într-un anumit număr de clustere individuale. Există două abordări. Primul este de a determina granițele clusterelor ca zonele cele mai dense din spațiul multidimensional al datelor sursă, i.e. definirea unui cluster unde există o mare „condensare de puncte”. A doua abordare este de a minimiza măsura diferenței dintre obiecte

k-means algoritm

Cea mai comună metodă non-ierarhică este algoritmul k-means, numit și analiză rapidă a clusterelor. O descriere completă a algoritmului poate fi găsită în Hartigan și Wong (1978). Spre deosebire de metodele ierarhice, care nu necesită ipoteze preliminare privind numărul de clustere, pentru a putea folosi această metodă, este necesar să existe o ipoteză despre numărul cel mai probabil de clustere.

Algoritmul k-means construiește k clustere situate la distanțe cât mai mari unul de celălalt. Principalul tip de probleme pe care le rezolvă algoritmul k-means este prezența ipotezelor (ipotezelor) privind numărul de clustere și ar trebui să fie cât mai diferite. Alegerea lui k se poate baza pe cercetări anterioare, considerații teoretice sau intuiție.

Ideea generală a algoritmului: un anumit număr fix k de clustere de observație este comparat cu clustere, astfel încât mediile din cluster (pentru toate variabilele) să difere cât mai mult unele de altele.

Descrierea algoritmului

1. Distribuția inițială a obiectelor în clustere.

  • Se selectează numărul k, iar în primul pas aceste puncte sunt considerate „centrele” clusterelor.
  • Fiecare cluster corespunde unui centru.

Selectarea centroizilor inițiali se poate face după cum urmează:

  • selectarea k-observațiilor pentru a maximiza distanța inițială;
  • selecția aleatorie a k-observațiilor;
  • selectarea primelor k-observații.

Ca rezultat, fiecare obiect este alocat unui anumit cluster.

2. Proces iterativ.

Sunt calculate centrele clusterelor, care sunt apoi utilizate pentru a calcula mediile în funcție de coordonate ale clusterelor. Obiectele sunt redistribuite.

Procesul de calculare a centrelor și de redistribuire a obiectelor continuă până când este îndeplinită una dintre condiții:

  • centrele cluster s-au stabilizat, adică toate observațiile aparțin clusterului căruia i-au aparținut înainte de iterația curentă;
  • numărul de iterații este egal cu numărul maxim de iterații.

Figura prezintă un exemplu de algoritm k-medii pentru k egal cu doi.

Un exemplu de algoritm k-means (k=2)

Alegerea numărului de clustere este o problemă complexă. Dacă nu există ipoteze cu privire la acest număr, se recomandă crearea a 2 clustere, apoi 3, 4, 5 etc., comparând rezultatele obținute.

Verificarea calității grupării

După ce primiți rezultatele analizei clusterelor k-means, ar trebui să verificați corectitudinea grupării (adică, să evaluați cât de diferite sunt clusterele unul de celălalt).

Pentru a face acest lucru, se calculează valori medii pentru fiecare cluster. O bună grupare ar trebui să producă mijloace foarte diferite pentru toate dimensiunile, sau cel puțin pentru majoritatea dintre ele.

Avantajele algoritmului k-means:

  • ușurință în utilizare;
  • viteza de utilizare;
  • înțelegerea și transparența algoritmului.

Dezavantajele algoritmului k-means:

  • algoritmul este prea sensibil la valori aberante care pot distorsiona media.

Soluție posibilă Această problemă este de a folosi o modificare a algoritmului - algoritmul k-median;

  • algoritmul poate fi lent pe baze de date mari. O posibilă soluție la această problemă este utilizarea eșantionării datelor.

Rețele bayesiene

În teoria probabilității, conceptul de dependență de informații este modelat prin dependență condiționată (sau strict: absența independenței condiționate), care descrie modul în care încrederea noastră în rezultatul unui eveniment se schimbă atunci când dobândim noi cunoștințe despre fapte, cu condiția să știm deja un set de alte fapte.

Este convenabil și intuitiv să se reprezinte dependențele dintre elemente printr-o cale direcționată care conectează aceste elemente într-un grafic. Dacă relația dintre elementele x și y nu este directă și se realizează printr-un al treilea element z, atunci este logic să ne așteptăm că va exista un element z pe calea dintre x și y. Astfel de noduri intermediare vor „taia” dependența dintre x și y, adică. simulează o situaţie de independenţă condiţionată între ele cu o valoare cunoscută a factorilor de influenţă directă.Astfel de limbaje de modelare sunt rețele bayesiene, care sunt folosite pentru a descrie dependențele condiționate dintre conceptele unei anumite domenii.

Rețelele bayesiene sunt structuri grafice pentru a reprezenta relații probabilistice între un număr mare de variabile și pentru a efectua inferențe probabilistice pe baza acelor variabile.Clasificarea „naivă” (bayesiană) este o metodă de clasificare destul de transparentă și de înțeles. „Naivă” este numită deoarece se bazează pe presupunerea reciprocă.independenta semnelor.

Proprietăți de clasificare:

1. Utilizarea tuturor variabilelor și determinarea tuturor dependențelor dintre ele.

2. Având două ipoteze despre variabile:

  • toate variabilele sunt la fel de importante;
  • toate variabilele sunt independente statistic, adică valoarea unei variabile nu spune nimic despre valoarea alteia.

Există două scenarii principale pentru utilizarea rețelelor bayesiene:

1. Analiza descriptivă. Tematica este afișată sub formă de grafic, ale cărui noduri reprezintă concepte, iar arcele direcționate, afișate prin săgeți, ilustrează dependențele directe dintre aceste concepte. Relația dintre x și y înseamnă: cunoașterea valorii lui x vă ajută să faceți o ghicire mai bună despre valoarea lui y. Absența unei legături directe între concepte modelează independența condiționată dintre ele cu valori cunoscute ale unui anumit set de concepte „separatoare”. De exemplu, mărimea pantofilor unui copil este în mod evident legată de capacitatea de citire a copilului în funcție de vârstă. Astfel, o mărime mai mare de pantof oferă o mai mare încredere că copilul citește deja, dar dacă știm deja vârsta, atunci cunoașterea mărimii pantofilor nu ne va mai oferi Informații suplimentare despre capacitatea copilului de a citi.


Ca un alt exemplu, opus, luați în considerare factori inițial care nu au legătură, cum ar fi fumatul și răceala. Dar dacă cunoaștem un simptom, de exemplu, că o persoană suferă de tuse dimineața, atunci știind că persoana respectivă nu fumează ne crește încrederea că persoana este răcită.

2. Clasificare și prognoză. Rețeaua bayesiană, permițând independența condiționată a unui număr de concepte, face posibilă reducerea numărului de parametri ai distribuției comune, făcând posibilă estimarea cu încredere a acestora pe volumele de date disponibile. Deci, cu 10 variabile, fiecare dintre ele poate lua 10 valori, numărul de parametri ai distribuției comune este de 10 miliarde - 1. Dacă presupunem că doar 2 variabile depind una de alta între aceste variabile, atunci numărul de parametri devine 8 * (10-1) + (10*10-1) = 171. Având un model de distribuție comun care este realist din punct de vedere al resurselor de calcul, putem prezice valoarea necunoscută a unui concept ca, de exemplu, cea mai probabilă valoare a acest concept având în vedere valorile cunoscute ale altor concepte.

Se notează următoarele avantaje ale rețelelor bayesiene ca metodă de DataMining:

Modelul definește dependențele dintre toate variabilele, acest lucru ușureazăgestionează situațiile în care valorile unor variabile sunt necunoscute;

Rețelele bayesiene sunt destul de ușor de interpretat și permisModelarea predictivă facilitează efectuarea unei analize de scenarii ce se întâmplă dacă;

Metoda Bayesiană vă permite să combinați în mod natural modele,deduse din date și, de exemplu, cunoștințe de specialitate obținute în mod explicit;

Utilizarea rețelelor bayesiene evită problema supraadaptării(suprafitting), adică o complicație excesivă a modelului, care este o slăbiciunemulte metode (de exemplu, arbori de decizie și rețele neuronale).

Abordarea Naive Bayes are următoarele dezavantaje:

Este corect să înmulțiți probabilitățile condiționate numai atunci când toate intrărilevariabilele sunt cu adevărat independente statistic; deşi adesea această metodăarată rezultate destul de bune atunci când condiția statistică nu este îndeplinităindependența, dar teoretic o astfel de situație ar trebui gestionată de mai complexemetode bazate pe antrenarea rețelelor bayesiene;

Procesarea directă a variabilelor continue nu este posibilă - sunt necesareconversie la o scară de interval, astfel încât atributele să fie discrete; oricum astfeltransformările pot duce uneori la pierderea tiparelor semnificative;

Rezultatul clasificării în abordarea Naive Bayes este influențat doar devalorile individuale ale variabilelor de intrare, influența combinată a perechilor sautripletele de valori ale diferitelor atribute nu sunt luate în considerare aici. Acest lucru s-ar putea îmbunătățicalitatea modelului de clasificare în ceea ce privește acuratețea predictivă,cu toate acestea, ar crește numărul de opțiuni testate.

Rețele neuronale artificiale

Rețelele neuronale artificiale (denumite în continuare rețele neuronale) pot fi sincrone și asincrone.În rețelele neuronale sincrone, în fiecare moment de timp, starea sa se schimbă numai un neuron. În asincron - starea se schimbă imediat într-un întreg grup de neuroni, de regulă, în toate strat. Sunt două arhitecturi de bază- rețele stratificate și complet conectate.Conceptul cheie în rețelele stratificate este conceptul de strat.Un strat este unul sau mai mulți neuroni ale căror intrări primesc același semnal comun.Rețelele neuronale stratificate sunt rețele neuronale în care neuronii sunt împărțiți în grupuri separate (straturi), astfel încât informațiile să fie procesate strat cu strat.În rețelele stratificate, neuronii stratului i primesc semnale de intrare, le transformă și le transmit prin puncte de ramificare către neuronii stratului (i+1). Și așa mai departe până la stratul k-lea, care producesemnale de ieșire pentru interpret și utilizator. Numărul de neuroni din fiecare strat nu este legat de numărul de neuroni din alte straturi și poate fi arbitrar.Într-un singur strat, datele sunt procesate în paralel, iar în întreaga rețea, procesarea se realizează secvenţial - de la strat la strat. Rețelele neuronale stratificate includ, de exemplu, perceptroni multistrat, rețele cu funcții de bază radială, cognitron, noncognitron, rețele de memorie asociativă.Cu toate acestea, semnalul nu este întotdeauna trimis către toți neuronii din strat. Într-un cognitron, de exemplu, fiecare neuron al stratului curent primește semnale numai de la neuronii apropiați în stratul anterior.

Rețelele stratificate, la rândul lor, pot fi cu un singur strat sau cu mai multe straturi.

Rețea cu un singur strat- o rețea formată dintr-un singur strat.

Rețea multistrat- o retea cu mai multe straturi.

Într-o rețea multistrat, primul strat se numește strat de intrare, straturile ulterioare sunt numite interne sau ascunse, iar ultimul strat se numește strat de ieșire. Astfel, straturile intermediare sunt toate straturile dintr-o rețea neuronală multistrat, cu excepția celor de intrare și de ieșire.Stratul de intrare al rețelei comunică cu datele de intrare, iar stratul de ieșire comunică cu ieșirea.Astfel, neuronii pot fi de intrare, de ieșire și ascunși.Stratul de intrare este organizat din neuronii de intrare, care primesc date și le distribuie la intrările neuronilor din stratul ascuns al rețelei.Un neuron ascuns este un neuron situat în stratul ascuns al unei rețele neuronale.Produce neuroni de ieșire, din care este organizat stratul de ieșire al rețeleirezultatele rețelei neuronale.

În rețelele mesh Fiecare neuron își transmite producția altor neuroni, inclusiv el însuși. Semnalele de ieșire ale rețelei pot fi toate sau unele dintre semnalele de ieșire ale neuronilor după mai multe cicluri de funcționare a rețelei.

Toate semnalele de intrare sunt date tuturor neuronilor.

Antrenamentul rețelelor neuronale

Înainte de a utiliza o rețea neuronală, aceasta trebuie instruită.Procesul de antrenare a unei rețele neuronale constă în ajustarea parametrilor interni la o anumită sarcină.Algoritmul rețelei neuronale este iterativ; pașii săi se numesc epoci sau cicluri.O epocă este o iterație a procesului de învățare, inclusiv prezentarea tuturor exemplelor din setul de antrenament și, eventual, verificarea calității învățării pe un set de testare. mulți. Procesul de învățare se desfășoară pe eșantionul de instruire.Setul de antrenament include valorile de intrare și valorile de ieșire corespunzătoare ale setului de date. În timpul antrenamentului, rețeaua neuronală găsește anumite dependențe între câmpurile de ieșire și câmpurile de intrare.Astfel, ne confruntăm cu întrebarea - de ce câmpuri de intrare (funcții) avem nevoie?necesar de utilizat. Inițial, alegerea se face euristic, apoinumărul de intrări poate fi modificat.

O problemă care poate apărea este numărul de observații din setul de date. Și deși există anumite reguli care descriu relația dintre numărul necesar de observații și dimensiunea rețelei, corectitudinea lor nu a fost dovedită.Numărul de observații necesare depinde de complexitatea problemei care se rezolvă. Pe măsură ce numărul de caracteristici crește, numărul de observații crește neliniar; această problemă se numește „blestemul dimensionalității”. În caz de cantitate insuficientădate, se recomandă utilizarea unui model liniar.

Analistul trebuie să determine numărul de straturi din rețea și numărul de neuroni din fiecare strat.În continuare, trebuie să atribuiți astfel de valori de ponderi și decalaje care potminimizați eroarea de decizie. Greutățile și părtinirile sunt ajustate automat pentru a minimiza diferența dintre semnalele de ieșire dorite și primite, numită eroare de antrenament.Eroarea de antrenament pentru rețeaua neuronală construită este calculată prin compararevalorile de ieșire și țintă (dorite). Funcția de eroare se formează din diferențele rezultate.

Funcția de eroare este o funcție obiectivă care necesită minimizare în procesînvăţarea supravegheată a unei reţele neuronale.Folosind funcția de eroare, puteți evalua calitatea rețelei neuronale în timpul antrenamentului. De exemplu, suma erorilor pătrate este adesea folosită.Calitatea antrenamentului unei rețele neuronale determină capacitatea acesteia de a rezolva sarcinile atribuite.

Reantrenarea unei rețele neuronale

Când antrenați rețelele neuronale, apare adesea o dificultate serioasă numităproblema supraadaptarii.Suprafitting, sau overfitting - supramontarerețeaua neuronală la un set specific de exemple de antrenament, în care rețeaua pierdecapacitatea de a generaliza.Supraantrenamentul apare atunci când este prea mult antrenament, nu suficientexemple de antrenament sau o structură de rețea neuronală supracomplicată.Recalificarea se datorează faptului că alegerea setului de antrenamenteste aleatorie. De la primii pași de învățare, eroarea scade. Pepașii următori pentru a reduce parametrii de eroare (funcția obiectivă).se adaptează la caracteristicile setului de antrenament. Cu toate acestea, acest lucru se întâmplă„ajustare” nu la modelele generale ale seriei, ci la caracteristicile părții sale -subset de antrenament. În același timp, acuratețea prognozei scade.Una dintre opțiunile de combatere a supraantrenamentului în rețea este împărțirea eșantionului de antrenament în douăseturi (antrenament și testare).Rețeaua neuronală este antrenată pe setul de antrenament. Modelul construit este verificat pe setul de testare. Aceste seturi nu trebuie să se intersecteze.Cu fiecare pas, parametrii modelului se schimbă, dar scade constantValoarea funcției obiectiv apare tocmai pe setul de antrenament. Când împărțim setul în două, putem observa o modificare a erorii de prognoză pe setul de testare în paralel cu observațiile pe setul de antrenament. nistenumărul de pași de eroare de prognoză scade pe ambele seturi. Cu toate acestea, peLa un anumit pas, eroarea de pe setul de testare începe să crească, în timp ce eroarea de pe setul de antrenament continuă să scadă. Acest moment este considerat începutul recalificării

Instrumente de datamining

Atât liderii de renume mondial, cât și noile companii în curs de dezvoltare sunt implicați în dezvoltarea sectorului Data Mining al pieței globale de software. Instrumentele DataMining pot fi prezentate fie ca o aplicație autonomă, fie ca suplimente la produsul principal.Ultima opțiune este implementată de mulți lideri de pe piața de software.Astfel, a devenit deja o tradiție ca dezvoltatorii de pachete statistice universale, pe lângă metodele tradiționale de analiză statistică, să includă în pachet.un set specific de metode DataMining. Acestea sunt pachete de genul SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner). Unii furnizori de soluții OLAP oferă și un set de metode DataMining, cum ar fi familia de produse Cognos. Există furnizori care includ soluții DataMining în funcționalitatea DBMS: aceștia sunt Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMIntelligentMinerforData).

Bibliografie

  1. Abdikeev N.M. Danko T.P. Ildemenov S.V. Kiselev A.D., „Reingineria proceselor de afaceri. Curs MBA”, M.: Editura Eksmo, 2005. - 592 p. - (MBA)
  1. Abdikeev N.M., Kiselev A.D. „Managementul cunoștințelor într-o corporație și reingineria afacerilor” - M.: Infra-M, 2011. - 382 p. – ISBN 978-5-16-004300-5
  1. Barseghian A.A., Kupriyanov M.S., Stepanenko V.V., Kholod I.I. „Metode și modele de analiză a datelor: OLAP și Data Mining”, Sankt Petersburg: BHV-Petersburg, 2004, 336 p., ISBN 5-94157-522-X
  1. Duce ÎN., Samoilenko A., „Data Mining.Curs de pregătire” Sankt Petersburg: Peter, 2001, 386 p.
  1. Chubukova I.A., curs Data Mining, http://www.intuit.ru/department/database/datamining/
  1. IanH. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Data Mining: Practical Machine Learning Tools and Techniques (Ediția a treia), ISBN 978-0-12-374856-0
  1. Petrushin V.A. , Khan L., Multimedia Data Mining and Knowledge Discovery

Ministerul Educației și Științei al Federației Ruse

Instituția de învățământ de învățământ profesional superior bugetar de stat federal

„UNIVERSITATEA POLITEHNICĂ TOMSK DE CERCETARE NAȚIONALĂ”

Institutul de Cibernetică

Directia Informatica si Informatica

Departamentul de VT

Test

la disciplina informatică și inginerie informatică

Subiect: Metode de extragere a datelor

Introducere

Exploatarea datelor. Concepte de bază și definiții

1 Pași în procesul de extragere a datelor

2 Componente ale sistemelor inteligente de analiză

3 Metode de extragere a datelor

Metode de extragere a datelor

1 Derivarea regulilor de asociere

2 algoritmi de rețea neuronală

3 Metodele celui mai apropiat vecin și k-nearest neighbors

4 Arbori de decizie

5 algoritmi de grupare

6 Algoritmi genetici

Domenii de aplicare

Producători de instrumente de data mining

Critica metodelor

Concluzie

Bibliografie

Introducere

Rezultatul dezvoltării tehnologia Informatiei este cantitatea colosală de date acumulată în în format electronic, crescând într-un ritm rapid. În același timp, datele, de regulă, au o structură eterogenă (texte, imagini, audio, video, documente hipertext, baze de date relaționale). Acumulat pentru termen lung datele pot conține modele, tendințe și relații, care sunt informații valoroase pentru planificare, prognoză, luare a deciziilor și controlul procesului. Cu toate acestea, oamenii sunt fizic incapabili să analizeze eficient astfel de volume de date eterogene. Metodele statisticii matematice tradiționale au pretins de mult timp a fi instrumentul principal pentru analiza datelor. Cu toate acestea, ele nu permit sinteza de noi ipoteze, ci pot fi folosite doar pentru confirmarea ipotezelor preformulate și a analizei exploratorii „grund”, care formează baza prelucrării analitice online (OLAP). Adesea, formularea unei ipoteze se dovedește a fi cea mai dificilă sarcină atunci când se efectuează analize pentru luarea deciziilor ulterioare, deoarece nu toate modelele din date sunt evidente la prima vedere. Prin urmare, tehnologiile de exploatare a datelor sunt considerate una dintre cele mai importante și promițătoare subiecte pentru cercetare și aplicare în industria tehnologiei informației. Exploatarea datelor în acest caz se referă la procesul de identificare a cunoștințelor noi, corecte și potențial utile pe baza unor cantități mari de date. Astfel, MIT Technology Review a descris data mining drept una dintre cele zece tehnologii emergente care vor schimba lumea.

1. Exploatarea datelor. Concepte de bază și definiții

Data Mining este procesul de descoperire în „brută” a unor date necunoscute anterior, nebanale, practic utile și interpretabile, necesare pentru luarea deciziilor în diverse domenii ale activității umane.

Esența și scopul tehnologiei Data Mining pot fi formulate după cum urmează: este o tehnologie care este concepută pentru a căuta în volume mari de date modele neevidente, obiective și practice.

Tiparele neevidente sunt tipare care nu pot fi detectate prin metode standard de procesare a informațiilor sau prin analize de specialitate.

Tiparele obiective trebuie înțelese ca tipare care corespund pe deplin realității, spre deosebire de opinia experților, care este întotdeauna subiectivă.

Acest concept de analiză a datelor presupune că:

§ datele pot fi inexacte, incomplete (conțin omisiuni), contradictorii, eterogene, indirecte și, în același timp, să aibă volume gigantice; prin urmare, înțelegerea datelor în aplicații specifice necesită un efort intelectual semnificativ;

§ algoritmii de analiză a datelor înșiși pot avea „elemente de inteligență”, în special, capacitatea de a învăța din precedente, adică de a trage concluzii generale pe baza observațiilor private; dezvoltarea unor astfel de algoritmi necesită, de asemenea, un efort intelectual semnificativ;

§ procesele de prelucrare a datelor brute în informație și a informațiilor în cunoștințe nu pot fi efectuate manual și necesită automatizare.

Tehnologia Data Mining se bazează pe conceptul de șabloane care reflectă fragmente de relații multidimensionale în date. Aceste modele reprezintă modele inerente subeșantioanelor de date care pot fi exprimate compact într-o formă care poate fi citită de om.

Căutarea tiparelor se efectuează folosind metode care nu sunt limitate de ipoteze a priori despre structura eșantionului și tipul de distribuție a valorilor indicatorilor analizați.

O caracteristică importantă a Data Mining-ului este natura non-standard și neevidentă a tiparelor căutate. Cu alte cuvinte, instrumentele Data Mining diferă de instrumentele de procesare a datelor statistice și instrumentele OLAP prin faptul că, în loc să verifice interdependențe presupuse de către utilizatori, ei sunt capabili să găsească astfel de interdependențe în mod independent pe baza datelor disponibile și să construiască ipoteze despre natura lor. Există cinci tipuri standard de modele identificate prin metodele Data Mining:

· asociere - o mare probabilitate ca evenimentele să fie conectate între ele. Un exemplu de asociație sunt articolele dintr-un magazin care sunt adesea achiziționate împreună;

· succesiune - o mare probabilitate a unui lanț de evenimente legate în timp. Un exemplu de secvență este o situație în care, într-o anumită perioadă de la achiziționarea unui produs, altul va fi achiziționat cu un grad ridicat de probabilitate;

· clasificare - există semne care caracterizează grupul căruia îi aparține un eveniment sau un obiect;

· gruparea este un model asemănător clasificării și diferă de acesta prin faptul că grupurile în sine nu sunt specificate - sunt identificate automat în timpul prelucrării datelor;

· modele temporale - prezența modelelor în dinamica comportamentului anumitor date. Un exemplu tipic de tipar de timp sunt fluctuațiile sezoniere ale cererii pentru anumite bunuri sau servicii.

1.1 Etape în procesul de extragere a datelor

În mod tradițional, în procesul de extragere a datelor se disting următoarele etape:

1. Studiul disciplinei, în urma căruia se formulează principalele scopuri ale analizei.

2. Colectarea datelor.

Preprocesarea datelor:

A. Curățarea datelor - eliminând inconsecvențele și „zgomotul” aleatoriu din datele sursă

b. Integrarea datelor - combinarea datelor din mai multe surse posibile într-un singur depozit. Conversia datelor. În această etapă, datele sunt convertite într-o formă adecvată pentru analiză. Sunt adesea folosite agregarea datelor, eșantionarea atributelor, compresia datelor și reducerea dimensionalității.

4. Analiza datelor. Ca parte a acestei etape, algoritmii de minerit sunt utilizați pentru a extrage modele.

5. Interpretarea tiparelor găsite. Această etapă poate include vizualizarea tiparelor extrase, identificarea tiparelor cu adevărat utile bazate pe o funcție de utilitate.

Utilizarea noilor cunoștințe.

1.2 Componentele sistemelor inteligente de analiză

De obicei, sistemele de extragere a datelor au următoarele componente principale:

1. O bază de date, un depozit de date sau un alt depozit de informații. Aceasta ar putea fi una sau mai multe baze de date, depozit de date, foi de calcul sau alte tipuri de depozite care pot fi curățate și integrate.

2. Server de bază de date sau de depozit de date. Serverul specificat este responsabil pentru preluarea datelor esențiale pe baza solicitării utilizatorului.

Bază de cunoștințe. Acestea sunt cunoștințele de domeniu care ghidează cum să căutați și să evaluați utilitatea tiparelor rezultate.

Serviciul de minerit de cunoștințe. Este o parte integrantă a sistemului de data mining și conține un set de module funcționale pentru sarcini precum caracterizarea, căutarea asocierilor, clasificarea, analiza clusterului și analiza varianței.

Modul de evaluare a modelului. Această componentă calculează măsurile de interes sau utilitatea tiparelor.

Grafic interfața cu utilizatorul. Acest modul este responsabil pentru comunicarea dintre utilizator și sistemul de data mining, vizualizarea tiparelor în diferite forme.

1.3 Metode de extragere a datelor

Cele mai multe dintre metodele analitice utilizate în tehnologia Data Mining sunt algoritmi și metode matematice bine-cunoscute. Ceea ce este nou în aplicația lor este posibilitatea utilizării lor în rezolvarea anumitor probleme specifice, datorită capacităților emergente de hardware și software. Trebuie remarcat faptul că majoritatea metodelor de Data Mining au fost dezvoltate în cadrul teoriei inteligenței artificiale. Să ne uităm la cele mai utilizate metode:

Derivarea regulilor de asociere.

2. Algoritmi de rețea neuronală, ideea cărora se bazează pe o analogie cu funcționarea țesutului nervos și constă în faptul că parametrii inițiali sunt considerați ca semnale care sunt transformate în conformitate cu conexiunile existente între „neuroni”, iar raspunsul intregii retele este considerat ca raspunsul rezultat din analiza la datele originale.

Selectarea unui analog apropiat al datelor originale din datele istorice existente. Denumită și metoda „cel mai apropiat vecin”.

Arborele de decizie sunt o structură ierarhică bazată pe un set de întrebări care necesită un răspuns „Da” sau „Nu”.

Modelele de clustere sunt folosite pentru a grupa evenimente similare în grupuri pe baza valorilor similare ale mai multor câmpuri dintr-un set de date.

În capitolul următor vom descrie mai detaliat metodele de mai sus.

2. Metode de extragere a datelor

2.1 Deducerea regulilor de asociere

Regulile de asociere sunt reguli de forma „dacă... atunci...”. Căutarea unor astfel de reguli într-un set de date dezvăluie conexiuni ascunse în date aparent fără legătură. Unul dintre exemplele cel mai frecvent citate de găsire a regulilor de asociere este problema găsirii de conexiuni stabile într-un coș de cumpărături. Această problemă este de a determina ce produse sunt achiziționate de clienți împreună, astfel încât agenții de marketing să poată plasa în mod corespunzător aceste produse în magazin pentru a crește vânzările.

Regulile de asociere sunt definite ca instrucțiuni de forma (X1,X2,…,Xn) -> Y, unde se presupune că Y poate fi prezent într-o tranzacție cu condiția ca X1,X2,…,Xn să fie prezent în aceeași tranzacție. Trebuie remarcat faptul că cuvântul „poate” implică faptul că regula nu este o identitate, ci este satisfăcută doar cu o anumită probabilitate. În plus, Y poate fi un set de elemente, mai degrabă decât un singur element. Probabilitatea de a găsi Y într-o tranzacție care conține elementele X1,X2,…,Xn se numește încredere. Procentul de tranzacții care conțin o regulă din numărul total de tranzacții se numește suport. Nivelul de încredere care trebuie să depășească încrederea unei reguli se numește interes.

Există diferite tipuri de reguli de asociere. În forma lor cea mai simplă, regulile de asociere comunică doar prezența sau absența unei asociații. Astfel de reguli se numesc Reguli de asociere booleene. Un exemplu de astfel de regulă: „clienții care cumpără iaurt cumpără și unt cu conținut scăzut de grăsimi”.

Regulile care grupează mai multe reguli de asociere se numesc Reguli de asociere pe mai multe niveluri sau generalizate. La construirea unor astfel de reguli, elementele sunt de obicei grupate după o ierarhie, iar căutarea se desfășoară la cel mai înalt nivel conceptual. De exemplu, „clienții care cumpără lapte cumpără și pâine”. În acest exemplu, laptele și pâinea conțin o ierarhie de diferite tipuri și mărci, dar căutarea la nivelul de jos nu va dezvălui reguli interesante.

Un tip mai complex de regulă este Regulile Cantitative de Asociere. Acest tip de regulă este căutat folosind atribute cantitative (de exemplu, preț) sau categoriale (de exemplu, gen) și este definită ca ( , ,…,} -> . De exemplu, „cumpărătorii a căror vârstă este între 30 și 35 de ani și cu un venit de peste 75.000 pe an cumpără mașini care costă mai mult de 20.000”.

Tipurile de reguli de mai sus nu abordează faptul că tranzacțiile sunt, prin natura lor, dependente de timp. De exemplu, căutarea înainte ca un produs să fie listat spre vânzare sau după ce acesta a dispărut de pe piață va afecta negativ pragul de suport. Ținând cont de acest lucru, conceptul de durata de viață a atributului a fost introdus în algoritmii de căutare a regulilor de asociere temporară (Temporal Association Rules).

Problema căutării regulilor de asociere poate fi, în general, descompusă în două părți: căutarea unor seturi de elemente care apar frecvent și generarea de reguli bazate pe mulțimile care apar frecvent. Studiile anterioare au urmat, în cea mai mare parte, aceste linii și le-au extins în direcții diferite.

De la apariția algoritmului Apriori, acest algoritm este cel mai frecvent utilizat în primul pas. Multe îmbunătățiri, de exemplu în ceea ce privește viteza și scalabilitatea, vizează îmbunătățirea algoritmului Apriori, corectarea proprietății sale eronate de a genera prea mulți candidați pentru seturile de elemente care apar cel mai frecvent. Apriori generează seturi de elemente folosind numai seturi mari, găsit în pasul anterior, fără a reexamina tranzacțiile. Algoritmul modificat AprioriTid îmbunătățește Apriori folosind baza de date doar la prima trecere. La calcularea în pașii următori se folosesc doar datele create în prima trecere și care sunt mult mai mici ca dimensiune decât baza de date inițială. Acest lucru duce la o creștere uriașă a productivității. O versiune îmbunătățită suplimentară a algoritmului, numită AprioriHybrid, poate fi obținută prin utilizarea Apriori la primele treceri, iar apoi trecerea la AprioriTid la trecerile ulterioare, când cele de-al zecelea seturi candidate pot fi deja localizate în întregime în memoria computerului.

Eforturile ulterioare de îmbunătățire a algoritmului Apriori sunt legate de paralelizarea algoritmului (distribuția numărului, distribuția datelor, distribuția candidaților etc.), scalarea acestuia (distribuția inteligentă a datelor, distribuția hibridă), introducerea de noi structuri de date, cum ar fi arbori de elemente care apar frecvent (FP-creștere).

Al doilea pas este caracterizat în principal de autenticitate și interes. Noile modificări adaugă dimensionalitatea, calitatea și suportul de sincronizare descris mai sus regulilor tradiționale ale regulilor booleene. Un algoritm evolutiv este adesea folosit pentru a găsi reguli.

2.2 Algoritmi de rețele neuronale

Rețelele neuronale artificiale au apărut ca urmare a aplicării aparatelor matematice la studiul funcționării sistemului nervos uman în scopul reproducerii acestuia. Și anume: capacitatea sistemului nervos de a învăța și de a corecta erorile, care ar trebui să ne permită să simulăm, deși mai degrabă aproximativ, activitatea creierului uman. Principala parte structurală și funcțională a rețelei neuronale este neuronul formal, prezentat în Fig. 1, unde x0, x1,..., xn sunt componentele vectorului semnalului de intrare, w0,w1,...,wn sunt valorile greutăților semnalelor de intrare ale neuronului și y este ieșirea neuronului semnal.

Orez. 1. Neuron formal: sinapse (1), sumator (2), convertor (3).

Un neuron formal este format din 3 tipuri de elemente: sinapse, sumator și convertor. O sinapsă caracterizează puterea conexiunii dintre doi neuroni.

Adunatorul adaugă semnalele de intrare, înmulțite anterior cu greutățile corespunzătoare. Convertorul implementează funcția unui singur argument - ieșirea sumatorului. Această funcție se numește funcția de activare sau funcția de transfer a neuronului.

Neuronii formali descriși mai sus pot fi combinați în așa fel încât semnalele de ieșire ale unor neuroni să fie intrarea altora. Setul rezultat de neuroni interconectați se numește rețele neuronale artificiale. rețele neuronale, ANN) sau, pe scurt, rețele neuronale.

Există următoarele trei tipuri generale de neuroni, în funcție de poziția lor în rețeaua neuronală:

Neuroni de intrare (noduri de intrare) cărora le sunt furnizate semnale de intrare. Astfel de neuroni au de obicei o singură intrare cu greutatea unitară, nu există nicio părtinire, iar valoarea de ieșire a neuronului este egală cu semnalul de intrare;

Noduri de ieșire, ale căror valori de ieșire reprezintă semnalele de ieșire rezultate ale rețelei neuronale;

Neuroni ascunși (noduri ascunse) care nu au conexiuni directe cu semnalele de intrare, în timp ce valorile semnalelor de ieșire ale neuronilor ascunși nu sunt semnalele de ieșire ale ANN.

Pe baza structurii conexiunilor interneuronice, se disting două clase de ANN-uri:

ANN-uri feedforward, în care semnalul se propagă numai de la neuronii de intrare la neuronii de ieșire.

ANN recurent - ANN cu părere. În astfel de ANN, semnalele pot fi transmise între orice neuroni, indiferent de locația lor în ANN.

Există două abordări generale pentru formarea unui ANN:

Antrenament cu un profesor.

Învățați fără profesor.

Învățarea supravegheată implică utilizarea unui set pre-generat de exemple de instruire. Fiecare exemplu conține un vector de semnale de intrare și un vector corespunzător de semnale de ieșire de referință, care depind de sarcina la îndemână. Acest set numit set de antrenament sau set de antrenament. Antrenarea unei rețele neuronale are ca scop modificarea greutăților conexiunilor ANN, astfel încât valorile semnalelor de ieșire ANN să difere cât mai puțin posibil de valorile necesare ale semnalelor de ieșire pentru un anumit vector de semnale de intrare. .

În învățarea nesupravegheată, ponderile conexiunii sunt ajustate fie ca urmare a competiției dintre neuroni, fie ținând cont de corelarea semnalelor de ieșire ale neuronilor între care există o conexiune. În cazul învățării nesupravegheate, nu se utilizează un set de antrenament.

Rețelele neuronale sunt folosite pentru a rezolva o gamă largă de probleme, cum ar fi planificarea sarcinii utile pentru navetele spațiale și prognozarea ratelor de schimb. Cu toate acestea, ele nu sunt adesea utilizate în sistemele de data mining din cauza complexității modelului (cunoștințele înregistrate ca ponderea a câteva sute de conexiuni interneurale depășesc complet analiza și interpretarea umană) și timpul lung de antrenament pe un set mare de antrenament. Pe de altă parte, rețelele neuronale au astfel de avantaje pentru utilizare în sarcinile de analiză a datelor, precum rezistența la datele zgomotoase și precizia ridicată.

2.3 Metodele celui mai apropiat vecin și k-nearest neighbors

Baza algoritmului de cel mai apropiat vecin (algoritmul de cel mai apropiat vecin) și algoritmul de k-cel mai apropiat vecin (KNN) este asemănarea obiectelor. Algoritmul cel mai apropiat vecin selectează, dintre toate obiectele cunoscute, obiectul care este cât mai aproape posibil (folosind metrica distanței dintre obiecte, de exemplu, euclidian) de un nou obiect necunoscut anterior. Principala problemă a metodei celui mai apropiat vecin este sensibilitatea acesteia la valori aberante din datele de antrenament.

Problema descrisă poate fi evitată prin algoritmul KNN, care identifică printre toate observațiile cei mai apropiați k vecini care sunt similari cu noul obiect. Pe baza claselor de vecini cei mai apropiati se ia o decizie cu privire la noul obiect. O sarcină importantă a acestui algoritm este de a selecta coeficientul k - numărul de înregistrări care vor fi considerate similare. O modificare a algoritmului în care contribuția unui vecin este proporțională cu distanța până la noul obiect (metoda celor mai apropiati vecini ponderați k) permite obținerea unei mai mari precizii de clasificare. Metoda k cei mai apropiați vecini vă permite, de asemenea, să evaluați acuratețea prognozei. De exemplu, dacă toți k vecini cei mai apropiați au aceeași clasă, atunci probabilitatea ca obiectul testat să aibă aceeași clasă este foarte mare.

Printre caracteristicile algoritmului, este de remarcat rezistența acestuia la valori anormale, deoarece probabilitatea ca o astfel de înregistrare să fie inclusă în numărul de vecini k-cel mai apropiat este scăzută. Dacă s-a întâmplat acest lucru, atunci impactul asupra votului (în special ponderat) (pentru k>2) va fi, de asemenea, cel mai probabil nesemnificativ și, prin urmare, impactul asupra rezultatului clasificării va fi, de asemenea, mic. De asemenea, avantajele sunt simplitatea implementării, ușurința de interpretare a rezultatului algoritmului, capacitatea de a modifica algoritmul utilizând cele mai potrivite funcții de combinare și metrici, ceea ce vă permite să ajustați algoritmul la o anumită sarcină. Algoritmul KNN are și o serie de dezavantaje. În primul rând, setul de date utilizat pentru algoritm trebuie să fie reprezentativ. În al doilea rând, modelul nu poate fi separat de date: toate exemplele trebuie folosite pentru a clasifica un nou exemplu. Această caracteristică limitează foarte mult utilizarea algoritmului.

2.4 Arbori de decizie

Termenul „arbori de decizie” se referă la o familie de algoritmi bazată pe reprezentarea regulilor de clasificare într-o structură ierarhică, secvenţială. Aceasta este cea mai populară clasă de algoritmi pentru rezolvarea problemelor de data mining.

O familie de algoritmi pentru construirea arborilor de decizie face posibilă prezicerea valorii unui parametru pentru un caz dat pe baza unei cantități mari de date despre alte cazuri similare. De obicei, algoritmii acestei familii sunt utilizați pentru a rezolva probleme care fac posibilă împărțirea tuturor datelor inițiale în mai multe grupuri discrete.

Când se aplică algoritmi de construcție a arborelui de decizie la un set de date inițiale, rezultatul este afișat ca arbore. Astfel de algoritmi fac posibilă implementarea mai multor niveluri ale unei astfel de diviziuni, împărțind grupurile rezultate (ramuri de copac) în altele mai mici pe baza altor caracteristici. Împărțirea continuă până când valorile care se presupune a fi prezise devin aceleași (sau, în cazul unei valori continue a parametrului prezis, se închid) pentru toate grupurile rezultate (frunze ale arborelui). Aceste valori sunt folosite pentru a face predicții bazate pe acest model.

Funcționarea algoritmilor pentru construirea arborilor de decizie se bazează pe utilizarea metodelor de regresie și analiză a corelației. Unul dintre cei mai populari algoritmi ai acestei familii este CART (Classification and Regression Trees), bazat pe împărțirea datelor dintr-o ramură de arbore în două ramuri copil; Mai mult, împărțirea ulterioară a unei anumite ramuri depinde de câte date inițiale descrie această ramură. Alți algoritmi similari vă permit să împărțiți o ramură în mai multe ramuri copil. În acest caz, împărțirea se face pe baza celui mai mare coeficient de corelație pentru datele descrise de ramura între parametrul conform căruia are loc împărțirea și parametrul care trebuie prezis ulterior.

Popularitatea abordării este asociată cu claritatea și claritatea. Dar arborii de decizie sunt în mod fundamental incapabili să găsească „cele mai bune” (cele mai complete și mai precise) reguli în date. Ei implementează principiul naiv al vizualizării secvențiale a caracteristicilor și găsesc de fapt părți ale tiparelor reale, creând doar iluzia unei concluzii logice.

2.5 Algoritmi de grupare

Clustering este sarcina de a împărți un set de obiecte în grupuri numite clustere. Principala diferență dintre grupare și clasificare este că lista de grupuri nu este clar definită și este determinată în timpul funcționării algoritmului.

Aplicarea analizei cluster în general se reduce la următorii pași:

· selectarea unui eșantion de obiecte pentru grupare;

· definirea unui set de variabile prin care vor fi evaluate obiectele din eșantion. Dacă este necesar, normalizați valorile variabilelor;

· calcularea valorilor de măsurare a similitudinii dintre obiecte;

· aplicarea metodei de analiză a clusterelor pentru a crea grupuri de obiecte similare (clustere);

· prezentarea rezultatelor analizei.

După primirea și analizarea rezultatelor, este posibil să se ajusteze metrica selectată și metoda de grupare până la obținerea rezultatului optim.

Algoritmii de grupare includ grupuri ierarhice și plate. Algoritmii ierarhici (numiți și algoritmi de taxonomie) construiesc nu doar o partiție a eșantionului în clustere disjunse, ci un sistem de partiții imbricate. Astfel, rezultatul algoritmului este un arbore de clustere, a cărui rădăcină este întregul eșantion, iar frunzele sunt cele mai mici clustere. Algoritmii plati construiesc o partiție de obiecte în grupuri care nu se intersectează unele cu altele.

O altă clasificare a algoritmilor de grupare este în algoritmi clari și neclari. Algoritmi clari (sau care nu se suprapun) atribuie fiecărui obiect eșantion un număr de cluster, adică fiecare obiect aparține unui singur cluster. Algoritmii fuzzy (sau care se intersectează) atribuie fiecărui obiect un set de valori reale care arată gradul de relație a obiectului cu clusterele. Astfel, fiecare obiect aparține fiecărui grup cu o anumită probabilitate.

Printre algoritmii de grupare ierarhică, există două tipuri principale: algoritmi de jos în sus și de sus în jos. Algoritmii de sus în jos funcționează pe un principiu de sus în jos: mai întâi, toate obiectele sunt plasate într-un singur grup, care este apoi împărțit în grupuri din ce în ce mai mici. Mai obișnuiți sunt algoritmii de jos în sus, care încep prin plasarea fiecărui obiect într-un grup separat și apoi combinând grupurile în altele din ce în ce mai mari până când toate obiectele din eșantion sunt conținute într-un singur grup. Astfel, se construiește un sistem de partiții imbricate. Rezultatele unor astfel de algoritmi sunt de obicei prezentate sub forma unui arbore.

Un dezavantaj al algoritmilor ierarhici este sistemul de partiții complete, care poate fi inutil în contextul problemei care se rezolvă.

Să luăm acum în considerare algoritmii plati. Cei mai simpli dintre această clasă sunt algoritmii de eroare pătratică. Problema grupării pentru acești algoritmi poate fi considerată ca construirea unei partiții optime a obiectelor în grupuri. În acest caz, optimitatea poate fi definită ca cerința de a minimiza eroarea pătratică medie a partiționării:

,

Unde c j - „centrul de masă” al clusterului j(punct cu caracteristici medii pentru un cluster dat).

Cel mai comun algoritm din această categorie este metoda k-means. Acest algoritm construiește un număr dat de clustere situate cât mai departe posibil. Lucrarea algoritmului este împărțită în mai multe etape:

Selectați aleatoriu k puncte care sunt „centrele de masă” inițiale ale clusterelor.

2. Atribuiți fiecare obiect grupului cu cel mai apropiat „centru de masă”.

Dacă criteriul de oprire a algoritmului nu este satisfăcut, reveniți la pasul 2.

Modificarea minimă a erorii pătratice medii este de obicei aleasă ca criteriu pentru oprirea algoritmului. De asemenea, este posibil să opriți algoritmul dacă la pasul 2 nu au existat obiecte care s-au mutat de la un cluster la altul. Dezavantajele acestui algoritm includ necesitatea de a specifica numărul de clustere pentru partiționare.

Cel mai popular algoritm de grupare fuzzy este algoritmul c-means. Este o modificare a metodei k-means. Etapele algoritmului:

1. Selectați partiția fuzzy inițială n obiecte pe k clustere prin alegerea unei matrice de membri U mărimea n x k.

2. Folosind matricea U, găsiți valoarea criteriului de eroare fuzzy:

,

Unde c k - „centrul de masă” al clusterului fuzzy k:

3. Regrupați obiectele pentru a reduce această valoare a criteriului de eroare neclară.

4. Reveniți la pasul 2 până când matricea se schimbă U nu va deveni nesemnificativ.

Acest algoritm poate să nu fie potrivit dacă numărul de clustere este necunoscut în prealabil sau dacă este necesar să se atribuie fără ambiguitate fiecare obiect unui cluster.

Următorul grup de algoritmi sunt algoritmi bazați pe teoria grafurilor. Esența unor astfel de algoritmi este că o selecție de obiecte este reprezentată sub forma unui grafic G=(V, E), ale căror vârfuri corespund obiectelor și ale căror margini au o pondere egală cu „distanța” dintre obiecte. Avantajele algoritmilor de grupare grafică sunt claritatea, ușurința relativă de implementare și capacitatea de a introduce diverse îmbunătățiri bazate pe considerații geometrice. Algoritmii principali sunt algoritmul pentru identificarea componentelor conectate, algoritmul pentru construirea unui arbore de acoperire minim și algoritmul de clustering strat cu strat.

Pentru a selecta un parametru R De obicei, se construiește o histogramă de distribuții ale distanțelor pe perechi. În sarcinile cu o structură de cluster de date bine definită, histograma va avea două vârfuri - unul corespunde distanțelor intra-cluster, al doilea - distanțe inter-cluster. Parametru R este selectat din zona minimă dintre aceste vârfuri. În același timp, este destul de dificil să controlezi numărul de clustere folosind un prag de distanță.

Algoritmul arborelui de întindere minimă construiește mai întâi un arbore de întindere minim pe un grafic și apoi elimină secvențial muchiile cu cea mai mare greutate. Algoritmul de grupare strat cu strat se bazează pe identificarea componentelor grafice conectate la un anumit nivel de distanțe între obiecte (vârfurile). Nivelul distanței este stabilit de pragul distanței c. De exemplu, dacă distanța dintre obiecte este , atunci .

Algoritmul de grupare strat cu strat generează o secvență de subgrafe ale graficului G, care reflectă relațiile ierarhice dintre clustere:

,

Unde G t = (V, E t ) - graficul nivelului Cu t, ,

Cu t - al-lea prag de distanță, m - numărul de niveluri ierarhice,
G 0 = (V, o), o este setul gol de muchii ale graficului obținut de t 0 = 1,
G m = G, adică un grafic al obiectelor fără restricții de distanță (lungimea marginilor graficului), deoarece t m = 1.

Prin modificarea pragurilor de distanță ( Cu 0 , …, Cu m), unde 0 = Cu 0 < Cu 1 < …< Cu m = 1, este posibil să se controleze adâncimea ierarhiei clusterelor rezultate. Astfel, algoritmul de grupare strat cu strat este capabil să creeze atât o partiție plată, cât și ierarhică a datelor.

Clustering vă permite să atingeți următoarele obiective:

· îmbunătățește înțelegerea datelor prin identificarea grupurilor structurale. Împărțirea eșantionului în grupuri de obiecte similare face posibilă simplificarea ulterioară a procesării datelor și luării deciziilor prin aplicarea unei metode diferite de analiză fiecărui cluster;

· vă permite să stocați în mod compact datele. Pentru a face acest lucru, în loc să stocați întregul eșantion, puteți păstra o observație tipică din fiecare grup;

· detectarea de noi obiecte atipice care nu au căzut în niciun cluster.

De obicei, gruparea este utilizată ca metodă auxiliară în analiza datelor.

2.6 Algoritmi genetici

Algoritmii genetici se numără printre metodele universale de optimizare care permit rezolvarea unor probleme de diferite tipuri (combinatorii, probleme generale cu și fără restricții) și cu grade variate de complexitate. În același timp, algoritmii genetici se caracterizează prin posibilitatea căutării atât cu un singur criteriu, cât și cu mai multe criterii într-un spațiu mare, al cărui peisaj nu este neted.

Acest grup de metode utilizează un proces iterativ de evoluție a unei secvențe de generații de modele, inclusiv operațiile de selecție, mutație și încrucișare. La începutul algoritmului, populația se formează aleatoriu. Pentru a evalua calitatea soluțiilor codificate, se utilizează funcția de fitness, care este necesară pentru a calcula fitness-ul fiecărui individ. Pe baza rezultatelor evaluării indivizilor, cei mai potriviți dintre ei sunt selectați pentru încrucișare. Ca urmare a încrucișării indivizilor selectați prin aplicarea operatorului de încrucișare genetică, se creează descendenți, a căror informație genetică se formează ca urmare a schimbului de informații cromozomiale între indivizii părinte. Descendenții creați formează o nouă populație, iar unii dintre descendenți mută, ceea ce se exprimă într-o schimbare aleatorie a genotipurilor lor. Etapa, inclusiv secvența „Evaluarea populației” - „Selectare” - „Încrucișare” - „Mutație”, se numește generație. Evoluția unei populații constă într-o succesiune de astfel de generații.

Se disting următorii algoritmi de selectare a persoanelor pentru încrucișare:

· Panmixia. Ambii indivizi care vor forma o pereche parentală sunt selectați aleatoriu din întreaga populație. Orice individ poate deveni membru al mai multor perechi. Această abordare este universală, dar eficiența algoritmului scade odată cu creșterea dimensiunii populației.

· Selectie. Părinții pot fi persoane cu o condiție fizică cel puțin medie. Această abordare asigură o convergență mai rapidă a algoritmului.

· Consangvinizare. Metoda se bazează pe formarea unei perechi bazată pe rudenia apropiată. Aici, relația este înțeleasă ca distanța dintre membrii unei populații, atât în ​​sensul distanței geometrice a indivizilor în spațiul parametrilor, cât și al distanței Heming dintre genotipuri. Prin urmare, se face o distincție între consangvinizarea genotipică și cea fenotipică. Primul membru al perechii care trebuie încrucișat este selectat la întâmplare, iar cel de-al doilea este mai probabil să fie individul cel mai apropiat de acesta. Consangvinizarea poate fi caracterizată prin proprietatea de a concentra căutarea în nodurile locale, ceea ce duce de fapt la împărțirea populației în grupuri locale separate în jurul unor zone ale peisajului care sunt suspecte pentru extreme.

· Outbreeding. Formarea unei perechi pe baza rudeniei îndepărtate, pentru indivizii cei mai îndepărtați. Outbreeding-ul urmărește să împiedice algoritmul să convergă spre soluții deja găsite, forțând algoritmul să se uite la zone noi, neexplorate.

Algoritmi pentru formarea unei noi populații:

· Selectie cu deplasare. Dintre toți indivizii cu aceleași genotipuri, se acordă preferință celor a căror fitness este mai mare. Astfel, sunt atinse două obiective: cele mai bune soluții găsite, care au seturi de cromozomi diferite, nu se pierd, iar în populație se menține constant o diversitate genetică suficientă. Deplasarea formează o nouă populație de indivizi localizați la distanță, în locul indivizilor grupați în jurul soluției actuale găsite. Această metodă este utilizată pentru probleme multiextremale.

· Selecție de elită. Metodele de selecție de elită asigură că selecția va asigura supraviețuirea celor mai buni membri ai populației. În același timp, unii dintre cei mai buni indivizi trec generației următoare fără nicio schimbare. Convergența rapidă oferită de selecția de elită poate fi compensată printr-o metodă adecvată de selectare a perechilor de părinți. În acest caz, deseori este folosită îndoirea. Această combinație de „selecție de elită” este una dintre cele mai eficiente.

· Selectarea turneelor. Selecția turneelor ​​implementează n turnee pentru a selecta n persoane. Fiecare turneu este construit pe selectarea a k elemente din populație și selectarea celui mai bun individ dintre ele. Cea mai comună este selecția turneelor ​​cu k = 2.

Una dintre cele mai populare aplicații ale algoritmilor genetici în domeniul Data Mining este căutarea celui mai optim model (căutarea unui algoritm care să corespundă specificului unui anumit domeniu). Algoritmii genetici sunt utilizați în primul rând pentru a optimiza topologia rețelelor neuronale și a greutăților. Cu toate acestea, ele pot fi folosite și ca instrument independent.

3. Aplicații

Tehnologia Data Mining are o gamă cu adevărat largă de aplicații, fiind, de fapt, un set de instrumente universale pentru analiza datelor de orice tip.

Marketing

Unul dintre primele domenii în care au fost aplicate tehnologiile de data mining a fost domeniul marketingului. Sarcina cu care a început dezvoltarea metodelor de Data Mining se numește analiza coșului de cumpărături.

Această sarcină este de a identifica produsele pe care cumpărătorii tind să le cumpere împreună. Cunoașterea coșului de cumpărături este necesară pentru desfășurarea de campanii publicitare, formarea de recomandări personale către clienți, elaborarea unei strategii de creare a stocurilor de mărfuri și modalități de aranjare a acestora în zonele de vânzare.

Tot în marketing sunt rezolvate sarcini precum determinarea publicului țintă al unui produs pentru o promovare mai reușită; Cercetare temporală a modelelor care ajută companiile să ia decizii privind inventarul; crearea de modele predictive, care să permită întreprinderilor să recunoască natura nevoilor diverselor categorii de clienți cu un anumit comportament; prezicerea fidelității clienților, care vă permite să identificați din timp momentul plecării clientului atunci când analizați comportamentul acestuia și, eventual, să preveniți pierderea unui client valoros.

Industrie

Unul dintre domeniile importante în acest domeniu este monitorizarea și controlul calității, unde, folosind instrumente de analiză, este posibil să se prezică defecțiunile echipamentelor, apariția defecțiunilor și să se planifice lucrările de reparații. Prognoza popularității anumitor caracteristici și cunoașterea caracteristicilor care sunt de obicei comandate împreună ajută la optimizarea producției și la concentrarea acesteia pe nevoile reale ale consumatorilor.

Medicament

În medicină, analiza datelor este, de asemenea, folosită cu destul de mult succes. Exemple de sarcini includ analiza rezultatelor examinărilor, diagnosticarea, compararea eficacității metodelor de tratament și a medicamentelor, analiza bolilor și răspândirea lor și identificarea efectelor secundare. Tehnologiile Data Mining, cum ar fi regulile de asociere și modelele secvențiale, au fost utilizate cu succes pentru a identifica conexiunile dintre medicamente și efectele secundare.

Genetica moleculară și inginerie genetică

Poate cea mai acută și, în același timp, cea mai clară sarcină de a descoperi modele în datele experimentale este genetica molecularași inginerie genetică. Aici este formulat ca o definiție a markerilor, care sunt înțeleși ca coduri genetice care controlează anumite caracteristici fenotipice ale unui organism viu. Astfel de coduri pot conține sute, mii sau mai multe elemente înrudite. Rezultatul analizei datelor analitice este, de asemenea, relația descoperită de oamenii de știință genetician între modificările secvenței ADN-ului uman și riscul de a dezvolta diferite boli.

Chimie aplicată

Metodele Data Mining sunt folosite și în domeniul chimiei aplicate. Aici se pune adesea problema clarificării caracteristicilor structurii chimice a anumitor compuși care determină proprietățile acestora. Această sarcină este deosebit de relevantă atunci când se analizează compuși chimici complecși, a căror descriere include sute și mii de elemente structurale și conexiunile lor.

Combaterea crimei

Instrumentele de data mining au fost folosite relativ recent în domeniul securității, dar au fost deja obținute rezultate practice care confirmă eficiența extragerii de date în acest domeniu. Oamenii de știință elvețieni au dezvoltat un sistem de analiză a activității de protest pentru a prezice incidente viitoare și un sistem de urmărire a amenințărilor cibernetice emergente și a acțiunilor hackerilor din lume. Cel mai recent sistem vă permite să preziceți amenințările cibernetice și alte riscuri securitatea informatiei. Metodele Data Mining sunt, de asemenea, folosite cu succes pentru a detecta frauda cu cardul de credit. Analizând tranzacțiile anterioare care ulterior s-au dovedit a fi frauduloase, banca identifică unele modele de astfel de fraude.

Alte aplicații

· Analiza de risc. De exemplu, prin identificarea combinațiilor de factori asociați cu daunele plătite, asigurătorii își pot reduce pierderile din răspundere. Există un caz cunoscut în care o mare companie de asigurări din Statele Unite a descoperit că sumele plătite pentru daunele persoanelor căsătorite erau de două ori mai mari decât sumele plătite pentru daune de către persoanele singure. Compania a răspuns la aceste noi cunoștințe prin revizuirea politicii sale generale de a oferi reduceri clienților de familie.

· Meteorologie. Sunt utilizate predicții meteo folosind metode de rețele neuronale, în special hărți Kohonen auto-organizate.

· Politica de personal. Instrumentele de analiză ajută serviciile de HR să selecteze cei mai de succes candidați pe baza analizei datelor din CV-urile lor și să modeleze caracteristicile angajaților ideali pentru o anumită poziție.

4. Producătorii de instrumente de Data Mining

Instrumentele de extragere a datelor sunt în mod tradițional produse software costisitoare. Prin urmare, până de curând, principalii consumatori ai acestei tehnologii erau băncile, companiile financiare și de asigurări, marile întreprinderi comerciale, iar principalele sarcini care necesită utilizarea Data Mining-ului erau considerate a fi evaluarea riscurilor de credit și de asigurare și dezvoltarea politicilor de marketing. , planuri tarifare și alte principii de lucru cu clienții. În ultimii ani, situația a suferit anumite schimbări: pe piața de software au apărut instrumente de Data Mining relativ ieftine și chiar sisteme distribuite liber, ceea ce a făcut această tehnologie accesibilă întreprinderilor mici și mijlocii.

Printre instrumentele plătite și sistemele de analiză a datelor, liderii sunt SAS Institute (SAS Enterprise Miner), SPSS (SPSS, Clementine) și StatSoft (STATISTICA Data Miner). Soluțiile binecunoscute sunt de la Angoss (Angoss KnowledgeSTUDIO), IBM (IBM SPSS Modeler), Microsoft (Microsoft Analysis Services) și (Oracle) Oracle Data Mining.

Alegerea software-ului gratuit este, de asemenea, variată. Există atât instrumente universale de analiză, cum ar fi JHepWork, KNIME, Orange, RapidMiner, cât și instrumente specializate, de exemplu, Carrot2 - un cadru pentru gruparea datelor de text și rezultatele interogărilor de căutare, Chemicalize.org - o soluție în domeniul chimiei aplicate, Instrument de procesare a limbajului natural NLTK (Natural Language Toolkit).

5. Critica metodelor

Rezultatele Data Mining depind în mare măsură de nivelul de pregătire a datelor și nu de „capacitățile minunate” ale unor algoritmi sau set de algoritmi. Aproximativ 75% din munca în Data Mining constă în colectarea datelor, care are loc înainte ca instrumentele de analiză să fie aplicate. Utilizarea analfabetă a instrumentelor va duce la o risipă a potențialului companiei și, uneori, la milioane de dolari.

Opinia lui Herb Edelstein, un expert de renume mondial în domeniul Data Mining, Data Warehousing și CRM: „Un studiu recent realizat de Two Crows a arătat că Data Mining este încă în stadiile incipiente de dezvoltare. Multe organizații sunt interesate de această tehnologie, dar doar câteva implementează în mod activ astfel de proiecte. Am reușit să aflu încă unul punct important: Procesul de implementare a Data Mining în practică se dovedește a fi mai complex decât se aștepta.Echipele sunt purtate de mitul că instrumentele de Data Mining sunt ușor de utilizat. Se presupune că este suficient să rulați un astfel de instrument pe o bază de date terabyte, iar informații utile vor apărea instantaneu. De fapt, un proiect de Data Mining de succes necesită o înțelegere a activității, cunoașterea datelor și instrumentelor și a procesului de analiză a datelor.” Astfel, înainte de a utiliza tehnologia Data Mining, este necesar să se analizeze cu atenție limitările impuse de metode și problemele critice asociate cu aceasta, precum și să se evalueze sobru capacitățile tehnologiei. Problemele critice includ următoarele:

1. Tehnologia nu poate oferi răspunsuri la întrebările care nu au fost puse. Nu poate înlocui analistul, ci îi oferă doar un instrument puternic pentru a-și facilita și îmbunătăți munca.

2. Complexitatea dezvoltării și exploatării unei aplicații Data Mining.

Deoarece această tehnologie este un domeniu multidisciplinar, pentru a dezvolta o aplicație care să includă Data Mining, este necesar să se implice specialiști din diferite domenii, precum și să se asigure interacțiunea lor de înaltă calitate.

3. Calificările utilizatorului.

Diferite instrumente de Data Mining au grade diferite de ușurință în utilizare a interfeței și necesită anumite calificări ale utilizatorului. De aceea software trebuie să corespundă nivelului de pregătire al utilizatorului. Utilizarea Data Mining ar trebui să fie indisolubil legată de îmbunătățirea calificărilor utilizatorului. Cu toate acestea, în prezent există puțini specialiști în Data Mining care sunt bine versați în procesele de afaceri.

4. Extragerea de informații utile este imposibilă fără o bună înțelegere a esenței datelor.

Sunt necesare selecția atentă a modelului și interpretarea dependențelor sau tiparelor care sunt descoperite. Prin urmare, lucrul cu astfel de instrumente necesită o colaborare strânsă între un expert în domeniu și un specialist în instrumente de Data Mining. Modelele persistente trebuie integrate inteligent în procesele de afaceri pentru a permite modelelor să fie evaluate și actualizate. Recent, sistemele Data Mining sunt furnizate ca parte a tehnologiei de depozitare a datelor.

5. Dificultate în pregătirea datelor.

O analiză de succes necesită preprocesare de înaltă calitate a datelor. Potrivit analiștilor și utilizatorilor bazei de date, procesul de preprocesare poate dura până la 80% din întregul proces de Data Mining.

Astfel, pentru ca tehnologia să funcționeze de la sine, va necesita mult efort și timp, care intră în analiza preliminară a datelor, selecția modelului și ajustarea acestuia.

6. Un procent mare de rezultate false, nesigure sau inutile.

Folosind tehnologiile Data Mining, puteți găsi informații cu adevărat foarte valoroase, care pot oferi un avantaj semnificativ în planificarea, managementul și luarea deciziilor ulterioare. Cu toate acestea, rezultatele obținute folosind metodele Data Mining conțin destul de des concluzii false și lipsite de sens. Mulți experți susțin că instrumentele Data Mining pot produce un număr mare de rezultate nesigure din punct de vedere statistic. Pentru a reduce procentul de astfel de rezultate, este necesar să se verifice adecvarea modelelor obținute pe datele de testare. Cu toate acestea, este imposibil să evitați complet concluziile false.

7. Cost ridicat.

Calitativ software este rezultatul unui efort semnificativ din partea dezvoltatorului. Prin urmare, software-ul Data Mining este în mod tradițional un produs software scump.

8. Disponibilitatea unor date reprezentative suficiente.

Instrumentele Data Mining, spre deosebire de cele statistice, teoretic nu necesită o cantitate strict definită de date istorice. Această caracteristică poate determina detectarea modelelor nesigure, false și, ca urmare, luarea unor decizii incorecte pe baza acestora. Este necesar să se monitorizeze semnificația statistică a cunoștințelor descoperite.

algoritmul rețelei neuronale de grupare a minării de date

Concluzie

Dana o scurtă descriere a domenii de aplicare și oferă critici la adresa tehnologiei Data Mining și opinia experților în acest domeniu.

Listăliteratură

1. Han și Micheline Kamber. Miningul de date: concepte și tehnici. A doua editie. - Universitatea din Illinois la Urbana-Champaign

Berry, Michael J. A. Tehnici de extragere a datelor: pentru marketing, vânzări și managementul relațiilor cu clienții - Ed. a II-a.

Siu Nin Lam. Descoperirea regulilor de asociere în data mining. - Departamentul de Informatică Universitatea Illinois din Urbana-Champaign




Top