Tuntemattomia kuvioita tunnetussa datassa. Johdatus nykyaikaiseen tiedonlouhintaan. Lähin naapuri ja k-lähimpien naapurien menetelmät

Tiedonlouhintatyökalut

Tällä hetkellä Data Mining -teknologiaa edustavat useat kaupalliset ja vapaasti jaettavat ohjelmistotuotteet. Melko täydellinen ja säännöllisesti päivitettävä luettelo näistä tuotteista löytyy verkkosivustolta www. kdnuggets. com, omistettu tiedon louhinnalle. Data Mining -ohjelmistotuotteet voidaan luokitella samojen periaatteiden mukaan, jotka muodostavat perustan itse teknologian luokittelulle. Tällaisella luokittelulla ei kuitenkaan ole käytännön arvoa. Markkinoiden kovasta kilpailusta ja teknisten ratkaisujen täydellisyyden halusta johtuen monet Data Mining -tuotteista kattavat kirjaimellisesti kaikki analyyttisten teknologioiden soveltamisen osa-alueet. Siksi on järkevämpää luokitella Data Mining -tuotteet sen mukaan, miten ne on toteutettu ja mikä on niiden integrointipotentiaali. Ilmeisesti tämä on myös sopimus, koska tällainen kriteeri ei salli meidän hahmotella selkeitä rajoja tuotteiden välillä. Tällaisella luokittelulla on kuitenkin yksi kiistaton etu. Sen avulla voit tehdä nopeasti päätöksen yhden tai toisen valmiin ratkaisun valinnasta aloitettaessa projekteja data-analyysin alalla, kehitettäessä päätöksentekojärjestelmiä, luotaessa tietovarastoja jne.

Data Mining -tuotteet voidaan siis jakaa kolmeen suureen luokkaan:

    sisällytetty olennaisena osana tietokannan hallintajärjestelmiin;

    Tiedonlouhintaalgoritmien kirjastot ja niihin liittyvä infrastruktuuri;

    laatikko- tai työpöytäratkaisut ("mustat laatikot").

Kahden ensimmäisen kategorian tuotteet tarjoavat suurimmat integraatiomahdollisuudet ja antavat sinun toteuttaa analyyttisen potentiaalin lähes kaikissa sovelluksissa millä tahansa alalla. Laatikoitetut sovellukset voivat puolestaan ​​tarjota ainutlaatuisia edistysaskeleita tiedon louhinnan alalla tai olla erikoistuneet tiettyyn sovellukseen. Useimmissa tapauksissa ne ovat kuitenkin ongelmallisia integroida laajempiin ratkaisuihin.

Analyyttisten valmiuksien sisällyttäminen kaupallisiin tietokantojen hallintajärjestelmiin on luonnollinen trendi, jolla on valtava potentiaali. Onko todellakin järkevintä sijoittaa keinot sen käsittelyyn, ellei paikkoihin, joissa tietoja on keskittynyt? Tämän periaatteen perusteella Data Miningin toiminnallisuus in tällä hetkellä toteutettu seuraavissa kaupallisissa tietokannoissa:

    Microsoft SQL Server;

Pääasiat

  • Tiedonlouhinnan avulla voit luoda automaattisesti suuren kerätyn tiedon perusteella hypoteeseja, jotka voidaan varmistaa muilla analyysityökaluilla (esim. OLAP).

    Tiedonlouhinta on koneella (algoritmit, tekoälytyökalut) tekemää piilotiedon tutkimusta ja löytämistä raakadatasta, joka oli aiemmin tuntematonta, ei-triviaalia, käytännössä hyödyllistä ja ihmisen tulkinnan mahdollista.

    Tiedonlouhintamenetelmät ratkaisevat kolme pääongelmaa: luokittelun ja regression ongelman, assosiaatiosääntöjen etsimisongelman ja klusterointiongelman. Tarkoituksensa mukaan ne jaetaan kuvaaviin ja ennustaviin. Ongelmanratkaisumenetelmien perusteella ne jaetaan ohjattuun oppimiseen (opettajan kanssa oppiminen) ja ohjaamattomaan oppimiseen (oppiminen ilman opettajaa).

    Luokittelun ja regression tehtävänä on määrittää kohteen riippuvaisen muuttujan arvo sen riippumattomista muuttujista. Jos riippuva muuttuja saa numeerisia arvoja, puhumme regressioongelmasta, muuten - luokitusongelmasta.

    Kun etsitään assosiaatiosääntöjä, tavoitteena on löytää usein esiintyviä riippuvuuksia (tai assosiaatioita) objektien tai tapahtumien välillä. Löydetyt riippuvuudet esitetään sääntöjen muodossa ja niiden avulla voidaan ymmärtää paremmin analysoitavan datan luonnetta ja ennustaa tapahtumia.

    Klusteroinnin tehtävänä on etsiä itsenäisiä ryhmiä (klustereita) ja niiden ominaisuuksia koko analysoitavasta datajoukosta. Tämän ongelman ratkaiseminen auttaa sinua ymmärtämään tietoja paremmin. Lisäksi homogeenisten objektien ryhmittely mahdollistaa niiden lukumäärän vähentämisen ja helpottaa siten analysointia.

    Tiedonlouhintamenetelmät ovat risteyksessä eri suuntiin tietotekniikat: tilastot, hermoverkot, sumeat joukot, geneettiset algoritmit jne.

    Älykäs analyysi sisältää seuraavat vaiheet: analyysiongelman ymmärtäminen ja muotoilu, datan valmistelu automatisoituun analyysiin, tiedonlouhintamenetelmien soveltaminen ja mallien rakentaminen, rakennettujen mallien tarkistaminen ja mallien tulkitseminen ihmisen toimesta.

    Ennen tiedonlouhintatekniikoiden soveltamista lähdetiedot on muunnettava. Muuntamisen tyyppi riippuu käytetyistä menetelmistä.

    Tiedonlouhintamenetelmiä voidaan käyttää tehokkaasti useilla ihmisen toiminnan aloilla: liike-elämässä, lääketieteessä, tieteessä, televiestinnässä jne.

3. Tekstitietojen analyysi - Tekstin louhinta

Tietokantoihin tallennetun strukturoidun tiedon analysointi vaatii esikäsittelyä: tietokannan suunnittelua, tietojen syöttämistä tiettyjen sääntöjen mukaan, sijoittamista erikoisrakenteisiin (esim. relaatiotaulukkoihin) jne. Siten suoraan tämän tiedon analysointiin ja siitä uuden tiedon hankkimiseen. vaatii lisäponnistuksia. Ne eivät kuitenkaan aina liity analyysiin eivätkä välttämättä johda haluttuun tulokseen. Tästä johtuen strukturoidun tiedon analysoinnin tehokkuus heikkenee. Lisäksi kaikentyyppisiä tietoja ei voida jäsentää menettämättä hyödyllistä tietoa. Esimerkiksi tekstidokumentteja on lähes mahdotonta muuntaa taulukkoesitykseen menettämättä tekstin semantiikkaa ja entiteettien välisiä suhteita. Tästä syystä tällaiset asiakirjat tallennetaan tietokantaan ilman muunnoksia, kuten tekstikentät (BLOB-kentät). Samalla tekstiin on piilotettu valtava määrä tietoa, mutta sen jäsentämättömyys ei salli Data Mining -algoritmien käyttöä. Menetelmät jäsentämättömän tekstin analysoimiseksi ratkaisevat tämän ongelman. Länsimaisessa kirjallisuudessa tällaista analyysiä kutsutaan nimellä Text Mining.

Strukturoimattomien tekstien analyysimenetelmät ovat useiden alueiden risteyksessä: tiedon louhinta, luonnollisen kielen käsittely, tiedonhaku, tiedon poimiminen ja tiedonhallinta.

Tekstin louhinnan määritelmä: Tekstitiedon löytäminen on ei-triviaali prosessi, jossa löydetään todella uusia, mahdollisesti hyödyllisiä ja ymmärrettäviä malleja jäsentämättömästä tekstidatasta.

Kuten näet, se eroaa tiedon louhinnan määritelmästä vain uudessa "strukturoimattoman tekstidatan" käsitteessä. Tällainen tieto ymmärretään joukoksi asiakirjoja, jotka edustavat loogisesti yhtenäistä tekstiä ilman rajoituksia sen rakenteelle. Esimerkkejä tällaisista asiakirjoista ovat verkkosivut, sähköpostit, säädösasiakirjat jne. Yleensä tällaiset asiakirjat voivat olla monimutkaisia ​​ja suuria ja sisältävät tekstin lisäksi myös graafista tietoa. Asiakirjoja, jotka käyttävät XML:ää (extensible Markup Language), SGML:ää (Standard Generalized Markup Language) ja muita vastaavia tekstirakenteen käytäntöjä, kutsutaan puolirakenteisiksi dokumenteiksi. Niitä voidaan myös käsitellä tekstinlouhintamenetelmillä.

Tekstiasiakirjojen analysointiprosessi voidaan esittää useiden vaiheiden sarjana

    Etsi tietoa. Ensimmäinen askel on tunnistaa analysoitavat asiakirjat ja varmistaa niiden saatavuus. Pääsääntöisesti käyttäjät voivat määrittää analysoitavien asiakirjojen joukon itsenäisesti - manuaalisesti, mutta suurella määrällä asiakirjoja on käytettävä automaattisia valintavaihtoehtoja määritettyjen kriteerien mukaan.

    Alustava asiakirjojen käsittely. Tässä vaiheessa dokumenteille suoritetaan yksinkertaisia ​​mutta välttämättömiä muunnoksia niiden esittämiseksi muodossa, jonka kanssa tekstinlouhintamenetelmät toimivat. Tällaisten muunnosten tarkoituksena on poistaa tarpeettomat sanat ja antaa tekstille tiukempi muoto. Esikäsittelymenetelmiä kuvataan tarkemmin kohdassa.

    Tiedon poiminta. Tiedon poimiminen valituista asiakirjoista edellyttää niiden keskeisten käsitteiden tunnistamista, joita analysoidaan jatkossa.

Tekstinlouhintamenetelmien soveltaminen. Tässä vaiheessa poimitaan teksteissä esiintyvät kuviot ja suhteet. Tämä vaihe on tärkein tekstianalyysiprosessissa, ja tässä vaiheessa ratkaistaan ​​käytännön ongelmat.

Tulosten tulkinta. Tiedonhakuprosessin viimeinen vaihe sisältää tulosten tulkitsemisen. Tyypillisesti tulkinta koostuu joko tulosten esittämisestä luonnollisella kielellä tai niiden visualisoimisesta graafisesti.

Visualisointia voidaan käyttää myös tekstianalyysityökaluna. Tätä varten keskeiset käsitteet poimitaan ja esitetään graafisesti. Tämä lähestymistapa auttaa käyttäjää tunnistamaan nopeasti tärkeimmät aiheet ja käsitteet ja määrittämään niiden tärkeyden.

Tekstin esikäsittely

Yksi tekstianalyysin suurimmista ongelmista on asiakirjan suuri määrä sanoja. Jos jokainen näistä sanoista analysoidaan, uuden tiedon hakuaika kasvaa jyrkästi, eikä se todennäköisesti täytä käyttäjien vaatimuksia. Samalla on selvää, että kaikki tekstin sanat eivät sisällä hyödyllistä tietoa. Lisäksi luonnollisten kielten joustavuuden vuoksi muodollisesti eri sanat (synonyymit jne.) tarkoittavat itse asiassa samoja käsitteitä. Siten epäinformatiivisten sanojen poistaminen sekä merkitykseltään lähellä olevien sanojen tuominen yhteen muotoon lyhentää tekstin analysointiin kuluvaa aikaa merkittävästi. Kuvattujen ongelmien poistaminen suoritetaan tekstin esikäsittelyn vaiheessa.

Seuraavia tekniikoita käytetään yleensä epätietoisten sanojen poistamiseen ja tekstien tarkkuuden lisäämiseen:

    Pysäytyssanojen poistaminen. Stop-sanat ovat sanoja, jotka ovat apuvälineitä ja sisältävät vain vähän tietoa asiakirjan sisällöstä.

    Stemming on morfologinen haku. Se koostuu jokaisen sanan muuntamisesta sen normaalimuotoon.

    L-grammit ovat vaihtoehto morfologiselle jäsentämiselle ja lopetussanan poistamiselle. Niiden avulla voit tehdä tekstistä tiukemman, mutta eivät ratkaise ongelmaa vähentää informatiivisten sanojen määrää;

    Tapauksen muuntaminen. Tämä tekniikka sisältää kaikkien merkkien muuntamisen isoiksi tai pieniksi kirjaimille.

Tehokkain on näiden menetelmien yhdistetty käyttö.

Tekstilouhintatehtävät

Tällä hetkellä kirjallisuudessa kuvataan monia sovellettavia ongelmia, jotka voidaan ratkaista tekstidokumenttien analyysin avulla. Näitä ovat klassiset tiedonlouhintatehtävät: luokittelu, klusterointi ja vain tekstidokumenteille tyypilliset tehtävät: automaattinen huomautus, avainkäsitteiden poimiminen jne.

Luokittelu on vakiotehtävä tiedon louhinnan alalla. Sen tarkoitus on määrittää kullekin asiakirjalle yksi tai useampi ennalta määritetty luokka, johon tämä asiakirja kuuluu. Luokitteluongelman piirre on oletus, että turvaluokiteltujen asiakirjojen joukko ei sisällä "roskaa", eli jokainen asiakirjoista vastaa tiettyä luokkaa.

Luokitteluongelman erikoistapaus on asiakirjan aiheen määrittelyongelma.

Asiakirjaklusteroinnin tarkoitus on automaattisesti tunnistaa semanttisesti samankaltaisten asiakirjojen ryhmät tietyn kiinteän joukon joukosta. Huomaa, että ryhmät muodostetaan vain dokumenttikuvausten parittaisen samankaltaisuuden perusteella, eikä näiden ryhmien ominaisuuksia ole määritelty etukäteen.

Automaattisen merkinnän (yhteenvedon) avulla voit lyhentää tekstiä säilyttäen sen merkityksen. Tämän ongelman ratkaisua hallitsee yleensä käyttäjä määrittämällä poimittavien lauseiden lukumäärän tai purettavan tekstin prosenttiosuuden suhteessa koko tekstiin. Tulos sisältää tekstin merkittävimmät lauseet.

Ominaisuuden poimimisen ensisijainen tavoite on tunnistaa faktat ja suhteet tekstissä. Useimmissa tapauksissa nämä käsitteet ovat substantiivit ja yleiset substantiivit: ihmisten etu- ja sukunimet, organisaatioiden nimet jne. Käsitteiden poimintaalgoritmit voivat käyttää sanakirjoja tunnistamaan joitain termejä ja kielimalleja muiden määrittämiseen.

Tekstipohjaisen navigoinnin avulla käyttäjät voivat navigoida asiakirjoissa aiheiden ja asiaankuuluvien termien perusteella. Tämä tehdään tunnistamalla keskeiset käsitteet ja jotkut niiden väliset suhteet.

Trendianalyysin avulla voit tunnistaa asiakirjajoukkojen trendejä tietyn ajanjakson aikana. Trendiä voidaan käyttää esimerkiksi havaitsemaan yrityksen etujen muutoksia markkinasegmentistä toiseen.

Assosiaatioiden etsiminen on myös yksi tiedon louhinnan päätehtävistä. Sen ratkaisemiseksi avainkäsitteiden väliset assosiatiiviset suhteet tunnistetaan tietyissä asiakirjoissa.

On olemassa melko suuri joukko lueteltuja ongelmia, samoin kuin menetelmiä niiden ratkaisemiseksi. Tämä vahvistaa jälleen kerran tekstianalyysin tärkeyden. Tämän luvun loppuosassa käsitellään ratkaisuja seuraaviin ongelmiin: avainkäsitteiden poimiminen, luokittelu, klusterointi ja automaattinen huomautus.

Tekstiasiakirjojen luokittelu

Tekstidokumenttien luokittelu, kuten myös objektiluokituksen tapauksessa, koostuu asiakirjan kohdistamisesta johonkin aiemmin tunnetuista luokista. Usein tekstidokumenttien luokittelua kutsutaan luokitteluksi tai rubrikoimiseksi. Ilmeisesti nämä nimet tulevat tehtävästä systematisoida asiakirjat luetteloihin, luokkiin ja otsikoihin. Tässä tapauksessa hakemistorakenne voi olla joko yksitasoinen tai monitasoinen (hierarkkinen).

Muodollisesti tekstidokumenttien luokittelun tehtävä kuvataan joukkojen avulla.

Luokittelutehtävässä on tarpeen rakentaa näiden tietojen pohjalta prosessi, joka koostuu todennäköisimmän kategorian löytämisestä tutkittavalle dokumentille joukosta C.

Useimmat tekstin luokittelumenetelmät perustuvat tavalla tai toisella olettamukseen, että samaan luokkaan kuuluvat asiakirjat sisältävät samoja piirteitä (sanoja tai lauseita), ja tällaisten ominaisuuksien olemassaolo tai puuttuminen asiakirjassa osoittaa sen kuulumisen tai ei kuulu mihinkään dokumenttiin. tietty aihe.

Tällaista ominaisuusjoukkoa kutsutaan usein sanakirjaksi, koska se koostuu lekseemeistä, jotka sisältävät luokkaa kuvaavia sanoja ja/tai lauseita.

On huomattava, että nämä ominaisuusjoukot ovat erottuva piirre tekstiasiakirjojen luokittelussa tiedon louhinnan objektien luokittelusta, joille on ominaista joukko attribuutteja.

Päätös asiakirjan d kohdistamisesta luokkaan c tehdään yhteisten piirteiden leikkauspisteen perusteella

Luokittelumenetelmien tehtävänä on parhaiten valita sellaiset piirteet ja muotoilla säännöt, joiden perusteella päätetään asiakirjan kohdistamisesta luokkaan.

Työkalut tekstitietojen analysointiin

    Oracle Tools - Oracle Text2

Oraclen versiosta 7.3.3 alkaen tekstianalyysityökalut ovat olennainen osa Oraclen tuotteita. Oraclessa nämä työkalut on kehitetty ja saanut uuden nimen - Oracle Text - DBMS-järjestelmään integroitu ohjelmistopaketti, jonka avulla voit työskennellä tehokkaasti jäsentämättömiin teksteihin liittyvien kyselyjen kanssa. Tässä tapauksessa tekstinkäsittely yhdistetään ominaisuuksiin, jotka käyttäjälle tarjotaan relaatiotietokantojen kanssa työskentelyyn. Erityisesti SQL:n käyttö on tullut mahdolliseksi tekstinkäsittelysovelluksia kirjoitettaessa.

Oracle Text -työkalujen päätehtävä on etsiä asiakirjoja niiden sisällön perusteella - sanojen tai lauseiden mukaan, joita tarvittaessa yhdistetään Boolen operaatioilla. Hakutulokset luokitellaan tärkeysjärjestykseen ottaen huomioon hakusanojen esiintymistiheys löydetyissä asiakirjoissa.

    IBM:n työkalut - Intelligent Miner for Text1

IBM Intelligent Miner for Text -tuote on joukko yksittäisiä apuohjelmia, jotka on käynnistetty komentorivi tai skripteistä toisistaan ​​riippumatta. Järjestelmä sisältää yhdistelmän joitakin apuohjelmia tekstitiedon analysoinnin ongelmien ratkaisemiseksi.

IBM Intelligent Miner for Text yhdistää tehokkaan työkalusarjan, joka perustuu pääasiassa tiedonhakumekanismeihin, mikä on koko tuotteen erityispiirre. Järjestelmä koostuu useista peruskomponenteista, joilla on itsenäinen merkitys Text Mining -teknologian lisäksi:

    SAS Institute Tools - Text Miner

Amerikkalainen yritys SAS Institute on julkaissut SAS Text Miner -järjestelmän, jolla voidaan vertailla tiettyjä kieliopillisia ja sanallisia sekvenssejä kirjallisessa puheessa. Text Miner on erittäin monipuolinen, koska se voi työskennellä erimuotoisten tekstidokumenttien kanssa - tietokannoissa, tiedostojärjestelmissä ja edelleen verkossa.

Text Miner tarjoaa loogisen tekstinkäsittelyn SAS Enterprise Miner -ympäristössä. Tämän ansiosta käyttäjät voivat rikastuttaa tietojen analysointiprosessia integroimalla strukturoimatonta tekstitietoa olemassa oleviin strukturoituihin tietoihin, kuten ikä-, tulo- ja kuluttajakysyntämalleihin.

Pääasiat

    Tekstitiedon löytäminen on ei-triviaali prosessi, jossa löydetään todella uusia, mahdollisesti hyödyllisiä ja ymmärrettäviä malleja jäsentämättömästä tekstidatasta.

    Tekstiasiakirjojen analysointiprosessi voidaan esittää useiden vaiheiden sarjana: etsiä tietoa, asiakirjojen esikäsittely, tiedon poimiminen, tekstinlouhintamenetelmien soveltaminen, tulosten tulkinta.

    Seuraavia tekniikoita käytetään yleensä epätietoisten sanojen poistamiseen ja tekstien tarkkuuden lisäämiseen: lopetussanojen poistaminen, varsinainen, L-grammi, kirjainkoon pienentäminen.

    Tekstitiedon analysoinnin tehtävät ovat: luokittelu, klusterointi, automaattinen huomautus, avainkäsitteiden poimiminen, tekstinavigointi, trendianalyysi, assosiaatioiden haku jne.

    Keskeisten käsitteiden irrottamista teksteistä voidaan pitää sekä erillisenä soveltavana tehtävänä että erillisenä tekstianalyysin vaiheena. Jälkimmäisessä tapauksessa tekstistä poimittuja faktoja käytetään erilaisten analyysiongelmien ratkaisemiseen.

    Keskeisten käsitteiden poimiminen malleja käyttäen tapahtuu kahdessa vaiheessa: ensimmäisessä vaiheessa poimitaan yksittäisiä faktoja tekstidokumenteista leksikaalisen analyysin avulla, toisessa vaiheessa poimittujen faktojen integrointi ja/tai uusien tosiasioiden johtaminen. toteutettu.

    Useimmat tekstin luokittelumenetelmät perustuvat tavalla tai toisella olettamukseen, että samaan luokkaan kuuluvat asiakirjat sisältävät samoja piirteitä (sanoja tai lauseita), ja tällaisten ominaisuuksien olemassaolo tai puuttuminen asiakirjassa osoittaa sen kuulumisen tai ei kuulu mihinkään dokumenttiin. tietty aihe.

    Useimmat klusterointialgoritmit vaativat datan esittämisen vektoriavaruusmallissa, jota käytetään laajalti tiedonhakuun ja joka käyttää metaforaa kuvastamaan semanttista samankaltaisuutta spatiaalisena läheisyytenä.

    Tekstidokumenttien automaattiseen merkitsemiseen on kaksi päätapaa: purkaminen (tärkeimpien fragmenttien valinta) ja yleistäminen (aiemmin kerätyn tiedon avulla).

Johtopäätös

Tiedonlouhinta on yksi tärkeimmistä ja suosituimmista soveltavan matematiikan aloista. Nykyaikaiset liiketoiminta- ja valmistusprosessit tuottavat valtavia määriä dataa, mikä tekee ihmisten yhä vaikeammaksi tulkita suuria tietomääriä ja vastata niihin, jotka muuttuvat dynaamisesti ajon aikana, saati kriittisten tilanteiden estämisestä. "Datan louhinta" poimia mahdollisimman paljon hyödyllistä tietoa moniulotteisesta, heterogeenisestä, epätäydellisestä, epätarkista, ristiriitaisesta, epäsuorasta tiedosta. Tämä auttaa tekemään tämän tehokkaasti, jos datamäärä mitataan gigatavuina tai jopa teratavuina. Auttaa rakentamaan algoritmeja, jotka voivat oppia tekemään päätöksiä eri ammattialoilla.

Tiedonlouhintatyökalut suojaavat ihmisiä tiedon ylikuormitukselta käsittelemällä operatiivista dataa käyttökelpoiseksi tiedoksi, jotta oikeat toimenpiteet voidaan tehdä oikeaan aikaan.

Sovellettavaa kehitystyötä tehdään seuraavilla alueilla: talousjärjestelmien ennustaminen; Markkinointitutkimuksen ja asiakasympäristöjen analyysin automatisointi valmistus-, kauppa-, tietoliikenne- ja Internet-yrityksille; luottopäätöksenteon ja luottoriskin arvioinnin automatisointi; rahoitusmarkkinoiden seuranta; automaattiset kaupankäyntijärjestelmät.

Bibliografia

    "Datan analysointitekniikat: Data Mining. Visuaalinen kaivostoiminta. Text Mining, OLAP" A. A. Barseghyan. M. S. Kupriyanov, V. V. Stenanenko, I. I. Kholod. - 2. painos, tarkistettu. ja ylimääräisiä

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - Internet-artikkeli

    http://www.piter.com/contents/978549807257/978549807257_p.pdf - Tietojen analysointitekniikat

    Opinnäytetyö >> Pankkitoiminta

    Lainaaja käyttää klusteria, sanallinen analyysi, oikaisukertoimet jne., myös... lainanottajan luottokelpoisuus perustuu älyllinen analyysi Tiedonlouhinta (kanssa... Alkuvaiheessa analyysi pidetään analyysi omat varat ja...

  1. Analyysi ja nykyaikaisten tietojärjestelmien luokitus, jotka toteuttavat harkinnanvaraisia, m

    Tiivistelmä >> Tietojenkäsittelytiede

    1.3 Roolien eriyttäminen 6 2. Vertaileva analyysi erilaisia ​​tyyppejä järjestelmät 7 OS... järjestelmät, mukaan lukien: analyysi tietoturvakäytännöt ja niiden ominaisuudet, ... sovellukset tai niiden toteuttaminen älyllinen analyysi tiedot. Sitä paitsi...

  2. Älykäs lahjakkaiden lasten kyvyt koulumenestyksen yhteydessä

    Opinnäytetyö >> Psykologia

    Suhde akateemisen suorituskyvyn ja ominaisuuksien välillä älyllinen kehitystä. Perustuu teoreettiseen analyysi tutkimusongelma oli... älykkyys ilman analyysi sen psykologinen rakenne. Ratkaiseva arvioinnin kannalta älyllinen kyvyt on...

Toivotamme sinut tervetulleeksi Data Mining -portaaliin - ainutlaatuiseen portaaliin, joka on omistettu nykyaikaisille tiedonlouhintamenetelmille.

Tiedonlouhintateknologiat ovat tehokas työkalu nykyaikaiseen yritysanalytiikkaan ja datatutkimukseen piilottujen kuvioiden havaitsemiseksi ja ennakoivien mallien luomiseksi. Tiedon louhinta tai tiedon hankinta ei perustu spekulatiiviseen päättelyyn, vaan todelliseen dataan.

Riisi. 1. Tiedonlouhintasovellusjärjestelmä

Ongelman määritelmä – Ongelman ilmaus: tietojen luokittelu, segmentointi, ennakoivien mallien rakentaminen, ennustaminen.
Tiedonkeruu ja valmistelu – Tiedon kerääminen ja valmistelu, puhdistus, todentaminen, päällekkäisten tietueiden poistaminen.
Mallinrakennus – Mallinrakennus, tarkkuusarviointi.
Tiedon käyttöönotto – Mallin soveltaminen tietyn ongelman ratkaisemiseen.

Data Miningia käytetään laajamittaisten analyyttisten projektien toteuttamiseen liike-elämän, markkinoinnin, Internetin, tietoliikenteen, teollisuuden, geologian, lääketieteen, lääketeollisuuden ja muilla aloilla.

Tiedonlouhinnan avulla voit aloittaa merkittävien korrelaatioiden ja yhteyksien etsimisen tuloksena valtavan datamäärän seulominen nykyaikaisilla hahmontunnistusmenetelmillä ja ainutlaatuisten analyyttisten teknologioiden, kuten päätöspuiden ja luokittelun, klusteroinnin, hermoverkkomenetelmien ja muut.

Käyttäjä, joka löytää tiedonlouhintatekniikan ensimmäistä kertaa, on hämmästynyt menetelmien ja tehokkaiden algoritmien runsaudesta, jonka avulla hän voi löytää lähestymistapoja suurten tietomäärien analysointiin liittyvien vaikeiden ongelmien ratkaisemiseen.

Yleisesti ottaen tiedonlouhintaa voidaan luonnehtia teknologiaksi, joka on suunniteltu etsimään suuria tietomääriä. ei-ilmeistä, tavoite ja käytännössä hyödyllinen kuviot.

Data Mining perustuu tehokkaita menetelmiä ja algoritmit, jotka on suunniteltu analysoimaan suuren volyymin ja mittasuhteen strukturoimatonta dataa.

Keskeinen asia on, että suuren volyymin, korkean ulottuvuuden datasta ei näytä puuttuvan rakennetta ja yhteyksiä. Tiedonlouhintateknologian tavoitteena on tunnistaa nämä rakenteet ja löytää malleja, joissa ensi silmäyksellä vallitsee kaaos ja mielivalta.

Tässä on nykyinen esimerkki tiedon louhinnan soveltamisesta lääke- ja lääketeollisuudessa.

Huumeiden yhteisvaikutukset ovat kasvava ongelma nykyaikaisessa terveydenhuollossa.

Ajan myötä määrättyjen lääkkeiden (reseptivapaa ja kaikenlaiset lisäravinteet) määrä kasvaa, mikä tekee yhä todennäköisemmäksi lääkkeiden välisiä yhteisvaikutuksia, jotka voivat aiheuttaa vakavia sivuvaikutuksia, joista lääkärit ja potilaat eivät ole tietoisia.

Tällä alueella tarkoitetaan postkliinistä tutkimusta, jolloin lääke on jo markkinoille tullut ja sitä käytetään intensiivisesti.

Kliiniset tutkimukset viittaavat lääkkeen tehokkuuden arviointiin, mutta niissä ei oteta huomioon lääkkeen yhteisvaikutuksia muiden markkinoilla olevien lääkkeiden kanssa.

Kalifornian Stanfordin yliopiston tutkijat tutkivat FDA:n tietokantaa lääkkeiden sivuvaikutuksista ja havaitsivat, että kaksi yleisesti käytettyä lääkettä - masennuslääke paroksetiini ja kolesterolia alentava lääke pravastatiini - lisäsi diabeteksen kehittymisen riskiä, ​​jos niitä käytetään yhdessä.

FDA:n tietoihin perustuva samanlainen analyysitutkimus tunnisti 47 aiemmin tuntematonta haittavaikutusta.

Tämä on hienoa sillä varauksella, että monet potilaiden havaitsemista kielteisistä vaikutuksista jäävät huomaamatta. Tässä tapauksessa verkkohaku voi toimia parhaimmillaan.

Tulevat Data Mining -kurssit StatSoft Data Analysis Academyssa vuonna 2020

Aloitamme tiedon louhinnan tutustumisen upeilla Data Science Academy -videoilla.

Muista katsoa videomme ja ymmärrät mitä tiedonlouhinta on!

Video 1. Mitä tiedonlouhinta on?


Video 2. Katsaus tiedonlouhintamenetelmiin: päätöspuut, yleistetut ennustavat mallit, klusterointi ja paljon muuta

JavaScript ei ole käytössä selaimessasi


Ennen kuin aloitamme tutkimusprojektin, meidän on järjestettävä prosessi tietojen saamiseksi ulkoisista lähteistä, nyt näytämme kuinka tämä tehdään.

Video esittelee sinut ainutlaatuinen tekniikka TILASTO Paikalla oleva tietokantakäsittely ja Data Miningin yhdistäminen todelliseen tietoon.

Video 3. Vuorovaikutusjärjestys tietokantojen kanssa: graafinen käyttöliittymä SQL-kyselyjen rakentamiseen, In-place-tietokannan käsittelytekniikka

JavaScript ei ole käytössä selaimessasi


Nyt tutustumme interaktiivisiin poraustekniikoihin, jotka ovat tehokkaita tutkivan data-analyysin suorittamisessa. Termi kairaus itsessään kuvastaa tiedonlouhintatekniikan ja geologisen tutkimuksen välistä yhteyttä.

Video 4: Interaktiivinen poraus: kartoitus ja grafiikkatekniikat interaktiiviseen tietojen tutkimiseen

JavaScript ei ole käytössä selaimessasi


Nyt tutustumme assosiaatioanalyysiin (assosiaatiosääntöihin), näiden algoritmien avulla voit löytää todellisissa tiedoissa olevia yhteyksiä. Keskeistä on algoritmien tehokkuus suurille tietomäärille.

Yhteysanalyysialgoritmien, esimerkiksi Apriori-algoritmin tulos on yhteyssääntöjen löytäminen tutkittaville objekteille tietyllä luotettavuudella, esimerkiksi 80 %.

Geologiassa näitä algoritmeja voidaan käyttää mineraalien etsintäanalyysissä, esimerkiksi kuinka piirre A liittyy piirteisiin B ja C.

voit löytää konkreettisia esimerkkejä tällaisia ​​ratkaisuja käyttämällä linkkejämme:

Vähittäiskaupassa Apriori-algoritmit tai niiden muunnelmat mahdollistavat eri tuotteiden välisen suhteen tutkimisen esimerkiksi myytäessä hajuvesiä (hajuvesi - kynsilakka - ripsiväri jne.) tai eri merkkisiä tuotteita.

Sivuston mielenkiintoisimpien osioiden analyysi voidaan myös tehdä tehokkaasti assosiointisääntöjen avulla.

Katso siis seuraava videomme.

Video 5. Yhdistyksen säännöt

JavaScript ei ole käytössä selaimessasi

Tässä on esimerkkejä tiedon louhinnan soveltamisesta tietyillä alueilla.

Verkkokauppa:

  • analysoida asiakkaiden kehityskulkuja sivustolla käymisestä tavaroiden ostamiseen
  • palvelun tehokkuuden arviointi, tavarapulasta johtuvien vikojen analysointi
  • vierailijoita kiinnostavien tuotteiden yhdistäminen

Vähittäiskauppa: asiakastietojen analysointi luottokorttien, alennuskorttien jne. perusteella.

Tyypillisiä Data Mining -työkaluilla ratkaistavia vähittäiskaupan tehtäviä:

  • ostoskorin analyysi;
  • ennakoivien mallien luominen ostajien ja ostettujen tavaroiden luokittelumallit;
  • asiakasprofiilien luominen;
  • CRM, eri luokkien asiakkaiden uskollisuuden arviointi, kanta-asiakasohjelmien suunnittelu;
  • aikasarjatutkimus ja aikariippuvuudet, kausitekijöiden tunnistaminen, tehokkuuden arviointi promootiot laajalla valikoimalla todellista dataa.

Tietoliikennesektori avaa rajattomat mahdollisuudet tiedon louhintamenetelmien sekä nykyaikaisten big data -tekniikoiden käyttöön:

  • asiakkaiden luokittelu puheluiden keskeisten ominaisuuksien perusteella (taajuus, kesto jne.), tekstiviestien tiheys;
  • asiakasuskollisuuden tunnistaminen;
  • petosten havaitseminen jne.

Vakuutus:

  • riskianalyysi. Tunnistamalla maksettuihin korvauksiin liittyvien tekijöiden yhdistelmät vakuutuksenantajat voivat vähentää vastuutappioitaan. On tapaus, jossa vakuutusyhtiö havaitsi, että naimisissa olevien ihmisten korvaussummia on maksettu kaksi kertaa niin paljon kuin sinkkujen korvauksista. Yritys vastasi tähän uudistamalla perheasiakkaiden alennuspolitiikkaansa.
  • petosten havaitseminen. Vakuutusyhtiöt voivat vähentää petoksia etsimällä korvausvaatimuksista tiettyjä malleja, jotka kuvaavat asianajajien, lääkäreiden ja hakijoiden välisiä suhteita.

Tiedonlouhinnan käytännön soveltaminen ja tiettyjen ongelmien ratkaiseminen esitellään seuraavassa videossamme.

Webinaari 1. Webinaari "Datan louhinnan käytännön tehtävät: ongelmat ja ratkaisut"

JavaScript ei ole käytössä selaimessasi

Webinaari 2. Webinaari "Tiedonlouhinta ja tekstinlouhinta: esimerkkejä todellisten ongelmien ratkaisemisesta"

JavaScript ei ole käytössä selaimessasi


Voit saada syvällisempää tietoa tiedon louhintamenetelmistä ja teknologiasta StatSoftin kursseilla.

Mitä on tiedonlouhinta

Minkä tahansa nykyaikaisen yrityksen yritystietokanta sisältää yleensä joukon taulukoita, jotka tallentavat tietueita tietyistä tosiseikoista tai esineistä (esimerkiksi tavaroista, niiden myynnistä, asiakkaista, tileistä). Yleensä jokainen merkintä tällaisessa taulukossa kuvaa tiettyä objektia tai tosiasiaa. Esimerkiksi myyntitaulukon merkintä heijastaa sitä, että tällainen ja sellainen tuote myi sellaiselle ja sellaiselle asiakkaalle tuolloin sellainen ja sellainen johtaja, eikä se yleensä sisällä mitään muuta kuin näitä tietoja. Kuitenkin useiden vuosien aikana kertyneen suuren määrän tällaisten tietueiden keräämisestä voi tulla lisätietoa, paljon arvokkaampaa tietoa, jota ei voida saada yhden tietyn tietueen perusteella, nimittäin tiedon kaavoista, suuntauksista tai keskinäisistä riippuvuuksista. mitään dataa. Esimerkkejä tällaisista tiedoista ovat tiedot siitä, kuinka tietyn tuotteen myynti riippuu viikonpäivästä, kellonajasta tai vuodenajasta, mitkä asiakasryhmät ostavat useimmiten tämän tai toisen tuotteen, mikä osuus tietyn tuotteen ostajista ostaa toinen tietty tuote, mikä asiakasryhmä ei useimmiten maksa myönnettyä lainaa ajallaan.

Tällaista tietoa käytetään yleensä ennustamisessa, strategisessa suunnittelussa, riskianalyysissä ja sen arvo yritykselle on erittäin korkea. Ilmeisesti siksi sen etsimisprosessia kutsuttiin tiedon louhinnaksi (englannin kielessä kaivos tarkoittaa "kaivostoimintaa", ja mallien etsiminen valtavasta tosiasiatiedosta on todella samanlaista). Termi Data Mining ei tarkoita niinkään tiettyä tekniikkaa kuin prosessia, jossa etsitään korrelaatioita, trendejä, suhteita ja kuvioita erilaisten matemaattisten ja tilastollisten algoritmien avulla: klusterointi, osanäytteiden luominen, regressio- ja korrelaatioanalyysi. Tämän haun tarkoituksena on esittää tiedot muodossa, joka heijastaa selkeästi liiketoimintaprosesseja, sekä rakentaa malli, jonka avulla voit ennustaa liiketoiminnan suunnittelun kannalta kriittisiä prosesseja (esim. tiettyjen tavaroiden tai palveluiden kysynnän dynamiikkaa tai niiden hankinnan riippuvuus tietyistä kuluttajan ominaisuuksista).

Huomaa, että perinteiset matemaattiset tilastot, jotka ovat pitkään pysyneet tietojen analysoinnin päätyökaluna, sekä työkalut online-analyyttiseen käsittelyyn (OLAP), joista olemme jo kirjoittaneet useita kertoja (katso materiaalia tästä aiheesta CD:llämme) , ei aina voida käyttää menestyksekkäästi tällaisten ongelmien ratkaisemiseen. Yleensä tilastollisia menetelmiä ja OLAP:ia käytetään ennalta muotoiltujen hypoteesien testaamiseen. Usein kuitenkin hypoteesin muotoileminen osoittautuu vaikeimmaksi tehtäväksi toteutettaessa liiketoiminta-analyysiä myöhempää päätöksentekoa varten, koska kaikki datan kuviot eivät ole ilmeisiä ensi silmäyksellä.

Perusta moderni teknologia Tiedonlouhinta perustuu mallien käsitteeseen, joka heijastaa datan osanäytteille ominaisia ​​malleja. Kuvioiden haku suoritetaan menetelmillä, joissa ei käytetä a priori oletuksia näistä osanäytyksistä. Tilastoanalyysi tai OLAP kysyy tyypillisesti kysymyksiä, kuten "Mikä on tämän palvelun maksamattomien laskujen keskimääräinen lukumäärä asiakkaiden keskuudessa?", Tiedonlouhinta sisältää tyypillisesti vastaamisen kysymyksiin, kuten "Onko olemassa tyypillistä ei-maksavien asiakkaiden luokkaa?". Samalla vastaus toiseen kysymykseen tarjoaa usein ei-triviaalimman lähestymistavan markkinointipolitiikkaan ja asiakastyön organisointiin.

Data Miningin tärkeä piirre on etsittävien mallien epästandardi ja epäselvä luonne. Toisin sanoen Data Mining -työkalut eroavat tilastollisista tietojenkäsittelytyökaluista ja OLAP-työkaluista siinä, että sen sijaan, että käyttäjät tarkistaisivat ennalta oletetut keskinäiset riippuvuudet, ne pystyvät löytämään tällaiset riippuvuudet itsenäisesti käytettävissä olevan tiedon perusteella ja rakentamaan hypoteeseja niiden luonteesta.

On huomattava, että tiedonlouhintatyökalujen käyttö ei sulje pois tilastotyökalujen ja OLAP-työkalujen käyttöä, koska jälkimmäisiä käyttävän tietojenkäsittelyn tulokset auttavat yleensä ymmärtämään paremmin niiden mallien luonnetta, joita pitäisi käyttää. olla etsittävä.

Data Miningin lähdetiedot

Data Miningin käyttö on perusteltua, jos dataa on riittävän suuri, mieluiten oikein suunnitellussa tietovarastossa (itse asiassa tietovarastot itse asiassa on yleensä luotu ratkaisemaan päätöksentekoon liittyviä analysointi- ja ennustusongelmia). Olemme myös kirjoittaneet toistuvasti tietovarastojen rakentamisen periaatteista; asiaankuuluvat materiaalit löytyvät CD:ltämme, joten emme viivyttele tässä asiassa. Muistakaamme vain, että varaston tiedot ovat täydennetty, koko yritykselle yhteinen ja jonka avulla sen toiminnasta voidaan palauttaa mielikuva milloin tahansa. Huomaa myös, että tallennustietorakenne on suunniteltu siten, että siihen kohdistuvat kyselyt suoritetaan mahdollisimman tehokkaasti. On kuitenkin olemassa Data Mining -työkaluja, jotka voivat etsiä malleja, korrelaatioita ja trendejä paitsi tietovarastoista, myös OLAP-kuutioista, eli esikäsitellyistä tilastotiedoista.

Data Mining -menetelmillä tunnistetut mallityypit

V.A. Duken mukaan Data Mining -menetelmillä tunnistetaan viisi vakiotyyppistä mallia:

Assosiaatio - suuri todennäköisyys, että tapahtumat liittyvät toisiinsa (esimerkiksi yksi tuote ostetaan usein yhdessä toisen kanssa);

Järjestys - ajallisesti liittyvän tapahtumaketjun suuri todennäköisyys (esimerkiksi tietyn ajanjakson sisällä yhden tuotteen ostamisen jälkeen toinen ostetaan suurella todennäköisyydellä);

Luokittelu - on merkkejä, jotka kuvaavat ryhmää, johon tämä tai tuo tapahtuma tai esine kuuluu (yleensä jo luokiteltujen tapahtumien analyysin perusteella muotoillaan tietyt säännöt);

Klusterointi on luokituksen kaltainen malli ja eroaa siitä siinä, että itse ryhmiä ei ole määritelty - ne tunnistetaan automaattisesti tietojenkäsittelyn aikana;

Ajalliset mallit - kuvioiden esiintyminen tiettyjen tietojen käyttäytymisen dynamiikassa (tyypillinen esimerkki on tiettyjen tavaroiden tai palveluiden kysynnän kausivaihtelut), joita käytetään ennustamiseen.

Tiedonlouhintamenetelmät

Nykyään on olemassa melko suuri määrä erilaisia ​​tiedonlouhintamenetelmiä. Yllä olevan V.A. Duken ehdottaman luokituksen perusteella voimme erottaa niistä:

Regressio-, varianssi- ja korrelaatioanalyysi (toteutettu useimmissa nykyaikaisissa tilastopaketeissa, erityisesti SAS Instituten, StatSoftin jne. tuotteissa);

Tietyn aihealueen analyysimenetelmät, jotka perustuvat empiirisiin malleihin (käytetään usein esimerkiksi edullisissa talousanalyysityökaluissa);

Neuraaliverkkoalgoritmit, joiden idea perustuu analogiaan hermokudoksen toiminnan kanssa ja on siinä, että alkuparametreja pidetään signaaleina, jotka muuntuvat "neuronien" ja "neurojen" välisten olemassa olevien yhteyksien mukaisesti. koko verkon vastausta alkuperäisiin katsotaan analyysitiedoista johtuvaksi vastaukseksi. Tällöin yhteydet luodaan ns. verkkokoulutuksella suuren otoskoon kautta, joka sisältää sekä lähtötiedot että oikeat vastaukset;

Algoritmit - alkuperäisen datan läheisen analogin valinta olemassa olevista historiallisista tiedoista. Kutsutaan myös "lähimmän naapurin" menetelmäksi;

Päätöspuut ovat hierarkkinen rakenne, joka perustuu joukkoon kysymyksiä, jotka edellyttävät "kyllä" tai "ei" vastausta. siitä huolimatta tätä menetelmää tietojenkäsittely ei aina löydä täydellisesti olemassa olevia malleja, sitä käytetään melko usein ennustejärjestelmissä saadun vastauksen selkeyden vuoksi;

Klusterimalleja (joskus kutsutaan myös segmentointimalleiksi) käytetään ryhmittelemään samanlaisia ​​tapahtumia tietojoukon useiden kenttien samanlaisten arvojen perusteella. myös erittäin suosittu ennustejärjestelmiä luotaessa;

Rajoitetut hakualgoritmit, jotka laskevat yksinkertaisten loogisten tapahtumien yhdistelmien taajuudet datan alaryhmissä;

Evoluutioohjelmointi - tietojen keskinäistä riippuvuutta ilmaisevan algoritmin haku ja generointi, joka perustuu alun perin määriteltyyn algoritmiin, jota on muokattu hakuprosessin aikana; joskus keskinäisiä riippuvuuksia etsitään tietyntyyppisten funktioiden (esimerkiksi polynomien) kesken.

Lisätietoa näistä ja muista tiedonlouhintaalgoritmeista sekä niitä toteuttavista työkaluista löytyy V.A. Duken ja A.P. Samoilenkon kirjasta "Data Mining: Training Course", jonka Peter-kustantamo julkaisi vuonna 2001. Nykyään tämä on yksi harvoista venäjänkielisistä kirjoista, jotka on omistettu tälle ongelmalle.

Johtavat tiedonlouhintatyökalujen valmistajat

Data Mining -työkalut, kuten useimmat Business Intelligence -työkalut, ovat perinteisesti kalliita ohjelmistotyökaluja - jotkut niistä maksavat jopa useita kymmeniä tuhansia dollareita. Siksi tämän teknologian pääasiallisia kuluttajia olivat viime aikoihin asti pankit, rahoitus- ja vakuutusyhtiöt sekä suuret kauppayritykset ja tiedon louhinnan käyttöä vaativiksi päätehtäviksi pidettiin luotto- ja vakuutusriskien arviointia sekä markkinointipolitiikan kehittämistä. , tariffisuunnitelmat ja muut asiakkaiden kanssa työskentelyn periaatteet. Tilanne on viime vuosina kokenut tiettyjä muutoksia: ohjelmistomarkkinoille on ilmestynyt suhteellisen edullisia Data Mining -työkaluja useilta valmistajilta, mikä on tuonut teknologian saataville pienille ja keskisuurille yrityksille, jotka eivät sitä aiemmin olleet ajatelleet.

TO nykyaikaiset keinot Business Intelligence sisältää raporttigeneraattoreita, analyyttisiä tietojenkäsittelytyökaluja, BI-ratkaisujen kehitystyökaluja (BI-alustoja) ja ns. Enterprise BI -sviittejä – yritystason tiedon analysointi- ja käsittelytyökaluja, joiden avulla voit suorittaa joukon data-analyysiin liittyviä toimia. ja raporttien luominen, ja ne sisältävät usein integroidun BI-työkalujen ja BI-sovelluskehitystyökalujen joukon. Jälkimmäiset sisältävät pääsääntöisesti raportointityökaluja, OLAP-työkaluja ja usein tiedonlouhintatyökaluja.

Gartner Groupin analyytikoiden mukaan yritystason tietojen analysointi- ja käsittelytyökalujen markkinajohtajat ovat Business Objects, Cognos, Information Builders, ja myös Microsoft ja Oracle väittävät olevansa johtajia (kuva 1). Mitä tulee BI-ratkaisujen kehitystyökaluihin, tärkeimmät kilpailijat johtajuuteen tällä alueella ovat Microsoft ja SAS Institute (kuva 2).

Huomaa, että Microsoftin Business Intelligence -työkalut ovat suhteellisen edullisia tuotteita, jotka ovat saatavilla useille yrityksille. Siksi aiomme tarkastella joitain käytännön näkökohtia Data Miningin käytöstä käyttämällä esimerkkiä tämän yrityksen tuotteista tämän artikkelin seuraavissa osissa.

Kirjallisuus:

1. Duke V.A. Data Mining - tiedon louhinta. - http://www.olap.ru/basic/dm2.asp.

2. Duke V.A., Samoilenko A.P. Data Mining: koulutuskurssi. - Pietari: Pietari, 2001.

3. B. de Ville. Microsoft Data Mining. Digital Press, 2001.

OLAP-järjestelmät antavat analyytikolle mahdollisuuden testata hypoteeseja datan analysoinnissa, eli analyytikon päätehtävänä on luoda hypoteeseja, jotka hän ratkaisee tietämyksensä ja kokemuksensa perusteella. kerääntynyt data, joka analysoidaan. Tällainen tieto sisältyy valtavaan määrään tietoa, jota ihminen ei voi tutkia yksin. Tästä johtuen on olemassa riski puuttua hypoteeseja, jotka voisivat tarjota merkittäviä etuja.

"Piilotetun" tiedon havaitsemiseksi käytetään erityisiä automaattisen analyysin menetelmiä, joiden avulla on tarpeen poimia käytännössä tietoa tiedon "tukkeista". Tälle alueelle on määritetty termi "tiedonlouhinta" tai "datan louhinta".

DataMiningillä on monia määritelmiä, jotka täydentävät toisiaan. Tässä muutama niistä.

Tiedonlouhinta on prosessi, jolla löydetään ei-triviaaleja ja käytännössä hyödyllisiä malleja tietokannoista. (Perusryhmä)

Tiedonlouhinta on prosessi, jossa poimitaan, tutkitaan ja mallinnetaan suuria tietomääriä aiemmin tuntemattomien mallien (mallien) löytämiseksi liiketoimintaetujen saavuttamiseksi (SAS Institute)

Tiedonlouhinta on prosessi, jonka tavoitteena on löytää uusia merkittäviä korrelaatioita, malleja ja trendejä seulomalla suuria määriä tallennettua dataa käyttämällä hahmontunnistustekniikoita sekä tilastollisia ja matemaattisia tekniikoita (GartnerGroup).

Tiedonlouhinta on "koneen" (algoritmit, tekoälytyökalut) tekemää piilevän tiedon tutkimusta ja löytämistä raakadatasta.olivat aiemmin tuntemattomia, ei-triviaaleja, käytännössä hyödyllisiä, tulkittavissa olevia(A. Bargesyan "Data Analysis Technologies")

DataMining on prosessi, jolla hankitaan hyödyllistä tietoa liiketoiminnasta. (N.M. Abdikeev "KBA")

Löydetyn tiedon ominaisuudet

Tarkastellaan löydetyn tiedon ominaisuuksia.

  • Tiedon tulee olla uutta, aiemmin tuntematonta. Käyttäjän jo tunteman tiedon löytämiseen käytetty vaiva ei kannata. Siksi uusi, aiemmin tuntematon tieto on arvokasta.
  • Tiedon tulee olla ei-triviaalia. Analyysin tulosten tulee heijastaa ei-ilmeisiä, odottamattomiadatamallit, jotka muodostavat niin sanotun piilotetun tiedon. Tuloksia, joita olisi voinut saada enemmän yksinkertaisilla tavoilla(esimerkiksi silmämääräinen tarkastus) eivät oikeuta tehokkaiden DataMining-menetelmien käyttöä.
  • Tiedon on oltava käytännössä hyödyllistä. Löydetyn tiedon tulee olla sovellettavissa, myös uusiin tietoihin, riittävän luotettavasti. Hyödyllisyys piilee siinä, että tämä tieto voi tuoda tiettyjä etuja sovellettaessa.
  • Tiedon on oltava ihmisten ymmärryksen ulottuvilla. Löydettyjen kuvioiden tulee olla loogisesti selitettävissä, muuten on mahdollista, että ne ovat satunnaisia. Lisäksi löydetty tieto tulee esittää ihmisille ymmärrettävässä muodossa.

DataMiningissä mallien avulla kuvataan hankittua tietoa. Mallien tyypit riippuvat niiden luomiseen käytetyistä menetelmistä. Yleisimmät ovat: säännöt, päätöspuut, klusterit ja matemaattiset funktiot.

DataMining tehtävät

Muistakaamme, että DataMining-tekniikka perustuu mallien käsitteeseen, jotka ovat malleja. Näiden paljaalta silmältä piilossa olevien kuvioiden löytämisen tuloksena DataMining-ongelmat ratkeavat. Erilaiset kuviot, jotka voidaan ilmaista ihmisen luettavassa muodossa, vastaavat tiettyjä DataMining-tehtäviä.

Ei ole yksimielisyyttä siitä, mitkä tehtävät tulisi luokitella DataMiningiksi. Useimmat arvovaltaiset lähteet luettelevat seuraavat: luokitus,

klusterointi, ennustaminen, assosiaatio, visualisointi, analysointi ja löytäminen

poikkeamat, arviointi, yhteyksien analysointi, yhteenveto.

Seuraavan kuvauksen tarkoituksena on antaa yleinen käsitys DataMining-ongelmista, verrata niitä ja esitellä myös menetelmiä, joilla nämä ongelmat ratkaistaan. Yleisimmät tiedon louhintatehtävät ovat luokittelu, klusterointi, assosiointi, ennustaminen ja visualisointi. Siten tehtävät on jaettu tuotetun tiedon tyypin mukaan, tämä on DataMining-tehtävien yleisin luokittelu.

Luokittelu

Ongelma objektien tai havaintojen joukon jakamisesta a priori tietyt ryhmät, joita kutsutaan luokiksi, joissa kussakin niiden oletetaan olevan samankaltaisia ​​keskenään ja joilla on suunnilleen samat ominaisuudet ja ominaisuudet. Tässä tapauksessa ratkaisu saadaan perustuen analyysi attribuuttien (ominaisuuksien) arvot.

Luokittelu on yksi tärkeimmistä tehtävistä Tiedon louhinta . Sitä käytetään markkinointi arvioitaessa lainanottajien luottokelpoisuutta, määritetään asiakasuskollisuus, hahmontunnistus , lääketieteellinen diagnostiikka ja monet muut sovellukset. Jos analyytikko tietää kunkin luokan kohteiden ominaisuudet, niin kun uusi havainto kuuluu johonkin luokkaan, nämä ominaisuudet laajenevat automaattisesti siihen.

Jos luokkien lukumäärä on rajoitettu kahteen, niinbinääriluokitus , johon monet monimutkaisemmat ongelmat voidaan vähentää. Esimerkiksi sen sijaan, että määrittelisit luottoriskin asteita "korkeaksi", "keskimääräiseksi" tai "matalaksi", voit käyttää vain kahta - "ongelma" tai "hylkääminen".

DataMining käyttää monia erilaisia ​​luokittelumalleja: neuroverkot, päätöspuut , tukivektorikoneet, k-lähimpien naapurien menetelmä, peittoalgoritmit jne., joiden rakentamisessa käytetään ohjattua oppimista, kunlähtömuuttuja(luokan etiketti ) määritetään kullekin havainnolle. Muodollisesti luokitus tehdään osion perusteellaominaisuus tilat alueille, joista jokaisen sisällämoniulotteisia vektoreita pidetään identtisinä. Toisin sanoen, jos esine putoaa tiettyyn luokkaan liittyvälle avaruuden alueelle, se kuuluu siihen.

Klusterointi

Lyhyt kuvaus. Klusteroiminen on idean looginen jatko

luokitukset. Tämä on monimutkaisempi tehtävä; klusteroinnin erikoisuus on, että objektiluokkia ei ole alun perin määritelty. Klusteroinnin tulos on objektien jakaminen ryhmiin.

Esimerkki menetelmästä klusterointiongelman ratkaisemiseksi: "ohjaamaton" erikoistyyppisten hermoverkkojen koulutus - itseorganisoituvat Kohosen kartat.

Yhdistykset

Lyhyt kuvaus. Kun ratkaistaan ​​assosiaatiosääntöjen etsimisen ongelmaa, löydetään kuvioita tietojoukon toisiinsa liittyvien tapahtumien välillä.

Ero yhdistämisen ja kahden aikaisemman DataMining-tehtävän välillä: kuvioiden hakua ei tehdä analysoitavan kohteen ominaisuuksien perusteella, vaan useiden samanaikaisesti tapahtuvien tapahtumien välillä. Tunnetuin algoritmi assosiaatiosääntöjen löytämisen ongelman ratkaisemiseksi on Apriori-algoritmi.

Sekvenssi tai peräkkäinen assosiaatio

Lyhyt kuvaus. Järjestys antaa sinun löytää ajallisia malleja tapahtumien välillä. Sekvenssitehtävä on samanlainen kuin assosiaatio, mutta sen tavoitteena on luoda kuvioita ei samanaikaisesti tapahtuvien tapahtumien, vaan ajallisesti liittyvien (eli tietyllä aikavälillä tapahtuvien) välillä. Toisin sanoen sekvenssin määrää ajallisesti liittyvän tapahtumaketjun suuri todennäköisyys. Itse asiassa assosiaatio on erikoistapaus sekvenssistä, jonka aikaviive on nolla. Tätä DataMining-tehtävää kutsutaan myös peräkkäismallin etsintätehtäväksi.

Sekvenssisääntö: tapahtuman X jälkeen tapahtuma Y tapahtuu tietyn ajan kuluttua.

Esimerkki. Asunnon hankinnan jälkeen asukkaat 60 prosentissa tapauksista ostavat jääkaapin kahdessa viikossa ja kahden kuukauden sisällä 50 prosentissa tapauksista television. Ratkaisua tähän ongelmaan käytetään laajasti markkinoinnissa ja johtamisessa, esimerkiksi asiakkaan elinkaaren hallinnassa.

Regressio, ennustaminen (ennuste)

Lyhyt kuvaus. Ennusteongelman ratkaisun tuloksena tavoitenumeeristen indikaattoreiden puuttuvat tai tulevat arvot arvioidaan historiallisen tiedon ominaisuuksien perusteella.

Tällaisten ongelmien ratkaisemiseksi käytetään laajalti matemaattisten tilastojen menetelmiä, neuroverkkoja jne.

Lisätehtävät

Poikkeaman havaitseminen, varianssi- tai outlier-analyysi

Lyhyt kuvaus. Tämän ongelman ratkaisemisen tavoitteena on havaita ja analysoida dataa, joka eroaa eniten yleisestä datajoukosta, tunnistaen niin sanotut epätyypilliset kuviot.

Arvio

Arviointitehtävä rajoittuu ominaisuuden jatkuvien arvojen ennustamiseen.

Linkin analyysi

Tehtävä löytää riippuvuuksia tietojoukosta.

Visualisointi (GraphMining)

Visualisoinnin tuloksena analysoidusta tiedosta syntyy graafinen kuva. Visualisointiongelman ratkaisemiseksi käytetään graafisia menetelmiä, jotka osoittavat kuvioiden esiintymisen tiedoissa.

Esimerkki visualisointitekniikoista on tietojen esittäminen 2-D- ja 3D-ulottuvuuksissa.

Yhteenveto

Tehtävä, jonka tavoitteena on kuvata tiettyjä objektiryhmiä analysoidusta tietojoukosta.

Melko lähellä yllä olevaa luokittelua on DataMiningin tehtävien jako seuraaviin: tutkimus ja löytö, ennustaminen ja luokittelu, selitys ja kuvaus.

Automaattinen etsintä ja löytö (ilmainen haku)

Esimerkkitehtävä: uusien markkinasegmenttien löytäminen.

Tämän luokan ongelmien ratkaisemiseksi käytetään klusterianalyysimenetelmiä.

Ennustaminen ja luokittelu

Esimerkkiongelma: myynnin kasvun ennustaminen nykyarvojen perusteella.

Menetelmät: regressio, hermoverkot, geneettiset algoritmit, päätöspuut.

Luokittelu- ja ennustamistehtävät muodostavat ryhmän ns. induktiivista mallintamista, joka johtaa analysoitavan kohteen tai järjestelmän tutkimiseen. Näitä ongelmia ratkaistaessa kehitetään tietojoukon perusteella yleinen malli tai hypoteesi.

Selitys ja kuvaus

Esimerkkiongelma: asiakkaiden luonnehtiminen väestötietojen ja ostohistorian perusteella.

Menetelmät: päätöspuut, sääntöjärjestelmät, assosiaatiosäännöt, yhteysanalyysi.

Jos asiakkaan tulot ovat yli 50 sovittua yksikköä ja ikä on yli 30 vuotta, niin asiakkaan luokka on ensimmäinen.

Klusteroinnin ja luokittelun vertailu

Ominaista

Luokittelu

Klusterointi

Harjoittelun hallittavuus

Hallittu

Hallitsematon

Strategiat

Tutoroitu koulutus

Ohjaamaton oppiminen

Luokkamerkinnän saatavuus

Harjoitussetti

mukana tarra, joka osoittaa

luokkaan, johon se kuuluu

havainto

Valmentajan luokan tarrat

sarjat ovat tuntemattomia

Luokittelun peruste

Uudet tiedot luokitellaan harjoitussarjan perusteella

Tätä tarkoitusta varten annetaan paljon dataa

olemassaolon vahvistaminen

luokat tai tietoklusterit

DataMiningin sovellusalueet

On huomattava, että nykyään DataMining-teknologiaa käytetään laajimmin yritysongelmien ratkaisemisessa. Ehkä syynä on se, että juuri tähän suuntaan DataMining-työkalujen käytön tuotto voi olla joidenkin lähteiden mukaan jopa 1000 % ja toteutuskustannukset voivat maksaa itsensä nopeasti takaisin.

Tarkastelemme neljää DataMining-teknologian pääsovellusaluetta yksityiskohtaisesti: tiedettä, liiketoimintaa, valtion tutkimusta ja verkkoa.

liiketoiminnalliset tehtävät. Pääalueet: pankki, rahoitus, vakuutus, CRM, valmistus, televiestintä, sähköinen kaupankäynti, markkinointi, osakemarkkinat ja muut.

    Pitäisikö minun myöntää lainaa asiakkaalle?

    Markkinoiden segmentointi

    Uusien asiakkaiden houkutteleminen

    Luottokorttipetos

DataMiningin sovellus ratkaista ongelmia valtion tasolla. Pääsuunnat: veronkiertoajien etsintä; tarkoittaa terrorismin torjunnassa.

DataMiningin sovellus tieteellinen tutkimus. Pääalat: lääketiede, biologia, molekyyligenetiikka ja geenitekniikka, bioinformatiikka, tähtitiede, soveltava kemia, huumeiden väärinkäyttöön liittyvä tutkimus ja muut.

DataMiningin käyttäminen ratkaisuun Verkkotehtävät. Pääalueet: hakukoneet, laskurit ja muut.

Sähköinen kaupankäynti

Sähköisen kaupankäynnin alalla tuottamiseen käytetään DataMiningiä

Tämän luokituksen avulla yritykset voivat tunnistaa tietyt asiakasryhmät ja toteuttaa markkinointipolitiikkaa asiakkaiden tunnistettujen etujen ja tarpeiden mukaisesti. Verkkokaupan DataMining-teknologia liittyy läheisesti WebMining-tekniikkaan.

DataMiningin päätehtävät teollisessa tuotannossa:

· kattava järjestelmäanalyysi tuotantotilanteista;

· lyhyen ja pitkän aikavälin ennuste tuotantotilanteiden kehityksestä;

· optimointiratkaisujen vaihtoehtojen kehittäminen;

· tuotteen laadun ennustaminen tietyistä parametreistä riippuen

tekninen prosessi;

· piilotettujen trendien ja mallien havaitseminen tuotannon kehityksessä

prosessit;

· kehitysmallien ennustaminen tuotantoprosessit;

· piilotettujen vaikutustekijöiden havaitseminen;

· aiemmin tuntemattomien välisten suhteiden havaitseminen ja tunnistaminen

tuotantoparametrit ja vaikuttavat tekijät;

· tuotantoprosessien vuorovaikutusympäristön analysointi ja ennustaminen

muutokset sen ominaisuuksissa;

prosessit;

· analyysitulosten visualisointi, alustavien raporttien ja projektien valmistelu

toteuttamiskelpoisia ratkaisuja arvioimalla mahdollisten toteutusten luotettavuutta ja tehokkuutta.

Markkinointi

Markkinoinnin alalla DataMining on laajalti käytössä.

Markkinoinnin peruskysymykset: "Mitä myydään?", "Kuinka myydään?", "Kuka on

kuluttaja?"

Luento luokittelu- ja klusterointiongelmista kuvaa yksityiskohtaisesti klusterianalyysin käyttöä markkinoinnin ongelmien, kuten kuluttajien segmentoinnin, ratkaisemisessa.

Toinen yleinen menetelmä markkinointiongelmien ratkaisemiseksi on menetelmät ja algoritmit assosiaatiosääntöjen etsimiseksi.

Myös ajallisten kuvioiden hakua käytetään tässä onnistuneesti.

Jälleenmyynti

Vähittäiskaupassa, kuten markkinoinnissa, käytetään seuraavia:

· algoritmit assosiaatiosääntöjen etsimiseen (määrittääkseen usein esiintyvät joukot

tavarat, jotka ostajat ostavat samanaikaisesti). Tällaisten sääntöjen tunnistaminen auttaa

sijoittaa tavaroita kauppojen hyllyille, kehittää tavaroiden ostostrategioita

ja niiden sijoittaminen varastoihin jne.

· aikajaksojen käyttö esimerkiksi määrittämiseen

tarvittavat tavaramäärät varastossa.

· luokittelu- ja klusterointimenetelmät asiakasryhmien tai -luokkien tunnistamiseksi,

joiden tuntemus edistää menestyksekästä tavaroiden myynninedistämistä.

Pörssi

Tässä on luettelo osakemarkkinoiden ongelmista, jotka voidaan ratkaista tietotekniikan avulla

Kaivostoiminta: · rahoitusinstrumenttien tulevien arvojen ja niiden indikaattoreiden ennustaminen

aikaisemmat arvot;

· trendiennuste (tuleva liikesuunta - kasvu, lasku, tasainen) taloudellinen

instrumentti ja sen vahvuus (vahva, kohtalaisen vahva jne.);

· markkinoiden, toimialan, sektorin klusterirakenteen tunnistaminen tietyn joukon mukaan

ominaisuudet;

· dynaaminen salkunhoito;

· volatiliteettiennuste;

· riskin arviointi;

· kriisin alkamisen ja sen kehityksen ennustaminen;

· omaisuuden valinta jne.

DataMining-teknologiaa voidaan edellä kuvattujen toiminta-alueiden lisäksi käyttää monilla eri liiketoiminta-alueilla, joissa on tarvetta data-analyysille ja jossa on kertynyt tietty määrä retrospektiivistä tietoa.

DataMiningin soveltaminen CRM:ssä

Yksi lupaavimpia alueita DataMiningin käyttöön on tämän tekniikan käyttö analyyttisessä CRM:ssä.

CRM (CustomerRelationshipManagement) - asiakkuuksien hallinta.

Kun näitä teknologioita käytetään yhdessä, tiedon talteenotto yhdistetään "rahan poimimiseen" asiakastiedoista.

Tärkeä näkökohta markkinointi- ja myyntiosaston työssä on kokoaminenkokonaisvaltainen näkemys asiakkaista, tietoa heidän ominaisuuksistaan, ominaisuuksistaan ​​ja asiakaskunnan rakenteesta. CRM käyttää ns. profilointiaasiakkaita, jotka tarjoavat täydellisen kuvan kaikista asiakkaita koskevista tarvittavista tiedoista.

Asiakasprofilointi sisältää seuraavat osat: asiakkaiden segmentointi, asiakkaiden kannattavuus, asiakkaiden säilyttäminen, asiakasvastausten analysointi. Kutakin näistä komponenteista voidaan tutkia DataMiningin avulla, ja analysoimalla niitä yhdessä profilointikomponentteina voidaan lopulta saada tietoa, jota on mahdotonta saada jokaisesta yksittäisestä ominaisuudesta.

WebMining

WebMining voidaan kääntää "tiedon louhinnaksi verkossa". WebIntelligence tai Web.

Intelligence on valmis "avamaan uuden luvun" sähköisen liiketoiminnan nopeassa kehityksessä. Kyky määrittää jokaisen vierailijan kiinnostuksen kohteet ja mieltymykset tarkkailemalla hänen käyttäytymistään on vakava ja kriittinen kilpailuetu sähköisen kaupankäynnin markkinoilla.

WebMining-järjestelmät voivat vastata moneen kysymykseen, esimerkiksi kuka kävijöistä on verkkokaupan potentiaalinen asiakas, mikä verkkokaupan asiakasryhmä tuo eniten tuloja, mitkä ovat tietyn vierailijan tai vierailijaryhmän intressit.

menetelmät

Menetelmien luokittelu

Menetelmiä on kaksi ryhmää:

  • tilastolliset menetelmät, jotka perustuvat keskimääräiseen kertyneeseen kokemukseen, joka heijastuu takautuvasti;
  • kyberneettiset menetelmät, mukaan lukien monet heterogeeniset matemaattiset lähestymistavat.

Tämän luokituksen haittana on, että sekä tilastolliset että kyberneettiset algoritmit luottavat tavalla tai toisella tilastollisen kokemuksen vertailuun nykytilanteen seurannan tuloksiin.

Tämän luokituksen etuna on sen tulkinnan helppous - sitä käytetään kuvaamaan modernin lähestymistavan matemaattisia keinoja tiedon poimimiseen alustavien havaintojen (operatiivisista ja retrospektiivisistä) ryhmistä, ts. Tiedonlouhintatehtävissä.

Katsotaanpa tarkemmin edellä esitettyjä ryhmiä.

Tilastolliset menetelmät Tiedonlouhinta

Näissä menetelmät edustavat neljää toisiinsa liittyvää osaa:

  • tilastotietojen luonteen alustava analyysi (stacionaarisuuden, normaaliuden, riippumattomuuden, homogeenisuuden hypoteesien testaus, jakautumisfunktion tyypin, sen parametrien jne. arviointi);
  • yhteyksien tunnistaminen ja kuviot(lineaarinen ja epälineaarinen regressioanalyysi, korrelaatioanalyysi jne.);
  • monimuuttujatilastoanalyysi (lineaarinen ja epälineaarinen erotteluanalyysi, klusterianalyysi, komponenttianalyysi, tekijäanalyysi jne.);
  • dynaamiset mallit ja aikasarjoihin perustuva ennuste.

Tiedonlouhinnan tilastollisten menetelmien arsenaali on luokiteltu neljään menetelmäryhmään:

  1. Lähdetietojen kuvaava analyysi ja kuvaus.
  2. Suhdeanalyysi (korrelaatio- ja regressioanalyysi, tekijäanalyysi, varianssianalyysi).
  3. Monimuuttujatilastollinen analyysi (komponenttianalyysi, erotteluanalyysi, monimuuttujaregressioanalyysi, kanoniset korrelaatiot jne.).
  4. Aikasarjaanalyysi (dynaamiset mallit ja ennustaminen).

Kyberneettiset tiedonlouhintamenetelmät

Data Miningin toinen suunta on erilaisia ​​lähestymistapoja, joita yhdistää tietokonematematiikan ajatus ja tekoälyteorian käyttö.

Tämä ryhmä sisältää seuraavat menetelmät:

  • keinotekoiset neuroverkot (tunnistus, klusterointi, ennuste);
  • evolutionaarinen ohjelmointi (mukaan lukien algoritmit argumenttien ryhmälaskennan menetelmää varten);
  • geneettiset algoritmit (optimointi);
  • assosiatiivinen muisti (analogien, prototyyppien etsiminen);
  • sumea logiikka;
  • päätöspuut;
  • asiantuntijatiedon käsittelyjärjestelmät.

Ryhmäanalyysi

Klusteroinnin tarkoituksena on etsiä olemassa olevia rakenteita.

Klusterointi on kuvaava prosessi, se ei tee tilastollisia johtopäätöksiä, mutta se tarjoaa mahdollisuuden tehdä tutkiva analyysi ja tutkia "datan rakennetta".

Itse "klusterin" käsite on määritelty moniselitteisesti: jokaisessa tutkimuksessa on omat "klusterinsa". Klusterin käsite käännetään "klusteriksi", "joukkoksi". Klusteri voidaan luonnehtia kohteiden ryhmäksi, joilla on yhteisiä ominaisuuksia.

Klusterin ominaisuuksia voidaan kuvata kahdella tavalla:

  • sisäinen homogeenisuus;
  • ulkoinen eristys.

Kysymys, jota analyytikot kysyvät ratkaiseessaan monia ongelmia, on, miten data järjestetään visuaalisiin rakenteisiin, ts. laajentaa taksonomioita.

Klusterointia käytettiin alun perin laajimmin sellaisissa tieteissä kuin biologia, antropologia ja psykologia. Klusterointia on pitkään käytetty vähän taloudellisten ongelmien ratkaisemisessa talousdatan ja -ilmiöiden erityisluonteen vuoksi.

Klusterit voivat olla erillisiä tai poissulkevia (ei päällekkäisiä, poissulkevia) ja päällekkäisiä.

On huomattava, että erilaisten klusterianalyysimenetelmien soveltamisen tuloksena voidaan saada erimuotoisia klustereita. Esimerkiksi "ketju"-tyyppiset klusterit ovat mahdollisia, kun klustereita edustavat pitkät "ketjut", pitkänomaiset klusterit jne., ja jotkut menetelmät voivat luoda mielivaltaisen muotoisia klustereita.

Eri menetelmillä voidaan pyrkiä luomaan tietyn kokoisia klustereita (esim. pieniä tai suuria) tai olettaa, että tietojoukossa on erikokoisia klustereita. Jotkut klusterianalyysimenetelmät ovat erityisen herkkiä melulle tai poikkeaville arvoille, toiset vähemmän. Erilaisten klusterointimenetelmien käytön seurauksena voidaan saada erilaisia ​​tuloksia, mikä on normaalia ja on tietyn algoritmin toiminnan ominaisuus. Nämä ominaisuudet tulee ottaa huomioon valittaessa klusterointimenetelmää.

Kuvataanpa lyhyesti klusteroinnin lähestymistapoja.

Tietojen erotteluun perustuvat algoritmit (Osiointialgoritmit), ml. iteratiivinen:

  • objektien jakaminen k klusteriin;
  • Kohteiden iteratiivinen uudelleenjako klusteroinnin parantamiseksi.
  • Hierarkiaalgoritmit:
  • agglomeraatio: jokainen kohde on aluksi klusteri, klusterit,
  • yhdistäessään toisiinsa ne muodostavat suuremman klusterin jne.

Tiheyteen perustuvat menetelmät:

  • perustuu kykyyn yhdistää esineitä;
  • ohittaa melun ja löytää mielivaltaisen muotoisia ryhmiä.

Ruudukko - menetelmät (grid-pohjaiset menetelmät):

  • objektien kvantisointi ruudukkorakenteiksi.

Mallimenetelmät (mallipohjaiset):

  • mallin avulla löytääksesi dataan parhaiten sopivat klusterit.

Klusterianalyysimenetelmät. Iteratiiviset menetelmät.

Kun havaintoja on paljon, hierarkkiset klusterianalyysimenetelmät eivät sovellu. Tällaisissa tapauksissa käytetään ei-hierarkkisia jakoon perustuvia menetelmiä, jotka ovat iteratiivisia menetelmiä alkuperäisen populaation pirstalemiseksi. Jakoprosessin aikana muodostuu uusia klustereita, kunnes pysäytyssääntö täyttyy.

Tällainen ei-hierarkkinen klusterointi koostuu tietojoukon jakamisesta tiettyyn määrään yksittäisiä klustereita. On olemassa kaksi lähestymistapaa. Ensimmäinen on määrittää klusterien rajat tiheimmiksi alueiksi lähdetietojen moniulotteisessa avaruudessa, ts. määrittelemällä klusterin, jossa on suuri "pisteiden tiivistyminen". Toinen tapa on minimoida objektien väliset erot

k-kehitysalgoritmi

Yleisin ei-hierarkkinen menetelmä on k-means-algoritmi, jota kutsutaan myös nimellä nopea klusterianalyysi. Algoritmin täydellinen kuvaus löytyy julkaisusta Hartigan ja Wong (1978). Toisin kuin hierarkkisissa menetelmissä, jotka eivät vaadi ennakkooletuksia klusterien lukumäärästä, tämän menetelmän käyttäminen edellyttää hypoteesia todennäköisimmästä klusterien määrästä.

K-keskiarvo-algoritmi rakentaa k klusteria, jotka sijaitsevat suurimmilla mahdollisilla etäisyyksillä toisistaan. Pääasiallinen k-means-algoritmin ratkaisemien ongelmien tyyppi on oletukset (hypoteesit) klusterien lukumäärästä, ja niiden tulee olla mahdollisimman erilaisia. K:n valinta voi perustua aikaisempaan tutkimukseen, teoreettisiin pohdintoihin tai intuitioon.

Algoritmin yleisidea: annettua kiinteää määrää k havaintoklustereita verrataan klustereihin niin, että klusterin keskiarvot (kaikkien muuttujien osalta) eroavat toisistaan ​​mahdollisimman paljon.

Algoritmin kuvaus

1. Kohteiden alkuperäinen jakaminen klustereihin.

  • Valitaan luku k, ja ensimmäisessä vaiheessa näitä pisteitä pidetään klustereiden ”keskipisteinä”.
  • Jokainen klusteri vastaa yhtä keskustaa.

Alkukeskipisteiden valinta voidaan tehdä seuraavasti:

  • valitaan k-havainnot alkuetäisyyden maksimoimiseksi;
  • satunnainen valinta k-havainnoista;
  • ensimmäisten k-havaintojen valinta.

Tämän seurauksena jokainen objekti on liitetty tiettyyn klusteriin.

2. Iteratiivinen prosessi.

Lasketaan klusterien keskipisteet, joita sitten käytetään klustereiden koordinaattikohtaisten keskiarvojen laskemiseen. Kohteet jaetaan uudelleen.

Keskusten laskeminen ja objektien uudelleenjakaminen jatkuu, kunnes jokin ehdoista täyttyy:

  • klusterikeskukset ovat vakiintuneet, ts. kaikki havainnot kuuluvat klusteriin, johon ne kuuluivat ennen nykyistä iteraatiota;
  • iteraatioiden määrä on yhtä suuri kuin iteraatioiden enimmäismäärä.

Kuvassa on esimerkki k-keskiarvo-algoritmista, kun k on kaksi.

Esimerkki k-keskiarvo-algoritmista (k=2)

Klusterien määrän valitseminen on monimutkainen ongelma. Jos tästä numerosta ei ole oletuksia, on suositeltavaa luoda 2 klusteria ja sitten 3, 4, 5 jne. saatuja tuloksia vertaamalla.

Klusterin laadun tarkistaminen

K-keskiarvojen klusterianalyysin tulosten saatuasi kannattaa tarkistaa klusteroinnin oikeellisuus (eli arvioida kuinka erilaisia ​​klusterit eroavat toisistaan).

Tätä varten kunkin klusterin keskiarvot lasketaan. Hyvän klusteroinnin pitäisi tuottaa hyvin erilaisia ​​keinoja kaikille mittauksille tai ainakin suurimmalle osalle niistä.

K-means-algoritmin edut:

  • helppokäyttöisyys;
  • käytön nopeus;
  • algoritmin ymmärrettävyys ja läpinäkyvyys.

K-means-algoritmin haitat:

  • Algoritmi on liian herkkä poikkeaville arvoille, jotka voivat vääristää keskiarvoa.

Mahdollinen ratkaisu Tämä ongelma on käyttää algoritmin muunnelmaa - k-mediaanialgoritmia;

  • Algoritmi voi olla hidas suurissa tietokannassa. Mahdollinen ratkaisu tähän ongelmaan on käyttää datan otantaa.

Bayesin verkot

Todennäköisyysteoriassa tietoriippuvuuden käsite mallinnetaan ehdollisen riippuvuuden (tai tiukasti: ehdollisen riippumattomuuden puuttumisen) kautta, joka kuvaa, kuinka luottamuksemme jonkin tapahtuman lopputulokseen muuttuu, kun saamme uutta tietoa tosiasioista, edellyttäen, että tiesimme jo. joitain muita tosiasioita.

On kätevää ja intuitiivista esittää elementtien välisiä riippuvuuksia ohjatun polun kautta, joka yhdistää nämä elementit graafissa. Jos elementtien x ja y välinen suhde ei ole suora ja se suoritetaan kolmannen elementin z kautta, on loogista olettaa, että x:n ja y:n välisellä polulla on elementti z. Tällaiset välisolmut "leikkaavat" riippuvuuden x:n ja y:n välillä, ts. simuloida ehdollisen riippumattomuuden tilannetta niiden välillä tunnetulla arvolla suoria vaikuttavia tekijöitä.Tällaisia ​​mallinnuskieliä ovat Bayesin verkostot, joita käytetään kuvaamaan tietyn aihealueen käsitteiden välisiä ehdollisia riippuvuuksia.

Bayesilaiset verkot ovat graafiset rakenteet esittää todennäköisyyssuhteita suuren määrän muuttujien välillä ja tehdä todennäköisyyspohjaisia ​​päätelmiä näiden muuttujien perusteella."Naiivi" (bayesilainen) luokittelu on melko läpinäkyvä ja ymmärrettävä luokitusmenetelmä. "Naiiviksi" sitä kutsutaan, koska se perustuu oletukseen keskinäisestämerkkien riippumattomuus.

Luokitteluominaisuudet:

1. Kaikkien muuttujien käyttäminen ja kaikkien niiden välisten riippuvuuksien määrittäminen.

2. Kaksi oletusta muuttujista:

  • kaikki muuttujat ovat yhtä tärkeitä;
  • kaikki muuttujat ovat tilastollisesti riippumattomia, ts. yhden muuttujan arvo ei kerro mitään toisen arvosta.

Bayesin verkkojen käytössä on kaksi pääskenaariota:

1. Kuvaava analyysi. Aihealue esitetään kaaviona, jonka solmut edustavat käsitteitä ja suunnatut kaaret nuolilla havainnollistavat näiden käsitteiden välisiä suoria riippuvuuksia. x:n ja y:n välinen suhde tarkoittaa: x:n arvon tunteminen auttaa sinua arvaamaan paremmin y:n arvon. Suoran yhteyden puuttuminen käsitteiden välillä mallintaa niiden välistä ehdollista riippumattomuutta tietyn "erottelevien" käsitteiden tunnetuilla arvoilla. Esimerkiksi lapsen kengän koko liittyy ilmeisesti lapsen lukutaitoon iän myötä. Isompi kenkäkoko antaa siis suuremman varmuuden siitä, että lapsi jo lukee, mutta jos tiedämme jo iän, kengänkoon tietäminen ei enää anna meille lisäinformaatio lapsen lukutaidosta.


Toisena, päinvastaisena esimerkkinä, harkitse sellaisia ​​alun perin toisiinsa liittymättömiä tekijöitä, kuten tupakointi ja vilustuminen. Mutta jos tiedämme oireen esimerkiksi siitä, että ihminen kärsii yskästä aamulla, niin tieto siitä, että henkilö ei tupakoi, lisää luottamusta siihen, että henkilöllä on flunssa.

2. Luokittelu ja ennustaminen. Bayesin verkko, joka mahdollistaa useiden käsitteiden ehdollisen riippumattomuuden, mahdollistaa yhteisjakauman parametrien määrän vähentämisen, jolloin ne voidaan luotettavasti arvioida käytettävissä olevilla tietomäärillä. Joten 10 muuttujalla, joista jokainen voi ottaa 10 arvoa, yhteisjakauman parametrien lukumäärä on 10 miljardia - 1. Jos oletetaan, että vain 2 muuttujaa riippuu toisistaan ​​näiden muuttujien välillä, parametrien lukumäärästä tulee 8 * (10-1) + (10*10-1) = 171. Laskennallisten resurssien kannalta realistisen yhteisjakaumamallin avulla voimme ennustaa käsitteen tuntemattoman arvon esimerkiksi todennäköisimpänä arvona. tämä käsite ottaen huomioon muiden käsitteiden tunnetut arvot.

Seuraavat Bayes-verkkojen edut DataMining-menetelmänä mainitaan:

Malli määrittelee kaikkien muuttujien väliset riippuvuudet, mikä tekee siitä helppoakäsitellä tilanteita, joissa joidenkin muuttujien arvot ovat tuntemattomia;

Bayesilaiset verkot ovat melko helppoja tulkita ja salliaEnnustava mallinnus helpottaa mitä jos - skenaarioanalyysiä;

Bayesin menetelmä mahdollistaa kuvioiden luonnollisen yhdistämisen,päätelty tiedoista ja esimerkiksi nimenomaisesti saadusta asiantuntijatiedosta;

Bayes-verkkojen käyttö välttää ylisovitusongelman(overfitting), eli mallin liiallinen monimutkaisuus, mikä on heikkousmonia menetelmiä (esimerkiksi päätöspuut ja neuroverkot).

Naive Bayes -lähestymistavalla on seuraavat haitat:

On oikein kertoa ehdolliset todennäköisyydet vain, kun kaikki syötemuuttujat ovat todella tilastollisesti riippumattomia; vaikka usein tämä menetelmäosoittaa melko hyviä tuloksia, kun tilastollinen ehto ei täytyriippumattomuus, mutta teoriassa tällainen tilanne pitäisi käsitellä monimutkaisemmallakoulutukseen perustuvat Bayes-verkostot;

Jatkuvien muuttujien suora käsittely ei ole mahdollista - niitä tarvitaanmuunnos intervalliasteikolle siten, että attribuutit ovat diskreettejä; kuitenkin sellainenmuunnokset voivat joskus johtaa merkittävien mallien menettämiseen;

Naive Bayes -lähestymistavan luokittelutulokseen vaikuttaa vainsyötemuuttujien yksittäiset arvot, parien yhteisvaikutus taitässä ei oteta huomioon eri attribuuttien arvojen triplettejä. Tämä voisi parantaaluokitusmallin laatu sen ennustetarkkuuden kannalta,Se kuitenkin lisäisi testattavien vaihtoehtojen määrää.

Keinotekoiset neuroverkot

Keinotekoiset hermoverkot (jäljempänä hermoverkot) voivat olla synkronisia ja asynkronisia.Synkronisissa neuroverkoissa sen tila muuttuu kullakin hetkellä vain yksi neuroni. Asynkronisessa - tila muuttuu välittömästi koko neuroniryhmässä, yleensä kaikissa kerros. On kaksi perusarkkitehtuurit- kerrostetut ja täysin yhdistetyt verkot.Kerrostettujen verkkojen avainkäsite on kerroksen käsite.Kerros on yksi tai useampi hermosolu, jonka tulot vastaanottavat saman yhteisen signaalin.Kerrostetut hermoverkot ovat hermoverkkoja, joissa neuronit on jaettu erillisiin ryhmiin (kerroksiin) siten, että tietoa käsitellään kerros kerrokselta.Kerrostetuissa verkoissa i:nnen kerroksen neuronit vastaanottavat sisääntulosignaaleja, muuntavat ne ja välittävät ne haarautumispisteiden kautta (i+1)-kerroksen neuroneille. Ja niin edelleen k:nnelle kerrokselle, joka tuottaalähtösignaalit tulkille ja käyttäjälle. Kunkin kerroksen hermosolujen lukumäärä ei liity muiden kerrosten hermosolujen määrään, ja se voi olla mielivaltainen.Yhdessä kerroksessa dataa käsitellään rinnakkain, ja koko verkossa käsittely tapahtuu peräkkäin - kerroksesta kerrokseen. Kerrostettuja hermoverkkoja ovat esimerkiksi monikerroksiset perceptronit, säteittäiset kantafunktioverkot, kognitroni-, noncognitron-, assosiatiiviset muistiverkot.Signaalia ei kuitenkaan aina lähetetä kaikille kerroksen hermosoluille. Esimerkiksi kognitronissa jokainen nykyisen kerroksen neuroni vastaanottaa signaaleja vain edellisen kerroksen lähellä olevilta neuroneilta.

Kerrosverkot voivat puolestaan ​​olla yksikerroksisia tai monikerroksisia.

Yksikerroksinen verkko- yhdestä kerroksesta koostuva verkko.

Monikerroksinen verkko- verkko, jossa on useita kerroksia.

Monikerroksisessa verkossa ensimmäistä kerrosta kutsutaan syöttökerrokseksi, seuraavia kerroksia kutsutaan sisäiseksi tai piilotetuksi ja viimeistä kerrosta kutsutaan tuloskerrokseksi. Siten välikerrokset ovat kaikki kerrokset monikerroksisessa hermoverkossa paitsi tulo ja lähtö.Verkon syöttökerros kommunikoi syöttötietojen kanssa ja lähtökerros kommunikoi lähdön kanssa.Siten neuroneja voidaan syöttää, tulostaa ja piilottaa.Syöttökerros on organisoitu syöttöhermosoluista, jotka vastaanottavat dataa ja jakavat sen verkon piilokerroksen neuronien tuloihin.Piilotettu neuroni on neuroni, joka sijaitsee hermoverkon piilokerroksessa.Tuotantohermosolut, joista verkon lähtökerros on järjestetty, tuottavathermoverkon tulokset.

Mesh-verkoissa Jokainen neuroni välittää tulostensa muille hermosoluille, mukaan lukien itselleen. Verkon lähtösignaalit voivat olla kaikki tai osa neuronien lähtösignaaleista useiden verkon toimintajaksojen jälkeen.

Kaikki tulosignaalit annetaan kaikille neuroneille.

Neuroverkkojen koulutus

Ennen kuin käytät neuroverkkoa, se on koulutettava.Neuroverkon koulutusprosessi koostuu sen sisäisten parametrien säätämisestä tiettyyn tehtävään.Neuraaliverkkoalgoritmi on iteratiivinen, sen vaiheita kutsutaan jaksoiksi tai jaksoiksi.Epookki on yksi iteraatio oppimisprosessissa, johon kuuluu kaikkien koulutussarjan esimerkkien esittäminen ja mahdollisesti oppimisen laadun tarkistaminen testisarjassa. monet. Oppimisprosessi suoritetaan koulutusnäytteellä.Harjoitussarja sisältää tietojoukon syöttöarvot ja niitä vastaavat lähtöarvot. Harjoittelun aikana hermoverkko löytää tiettyjä riippuvuuksia lähtökenttien ja syöttökenttien välillä.Siten olemme kysymyksen edessä - mitä syöttökenttiä (ominaisuuksia) tarvitsemme?tarpeen käyttää. Aluksi valinta tehdään heuristisestitulojen määrää voidaan muuttaa.

Ongelmana voi syntyä havaintojen määrä tietojoukossa. Ja vaikka on olemassa tiettyjä sääntöjä, jotka kuvaavat suhdetta vaaditun havaintomäärän ja verkon koon välillä, niiden oikeellisuutta ei ole todistettu.Vaadittujen havaintojen määrä riippuu ratkaistavan ongelman monimutkaisuudesta. Kun piirteiden määrä kasvaa, havaintojen määrä kasvaa epälineaarisesti; tätä ongelmaa kutsutaan "ulottuvuuden kiroukseksi". Jos määrä on riittämätönon suositeltavaa käyttää lineaarista mallia.

Analyytikon on määritettävä verkon kerrosten lukumäärä ja kunkin kerroksen neuronien lukumäärä.Seuraavaksi sinun on määritettävä sellaiset painojen ja siirtymien arvot, jotka voivatminimoi päätösvirhe. Painot ja poikkeamat säädetään automaattisesti minimoimaan eron halutun ja vastaanotetun lähtösignaalin välillä, jota kutsutaan harjoitusvirheeksi.Rakennetun hermoverkon harjoitusvirhe lasketaan vertaamallalähtö- ja tavoitearvot (toivotut). Virhefunktio muodostetaan tuloksena olevista eroista.

Virhefunktio on tavoitefunktio, joka vaatii minimointia prosessissaohjattua neuroverkon oppimista.Virhefunktion avulla voit arvioida neuroverkon laatua harjoituksen aikana. Usein käytetään esimerkiksi neliöityjen virheiden summaa.Neuroverkon koulutuksen laatu määrää sen kyvyn ratkaista sille osoitetut tehtävät.

Neuroverkon uudelleenkoulutus

Neuroverkkoja opetettaessa syntyy usein vakava vaikeus nsyliasennusongelma.Ylisovitus tai ylisovitus - ylisovitushermoverkko tiettyyn koulutusesimerkkien joukkoon, jossa verkko häviääkyky yleistää.Ylikuntoutus tapahtuu, kun harjoittelua on liikaa, ei tarpeeksikoulutusesimerkkejä tai liian monimutkaista hermoverkkorakennetta.Uudelleenkoulutus johtuu siitä, että koulutussarjan valintaon satunnainen. Oppimisen ensimmäisistä vaiheista lähtien virhe pienenee. Päälläseuraavat vaiheet virheparametrien (objektiivisen funktion) vähentämiseksimukautua harjoitussarjan ominaisuuksiin. Näin kuitenkin tapahtuu"säätö" ei sarjan yleisiin malleihin, vaan sen osan ominaisuuksiin -koulutuksen osajoukko. Samalla ennusteen tarkkuus heikkenee.Yksi vaihtoehdoista verkoston ylikoulutuksen torjumiseksi on jakaa koulutusotos kahteen osaansarjat (koulutus ja testaus).Neuroverkkoa koulutetaan harjoitussarjassa. Rakennettu malli tarkistetaan testisarjasta. Nämä joukot eivät saa leikata toisiaan.Jokaisella askeleella mallin parametrit muuttuvat, mutta jatkuvasti vähenevätTavoitefunktion arvo esiintyy juuri harjoitusjoukossa. Kun jaamme joukon kahteen osaan, voimme havaita ennustevirheen muutosta testijoukossa rinnakkain harjoitusjoukon havaintojen kanssa. jonkin verranennustevirheaskeleiden määrä pienenee molemmissa sarjoissa. Kuitenkin päälläTietyssä vaiheessa testisarjan virhe alkaa kasvaa, kun taas harjoitusjoukon virhe pienenee edelleen. Tätä hetkeä pidetään uudelleenkoulutuksen alussa

DataMining-työkalut

Globaalien ohjelmistomarkkinoiden DataMining-sektorin kehittämisessä on mukana sekä maailmankuuluja johtajia että uusia kehittyviä yrityksiä. DataMining-työkalut voidaan esittää joko erillisenä sovelluksena tai päätuotteen lisäosina.Jälkimmäistä vaihtoehtoa käyttävät monet ohjelmistomarkkinajohtajat.Näin ollen on jo tullut perinne, että universaalien tilastopakettien kehittäjät sisällyttävät pakettiin perinteisten tilastoanalyysimenetelmien lisäksitietty joukko DataMining-menetelmiä. Nämä ovat sellaisia ​​paketteja SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner). Jotkut OLAP-ratkaisujen tarjoajat tarjoavat myös joukon DataMining-menetelmiä, kuten Cognos-tuoteperhe. On toimittajia, jotka sisällyttävät DataMining-ratkaisut DBMS-toimintoihin: nämä ovat Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMIntelligentMinerforData).

Bibliografia

  1. Abdikeev N.M. Danko T.P. Ildemenov S.V. Kiselev A.D., "Liiketoimintaprosessien uudelleensuunnittelu. MBA-kurssi", M.: Eksmo Publishing House, 2005. - 592 s. - (MBA)
  1. Abdikeev N.M., Kiselev A.D. "Tietojohtaminen yrityksessä ja liiketoiminnan uudelleensuunnittelu" - M.: Infra-M, 2011. - 382 s. – ISBN 978-5-16-004300-5
  1. Barseghyan A.A., Kupriyanov M.S., Stepanenko V.V., Kholod I.I. "Tietojen analysoinnin menetelmät ja mallit: OLAP ja tiedonlouhinta", Pietari: BHV-Petersburg, 2004, 336 s., ISBN 5-94157-522-X
  1. Duke SISÄÄN., Samoilenko A., "Tietojen louhinta.Koulutuskurssi" St. Petersburg: Peter, 2001, 386 s.
  1. Chubukova I.A., tiedonlouhintakurssi, http://www.intuit.ru/department/database/datamining/
  1. IanH. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Tiedonlouhinta: Käytännön koneoppimistyökalut ja -tekniikat (kolmas painos), ISBN 978-0-12-374856-0
  1. Petrushin V.A. , Khan L., Multimedia Data Mining and Knowledge Discovery

Venäjän federaation opetus- ja tiedeministeriö

Liittovaltion budjettitaloudellinen korkea-asteen koulutuslaitos

"KANSALLINEN TUTKIMUS TOMSKIN AMMATTIKORKEAKOULU"

Kybernetiikkainstituutti

Tietotekniikan ja tietojenkäsittelytieteen suunta

VT:n laitos

Testata

tietotekniikan ja tietotekniikan alalla

Aihe: Tiedonlouhintamenetelmät

Johdanto

Tietojen louhinta. Peruskäsitteet ja määritelmät

1 Tiedonlouhintaprosessin vaiheet

2 Älykkäiden analyysijärjestelmien komponentit

3 Tiedonlouhintamenetelmät

Tiedonlouhintamenetelmät

1 Yhdistyksen sääntöjen johtaminen

2 Neuraaliverkkoalgoritmit

3 Lähin naapuri ja k-lähimpien naapurien menetelmät

4 Päätöspuut

5 Klusterointialgoritmit

6 Geneettiset algoritmit

Käyttöalueet

Tiedonlouhintatyökalujen valmistajat

Kritiikki menetelmistä

Johtopäätös

Bibliografia

Johdanto

Kehityksen tulos tietotekniikat on valtava määrä dataa, johon on kertynyt sähköisessä muodossa, kasvaa kovaa vauhtia. Samaan aikaan tiedoilla on yleensä heterogeeninen rakenne (tekstit, kuvat, ääni, video, hypertekstidokumentit, relaatiotietokannat). Kerätty varten pitkäaikainen data voi sisältää malleja, trendejä ja suhteita, jotka ovat arvokasta tietoa suunnittelua, ennustamista, päätöksentekoa ja prosessien ohjausta varten. Ihmiset eivät kuitenkaan fyysisesti pysty analysoimaan tehokkaasti tällaisia ​​heterogeenisten tietojen määriä. Perinteisten matemaattisten tilastojen menetelmät ovat pitkään väittäneet olevansa tietojen analysoinnin pääväline. Ne eivät kuitenkaan mahdollista uusien hypoteesien synteesiä, vaan niitä voidaan käyttää vain ennalta muotoiltujen hypoteesien vahvistamiseen ja "karkeaan" tutkivaan analyysiin, joka muodostaa online-analyyttisen käsittelyn (OLAP) perustan. Usein juuri hypoteesin muotoileminen osoittautuu vaikeimmaksi tehtäväksi suoritettaessa analyysiä myöhempää päätöksentekoa varten, koska kaikki datan mallit eivät ole ilmeisiä ensi silmäyksellä. Siksi tiedonlouhintateknologiaa pidetään yhtenä tärkeimmistä ja lupaavimmista aiheista tietotekniikka-alan tutkimuksen ja soveltamisen kannalta. Tiedonlouhinta tarkoittaa tässä tapauksessa prosessia, jossa tunnistetaan uusi, oikea ja mahdollisesti hyödyllinen tieto, joka perustuu suuriin tietomääriin. Siten MIT Technology Review kuvaili tiedon louhintaa yhdeksi kymmenestä nousevasta teknologiasta, jotka muuttavat maailmaa.

1. Tiedonlouhinta. Peruskäsitteet ja määritelmät

Tiedonlouhinta on prosessi, jossa löydetään "raakasta" tiedosta aiemmin tuntematonta, ei-triviaalia, käytännöllisesti hyödyllistä ja tulkittavissa olevaa tietoa, jota tarvitaan päätöksentekoon ihmisen toiminnan eri alueilla.

Data Mining -teknologian olemus ja tarkoitus voidaan muotoilla seuraavasti: se on tekniikka, joka on suunniteltu etsimään suuria tietomääriä ei-ilmeisten, objektiivisten ja käytännöllisten mallien löytämiseksi.

Ei-ilmeiset kuviot ovat malleja, joita ei voida havaita tavanomaisilla tietojenkäsittelymenetelmillä tai asiantuntija-analyysillä.

Objektiiviset mallit tulee ymmärtää kaavoina, jotka vastaavat täysin todellisuutta, toisin kuin asiantuntijalausunto, joka on aina subjektiivinen.

Tämä data-analyysikonsepti olettaa, että:

§ tiedot voivat olla epätarkkoja, epätäydellisiä (sisältää puutteita), ristiriitaisia, heterogeenisia, epäsuoria ja samalla valtavia; siksi tietojen ymmärtäminen tietyissä sovelluksissa vaatii huomattavaa älyllistä työtä;

§ data-analyysialgoritmeilla itsessään voi olla "älyn elementtejä", erityisesti kyky oppia ennakkotapauksista, toisin sanoen tehdä yleisiä johtopäätöksiä tiettyjen havaintojen perusteella; tällaisten algoritmien kehittäminen vaatii myös huomattavaa älyllistä työtä;

§ prosesseja, joissa raakadata prosessoidaan tiedoksi ja tiedot tiedoksi, ei voida tehdä manuaalisesti ja ne vaativat automatisointia.

Tiedonlouhintatekniikka perustuu mallien konseptiin, jotka heijastavat datan moniulotteisten suhteiden fragmentteja. Nämä kuviot edustavat kuvioita, jotka ovat luontaisia ​​datan osanäytteille, jotka voidaan ilmaista tiiviisti ihmisen luettavassa muodossa.

Mallihaku suoritetaan menetelmillä, joita eivät rajoita a priori oletukset otoksen rakenteesta ja analysoitujen indikaattoreiden arvojen jakaumien tyypeistä.

Data Miningin tärkeä piirre on etsittävien mallien epästandardi ja epäselvä luonne. Toisin sanoen Data Mining -työkalut eroavat tilastollisista tietojenkäsittelytyökaluista ja OLAP-työkaluista siinä, että sen sijaan, että käyttäjät tarkistaisivat ennalta oletetut keskinäiset riippuvuudet, ne pystyvät löytämään tällaiset riippuvuudet itsenäisesti käytettävissä olevan tiedon perusteella ja rakentamaan hypoteeseja niiden luonteesta. Data Mining -menetelmillä tunnistetaan viisi vakiomallityyppiä:

· assosiaatio - suuri todennäköisyys, että tapahtumat liittyvät toisiinsa. Esimerkki yhdistämisestä ovat tavarat kaupassa, jotka ostetaan usein yhdessä;

· järjestys - suuri todennäköisyys ajassa liittyvien tapahtumien ketjulle. Esimerkki sarjasta on tilanne, jossa tietyn ajan kuluessa yhden tuotteen ostamisesta ostetaan suurella todennäköisyydellä toinen;

· luokittelu - on merkkejä, jotka kuvaavat ryhmää, johon tämä tai tuo tapahtuma tai esine kuuluu;

· klusterointi on luokituksen kaltainen malli ja eroaa siitä siinä, että itse ryhmiä ei ole määritelty - ne tunnistetaan automaattisesti tietojenkäsittelyn aikana;

· ajalliset mallit - kuvioiden esiintyminen tiettyjen tietojen käyttäytymisen dynamiikassa. Tyypillinen esimerkki aikamallista on tiettyjen tavaroiden tai palveluiden kysynnän kausivaihtelut.

1.1 Tiedonlouhintaprosessin vaiheet

Perinteisesti tiedonlouhintaprosessissa erotetaan seuraavat vaiheet:

1. Aihealueen opiskelu, jonka tuloksena muotoillaan analyysin päätavoitteet.

2. Tiedonkeruu.

Tietojen esikäsittely:

a. Tietojen puhdistus - epäjohdonmukaisuuksien ja satunnaisten "kohinoiden" poistaminen lähdetiedoista

b. Tietojen integrointi - tietojen yhdistäminen useista mahdollisista lähteistä yhdeksi arkistoon. Tietojen muuntaminen. Tässä vaiheessa tiedot muunnetaan analysoitavaksi sopivaan muotoon. Tietojen yhdistämistä, attribuuttien otantaa, tietojen pakkausta ja ulottuvuuden vähentämistä käytetään usein.

4. Tietojen analysointi. Osana tätä vaihetta käytetään louhintaalgoritmeja kuvioiden poimimiseen.

5. Löytyneiden kuvioiden tulkinta. Tämä vaihe voi sisältää poimittujen kuvioiden visualisoinnin, todella hyödyllisten kuvioiden tunnistamisen joidenkin hyödyllisyystoimintojen perusteella.

Uuden tiedon hyödyntäminen.

1.2 Älykkäiden analyysijärjestelmien komponentit

Tyypillisesti tiedonlouhintajärjestelmissä on seuraavat pääkomponentit:

1. Tietokanta, tietovarasto tai muu tietovarasto. Tämä voi olla yksi tai useampi tietokanta, tietovarasto, laskentataulukot tai muun tyyppiset arkistot, jotka voidaan puhdistaa ja integroida.

2. Tietokanta tai tietovarastopalvelin. Määritetty palvelin vastaa olennaisten tietojen noutamisesta käyttäjän pyynnöstä.

Tietopohja. Tämä on verkkotuntituntemusta, joka opastaa tuloksena olevien mallien hyödyllisyyden etsimisessä ja arvioinnissa.

Tiedon louhintapalvelu. Se on olennainen osa tiedonlouhintajärjestelmää ja sisältää joukon toiminnallisia moduuleja tehtäviin, kuten karakterisointi, assosiaatiohaku, luokittelu, klusterianalyysi ja varianssianalyysi.

Kuvion arviointimoduuli. Tämä komponentti laskee kuvioiden kiinnostavia tai hyödyllisiä mittareita.

Graafinen käyttöliittymä. Tämä moduuli vastaa viestinnästä käyttäjän ja tiedonlouhintajärjestelmän välillä, kuvioiden visualisoinnista eri muodoissa.

1.3 Tiedonlouhintamenetelmät

Suurin osa tiedonlouhintatekniikassa käytetyistä analyyttisista menetelmistä on hyvin tunnettuja matemaattisia algoritmeja ja menetelmiä. Uutta niiden sovelluksessa on mahdollisuus käyttää niitä tiettyjen erityisongelmien ratkaisemisessa laitteiston ja ohjelmiston kehittyvien ominaisuuksien vuoksi. On huomattava, että useimmat tiedon louhintamenetelmät kehitettiin tekoälyteorian puitteissa. Katsotaanpa yleisimmin käytettyjä menetelmiä:

Yhdistyksen sääntöjen johtaminen.

2. Neuraaliverkkoalgoritmit, joiden idea perustuu analogiaan hermokudoksen toiminnan kanssa ja perustuu siihen, että alkuparametreja pidetään signaaleina, jotka muuntuvat "neuronien" välisten olemassa olevien yhteyksien mukaisesti. ja koko verkon vastaus katsotaan vastaukseksi, joka syntyy analyysistä alkuperäiseen dataan.

Alkuperäisten tietojen läheisen analogin valitseminen olemassa olevista historiallisista tiedoista. Kutsutaan myös "lähimmän naapurin" menetelmäksi.

Päätöspuut ovat hierarkkinen rakenne, joka perustuu joukkoon kysymyksiä, jotka edellyttävät "kyllä" tai "ei" vastausta.

Klusterimalleja käytetään ryhmittelemään samanlaisia ​​tapahtumia ryhmiin tietojoukon useiden kenttien samanlaisten arvojen perusteella.

Seuraavassa luvussa kuvataan yksityiskohtaisemmin yllä olevia menetelmiä.

2. Tiedonlouhintamenetelmät

2.1 Päätös yhdistyksen säännöistä

Yhdistyksen säännöt ovat muotoa "jos... sitten...". Tällaisten sääntöjen etsiminen tietojoukosta paljastaa piilotettuja yhteyksiä näennäisesti toisiinsa liittymättömissä tiedoissa. Yksi useimmin mainituista esimerkeistä assosiaatiosääntöjen löytämisestä on ostoskorissa olevien vakaiden yhteyksien löytämisen ongelma. Tämä ongelma on määrittää, mitä tuotteita asiakkaat ostavat yhdessä, jotta markkinoijat voivat sijoittaa nämä tuotteet asianmukaisesti myymälään myynnin lisäämiseksi.

Assosiaatiosäännöt määritellään lauseiksi muotoa (X1,X2,…,Xn) -> Y, jossa oletetaan, että Y voi olla läsnä tapahtumassa, jos X1,X2,…,Xn ovat läsnä samassa tapahtumassa. On huomattava, että sana "voi" tarkoittaa, että sääntö ei ole identiteetti, vaan se tyydytetään vain jollain todennäköisyydellä. Lisäksi Y voi olla joukko elementtejä yhden elementin sijaan. Todennäköisyyttä löytää Y tapahtumassa, joka sisältää elementit X1,X2,…,Xn, kutsutaan luottamusta. Niiden tapahtumien prosenttiosuutta, jotka sisältävät säännön tapahtumien kokonaismäärästä, kutsutaan tueksi. Luottamustasoa, jonka täytyy ylittää säännön luotettavuus, kutsutaan mielenkiintoisuudeksi.

Yhdistyssääntöjä on erilaisia. Yksinkertaisimmassa muodossaan yhdistyssäännöt kertovat vain yhdistyksen olemassaolosta tai puuttumisesta. Tällaisia ​​sääntöjä kutsutaan Boolen yhdistyssäännöiksi. Esimerkki tällaisesta säännöstä: "jogurttia ostavat asiakkaat ostavat myös vähärasvaista voita."

Sääntöjä, jotka ryhmittelevät useita yhdistämissääntöjä yhteen, kutsutaan monitasoisiksi tai yleisiksi assosiaatiosäännöiksi. Tällaisia ​​sääntöjä rakennettaessa elementit ryhmitellään yleensä hierarkian mukaan ja haku suoritetaan korkeimmalla käsitteellisellä tasolla. Esimerkiksi "maitoa ostavat asiakkaat ostavat myös leipää". Tässä esimerkissä maito ja leipä sisältävät hierarkian eri tyyppejä ja merkkejä, mutta alimman tason haku ei paljasta mielenkiintoisia sääntöjä.

Monimutkaisempi sääntötyyppi on kvantitatiiviset assosiaatiosäännöt. Tämän tyyppistä sääntöä etsitään käyttämällä kvantitatiivisia (esim. hinta) tai kategorisia (esim. sukupuoli) määritteitä, ja se määritellään seuraavasti: , ,…,} -> . Esimerkiksi "ostajat, joiden ikä on 30-35 vuotta ja joiden tulot ovat yli 75 000 vuodessa, ostavat autoja, joiden hinta on yli 20 000."

Edellä mainitut säännöt eivät ota huomioon sitä tosiasiaa, että tapahtumat ovat luonteeltaan ajasta riippuvia. Esimerkiksi haku ennen kuin tuote on listattu myyntiin tai sen jälkeen, kun se on kadonnut markkinoilta, vaikuttaa haitallisesti tukikynnykseen. Tämän huomioon ottaen attribuutin elinajan käsite otettiin käyttöön väliaikaisten assosiaatiosääntöjen (Temporal Association Rules) hakualgoritmeissa.

Assosiaatiosääntöjen etsimisen ongelma voidaan yleensä jakaa kahteen osaan: usein esiintyvien elementtijoukkojen etsimiseen ja sääntöjen luomiseen löydettyjen usein esiintyvien joukkojen perusteella. Aikaisemmat tutkimukset ovat pääosin noudattaneet näitä linjoja ja laajentaneet niitä eri suuntiin.

Apriori-algoritmin käyttöönoton jälkeen tämä algoritmi on yleisimmin käytetty ensimmäisessä vaiheessa. Monet parannukset, esimerkiksi nopeus ja skaalautuvuus, tähtäävät parantamaan Apriori-algoritmia, korjaamaan sen virheellistä ominaisuutta generoida liian monta ehdokasta useimmin esiintyville elementtijoukoille. Apriori luo elementtijoukkoja käyttämällä vain suuria sarjoja, joka löytyy edellisestä vaiheesta tarkastamatta tapahtumia uudelleen. Muokattu AprioriTid-algoritmi parantaa Aprioria käyttämällä tietokantaa vain ensimmäisellä kerralla. Seuraavissa vaiheissa laskettaessa käytetään vain ensimmäisessä ajossa luotua dataa, joka on kooltaan paljon pienempi kuin alkuperäinen tietokanta. Tämä johtaa valtavaan tuottavuuden kasvuun. Algoritmista edelleen paranneltu versio, nimeltään AprioriHybrid, saadaan käyttämällä Aprioria ensimmäisillä ajoilla ja sitten siirtymällä AprioriTidiin myöhemmissä ajoissa, kun k:s ehdokasjoukko voi olla jo kokonaan tietokoneen muistissa.

Lisäponnistelut Apriori-algoritmin parantamiseksi liittyvät algoritmin rinnakkaisuun (Count Distribution, Data Distribution, Candidate Distribution jne.), sen skaalaukseen (Intelligent Data Distribution, Hybrid Distribution), uusien tietorakenteiden, kuten puut, käyttöönottoon. usein esiintyviä elementtejä (FP-kasvu).

Toiselle vaiheelle on ominaista lähinnä aitous ja kiinnostavuus. Uudet muutokset lisäävät edellä kuvatun ulottuvuuden, laadun ja ajoituksen tuen perinteisiin Boolen sääntösääntöihin. Evoluutioalgoritmia käytetään usein sääntöjen löytämiseen.

2.2 Neuroverkkoalgoritmit

Keinotekoiset hermoverkot ilmestyivät matemaattisten laitteiden soveltamisen seurauksena ihmisen hermoston toiminnan tutkimukseen sen lisääntymisen tavoitteena. Nimittäin: hermoston kyky oppia ja korjata virheitä, minkä ansiosta voimme simuloida, vaikkakin melko karkeasti, ihmisaivojen työtä. Hermoverkon tärkein rakenteellinen ja toiminnallinen osa on muodollinen neuroni, joka näkyy kuvassa. 1, jossa x0, x1,..., xn ovat tulosignaalivektorin komponentit, w0,w1,...,wn ovat neuronin tulosignaalien painoarvot ja y on neuronin lähtö signaali.

Riisi. 1. Muodollinen neuroni: synapsit (1), summaaja (2), muuntaja (3).

Muodollinen neuroni koostuu kolmen tyyppisistä elementeistä: synapseista, summaimesta ja muuntimesta. Synapsi kuvaa kahden neuronin välisen yhteyden vahvuutta.

Summain lisää tulosignaalit, jotka on aiemmin kerrottu vastaavilla painoilla. Muunnin toteuttaa yhden argumentin funktion - summaimen lähdön. Tätä toimintoa kutsutaan neuronin aktivointifunktioksi tai siirtofunktioksi.

Yllä kuvatut muodolliset neuronit voidaan yhdistää siten, että joidenkin hermosolujen lähtösignaalit ovat syötteenä toisille. Tuloksena olevaa joukkoa toisiinsa kytkettyjä neuroneja kutsutaan keinotekoisiksi hermoverkoiksi. neuroverkot, ANN) tai lyhyesti neuroverkot.

On olemassa seuraavat kolme yleistä neuronityyppiä, riippuen niiden sijainnista hermoverkossa:

Tuloneuronit (tulosolmut), joille syötetään tulosignaalit. Tällaisilla hermosoluilla on tavallisesti yksi yksikköpainoinen sisääntulo, ei esijännitettä ja hermosolujen lähtöarvo on yhtä suuri kuin tulosignaali;

Lähtösolmut, joiden lähtöarvot edustavat tuloksena olevia hermoverkon lähtösignaaleja;

Piilotetut neuronit (piilotetut solmut), joilla ei ole suoria yhteyksiä tulosignaaleihin, kun taas piilotettujen neuronien lähtösignaalien arvot eivät ole ANN:n lähtösignaaleja.

Interneuroniyhteyksien rakenteen perusteella erotetaan kaksi ANN-luokkaa:

Feedforward ANN:t, joissa signaali etenee vain tulohermosoluista lähtöhermosoluihin.

Toistuva ANN - ANN kanssa palautetta. Tällaisissa ANN:issa signaaleja voidaan siirtää minkä tahansa neuronien välillä riippumatta niiden sijainnista ANN:ssa.

ANN:n kouluttamiseen on kaksi yleistä lähestymistapaa:

Koulutus opettajan kanssa.

Oppiminen ilman opettajaa.

Ohjattu oppiminen sisältää valmiiksi luotujen koulutusesimerkkien käytön. Jokainen esimerkki sisältää sisääntulosignaalien vektorin ja vastaavan referenssilähtösignaalien vektorin, jotka riippuvat käsiteltävästä tehtävästä. Tämä setti kutsutaan harjoitussarjaksi tai harjoitussarjaksi. Neuroverkon kouluttamisessa pyritään muuttamaan ANN-yhteyksien painoja siten, että ANN-lähtösignaalien arvot poikkeavat mahdollisimman vähän lähtösignaalien vaadituista arvoista tietylle tulosignaalivektorille. .

Ohjaamattomassa oppimisessa yhteyspainot säädetään joko hermosolujen välisen kilpailun seurauksena tai ottamalla huomioon niiden neuronien lähtösignaalien korrelaatio, joiden välillä on yhteys. Ohjaamattoman oppimisen tapauksessa harjoitussarjaa ei käytetä.

Neuroverkkoja käytetään monenlaisten ongelmien ratkaisemiseen, kuten avaruussukkuloiden hyötykuorman suunnitteluun ja valuuttakurssien ennustamiseen. Niitä ei kuitenkaan usein käytetä tiedonlouhintajärjestelmissä mallin monimutkaisuuden vuoksi (useiden satojen interneuraalisten yhteyksien painoina kirjattu tieto on täysin ihmisen analyysin ja tulkinnan ulkopuolella) ja suurella harjoitussarjalla harjoitettavan pitkän harjoitusajan vuoksi. Toisaalta neuroverkoilla on sellaisia ​​etuja käytettäväksi data-analyysitehtävissä kuin kestävyys kohinalle datalle ja korkea tarkkuus.

2.3 Lähin naapuri ja k-lähimpien naapurien menetelmät

Lähimmän naapurin algoritmin (lähimmän naapurin algoritmin) ja k-lähimmän naapurin algoritmin (KNN) perusta on objektien samankaltaisuus. Lähin naapuri -algoritmi valitsee kaikkien tunnettujen kohteiden joukosta kohteen, joka on mahdollisimman lähellä (käyttäen objektien välistä etäisyysmetriikkaa, esimerkiksi euklidelaista) uutta aiemmin tuntematonta objektia. Lähin naapuri -menetelmän suurin ongelma on sen herkkyys harjoitustietojen poikkeaville arvoille.

Kuvattu ongelma voidaan välttää KNN-algoritmilla, joka tunnistaa kaikkien havaintojen joukosta k-lähimmät naapurit, jotka ovat samanlaisia ​​kuin uusi kohde. Uutta kohdetta koskeva päätös tehdään lähimpien naapurien luokkien perusteella. Tämän algoritmin tärkeä tehtävä on valita kerroin k - samanlaisiksi katsottavien tietueiden lukumäärä. Algoritmin muunnos, jossa naapurin osuus on verrannollinen etäisyyteen uuteen kohteeseen (k-painotettu lähimpien naapurien menetelmä), mahdollistaa suuremman luokittelutarkkuuden. K lähimpien naapurien menetelmällä voit myös arvioida ennusteen tarkkuutta. Jos esimerkiksi kaikilla k lähimmällä naapurilla on sama luokka, niin todennäköisyys, että testattavalla objektilla on sama luokka, on erittäin korkea.

Algoritmin ominaisuuksista on syytä huomata sen vastustuskyky poikkeaville poikkeavuuksille, koska todennäköisyys, että tällainen tietue sisällytetään k-lähimpien naapurien määrään, on pieni. Jos näin tapahtui, niin myös äänestysvaikutus (erityisesti painotettu) (k>2:lle) on todennäköisesti merkityksetön, ja siksi vaikutus luokittelutulokseen on myös pieni. Lisäksi etuja ovat toteutuksen yksinkertaisuus, algoritmin tuloksen tulkinnan helppous, kyky muokata algoritmia sopivimmilla yhdistelmäfunktioilla ja mittareilla, jolloin algoritmi voidaan sovittaa tiettyyn tehtävään. KNN-algoritmilla on myös useita haittoja. Ensinnäkin algoritmissa käytetyn tietojoukon on oltava edustava. Toiseksi mallia ei voi erottaa tiedoista: kaikkia esimerkkejä on käytettävä uuden esimerkin luokitteluun. Tämä ominaisuus rajoittaa suuresti algoritmin käyttöä.

2.4 Päätöspuut

Termi "päätöspuut" viittaa algoritmiperheeseen, joka perustuu luokitussääntöjen esittämiseen hierarkkisessa peräkkäisessä rakenteessa. Tämä on suosituin algoritmiluokka tiedon louhintaongelmien ratkaisemiseksi.

Päätöspuiden muodostamiseen tarkoitettujen algoritmien perhe mahdollistaa parametrin arvon ennustamisen tietylle tapaukselle perustuen suureen tietomäärään muista vastaavista tapauksista. Tyypillisesti tämän perheen algoritmeja käytetään ratkaisemaan ongelmia, jotka mahdollistavat kaikkien lähtötietojen jakamisen useisiin erillisiin ryhmiin.

Kun päätöspuun rakennusalgoritmeja sovelletaan lähtötietojen joukkoon, tulos näytetään puuna. Tällaiset algoritmit mahdollistavat tällaisen jaon useiden tasojen toteuttamisen jakamalla saadut ryhmät (puun oksat) pienempiin muiden ominaisuuksien perusteella. Jakamista jatketaan, kunnes ennustettavat arvot ovat samat (tai ennustetun parametrin jatkuvan arvon tapauksessa sulkeutuvat) kaikille tuloksena oleville ryhmille (puun lehdille). Näitä arvoja käytetään ennusteiden tekemiseen tämän mallin perusteella.

Päätöspuiden konstruointialgoritmien toiminta perustuu regressio- ja korrelaatioanalyysimenetelmien käyttöön. Yksi tämän perheen suosituimmista algoritmeista on CART (Classification and Regression Trees), joka perustuu puun oksan tietojen jakamiseen kahteen alihaaraan; Lisäksi tietyn haaran jatkojako riippuu siitä, kuinka paljon alkutietoa tämä haara kuvaa. Jotkut muut samankaltaiset algoritmit mahdollistavat haaran jakamisen useampaan alihaaraan. Tässä tapauksessa jako tehdään haaran kuvaaman datan suurimman korrelaatiokertoimen perusteella sen parametrin, jonka mukaan jako tapahtuu, ja sen jälkeen ennustettavan parametrin välillä.

Lähestymistavan suosio liittyy selkeyteen ja selkeyteen. Mutta päätöspuut eivät pohjimmiltaan kykene löytämään "parhaita" (täydellisimpiä ja tarkimpia) sääntöjä tiedoista. Ne toteuttavat naiivia periaatetta piirteiden peräkkäisestä tarkastelusta ja löytävät itse asiassa osia todellisista kuvioista, luoden vain illuusion loogisesta johtopäätöksestä.

2.5 Klusterointialgoritmit

Klusterointi on tehtävä jakaa objektijoukko ryhmiksi, joita kutsutaan klustereiksi. Suurin ero klusteroinnin ja luokituksen välillä on se, että ryhmien luetteloa ei ole määritelty selkeästi ja se määräytyy algoritmin toiminnan aikana.

Klusterianalyysin soveltaminen yleensä koostuu seuraavista vaiheista:

· näytteen valitseminen objekteista klusterointia varten;

· määritetään joukko muuttujia, joiden avulla otokseen kuuluvat objektit arvioidaan. Normalisoi muuttujien arvot tarvittaessa;

· samankaltaisuuden mitta-arvojen laskeminen kohteiden välillä;

· klusterianalyysimenetelmän soveltaminen samanlaisten objektien ryhmien (klusterien) luomiseen;

· analyysitulosten esittäminen.

Tulosten vastaanottamisen ja analysoinnin jälkeen on mahdollista säätää valittua metriikkaa ja klusterointimenetelmää, kunnes saavutetaan optimaalinen tulos.

Klusterointialgoritmit sisältävät hierarkkisia ja tasaisia ​​ryhmiä. Hierarkkiset algoritmit (kutsutaan myös taksonomiaalgoritmeiksi) eivät rakenna vain yhtä näytteen osiota erillisiksi klustereiksi, vaan sisäkkäisten osioiden järjestelmän. Algoritmin tulos on siis klusteripuu, jonka juurena on koko näyte ja lehdet pienimmät klusterit. Litteät algoritmit rakentavat yhden kohteiden osion klustereiksi, jotka eivät leikkaa toisiaan.

Toinen klusterointialgoritmien luokitus on selkeisiin ja sumeisiin algoritmeihin. Selkeät (tai ei-päällekkäiset) algoritmit antavat jokaiselle näyteobjektille klusterinumeron, eli jokainen objekti kuuluu vain yhteen klusteriin. Sumeat (tai leikkaavat) algoritmit määrittävät kullekin objektille joukon todellisia arvoja, jotka osoittavat objektin suhteen asteen klusteriin. Siten jokainen objekti kuuluu jokaiseen klusteriin tietyllä todennäköisyydellä.

Hierarkkisten klusterointialgoritmien joukossa on kaksi päätyyppiä: alhaalta ylös ja ylhäältä alas -algoritmit. Ylhäältä alas -algoritmit toimivat ylhäältä alas -periaatteella: ensin kaikki objektit sijoitetaan yhteen klusteriin, joka sitten jaetaan pienempiin ja pienempiin klustereihin. Yleisempiä ovat alhaalta ylös -algoritmit, jotka alkavat sijoittamalla jokainen objekti erilliseen klusteriin ja yhdistämällä sitten klustereita yhä suurempiin, kunnes kaikki näytteen objektit sisältyvät yhteen klusteriin. Siten rakennetaan sisäkkäisten osioiden järjestelmä. Tällaisten algoritmien tulokset esitetään yleensä puun muodossa.

Hierarkkisten algoritmien haittana on kokonaisten osioiden järjestelmä, joka voi olla tarpeetonta ratkaistavan ongelman yhteydessä.

Tarkastellaan nyt litteitä algoritmeja. Yksinkertaisimpia tästä luokasta ovat neliövirhealgoritmit. Näiden algoritmien klusterointiongelmana voidaan pitää objektien optimaalisen osion rakentamista ryhmiin. Tässä tapauksessa optimaalisuus voidaan määritellä vaatimukseksi minimoida osioinnin neliökeskiarvo:

,

Missä c j - klusterin "massakeskus". j(piste, jolla on tietyn klusterin keskimääräiset ominaisuudet).

Yleisin algoritmi tässä luokassa on k-means -menetelmä. Tämä algoritmi rakentaa tietyn määrän klustereita, jotka sijaitsevat mahdollisimman kaukana toisistaan. Algoritmin työ on jaettu useisiin vaiheisiin:

Valitse satunnaisesti k pisteet, jotka ovat klustereiden alkuperäisiä "massakeskuksia".

2. Määritä jokainen kohde klusteriin, jolla on lähin "massakeskipiste".

Jos algoritmin pysäytysehto ei täyty, palaa vaiheeseen 2.

Algoritmin pysäyttämisen kriteeriksi valitaan yleensä pienin muutos keskineliövirheessä. Algoritmi on myös mahdollista pysäyttää, jos vaiheessa 2 ei ollut objekteja, jotka ovat siirtyneet klusterista klusteriin. Tämän algoritmin haittoja ovat tarve määrittää klusterien lukumäärä osiointia varten.

Suosituin fuzzy-klusterointialgoritmi on c-means-algoritmi. Se on muunnos k-means-menetelmästä. Algoritmin vaiheet:

1. Valitse alkuperäinen sumea osio n esineitä päällä k klustereita valitsemalla jäsenmatriisin U koko n x k.

2. Etsi matriisin U avulla sumean virheen kriteerin arvo:

,

Missä c k - sumean klusterin "massakeskus". k:

3. Ryhmittele objektit uudelleen tämän sumean virheen kriteerin arvon pienentämiseksi.

4. Palaa vaiheeseen 2, kunnes matriisi muuttuu U ei tule merkityksettömäksi.

Tämä algoritmi ei välttämättä ole sopiva, jos klusterien lukumäärää ei tiedetä etukäteen tai jos jokainen objekti on osoitettava yksiselitteisesti yhteen klusteriin.

Seuraava algoritmien ryhmä ovat graafiteoriaan perustuvat algoritmit. Tällaisten algoritmien ydin on, että objektivalikoima esitetään graafin muodossa G=(V, E), jonka kärjet vastaavat objekteja ja joiden reunojen paino on yhtä suuri kuin objektien välinen "etäisyys". Graafiklusterointialgoritmien etuja ovat selkeys, toteutuksen suhteellinen helppous ja kyky tehdä erilaisia ​​geometrisiin näkökohtiin perustuvia parannuksia. Pääalgoritmit ovat yhdistettyjen komponenttien tunnistamisalgoritmi, minimivirittävän puun muodostamisalgoritmi ja kerros kerrokselta -klusterointialgoritmi.

Parametrin valitseminen R Yleensä muodostetaan parittaisten etäisyyksien jakaumien histogrammi. Tehtävissä, joissa datan klusterirakenne on hyvin määritelty, histogrammissa on kaksi huippua - yksi vastaa klusterin sisäisiä etäisyyksiä, toinen - klusterien välisiä etäisyyksiä. Parametri R on valittu näiden piikkien väliseltä minimivyöhykkeeltä. Samaan aikaan on melko vaikeaa hallita klusterien määrää etäisyyskynnyksellä.

Vähimmäisvirittävän puun algoritmi rakentaa ensin graafiin minimivirittävän puun ja poistaa sitten peräkkäin suurimman painon omaavat reunat. Kerros-kerroksinen klusterointialgoritmi perustuu yhdistettyjen graafikomponenttien tunnistamiseen tietyllä kohteiden (pisteiden) välisillä etäisyyksillä. Etäisyystaso määräytyy etäisyyden kynnyksen mukaan c. Jos esimerkiksi objektien välinen etäisyys on , niin .

Kerros kerrokselta -klusterointialgoritmi luo kaavion aligraafien sarjan G, jotka kuvastavat klusterien välisiä hierarkkisia suhteita:

,

Missä G t = (V, E t ) - tasokaavio Kanssa t, ,

Kanssa t - t:s etäisyyskynnys, m - hierarkiatasojen lukumäärä,
G 0 = (V, o), o on tyhjä graafin reunojen joukko, joka saadaan t 0 = 1,
G m = G, eli objektien kuvaaja ilman etäisyysrajoituksia (kaavion reunojen pituus), koska t m = 1.

Muuttamalla etäisyysrajaa ( Kanssa 0 , …, Kanssa m), jossa 0 = Kanssa 0 < Kanssa 1 < …< Kanssa m = 1, on mahdollista ohjata tuloksena olevien klustereiden hierarkian syvyyttä. Siten kerros kerrokselta -klusterointialgoritmi pystyy luomaan sekä tasaisen että hierarkkisen osion tiedoista.

Klusterin avulla voit saavuttaa seuraavat tavoitteet:

· parantaa tietojen ymmärtämistä tunnistamalla rakenneryhmiä. Otoksen jakaminen samanlaisten objektien ryhmiin mahdollistaa tiedon jatkokäsittelyn ja päätöksenteon yksinkertaistamisen soveltamalla jokaiseen klusteriin erilaista analyysimenetelmää;

· mahdollistaa tietojen kompaktin tallentamisen. Voit tehdä tämän koko näytteen tallentamisen sijasta yhden tyypillisen havainnon jokaisesta klusterista.

· uusien epätyypillisten kohteiden havaitseminen, jotka eivät kuuluneet mihinkään klusteriin.

Tyypillisesti klusterointia käytetään apumenetelmänä data-analyysissä.

2.6 Geneettiset algoritmit

Geneettiset algoritmit kuuluvat universaaleihin optimointimenetelmiin, jotka mahdollistavat erityyppisten (kombinatoristen, yleisten rajoitusten kanssa ja ilman) ja monimutkaisten ongelmien ratkaisemisen. Samaan aikaan geneettisille algoritmeille on ominaista mahdollisuus tehdä sekä yksi- että monikriteerihaku suuressa tilassa, jonka maisema ei ole tasainen.

Tämä menetelmäryhmä käyttää mallien sukupolvien sarjan iteratiivista kehitysprosessia, mukaan lukien valinta-, mutaatio- ja risteytystoiminnot. Algoritmin alussa populaatio muodostetaan satunnaisesti. Koodattujen ratkaisujen laadun arvioimiseksi käytetään kuntofunktiota, joka on tarpeen kunkin yksilön kunto laskemiseksi. Yksilöiden arvioinnin tulosten perusteella valitaan heistä sopivimmat risteykseen. Valittujen yksilöiden risteyttämisen tuloksena geneettisen risteytysoperaattorin sovelluksella syntyy jälkeläisiä, joiden geneettinen informaatio muodostuu vanhemman yksilöiden välisen kromosomitietojen vaihdon tuloksena. Luodut jälkeläiset muodostavat uuden populaation, ja osa jälkeläisistä mutatoituu, mikä ilmenee heidän genotyyppien satunnaisessa muutoksessa. Vaihe, joka sisältää sekvenssin "Väestön arviointi" - "Valinta" - "Risteys" - "Mutaatio", kutsutaan sukupolveksi. Väestön evoluutio koostuu tällaisten sukupolvien sarjasta.

Seuraavat algoritmit yksilöiden valitsemiseksi ylittämistä varten erotetaan:

· Panmixia. Molemmat yksilöt, jotka muodostavat vanhempien parin, valitaan satunnaisesti koko populaatiosta. Kuka tahansa voi liittyä usean parin jäseneksi. Tämä lähestymistapa on universaali, mutta algoritmin tehokkuus laskee populaation koon kasvaessa.

· Valinta. Vanhemmat voivat olla henkilöitä, joilla on vähintään keskimääräinen kunto. Tämä lähestymistapa varmistaa algoritmin nopeamman konvergenssin.

· Sukusiitos. Menetelmä perustuu parin muodostamiseen lähisukulaisuuden perusteella. Tässä yhteydessä sukulaisuus ymmärretään populaation jäsenten väliseksi etäisyydeksi sekä parametriavaruudessa olevien yksilöiden geometrisen etäisyyden että genotyyppien välisen Heming-etäisyyden mielessä. Siksi genotyyppinen ja fenotyyppinen sisäsiitos erotetaan toisistaan. Ristettävän parin ensimmäinen jäsen valitaan sattumanvaraisesti, ja toinen on todennäköisemmin sitä lähimpänä oleva yksilö. Sukusiitos voidaan luonnehtia ominaisuudella keskittää haku paikallisiin solmukohtiin, mikä itse asiassa johtaa populaation jakautumiseen erillisiin paikallisiin ryhmiin äärimmäisyyksien suhteen epäilyttäviä maiseman osia.

· Ulkosiitos. Parin muodostaminen kaukaisten sukulaisuussuhteiden perusteella kaukaisimmille yksilöille. Outbreeding pyrkii estämään algoritmia konvergoimasta jo löydettyihin ratkaisuihin ja pakottaa algoritmin katsomaan uusia, tutkimattomia alueita.

Algoritmit uuden populaation muodostamiseksi:

· Valinta siirtymällä. Kaikista saman genotyypin yksilöistä etusija annetaan niille, joiden kunto on korkeampi. Näin saavutetaan kaksi tavoitetta: parhaat löydetyt ratkaisut, joilla on erilaiset kromosomijoukot, eivät katoa ja populaatiossa säilyy jatkuvasti riittävä geneettinen monimuotoisuus. Siirtyminen muodostaa uuden populaation kaukaisista yksilöistä sen sijaan, että yksilöt ryhmittyisivät nykyisen ratkaisun ympärille. Tätä menetelmää käytetään multiextremaalisiin ongelmiin.

· Elite valinta. Eliitin valintamenetelmillä varmistetaan, että valinnalla varmistetaan väestön parhaiden jäsenten selviytyminen. Samaan aikaan jotkut parhaista yksilöistä siirtyvät seuraavalle sukupolvelle ilman muutoksia. Eliitin valinnan tuomaa nopeaa konvergenssia voidaan kompensoida sopivalla vanhempaparien valintamenetelmällä. Tässä tapauksessa käytetään usein outbreedingiä. Juuri tämä "ulkosiitos - eliittivalinta" -yhdistelmä on yksi tehokkaimmista.

· Turnauksen valinta. Turnausvalinta toteuttaa n turnausta n henkilön valitsemiseksi. Jokainen turnaus perustuu k elementin valitsemiseen populaatiosta ja parhaan yksilön valitsemiseen niistä. Yleisin on turnausvalinta, jossa k = 2.

Yksi suosituimmista geneettisten algoritmien sovelluksista tiedon louhinnan alalla on optimaalisimman mallin etsiminen (algoritmin etsiminen, joka vastaa tietyn alan erityispiirteitä). Geneettisiä algoritmeja käytetään ensisijaisesti neuroverkkojen topologian ja painojen optimointiin. Niitä voidaan kuitenkin käyttää myös itsenäisenä työkaluna.

3. Sovellukset

Data Mining -teknologialla on todella laaja valikoima sovelluksia, ja se on itse asiassa joukko universaaleja työkaluja kaikentyyppisten tietojen analysointiin.

Markkinointi

Yksi ensimmäisistä aloista, joilla tiedonlouhintateknologiaa sovellettiin, oli markkinointi. Tehtävää, jolla Data Mining -menetelmien kehittäminen alkoi, kutsutaan ostoskorianalyysiksi.

Tämä tehtävä on tunnistaa tuotteet, joita ostajat yleensä ostavat yhdessä. Ostoskorin tuntemus on välttämätöntä mainoskampanjoiden toteuttamiseksi, henkilökohtaisten suositusten laatimiseksi asiakkaille, strategian laatimiseksi tavaraluetteloiden luomiseksi ja niiden asetteluksi myyntitiloihin.

Myös markkinoinnissa ratkaistaan ​​tehtäviä, kuten tuotteen kohdeyleisön määrittäminen onnistuneemman myynnin edistämiseksi; Temporaalinen mallitutkimus, joka auttaa yrityksiä tekemään varastopäätöksiä; ennakoivien mallien luominen, jonka avulla yritykset voivat tunnistaa tietyn käyttäytymisen omaavien eri asiakasryhmien tarpeiden luonne; asiakasuskollisuuden ennustaminen, jonka avulla voit tunnistaa etukäteen asiakkaan lähtöhetken hänen käyttäytymistään analysoitaessa ja mahdollisesti estää arvokkaan asiakkaan menettämisen.

Ala

Yksi tärkeimmistä osa-alueista tällä alueella on seuranta ja laadunvalvonta, jossa analyysityökalujen avulla voidaan ennakoida laitteiden vikaantuminen, toimintahäiriöiden esiintyminen ja suunnitella korjaustöitä. Tiettyjen ominaisuuksien suosion ennustaminen ja sen tietäminen, mitkä ominaisuudet tyypillisesti tilataan yhdessä, auttaa optimoimaan tuotantoa ja keskittämään sen kuluttajien todellisiin tarpeisiin.

Lääke

Lääketieteessä data-analyysiä käytetään myös melko menestyksekkäästi. Esimerkkejä tehtävistä ovat tutkimustulosten analysointi, diagnostiikka, hoitomenetelmien ja lääkkeiden tehokkuuden vertailu, sairauksien ja niiden leviämisen analysointi sekä sivuvaikutusten tunnistaminen. Tiedonlouhintatekniikoita, kuten assosiaatiosääntöjä ja peräkkäisiä malleja, on käytetty menestyksekkäästi lääkkeiden ja sivuvaikutusten välisten yhteyksien tunnistamiseen.

Molekyyligenetiikka ja geenitekniikka

Ehkä akuutein ja samalla selkein tehtävä on löytää kuvioita kokeellisesta tiedosta molekyyligenetiikka ja geenitekniikka. Tässä se on muotoiltu määritelmäksi markkereille, jotka ymmärretään geneettisiksi koodeiksi, jotka ohjaavat elävän organismin tiettyjä fenotyyppisiä ominaisuuksia. Tällaiset koodit voivat sisältää satoja, tuhansia tai enemmän toisiinsa liittyviä elementtejä. Analyyttisen data-analyysin tulos on myös geneettisten tutkijoiden löytämä suhde ihmisen DNA-sekvenssin muutosten ja erilaisten sairauksien kehittymisriskin välillä.

Soveltava kemia

Data Mining -menetelmiä käytetään myös soveltavan kemian alalla. Tässä herää usein kysymys tiettyjen yhdisteiden kemiallisen rakenteen ominaisuuksien selvittämisestä, jotka määrittävät niiden ominaisuudet. Tämä tehtävä on erityisen tärkeä analysoitaessa monimutkaisia ​​kemiallisia yhdisteitä, joiden kuvaus sisältää satoja ja tuhansia rakenneelementtejä ja niiden yhteyksiä.

Rikollisuuden torjunta

Data Mining -työkaluja on käytetty suhteellisen hiljattain tietoturvassa, mutta käytännön tuloksia on jo saatu, mikä vahvistaa tiedon louhinnan tehokkuutta tällä alueella. Sveitsiläiset tutkijat ovat kehittäneet järjestelmän protestitoiminnan analysoimiseksi tulevien välikohtausten ennustamiseksi sekä järjestelmän uusien kyberuhkien ja hakkereiden seuraamiseksi maailmassa. Uusimman järjestelmän avulla voit ennustaa kyberuhkia ja muita riskejä tietoturva. Data Mining -menetelmiä käytetään menestyksekkäästi myös luottokorttipetosten havaitsemiseen. Analysoimalla aiempia tapahtumia, jotka myöhemmin osoittautuivat petoksiksi, pankki tunnistaa joitakin tällaisia ​​petoksia.

Muut sovellukset

· Riskianalyysi. Esimerkiksi tunnistamalla maksettuihin korvauksiin liittyvien tekijöiden yhdistelmät vakuutuksenantajat voivat vähentää vastuutappioitaan. Tiedossa on tapaus, jossa suuri yhdysvaltalainen vakuutusyhtiö havaitsi, että naimisissa olevien ihmisten korvauksista maksetut korvaukset olivat kaksi kertaa suuremmat kuin sinkkujen korvausmäärät. Yritys vastasi tähän uuteen tietoon uudistamalla yleistä politiikkaansa tarjota alennuksia perheasiakkaille.

· Meteorologia. Sääennustuksessa käytetään hermoverkkomenetelmiä, erityisesti itseorganisoituvia Kohosen karttoja.

· Henkilöstöpolitiikka. Analyysityökalut auttavat HR-palveluita valitsemaan menestyneimmät hakijat heidän ansioluettelonsa data-analyysin perusteella ja mallintamaan ihanteellisten työntekijöiden ominaisuudet tiettyyn tehtävään.

4. Tiedonlouhintatyökalujen valmistajat

Data Mining -työkalut ovat perinteisesti kalliita ohjelmistotuotteita. Siksi tämän teknologian pääasiallisia kuluttajia olivat viime aikoihin asti pankit, rahoitus- ja vakuutusyhtiöt sekä suuret kauppayritykset ja tiedon louhinnan käyttöä vaativiksi päätehtäviksi pidettiin luotto- ja vakuutusriskien arviointia sekä markkinointipolitiikan kehittämistä. , tariffisuunnitelmat ja muut asiakkaiden kanssa työskentelyn periaatteet. Tilanne on viime vuosina kokenut tiettyjä muutoksia: ohjelmistomarkkinoille on ilmestynyt suhteellisen edullisia Data Mining -työkaluja ja jopa vapaasti hajautettuja järjestelmiä, mikä on tehnyt tämän tekniikan pienten ja keskisuurten yritysten ulottuville.

Maksullisista työkaluista ja data-analyysijärjestelmistä johtavia ovat SAS Institute (SAS Enterprise Miner), SPSS (SPSS, Clementine) ja StatSoft (STATISTICA Data Miner). Tunnettuja ratkaisuja ovat Angoss (Angoss KnowledgeSTUDIO), IBM (IBM SPSS Modeler), Microsoft (Microsoft Analysis Services) ja (Oracle) Oracle Data Mining.

Myös ilmaisten ohjelmistojen valikoima on monipuolinen. On olemassa sekä yleisiä analyysityökaluja, kuten JHepWork, KNIME, Orange, RapidMiner, että erikoistyökaluja, esimerkiksi Carrot2 - kehys tekstidatan ja hakukyselytulosten klusterointiin, Chemicalize.org - ratkaisu sovelletun kemian alalla, NLTK (Natural Language Toolkit) luonnollisen kielen käsittelytyökalu.

5. Menetelmien kritiikki

Tiedonlouhinnan tulokset riippuvat suurelta osin tietojen valmistelun tasosta, eivät jonkin algoritmin tai algoritmijoukon "ihanista ominaisuuksista". Noin 75 % tiedon louhinnan työstä koostuu tiedonkeruusta, joka tapahtuu ennen analyysityökalujen käyttöönottoa. Lukutaidoton työkalujen käyttö johtaa yrityksen potentiaalin hukkaan, ja joskus miljoonien dollareiden hukkaan.

Maailmankuulun tiedon louhinnan, tietovarastoinnin ja CRM:n asiantuntijan Herb Edelsteinin mielipide: "Two Crowsin hiljattain tekemä tutkimus osoitti, että Data Mining on vielä kehitysvaiheessa. Monet organisaatiot ovat kiinnostuneita tästä tekniikasta, mutta vain harvat toteuttavat aktiivisesti tällaisia ​​​​projekteja. Onnistui selvittämään vielä yksi tärkeä pointti: Tiedonlouhinnan käyttöönottoprosessi käytännössä osoittautuu odotettua monimutkaisemmaksi.Tiimejä raatelee myytti tiedon louhintatyökalujen helppokäyttöisyydestä. Oletetaan, että tällaisen työkalun suorittaminen teratavutietokannassa riittää, ja hyödyllistä tietoa tulee heti näkyviin. Itse asiassa onnistunut tiedonlouhintaprojekti edellyttää toiminnan ymmärtämistä, tietojen ja työkalujen tuntemusta sekä data-analyysiprosessia. Ennen Data Mining -teknologian käyttöä on siis tarpeen analysoida huolellisesti menetelmien asettamat rajoitukset ja niihin liittyvät kriittiset seikat sekä arvioida maltillisesti tekniikan mahdollisuudet. Kriittisiä ongelmia ovat muun muassa seuraavat:

1. Tekniikka ei voi antaa vastauksia kysymyksiin, joita ei ole esitetty. Se ei voi korvata analyytikkoa, vaan antaa hänelle vain tehokkaan työkalun hänen työnsä helpottamiseksi ja parantamiseksi.

2. Data Mining -sovelluksen kehittämisen ja käytön monimutkaisuus.

Koska tätä tekniikkaa on monialainen ala, tiedon louhinnan sisältävän sovelluksen kehittämiseen tarvitaan eri alojen asiantuntijoita ja heidän laadukasta vuorovaikutusta.

3. Käyttäjien pätevyys.

Eri tiedonlouhintatyökalujen käyttöliittymä on vaihtelevassa määrin helppokäyttöinen, ja ne edellyttävät tiettyä käyttäjäpätevyyttä. Siksi ohjelmisto on vastattava käyttäjän koulutustasoa. Tiedonlouhinnan käytön tulee olla erottamattomasti sidoksissa käyttäjän pätevyyden parantamiseen. Tällä hetkellä on kuitenkin vain vähän datalouhinnan asiantuntijoita, jotka tuntevat hyvin liiketoimintaprosesseja.

4. Hyödyllisen tiedon poimiminen on mahdotonta ilman tiedon olemuksen hyvää ymmärtämistä.

Mallin huolellinen valinta ja löydettyjen riippuvuuksien tai kuvioiden tulkinta vaaditaan. Siksi tällaisten työkalujen kanssa työskentely edellyttää tiivistä yhteistyötä toimialueen asiantuntijan ja tiedonlouhintatyökaluasiantuntijan välillä. Pysyvät mallit on integroitava älykkäästi liiketoimintaprosesseihin, jotta malleja voidaan arvioida ja päivittää. Viime aikoina Data Mining -järjestelmiä on toimitettu osana tietovarastoteknologiaa.

5. Vaikeus tietojen valmistelussa.

Onnistunut analysointi edellyttää korkealaatuista tietojen esikäsittelyä. Analyytikkojen ja tietokannan käyttäjien mukaan esikäsittelyprosessi voi viedä jopa 80 % koko tiedonlouhintaprosessista.

Jotta tekniikka toimisi itsestään, se vaatii paljon vaivaa ja aikaa, joka menee alustavaan data-analyysiin, mallin valintaan ja sen säätöön.

6. Suuri prosenttiosuus vääriä, epäluotettavia tai hyödyttömiä tuloksia.

Data Mining -tekniikoiden avulla voit löytää todella arvokasta tietoa, joka voi tarjota merkittävää etua jatkosuunnittelussa, hallinnassa ja päätöksenteossa. Data Mining -menetelmillä saadut tulokset sisältävät kuitenkin melko usein vääriä ja merkityksettömiä johtopäätöksiä. Monet asiantuntijat väittävät, että tiedonlouhintatyökalut voivat tuottaa valtavan määrän tilastollisesti epäluotettavia tuloksia. Tällaisten tulosten prosenttiosuuden vähentämiseksi on tarpeen tarkistaa saatujen mallien riittävyys testitiedoilla. On kuitenkin mahdotonta täysin välttää vääriä johtopäätöksiä.

7. Korkeat kustannukset.

Laadullinen ohjelmisto on tulosta kehittäjän merkittävästä ponnistelusta. Siksi Data Mining -ohjelmisto on perinteisesti kallis ohjelmistotuote.

8. Riittävän edustavan tiedon saatavuus.

Tiedonlouhintatyökalut, toisin kuin tilastolliset, eivät teoriassa vaadi tiukasti määriteltyä historiatietoa. Tämä ominaisuus voi aiheuttaa epäluotettavien, väärien mallien havaitsemisen ja sen seurauksena väärien päätösten tekemisen niiden perusteella. On tarpeen seurata löydetyn tiedon tilastollista merkitsevyyttä.

hermoverkkoalgoritmi klusterointi tiedon louhinta

Johtopäätös

Dana lyhyt kuvaus sovellusalueita ja kritisoi Data Mining -teknologiaa sekä alan asiantuntijoiden mielipiteitä.

Listakirjallisuus

1. Han ja Micheline Kamber. Tiedonlouhinta: käsitteet ja tekniikat. Toinen painos. - Illinoisin yliopisto Urbana-Champaignissa

Berry, Michael J. A. Tiedonlouhintatekniikat: markkinointia, myyntiä ja asiakassuhteiden hallintaa varten - 2. painos.

Siu Nin Lam. Tietojen louhinnan yhdistyssääntöjen löytäminen. - Tietojenkäsittelytieteen laitos Illinoisin yliopistossa Urbana-Champaignissa




Ylös