Ukjente mønstre i kjente data. Introduksjon til moderne Data Mining. Nærmeste nabo og k-nærmeste naboer metoder

Datautvinningsverktøy

For tiden er Data Mining-teknologi representert av en rekke kommersielle og fritt distribuerte programvareprodukter. En ganske fullstendig og jevnlig oppdatert liste over disse produktene finnes på nettsiden www. kdnuggets. com, dedikert til Data Mining. Data Mining programvareprodukter kan klassifiseres etter de samme prinsippene som danner grunnlaget for klassifiseringen av selve teknologien. En slik klassifisering vil imidlertid ikke ha noen praktisk verdi. På grunn av høy konkurranse i markedet og ønsket om fullstendighet av tekniske løsninger, dekker mange av Data Mining-produktene bokstavelig talt alle aspekter ved anvendelsen av analytiske teknologier. Derfor er det mer fornuftig å klassifisere Data Mining-produkter i henhold til hvordan de er implementert og følgelig hvilket potensiale for integrering de gir. Dette er selvsagt også en konvensjon, siden et slikt kriterium ikke tillater oss å skissere klare grenser mellom produkter. En slik klassifisering har imidlertid en utvilsom fordel. Den lar deg raskt ta en beslutning om å velge en eller annen ferdig løsning når du initialiserer prosjekter innen dataanalyse, utvikling av beslutningsstøttesystemer, opprettelse av datavarehus, etc.

Så, Data Mining-produkter kan deles inn i tre store kategorier:

    inkludert som en integrert del i databasestyringssystemer;

    biblioteker av Data Mining-algoritmer med tilhørende infrastruktur;

    boks- eller skrivebordsløsninger ("svarte bokser").

Produkter i de to første kategoriene gir de største integrasjonsmulighetene og lar deg realisere det analytiske potensialet i nesten alle applikasjoner i alle felt. Boksede applikasjoner kan på sin side gi noen unike fremskritt innen datautvinning eller være spesialisert for en spesifikk applikasjon. Imidlertid er de i de fleste tilfeller problematiske å integrere i bredere løsninger.

Inkludering av analytiske evner i kommersielle databasestyringssystemer er en naturlig trend med et enormt potensial. Faktisk, hvor, hvis ikke på steder der data er konsentrert, er det mest fornuftig å plassere metoder for å behandle dem? Basert på dette prinsippet, funksjonaliteten til Data Mining i for tiden implementert i følgende kommersielle databaser:

    Microsoft SQL Server;

Hovedpoeng

  • Data mining lar deg automatisk, basert på en stor mengde akkumulert data, generere hypoteser som kan verifiseres av andre analyseverktøy (for eksempel OLAP).

    Data Mining er forskning og oppdagelse av en maskin (algoritmer, verktøy for kunstig intelligens) av skjult kunnskap i rådata som tidligere var ukjent, ikke-triviell, praktisk nyttig og tilgjengelig for menneskelig tolkning.

    Data Mining-metoder løser tre hovedproblemer: problemet med klassifisering og regresjon, problemet med å søke etter assosiasjonsregler og problemet med klynging. I henhold til deres formål er de delt inn i beskrivende og prediktive. Basert på metodene for å løse problemer deles de inn i veiledet læring (læring med lærer) og uovervåket læring (læring uten lærer).

    Oppgaven med klassifisering og regresjon kommer ned til å bestemme verdien av den avhengige variabelen til et objekt fra dets uavhengige variabler. Hvis den avhengige variabelen tar numeriske verdier, snakker vi om et regresjonsproblem, ellers - om et klassifiseringsproblem.

    Når du søker etter assosiasjonsregler, er målet å finne hyppige avhengigheter (eller assosiasjoner) mellom objekter eller hendelser. De funnet avhengighetene presenteres i form av regler og kan brukes både for å bedre forstå arten av de analyserte dataene og til å forutsi hendelser.

    Oppgaven med clustering er å søke etter uavhengige grupper (klynger) og deres egenskaper i hele settet med analyserte data. Å løse dette problemet hjelper deg å forstå dataene bedre. I tillegg gjør gruppering av homogene objekter det mulig å redusere antallet og dermed lette analysen.

    Datautvinningsmetoder er i skjæringspunktet ulike retninger informasjonsteknologi: statistikk, nevrale nettverk, uklare sett, genetiske algoritmer, etc.

    Intelligent analyse inkluderer følgende stadier: forstå og formulere analyseproblemet, forberede data for automatisert analyse, anvende Data Mining-metoder og bygge modeller, sjekke de konstruerte modellene og tolke modellene av mennesker.

    Før du bruker Data Mining-teknikker, må kildedataene transformeres. Type transformasjon avhenger av metodene som brukes.

    Datautvinningsmetoder kan effektivt brukes på ulike områder av menneskelig aktivitet: næringsliv, medisin, vitenskap, telekommunikasjon, etc.

3. Analyse av tekstinformasjon - Text Mining

Analyse av strukturert informasjon som er lagret i databaser krever foreløpig behandling: å designe en database, legge inn informasjon i henhold til visse regler, plassere den i spesielle strukturer (for eksempel relasjonstabeller), etc. Dermed direkte for å analysere denne informasjonen og få ny kunnskap fra den krever ekstra innsats. Imidlertid er de ikke alltid relatert til analyse og fører ikke nødvendigvis til ønsket resultat. På grunn av dette reduseres effektiviteten av å analysere strukturert informasjon. I tillegg kan ikke alle typer data struktureres uten å miste nyttig informasjon. For eksempel er tekstdokumenter nesten umulige å konvertere til en tabellrepresentasjon uten å miste tekstens semantikk og relasjonene mellom enheter. Av denne grunn lagres slike dokumenter i databasen uten transformasjon, som tekstfelt (BLOB-felt). Samtidig er en enorm mengde informasjon skjult i teksten, men dens ustrukturerte natur tillater ikke bruk av Data Mining-algoritmer. Metoder for å analysere ustrukturert tekst løser dette problemet. I vestlig litteratur kalles en slik analyse for Text Mining.

Analysemetoder i ustrukturerte tekster ligger i skjæringspunktet mellom flere områder: Data Mining, naturlig språkbehandling, informasjonsinnhenting, informasjonsutvinning og kunnskapshåndtering.

Definisjon av tekstutvinning: Oppdagelse av tekstkunnskap er den ikke-trivielle prosessen med å oppdage virkelig nye, potensielt nyttige og forståelige mønstre i ustrukturerte tekstdata.

Som du kan se, skiller den seg fra definisjonen av Data Mining bare i det nye konseptet "ustrukturerte tekstdata". Slik kunnskap forstås som et sett med dokumenter som representerer en logisk enhetlig tekst uten noen restriksjoner på strukturen. Eksempler på slike dokumenter er: nettsider, e-post, forskriftsdokumenter, etc. Generelt kan slike dokumenter være komplekse og store og inneholde ikke bare tekst, men også grafisk informasjon. Dokumenter som bruker XML (extensible Markup Language), SGML (Standard Generalized Markup Language) og andre lignende tekststrukturkonvensjoner kalles semi-strukturerte dokumenter. De kan også behandles ved hjelp av Text Mining-metoder.

Prosessen med å analysere tekstdokumenter kan representeres som en sekvens av flere trinn

    Søk etter informasjon. Det første trinnet er å identifisere hvilke dokumenter som må analyseres og sikre tilgjengelighet. Som regel kan brukere bestemme settet med dokumenter som skal analyseres uavhengig - manuelt, men med et stort antall dokumenter er det nødvendig å bruke automatiserte utvalgsalternativer i henhold til angitte kriterier.

    Innledende dokumentbehandling. På dette trinnet utføres enkle, men nødvendige transformasjoner på dokumenter for å representere dem i en form som Text Mining-metoder fungerer med. Hensikten med slike transformasjoner er å fjerne unødvendige ord og gi teksten en strengere form. Forbehandlingsmetoder vil bli beskrevet mer detaljert i avsnitt.

    Informasjonsutvinning. Å trekke ut informasjon fra utvalgte dokumenter innebærer å identifisere nøkkelbegreper i dem, som vil bli analysert i fremtiden.

Anvendelse av tekstgruvemetoder. I dette trinnet trekkes mønstre og relasjoner som finnes i tekstene ut. Dette trinnet er det viktigste i prosessen med tekstanalyse, og praktiske problemer løses på dette trinnet.

Tolking av resultater. Det siste trinnet i kunnskapsoppdagelsesprosessen innebærer å tolke funnene. Typisk består tolkning av enten å presentere resultater i naturlig språk eller å visualisere dem grafisk.

Visualisering kan også brukes som et tekstanalyseverktøy. For å gjøre dette trekkes nøkkelbegreper ut og presenteres grafisk. Denne tilnærmingen hjelper brukeren raskt å identifisere hovedemnene og konseptene og bestemme deres betydning.

Tekstforbehandling

Et av hovedproblemene ved tekstanalyse er det store antallet ord i et dokument. Hvis hvert av disse ordene analyseres, vil søketiden etter ny kunnskap øke kraftig og vil neppe tilfredsstille brukerkravene. Samtidig er det åpenbart at ikke alle ord i teksten har nyttig informasjon. I tillegg, på grunn av fleksibiliteten til naturlige språk, betyr formelt forskjellige ord (synonymer, etc.) faktisk de samme konseptene. Fjerning av uinformative ord, så vel som å bringe ord som er nær i betydning til en enkelt form, reduserer dermed tiden for tekstanalyse betydelig. Eliminering av de beskrevne problemene utføres på stadiet av tekstforbehandling.

Følgende teknikker brukes vanligvis for å fjerne uinformative ord og øke strengheten til tekster:

    Fjerner stoppord. Stoppord er ord som er hjelpeord og inneholder lite informasjon om innholdet i dokumentet.

    Stemming er et morfologisk søk. Det består i å konvertere hvert ord til sin normale form.

    L-gram er et alternativ til morfologisk parsing og stoppe ordfjerning. De lar deg gjøre teksten mer streng, men løser ikke problemet med å redusere antall uinformative ord;

    Sakskonvertering. Denne teknikken innebærer å konvertere alle tegn til store eller små bokstaver.

Den mest effektive er den kombinerte bruken av disse metodene.

Tekstgruveoppgaver

For tiden er mange anvendte problemer beskrevet i litteraturen som kan løses ved hjelp av analyse av tekstdokumenter. Disse inkluderer klassiske Data Mining-oppgaver: klassifisering, klynging og oppgaver som bare er typiske for tekstdokumenter: automatisk merknad, utvinning av nøkkelbegreper, etc.

Klassifisering er en standardoppgave innen Data Mining. Dens formål er å definere for hvert dokument en eller flere forhåndsdefinerte kategorier som dette dokumentet tilhører. Et trekk ved klassifiseringsproblemet er antakelsen om at settet med klassifiserte dokumenter ikke inneholder "søppel", det vil si at hvert av dokumentene tilsvarer en gitt kategori.

Et spesielt tilfelle av klassifiseringsproblemet er problemet med å bestemme emnet for et dokument.

Formålet med dokumentklynger er å automatisk identifisere grupper av semantisk like dokumenter blant et gitt fast sett. Merk at grupper kun dannes på grunnlag av parvise likheter mellom dokumentbeskrivelser, og ingen egenskaper ved disse gruppene er spesifisert på forhånd.

Automatisk merknad (oppsummering) lar deg forkorte teksten samtidig som den beholder betydningen. Løsningen på dette problemet styres vanligvis av brukeren ved å bestemme antall setninger som skal trekkes ut eller prosentandelen av tekst som trekkes ut i forhold til hele teksten. Resultatet inkluderer de mest betydningsfulle setningene i teksten.

Hovedmålet med funksjonsutvinning er å identifisere fakta og sammenhenger i teksten. I de fleste tilfeller er disse begrepene substantiv og vanlige substantiv: for- og etternavn på personer, navn på organisasjoner osv. Algoritmer for konseptutvinning kan bruke ordbøker til å identifisere noen termer og språklige mønstre for å definere andre.

Tekstbasert navigasjon lar brukere navigere i dokumenter basert på emner og relevante termer. Dette gjøres ved å identifisere nøkkelbegreper og noen sammenhenger mellom dem.

Trendanalyse lar deg identifisere trender i sett med dokumenter over en tidsperiode. En trend kan for eksempel brukes til å oppdage endringer i et selskaps interesser fra et markedssegment til et annet.

Å søke etter assosiasjoner er også en av hovedoppgavene til Data Mining. For å løse det, identifiseres assosiative forhold mellom nøkkelbegreper i et gitt sett med dokumenter.

Det er et ganske stort antall varianter av de listede problemene, samt metoder for å løse dem. Dette bekrefter nok en gang viktigheten av tekstanalyse. Resten av dette kapittelet diskuterer løsninger på følgende problemer: uttrekk av nøkkelbegreper, klassifisering, gruppering og automatisk merknad.

Klassifisering av tekstdokumenter

Klassifisering av tekstdokumenter, så vel som ved objektklassifisering, består i å tilordne et dokument til en av de tidligere kjente klassene. Ofte kalles klassifisering i forhold til tekstdokumenter kategorisering eller rubrisering. Disse navnene kommer åpenbart fra oppgaven med å systematisere dokumenter i kataloger, kategorier og overskrifter. I dette tilfellet kan katalogstrukturen være enten ett-nivå eller multi-level (hierarkisk).

Formelt er oppgaven med å klassifisere tekstdokumenter beskrevet av et sett med sett.

I klassifiseringsoppgaven er det nødvendig å konstruere en prosedyre basert på disse dataene, som består i å finne den mest sannsynlige kategorien fra settet C for dokumentet som studeres.

De fleste tekstklassifiseringsmetoder er på en eller annen måte basert på antakelsen om at dokumenter som tilhører samme kategori inneholder de samme funksjonene (ord eller uttrykk), og tilstedeværelsen eller fraværet av slike funksjoner i et dokument indikerer at det tilhører eller ikke tilhører en bestemt emne.

Et slikt sett med funksjoner kalles ofte en ordbok, fordi den består av leksemer som inkluderer ord og/eller uttrykk som karakteriserer kategorien.

Det skal bemerkes at disse settene med funksjoner er et særtrekk ved klassifiseringen av tekstdokumenter fra klassifiseringen av objekter i Data Mining, som er preget av et sett med attributter.

Beslutningen om å tilordne dokument d til kategori c er tatt basert på skjæringspunktet mellom fellestrekk

Klassifiseringsmetoders oppgave er å best mulig velge slike egenskaper og formulere regler på grunnlag av hvilke det skal tas en beslutning om å tilordne et dokument til en kategori.

Verktøy for å analysere tekstinformasjon

    Oracle Tools - Oracle Text2

Fra og med Oracle versjon 7.3.3 er tekstanalyseverktøy en integrert del av Oracle-produkter. I Oracle har disse verktøyene blitt utviklet og fått et nytt navn – Oracle Text – en programvarepakke integrert i et DBMS som lar deg effektivt arbeide med spørringer knyttet til ustrukturerte tekster. I dette tilfellet kombineres tekstbehandling med mulighetene som gis brukeren for å jobbe med relasjonsdatabaser. Spesielt har bruk av SQL blitt mulig når du skriver tekstbehandlingsapplikasjoner.

Hovedoppgaven som Oracle Text-verktøy er rettet mot å løse, er oppgaven med å søke i dokumenter etter innhold - etter ord eller setninger, som om nødvendig kombineres med boolske operasjoner. Søkeresultater er rangert etter viktighet, tar hensyn til hyppigheten av forekomsten av søkeordene i de funnet dokumentene.

    Verktøy fra IBM - Intelligent Miner for Text1

IBM Intelligent Miner for Text-produktet er et sett med individuelle verktøy lansert fra kommandolinje eller fra skript uavhengig av hverandre. Systemet inneholder en kombinasjon av noen verktøy for å løse problemer med tekstinformasjonsanalyse.

IBM Intelligent Miner for Text kombinerer et kraftig sett med verktøy basert hovedsakelig pår, som er spesifisiteten til hele produktet. Systemet består av en rekke grunnleggende komponenter som har uavhengig betydning utover Text Mining-teknologien:

    SAS Institute Tools - Text Miner

Det amerikanske selskapet SAS Institute har gitt ut SAS Text Miner-systemet for å sammenligne visse grammatiske og verbale sekvenser i skriftlig tale. Text Miner er svært allsidig fordi den kan fungere med tekstdokumenter i ulike formater – i databaser, filsystemer og videre på nettet.

Text Miner gir logisk tekstbehandling i SAS Enterprise Miner-miljøet. Dette lar brukere berike dataanalyseprosessen ved å integrere ustrukturert tekstinformasjon med eksisterende strukturerte data som alder, inntekt og forbrukernes etterspørselsmønstre.

Hovedpoeng

    Oppdagelse av tekstkunnskap er en ikke-triviell prosess for å oppdage virkelig nye, potensielt nyttige og forståelige mønstre i ustrukturerte tekstdata.

    Prosessen med å analysere tekstdokumenter kan representeres som en sekvens av flere trinn: søke etter informasjon, forhåndsbehandling av dokumenter, informasjonsutvinning, anvendelse av Text Mining-metoder, tolkning av resultater.

    Følgende teknikker brukes vanligvis for å fjerne uinformative ord og øke strengheten til tekster: fjerning av stoppord, ordstamming, L-gram, reduksjon av store og små bokstaver.

    Oppgavene til tekstinformasjonsanalyse er: klassifisering, gruppering, automatisk merknad, uttrekk av nøkkelbegreper, tekstnavigering, trendanalyse, søk etter assosiasjoner, etc.

    Å trekke ut nøkkelbegreper fra tekster kan betraktes både som en egen anvendt oppgave og som et eget trinn i tekstanalysen. I sistnevnte tilfelle brukes fakta hentet fra teksten til å løse ulike analyseproblemer.

    Prosessen med å trekke ut nøkkelbegreper ved hjelp av maler utføres i to trinn: i det første trekkes individuelle fakta ut fra tekstdokumenter ved bruk av leksikalsk analyse, på det andre trinnet er integreringen av de uthentede faktaene og/eller utledningen av nye fakta. utført.

    De fleste tekstklassifiseringsmetoder er på en eller annen måte basert på antakelsen om at dokumenter som tilhører samme kategori inneholder de samme funksjonene (ord eller uttrykk), og tilstedeværelsen eller fraværet av slike funksjoner i et dokument indikerer at det tilhører eller ikke tilhører en bestemt emne.

    De fleste klyngealgoritmer krever at data er representert i en vektorrommodell, som er mye brukt for informasjonsinnhenting og bruker en metafor for å reflektere semantisk likhet som romlig nærhet.

    Det er to hovedtilnærminger for automatisk annotering av tekstdokumenter: uttrekk (velge de viktigste fragmentene) og generalisering (bruke tidligere innsamlet kunnskap).

Konklusjon

Data mining er et av de mest relevante og populære områdene innen anvendt matematikk. Moderne forretnings- og produksjonsprosesser genererer enorme mengder data, noe som gjør det stadig vanskeligere for folk å tolke og reagere på store datamengder som endrer seg dynamisk over kjøretid, enn si forhindrer kritiske situasjoner. "Data mining" for å trekke ut maksimal nyttig kunnskap fra flerdimensjonale, heterogene, ufullstendige, unøyaktige, motstridende, indirekte data. Det hjelper å gjøre dette effektivt hvis datavolumet måles i gigabyte eller til og med terabyte. Hjelper med å bygge algoritmer som kan lære å ta beslutninger innen ulike fagfelt.

Data Mining-verktøy beskytter folk mot overbelastning av informasjon ved å behandle driftsdata til handlingsvennlig informasjon slik at de riktige handlingene kan utføres til rett tid.

Anvendt utvikling utføres på følgende områder: prognoser i økonomiske systemer; automatisering av markedsundersøkelser og analyse av klientmiljøer for produksjons-, handels-, telekommunikasjons- og internettselskaper; automatisering av kredittbeslutninger og kredittrisikovurdering; overvåking av finansmarkeder; automatiske handelssystemer.

Bibliografi

    "Dataanalyseteknologier: Datautvinning. Visuell gruvedrift. Text Mining, OLAP" A. A. Barseghyan. M. S. Kupriyanov, V. V. Stenanenko, I. I. Kholod. - 2. utg., revidert. og tillegg

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - Internett-artikkel

    http://www.piter.com/contents/978549807257/978549807257_p.pdf - Dataanalyseteknologier

    Avhandling >> Bankvirksomhet

    Låntaker ved hjelp av klynge, verbal analyse, justeringsfaktorer etc., også... låntakers kredittverdighet basert på intellektuell analyse Data Mining (med... På den innledende fasen analyse holdt analyse egne midler og...

  1. Analyse og klassifisering av det moderne markedet av informasjonssystemer som implementerer skjønn, m

    Sammendrag >> Datavitenskap

    1.3 Rolledifferensiering 6 2. Komparativ analyse forskjellige typer systemer 7 OS... systemer, inkludert: analyse sikkerhetspolicyer og deres egenskaper, ... applikasjoner eller implementere mer intellektuell analyse data. I tillegg...

  2. Intelligent evner til begavede barn i forbindelse med skoleprestasjoner

    Avhandling >> Psykologi

    Forholdet mellom akademiske prestasjoner og egenskaper intellektuell utvikling. Basert på teoretisk analyse forskningsproblemet var... å intellektere uten analyse dens psykologiske struktur. Avgjørende for vurdering intellektuell evner er...

Vi ønsker deg velkommen til Data Mining-portalen - en unik portal dedikert til moderne Data Mining-metoder.

Data Mining-teknologier er et kraftig verktøy for moderne forretningsanalyse og dataforskning for å oppdage skjulte mønstre og bygge prediktive modeller. Datautvinning eller kunnskapsutvinning er ikke basert på spekulative resonnementer, men på reelle data.

Ris. 1. Data Mining Application Scheme

Problemdefinisjon – Forklaring av problemet: dataklassifisering, segmentering, konstruksjon av prediktive modeller, prognoser.
Datainnsamling og forberedelse – Innsamling og klargjøring av data, rengjøring, verifisering, fjerning av dupliserte poster.
Modellbygging – Modellbygging, nøyaktighetsvurdering.
Knowledge Deployment – ​​Anvendelse av en modell for å løse et gitt problem.

Data Mining brukes til å implementere store analytiske prosjekter innen næringsliv, markedsføring, Internett, telekommunikasjon, industri, geologi, medisin, farmasøytiske produkter og andre områder.

Data Mining lar deg starte prosessen med å finne signifikante korrelasjoner og sammenhenger som et resultat av å sile gjennom en enorm mengde data ved hjelp av moderne mønstergjenkjenningsmetoder og bruk av unike analytiske teknologier, inkludert beslutningstrær og klassifisering, klynging, nevrale nettverksmetoder og andre.

En bruker som oppdager data mining-teknologi for første gang er overrasket over overfloden av metoder og effektive algoritmer som lar ham finne tilnærminger til å løse vanskelige problemer knyttet til analyse av store datamengder.

Generelt kan Data Mining karakteriseres som en teknologi designet for å søke i store mengder data. ikke åpenbare, objektiv og praktisk talt nyttig mønstre.

Data Mining er basert på effektive metoder og algoritmer designet for å analysere ustrukturerte data med stort volum og dimensjon.

Hovedpoenget er at høydimensjonale data med høyt volum ser ut til å mangle struktur og sammenhenger. Målet med data mining-teknologi er å identifisere disse strukturene og finne mønstre hvor kaos og vilkårlighet hersker ved første øyekast.

Her er et aktuelt eksempel på bruken av data mining i farmasøytisk og legemiddelindustrien.

Legemiddelinteraksjoner er et økende problem som moderne helsevesen står overfor.

Over tid øker antallet medisiner som foreskrives (reseptfrie og alle slags kosttilskudd), noe som gjør det mer og mer sannsynlig at det vil være medikament-legemiddelinteraksjoner som kan gi alvorlige bivirkninger som leger og pasienter ikke er klar over.

Dette området refererer til post-klinisk forskning, når stoffet allerede er sluppet ut på markedet og brukes intensivt.

Kliniske studier refererer til evaluering av effektiviteten til et legemiddel, men tar ikke hensyn til interaksjonene mellom legemidlet og andre legemidler på markedet.

Forskere ved Stanford University i California undersøkte FDAs database over legemiddelbivirkninger og fant at to vanlige legemidler – antidepressiva paroksetin og kolesterolsenkende medikament pravastatin – økte risikoen for å utvikle diabetes hvis de ble brukt sammen.

En lignende analysestudie basert på FDA-data identifiserte 47 tidligere ukjente uønskede interaksjoner.

Dette er flott, med forbehold om at mange av de negative effektene som er registrert av pasienter forblir uoppdaget. Det er i dette tilfellet at nettsøk kan yte sitt beste.

Kommende Data Mining-kurs ved StatSoft Data Analysis Academy i 2020

Vi begynner vår introduksjon til Data Mining ved å bruke de fantastiske Data Science Academy-videoene.

Sørg for å se videoene våre, og du vil forstå hva Data Mining er!

Video 1. Hva er Data Mining?


Video 2. Gjennomgang av datautvinningsmetoder: beslutningstrær, generaliserte prediktive modeller, klynging og mye mer

JavaScript er deaktivert i nettleseren din


Før vi starter et forskningsprosjekt må vi organisere en prosess for innhenting av data fra eksterne kilder, nå skal vi vise hvordan dette gjøres.

Videoen vil introdusere deg til unik teknologi STATISTIKA In-place databasebehandling og tilkobling av Data Mining med ekte data.

Video 3. Rekkefølgen av interaksjon med databaser: grafisk grensesnitt for å bygge SQL-spørringer, In-place database prosesseringsteknologi

JavaScript er deaktivert i nettleseren din


Nå skal vi bli kjent med interaktive boreteknologier som er effektive i å gjennomføre utforskende dataanalyse. Selve begrepet boring reflekterer sammenhengen mellom Data Mining-teknologi og geologisk leting.

Video 4: Interactive Drilling: Exploration and Graphics Techniques for Interactive Data Exploration

JavaScript er deaktivert i nettleseren din


Nå skal vi bli kjent med assosiasjonsanalyse (assosiasjonsregler), disse algoritmene lar deg finne sammenhenger som eksisterer i ekte data. Nøkkelpunktet er effektiviteten til algoritmer på store datamengder.

Resultatet av forbindelsesanalysealgoritmer, for eksempel Apriori-algoritmen, er funnet av forbindelsesregler for objektene som studeres med en gitt pålitelighet, for eksempel 80 %.

I geologi kan disse algoritmene brukes i leteanalyse av mineraler, for eksempel hvordan funksjon A er relatert til funksjon B og C.

du kan finne spesifikke eksempler slike løsninger ved å bruke lenkene våre:

I detaljhandelen gjør Apriori-algoritmer eller deres modifikasjoner det mulig å studere forholdet mellom forskjellige produkter, for eksempel ved salg av parfymer (parfyme - neglelakk - mascara, etc.) eller produkter fra forskjellige merker.

Analyse av de mest interessante delene på nettstedet kan også effektivt utføres ved hjelp av foreningsregler.

Så sjekk ut vår neste video.

Video 5. Forbundsregler

JavaScript er deaktivert i nettleseren din

Her er eksempler på bruk av Data Mining i spesifikke områder.

Netthandel:

  • analyse av kundebaner fra besøk på siden til kjøp av varer
  • vurdering av tjenesteeffektivitet, analyse av feil på grunn av varemangel
  • kobling av produkter som er interessante for besøkende

Detaljhandel: analyse av kundeinformasjon basert på kredittkort, rabattkort m.m.

Typiske detaljhandelsoppgaver løst av Data Mining-verktøy:

  • handlekurv analyse;
  • opprettelse av prediktive modeller og klassifiseringsmodeller for kjøpere og kjøpte varer;
  • opprette kundeprofiler;
  • CRM, vurdere lojaliteten til kunder i forskjellige kategorier, planlegge lojalitetsprogrammer;
  • tidsserieforskning og tidsavhengigheter, identifisering av sesongmessige faktorer, vurdering av effektivitet kampanjer på et stort utvalg av ekte data.

Telekommunikasjonssektoren åpner for ubegrensede muligheter for bruk av datautvinningsmetoder, samt moderne stordatateknologier:

  • klassifisering av klienter basert på nøkkelegenskaper for samtaler (frekvens, varighet osv.), SMS-frekvens;
  • identifisere kundelojalitet;
  • svindeloppdagelse osv.

Forsikring:

  • risikoanalyse. Ved å identifisere kombinasjoner av faktorer knyttet til betalte krav, kan forsikringsselskapene redusere sine ansvarstap. Det er et tilfelle hvor et forsikringsselskap oppdaget at beløpene som ble utbetalt på skader fra gifte var dobbelt så høye som beløpene som ble utbetalt på skader fra enslige. Selskapet svarte på dette ved å revidere rabattpolitikken for familiekunder.
  • svindeloppdagelse. Forsikringsselskaper kan redusere svindel ved å se etter visse mønstre i krav som kjennetegner forholdet mellom advokater, leger og skadelidte.

Den praktiske anvendelsen av data mining og løsning av spesifikke problemer presenteres i vår neste video.

Webinar 1. Webinar "Praktiske oppgaver for Data Mining: problemer og løsninger"

JavaScript er deaktivert i nettleseren din

Webinar 2. Webinar "Data Mining og Text Mining: eksempler på å løse reelle problemer"

JavaScript er deaktivert i nettleseren din


Du kan få mer inngående kunnskap om data mining-metodikk og -teknologi i StatSoft-kurs.

Hva er Data Mining

Bedriftsdatabasen til enhver moderne bedrift inneholder vanligvis et sett med tabeller som lagrer poster om visse fakta eller objekter (for eksempel om varer, deres salg, kunder, kontoer). Som regel beskriver hver oppføring i en slik tabell et spesifikt objekt eller faktum. For eksempel gjenspeiler en oppføring i salgstabellen det faktum at et slikt og et produkt ble solgt til en slik og en kunde på det tidspunktet av en slik og en forvalter, og inneholder stort sett ikke annet enn denne informasjonen. Imidlertid kan innsamlingen av et stort antall slike poster, akkumulert over flere år, bli en kilde til ytterligere, mye mer verdifull informasjon som ikke kan skaffes på grunnlag av én spesifikk post, nemlig informasjon om mønstre, trender eller gjensidige avhengigheter mellom noen data. Eksempler på slik informasjon er informasjon om hvordan salget av et bestemt produkt avhenger av ukedag, tid på dagen eller tid på året, hvilke kategorier av kunder som oftest kjøper dette eller det produktet, hvor stor andel kjøpere av et bestemt produkt som kjøper. et annet spesifikt produkt, hvilken kundekategori som oftest ikke tilbakebetaler lånet gitt i tide.

Denne typen informasjon brukes vanligvis i prognoser, strategisk planlegging, risikoanalyse, og dens verdi for bedriften er veldig høy. Tilsynelatende er det derfor prosessen med å søke etter det ble kalt Data Mining (gruvedrift på engelsk betyr "gruvedrift", og å søke etter mønstre i et stort sett med faktadata er egentlig beslektet med dette). Begrepet Data Mining betegner ikke så mye en spesifikk teknologi som prosessen med å søke etter korrelasjoner, trender, sammenhenger og mønstre gjennom ulike matematiske og statistiske algoritmer: klynging, lage delprøver, regresjon og korrelasjonsanalyse. Hensikten med dette søket er å presentere dataene i en form som tydelig gjenspeiler forretningsprosesser, og også å bygge en modell som du kan forutsi prosesser som er kritiske for forretningsplanlegging (for eksempel dynamikken i etterspørselen etter visse varer eller tjenester eller avhengigheten av deres anskaffelse av visse forbrukeregenskaper).

Merk at tradisjonell matematisk statistikk, som i lang tid forble hovedverktøyet for dataanalyse, samt verktøy for online analytisk prosessering (OLAP), som vi allerede har skrevet om flere ganger (se materialer om dette emnet på CD-en vår), kan ikke alltid brukes til å løse slike problemer. Vanligvis brukes statistiske metoder og OLAP for å teste forhåndsformulerte hypoteser. Imidlertid er det ofte formuleringen av en hypotese som viser seg å være den vanskeligste oppgaven når man skal implementere forretningsanalyse for påfølgende beslutninger, siden ikke alle mønstre i dataene er åpenbare ved første øyekast.

Grunnlaget moderne teknologi Data Mining er basert på konseptet med mønstre som gjenspeiler mønstre som er iboende i delprøver av data. Søket etter mønstre utføres ved hjelp av metoder som ikke bruker noen a priori antagelser om disse delprøvene. Mens statistisk analyse eller OLAP vanligvis stiller spørsmål som "Hva er gjennomsnittlig antall ubetalte fakturaer blant kunder for denne tjenesten?", involverer Data Mining vanligvis å svare på spørsmål som "Er det en typisk kategori av ikke-betalende kunder?". Samtidig er det svaret på det andre spørsmålet som ofte gir en mer ikke-triviell tilnærming til markedspolitikk og organisering av arbeidet med kunder.

Et viktig trekk ved Data Mining er den ikke-standardiserte og ikke-åpenbare naturen til mønstrene som søkes etter. Med andre ord, Data Mining-verktøy skiller seg fra statistiske databehandlingsverktøy og OLAP-verktøy ved at i stedet for å sjekke forhåndsantatte gjensidige avhengigheter av brukere, er de i stand til å finne slike gjensidige avhengigheter uavhengig basert på tilgjengelige data og bygge hypoteser om deres natur.

Det skal bemerkes at bruken av Data Mining-verktøy ikke utelukker bruken av statistiske verktøy og OLAP-verktøy, siden resultatene av databehandling ved bruk av sistnevnte som regel bidrar til en bedre forståelse av arten av mønstrene som bør bli sett etter.

Kildedata for Data Mining

Bruken av Data Mining er berettiget hvis det er en tilstrekkelig stor mengde data, ideelt sett inneholdt i et korrekt designet datavarehus (faktisk er selve datavarehusene vanligvis opprettet for å løse analyse- og prognoseproblemer knyttet til beslutningsstøtte). Vi har også skrevet gjentatte ganger om prinsippene for å bygge datavarehus; relevant materiale finnes på CD-en vår, så vi vil ikke dvele ved dette problemet. La oss bare huske at dataene på lageret er et etterfylt sett, felles for hele bedriften og lar en gjenopprette et bilde av aktivitetene når som helst. Merk også at lagringsdatastrukturen er utformet på en slik måte at forespørsler til den utføres så effektivt som mulig. Det finnes imidlertid Data Mining-verktøy som kan søke etter mønstre, korrelasjoner og trender ikke bare i datavarehus, men også i OLAP-kuber, det vil si i sett med forhåndsbehandlede statistiske data.

Typer mønstre identifisert av Data Mining-metoder

I følge V.A. Duke er det fem standardtyper av mønstre identifisert av Data Mining-metoder:

Forening - stor sannsynlighet for at hendelser er knyttet til hverandre (for eksempel kjøpes et produkt ofte sammen med et annet);

Sekvens - en høy sannsynlighet for en hendelseskjede relatert i tid (for eksempel innen en viss periode etter kjøp av ett produkt, vil et annet bli kjøpt med høy grad av sannsynlighet);

Klassifisering - det er tegn som karakteriserer gruppen som denne eller den hendelsen eller objektet tilhører (vanligvis, basert på analysen av allerede klassifiserte hendelser, formuleres visse regler);

Clustering er et mønster som ligner på klassifisering og skiller seg fra det ved at gruppene i seg selv ikke er spesifisert - de identifiseres automatisk under databehandling;

Tidsmessige mønstre - tilstedeværelsen av mønstre i dynamikken i oppførselen til visse data (et typisk eksempel er sesongmessige svingninger i etterspørselen etter visse varer eller tjenester) som brukes til prognoser.

Data mining metoder

I dag er det et ganske stort antall forskjellige datautvinningsmetoder. Basert på klassifiseringen ovenfor foreslått av V.A. Duke, blant dem kan vi skille:

Regresjons-, varians- og korrelasjonsanalyse (implementert i de fleste moderne statistiske pakker, spesielt i produkter fra SAS Institute, StatSoft, etc.);

Analysemetoder innen et spesifikt fagområde, basert på empiriske modeller (ofte brukt for eksempel i rimelige økonomiske analyseverktøy);

Nevrale nettverksalgoritmer, ideen om hvilke er basert på en analogi med funksjonen til nervevev og ligger i det faktum at de første parametrene betraktes som signaler som transformeres i samsvar med de eksisterende forbindelsene mellom "nevroner", og respons fra hele nettverket på de første regnes som responsen som er resultatet av analysedataene. I dette tilfellet opprettes forbindelser ved hjelp av såkalt nettverkstrening gjennom en stor prøvestørrelse som inneholder både innledende data og riktige svar;

Algoritmer - valg av en nær analog av de originale dataene fra eksisterende historiske data. Også kalt "nærmeste nabo"-metoden;

Beslutningstrær er en hierarkisk struktur basert på et sett med spørsmål som krever et "Ja" eller "Nei" svar; selv om denne metoden databehandling finner ikke alltid eksisterende mønstre perfekt; det brukes ganske ofte i prognosesystemer på grunn av klarheten i svaret som mottas;

Klyngemodeller (noen ganger også kalt segmenteringsmodeller) brukes til å gruppere lignende hendelser basert på lignende verdier av flere felt i et datasett; også veldig populær når du lager prognosesystemer;

Begrensede søkealgoritmer som beregner frekvenser av kombinasjoner av enkle logiske hendelser i undergrupper av data;

Evolusjonær programmering - søk og generering av en algoritme som uttrykker den gjensidige avhengigheten av data, basert på en opprinnelig spesifisert algoritme, modifisert under søkeprosessen; noen ganger utføres søket etter gjensidige avhengigheter blant visse typer funksjoner (for eksempel polynomer).

Mer informasjon om disse og andre Data Mining-algoritmer, så vel som om verktøyene som implementerer dem, kan leses i boken "Data Mining: Training Course" av V.A. Duke og A.P. Samoilenko, utgitt av Peter forlag i 2001. I dag er dette en av få bøker på russisk som er viet til dette problemet.

Ledende produsenter av Data Mining-verktøy

Data Mining-verktøy, som de fleste Business Intelligence-verktøy, er tradisjonelt dyre programvareverktøy – noen av dem koster opptil flere titusenvis av dollar. Derfor, inntil nylig, var hovedforbrukerne av denne teknologien banker, finans- og forsikringsselskaper, store handelsbedrifter, og hovedoppgavene som krever bruk av Data Mining ble ansett for å være vurdering av kreditt- og forsikringsrisiko og utvikling av markedsføringspolitikk. , tariffplaner og andre prinsipper for å jobbe med kunder. De siste årene har situasjonen gjennomgått visse endringer: relativt rimelige Data Mining-verktøy fra flere produsenter har dukket opp på programvaremarkedet, noe som har gjort denne teknologien tilgjengelig for små og mellomstore bedrifter som ikke tidligere hadde tenkt på det.

TIL moderne virkemidler Business Intelligence inkluderer rapportgeneratorer, analytiske databehandlingsverktøy, BI-løsningsutviklingsverktøy (BI-plattformer) og de såkalte Enterprise BI Suites - dataanalyse- og prosesseringsverktøy i bedriftsskala som lar deg utføre et sett med handlinger knyttet til dataanalyse og rapportoppretting, og inkluderer ofte et integrert sett med BI-verktøy og BI-applikasjonsutviklingsverktøy. Sistnevnte inneholder som regel rapporteringsverktøy, OLAP-verktøy og ofte Data Mining-verktøy.

I følge analytikere fra Gartner Group er lederne i markedet for dataanalyse- og prosesseringsverktøy i bedriftsskala Business Objects, Cognos, Information Builders, og Microsoft og Oracle hevder også lederskap (fig. 1). Når det gjelder utviklingsverktøyene for BI-løsninger, er de viktigste utfordrerne til lederskap på dette området Microsoft og SAS Institute (fig. 2).

Merk at Microsofts Business Intelligence-verktøy er relativt rimelige produkter tilgjengelig for en lang rekke selskaper. Det er derfor vi skal se på noen praktiske aspekter ved bruk av Data Mining ved å bruke eksemplet på dette selskapets produkter i de påfølgende delene av denne artikkelen.

Litteratur:

1. Duke V.A. Data Mining - data mining. - http://www.olap.ru/basic/dm2.asp.

2. Duke V.A., Samoilenko A.P. Data Mining: opplæringskurs. - St. Petersburg: Peter, 2001.

3. B. de Ville. Microsoft Data Mining. Digital Press, 2001.

OLAP-systemer gir analytikeren et middel til å teste hypoteser når han analyserer data, det vil si at hovedoppgaven til analytikeren er å generere hypoteser, som han løser basert på sin kunnskap og erfaring. Men ikke bare en person har kunnskap, men også de akkumulerte dataene som analyseres. Slik kunnskap er inneholdt i en enorm mengde informasjon som en person ikke kan forske på på egen hånd. På grunn av dette er det en risiko for manglende hypoteser som kan gi betydelige fordeler.

For å oppdage "skjult" kunnskap brukes spesielle metoder for automatisk analyse, ved hjelp av hvilke det er nødvendig å praktisk talt trekke ut kunnskap fra "blokkeringer" av informasjon. Begrepet "data mining" eller "data mining" har blitt tildelt dette området.

Det er mange definisjoner av DataMining som utfyller hverandre. Her er noen av dem.

Data Mining er prosessen med å oppdage ikke-trivielle og praktisk talt nyttige mønstre i databaser. (Basegruppe)

Data Mining er prosessen med å trekke ut, utforske og modellere store mengder data for å oppdage tidligere ukjente mønstre (mønstre) for å oppnå forretningsfordeler (SAS Institute)

Data Mining er en prosess som tar sikte på å oppdage nye signifikante korrelasjoner, mønstre og trender ved å sile gjennom store mengder lagrede data ved å bruke mønstergjenkjenningsteknikker pluss bruk av statistiske og matematiske teknikker (GartnerGroup)

Data Mining er forskning og oppdagelse av en "maskin" (algoritmer, kunstig intelligensverktøy) av skjult kunnskap i rådata.var tidligere ukjente, ikke-trivielle, praktisk talt nyttige, tilgjengelige for tolkningsjoner av mennesker (A. Bargesyan “Data Analysis Technologies”)

DataMining er prosessen med å oppdage nyttig kunnskap om virksomhet. (N.M. Abdikeev “KBA”)

Egenskaper ved oppdaget kunnskap

La oss vurdere egenskapene til den oppdagede kunnskapen.

  • Kunnskapen må være ny, tidligere ukjent. Innsatsen som brukes på å oppdage kunnskap som allerede er kjent for brukeren, lønner seg ikke. Derfor er det ny, tidligere ukjent kunnskap som er verdifull.
  • Kunnskap må være ikke-triviell. Resultatene av analysen skal gjenspeile ikke-opplagte, uventedemønstre i data som utgjør såkalt skjult kunnskap. Resultater som kunne vært oppnådd flere på enkle måter(for eksempel visuell inspeksjon) rettferdiggjør ikke bruken av kraftige DataMining-metoder.
  • Kunnskap skal være praktisk nyttig. Kunnskapen som finnes må være anvendelig, også på nye data, med tilstrekkelig høy grad av pålitelighet. Nytten ligger i det faktum at denne kunnskapen kan gi visse fordeler når den brukes.
  • Kunnskap må være tilgjengelig for menneskelig forståelse. Mønstrene som finnes må være logisk forklarbare, ellers er det en mulighet for at de er tilfeldige. I tillegg må den oppdagede kunnskapen presenteres i en form som er forståelig for mennesker.

I DataMining brukes modeller for å representere den ervervede kunnskapen. Modelltypene avhenger av metodene som brukes for å lage dem. De vanligste er: regler, beslutningstrær, klynger og matematiske funksjoner.

DataMining oppgaver

La oss huske at DataMining-teknologi er basert på konseptet med maler, som er mønstre. Som et resultat av oppdagelsen av disse mønstrene, skjult for det blotte øye, er DataMining-problemer løst. Ulike typer mønstre som kan uttrykkes i en menneskelig lesbar form, tilsvarer spesifikke DataMining-oppgaver.

Det er ingen konsensus om hvilke oppgaver som skal klassifiseres som DataMining. De fleste autoritative kilder viser følgende: klassifisering,

clustering, prediksjon, assosiasjon, visualisering, analyse og oppdagelse

avvik, vurdering, analyse av sammenhenger, oppsummering.

Hensikten med beskrivelsen som følger er å gi en generell idé om DataMining-problemer, sammenligne noen av dem, og også presentere noen metoder for å løse disse problemene. De vanligste Data Mining-oppgavene er klassifisering, clustering, assosiasjon, prognose og visualisering. Dermed er oppgavene delt inn etter type informasjon som produseres, dette er den mest generelle klassifiseringen av DataMining-oppgaver.

Klassifisering

Problemet med å dele et sett med objekter eller observasjoner i a priori spesifiserte grupper, kalt klasser, innenfor hver av dem antas de å være like hverandre, med omtrent samme egenskaper og egenskaper. I dette tilfellet oppnås løsningen basert på analyse verdier av attributter (funksjoner).

Klassifisering er en av de viktigste oppgavene Datautvinning . Den brukes i markedsføring ved vurdering av kredittverdigheten til låntakere, fastsettelse kundelojalitet, mønstergjenkjenning , medisinsk diagnostikk og mange andre applikasjoner. Hvis analytikeren kjenner egenskapene til objekter i hver klasse, vil disse egenskapene automatisk utvides til den når en ny observasjon tilhører en bestemt klasse.

Hvis antall klasser er begrenset til to, dabinær klassifisering , som mange mer komplekse problemer kan reduseres til. For eksempel, i stedet for å definere slike grader av kredittrisiko som "Høy", "Middels" eller "Lav", kan du bare bruke to - "Utsted" eller "Avslå".

DataMining bruker mange forskjellige modeller for klassifisering: nevrale nettverk, beslutningstrær , støtte vektormaskiner, k-nearest neighbors-metoden, dekkende algoritmer, etc., i konstruksjonen som overvåket læring brukes nårutgangsvariabel(klasseetikett ) spesifiseres for hver observasjon. Formelt foretas klassifisering basert på partisjonenfunksjoner mellomrom inn i områder, innenfor hvert av disseflerdimensjonale vektorer anses som identiske. Med andre ord, hvis et objekt faller inn i et område i rommet knyttet til en bestemt klasse, tilhører det det.

Gruppering

Kort beskrivelse. Clustering er en logisk fortsettelse av ideen

klassifiseringer. Dette er en mer kompleks oppgave; det særegne ved klynging er at objektklasser i utgangspunktet ikke er forhåndsdefinert. Resultatet av gruppering er inndeling av objekter i grupper.

Et eksempel på en metode for å løse et klyngeproblem: "uovervåket" trening av en spesiell type nevrale nettverk - selvorganiserende Kohonen-kart.

Foreninger

Kort beskrivelse. Når man løser problemet med å søke etter assosiasjonsregler, finner man mønstre mellom relaterte hendelser i et datasett.

Forskjellen mellom assosiasjon og de to tidligere DataMining-oppgavene: søket etter mønstre utføres ikke på grunnlag av egenskapene til det analyserte objektet, men mellom flere hendelser som skjer samtidig. Den mest kjente algoritmen for å løse problemet med å finne assosiasjonsregler er Apriori-algoritmen.

Sekvens eller sekvensiell tilknytning

Kort beskrivelse. Sekvens lar deg finne tidsmessige mønstre mellom transaksjoner. Sekvensoppgaven ligner på assosiasjon, men dens mål er å etablere mønstre ikke mellom hendelser som forekommer samtidig, men mellom hendelser relatert i tid (dvs. som skjer med et bestemt tidsintervall). Med andre ord, en sekvens bestemmes av en høy sannsynlighet for en kjede av hendelser knyttet til tid. Faktisk er en assosiasjon et spesielt tilfelle av en sekvens med en tidsforsinkelse på null. Denne DataMining-oppgaven kalles også den sekvensielle mønstersøkeoppgaven.

Sekvensregel: etter hendelse X vil hendelse Y inntreffe etter en viss tid.

Eksempel. Etter å ha kjøpt leilighet kjøper beboerne i 60 % av tilfellene et kjøleskap innen to uker, og innen to måneder i 50 % av tilfellene kjøper de en TV. Løsningen på dette problemet er mye brukt i markedsføring og ledelse, for eksempel i Customer Lifecycle Management.

Regresjon, prognoser (prognose)

Kort beskrivelse. Som et resultat av å løse prognoseproblemet, estimeres manglende eller fremtidige verdier av numeriske målindikatorer basert på egenskapene til historiske data.

For å løse slike problemer er metoder for matematisk statistikk, nevrale nettverk, etc. mye brukt.

Tilleggsoppgaver

Avviksdeteksjon, varians- eller uteliggeranalyse

Kort beskrivelse. Målet med å løse dette problemet er å oppdage og analysere data som er mest forskjellig fra det generelle settet med data, og identifisere såkalte ukarakteristiske mønstre.

Anslag

Beregningsoppgaven kommer ned til å forutsi kontinuerlige verdier for en funksjon.

Linkanalyse

Oppgaven med å finne avhengigheter i et datasett.

Visualisering (GraphMining)

Som et resultat av visualisering opprettes et grafisk bilde av de analyserte dataene. For å løse visualiseringsproblemet brukes grafiske metoder for å vise tilstedeværelsen av mønstre i dataene.

Et eksempel på visualiseringsteknikker er å presentere data i 2-D og 3-D dimensjoner.

Oppsummering

En oppgave som har som mål å beskrive spesifikke grupper av objekter fra det analyserte datasettet.

Ganske nær klassifiseringen ovenfor er inndelingen av DataMining-oppgaver i følgende: forskning og oppdagelse, prognoser og klassifisering, forklaring og beskrivelse.

Automatisk utforskning og oppdagelse (gratis søk)

Eksempeloppgave: oppdage nye markedssegmenter.

For å løse denne klassen av problemer, brukes klyngeanalysemetoder.

Prediksjon og klassifisering

Eksempelproblem: å forutsi salgsvekst basert på gjeldende verdier.

Metoder: regresjon, nevrale nettverk, genetiske algoritmer, beslutningstrær.

Klassifiserings- og prognoseoppgaver utgjør en gruppe såkalt induktiv modellering, som resulterer i studiet av det analyserte objektet eller systemet. I prosessen med å løse disse problemene utvikles en generell modell eller hypotese basert på et sett med data.

Forklaring og beskrivelse

Eksempelproblem: karakterisering av kunder basert på demografi og kjøpshistorikk.

Metoder: beslutningstrær, regelsystemer, assosiasjonsregler, forbindelsesanalyse.

Hvis klientens inntekt er mer enn 50 konvensjonelle enheter og hans alder er mer enn 30 år, er klientens klasse først.

Sammenligning av klynging og klassifisering

Karakteristisk

Klassifisering

Gruppering

Styrbarhet av trening

Kontrollert

Ustyrlig

Strategier

Veiledet opplæring

Uovervåket læring

Tilgjengelighet av klasseetikett

Treningssett

ledsaget av en etikett som indikerer

klasse den tilhører

observasjon

Trenerklasseetiketter

sett er ukjente

Grunnlag for klassifisering

Nye data klassifiseres basert på treningssettet

Mye data er gitt til formålet

etablere eksistensen

klasser eller dataklynger

Bruksområder for DataMining

Det skal bemerkes at i dag er DataMining-teknologi mest brukt for å løse forretningsproblemer. Kanskje grunnen er at det er i denne retningen at avkastningen på bruk av DataMining-verktøy kan være, ifølge noen kilder, opptil 1000%, og kostnadene ved implementeringen kan raskt lønne seg.

Vi vil se på fire hovedområder for bruk av DataMining-teknologi i detalj: vitenskap, næringsliv, statlig forskning og Internett.

forretningsoppgaver. Hovedområder: bank, finans, forsikring, CRM, produksjon, telekommunikasjon, e-handel, markedsføring, aksjemarked og andre.

    Bør jeg utstede et lån til kunden?

    Markedssegmentering

    Tiltrekning av nye kunder

    Kredittkortsvindel

Anvendelse av DataMining for løse problemer på statlig nivå. Hovedretninger: søk etter skatteunndragere; midler i kampen mot terrorisme.

Anvendelse av DataMining for Vitenskapelig forskning. Hovedområder: medisin, biologi, molekylær genetikk og genteknologi, bioinformatikk, astronomi, anvendt kjemi, forskning relatert til rusavhengighet og andre.

Bruker DataMining til å løse Nettoppgaver. Hovedområder: søkemotorer, tellere og andre.

E-handel

Innen e-handel brukes DataMining til å generere

Denne klassifiseringen lar bedrifter identifisere spesifikke kundegrupper og gjennomføre markedsføringspolitikk i samsvar med identifiserte interesser og behov til kundene. DataMining-teknologi for e-handel er nært knyttet til WebMining-teknologi.

Hovedoppgavene til DataMining i industriell produksjon:

· omfattende systemanalyse av produksjonssituasjoner;

· kortsiktig og langsiktig prognose for utvikling av produksjonssituasjoner;

· utvikling av muligheter for optimaliseringsløsninger;

· å forutsi kvaliteten på et produkt avhengig av visse parametere

teknologisk prosess;

· oppdagelse av skjulte trender og mønstre i utviklingen av produksjonen

prosesser;

· prognoser for utviklingsmønstre produksjonsprosesser;

· påvisning av skjulte påvirkningsfaktorer;

· påvisning og identifisering av tidligere ukjente sammenhenger mellom

produksjonsparametere og påvirkningsfaktorer;

· analyse av interaksjonsmiljøet til produksjonsprosesser og prognoser

endringer i dens egenskaper;

prosesser;

· visualisering av analyseresultater, utarbeidelse av foreløpige rapporter og prosjekter

gjennomførbare løsninger med vurderinger av påliteligheten og effektiviteten av mulige implementeringer.

Markedsføring

Innen markedsføring er DataMining mye brukt.

Grunnleggende markedsføringsspørsmål: "Hva selges?", "Hvordan selges det?", "Hvem er det

forbruker?"

Forelesningen om klassifisering og klyngeproblemer beskriver i detalj bruken av klyngeanalyse for å løse markedsføringsproblemer, som for eksempel forbrukersegmentering.

Et annet vanlig sett med metoder for å løse markedsføringsproblemer er metoder og algoritmer for å søke etter assosiasjonsregler.

Søket etter tidsmessige mønstre er også vellykket brukt her.

Detaljhandel

I detaljhandel, som i markedsføring, brukes følgende:

· algoritmer for å søke etter assosiasjonsregler (for å bestemme ofte forekommende sett med

varer som kjøpere kjøper samtidig). Det hjelper å identifisere slike regler

plassere varer i butikkhyllene, utvikle strategier for innkjøp av varer

og deres plassering i varehus osv.

· bruk av tidssekvenser, for eksempel for å bestemme

nødvendige varemengder på lageret.

· klassifiserings- og grupperingsmetoder for å identifisere grupper eller kategorier av klienter,

kunnskap som bidrar til vellykket markedsføring av varer.

Aksjemarked

Her er en liste over børsproblemer som kan løses ved hjelp av datateknologi

Gruvedrift: · forutsi fremtidige verdier av finansielle instrumenter og deres indikatorer

tidligere verdier;

· trendprognose (fremtidig bevegelsesretning - vekst, nedgang, flat) finansiell

instrumentet og dets styrke (sterk, moderat sterk, etc.);

· identifikasjon av klyngestrukturen til markedet, industrien, sektoren i henhold til et bestemt sett

kjennetegn;

· dynamisk porteføljestyring;

· volatilitetsprognose;

· risikovurdering;

· forutsi begynnelsen av en krise og forutsi utviklingen av den;

· valg av eiendeler mv.

I tillegg til aktivitetsområdene beskrevet ovenfor, kan DataMining-teknologi brukes i en lang rekke forretningsområder hvor det er behov for dataanalyse og en viss mengde retrospektiv informasjon har blitt akkumulert.

Anvendelse av DataMining i CRM

Et av de mest lovende områdene for bruk av DataMining er bruken av denne teknologien i analytisk CRM.

CRM (CustomerRelationshipManagement) - håndtering av kunderelasjoner.

Når disse teknologiene brukes sammen, kombineres utvinning av kunnskap med «utvinning av penger» fra kundedata.

Et viktig aspekt i arbeidet til markeds- og salgsavdelingene er sammenstillingenet helhetlig syn på klienter, informasjon om deres egenskaper, egenskaper og strukturen til klientgrunnlaget. CRM bruker såkalt profileringklienter, som gir en fullstendig oversikt over all nødvendig informasjon om klienter.

Kundeprofilering inkluderer følgende komponenter: kundesegmentering, kundelønnsomhet, kundebevaring, kunderesponsanalyse. Hver av disse komponentene kan undersøkes ved hjelp av DataMining, og å analysere dem sammen som profileringskomponenter kan til syvende og sist gi kunnskap som er umulig å få tak i fra hver enkelt egenskap.

WebMining

WebMining kan oversettes som "data mining på nettet." WebIntelligence eller Web.

Intelligence er klar til å "åpne et nytt kapittel" i den raske utviklingen av elektronisk virksomhet. Evnen til å bestemme interessene og preferansene til hver besøkende ved å observere hans oppførsel er et seriøst og kritisk konkurransefortrinn i e-handelsmarkedet.

WebMining-systemer kan svare på mange spørsmål, for eksempel hvem av de besøkende som er en potensiell kunde av nettbutikken, hvilken gruppe av nettbutikkkunder som gir mest inntekt, hva er interessene til en bestemt besøkende eller gruppe besøkende.

Metoder

Klassifisering av metoder

Det er to grupper av metoder:

  • statistiske metoder basert på bruk av gjennomsnittlig akkumulert erfaring, som gjenspeiles i retrospektive data;
  • kybernetiske metoder, inkludert mange heterogene matematiske tilnærminger.

Ulempen med denne klassifiseringen er at både statistiske og kybernetiske algoritmer på en eller annen måte er avhengig av en sammenligning av statistisk erfaring med resultatene av overvåking av den nåværende situasjonen.

Fordelen med denne klassifiseringen er dens lette tolkning - den brukes til å beskrive de matematiske midlene til en moderne tilnærming til å trekke ut kunnskap fra matriser av innledende observasjoner (operative og retrospektive), dvs. i Data Mining-oppgaver.

La oss se nærmere på gruppene presentert ovenfor.

Statistiske metoder Data mining

I disse metoder representerer fire sammenhengende seksjoner:

  • foreløpig analyse av arten av statistiske data (testing av hypoteser om stasjonaritet, normalitet, uavhengighet, homogenitet, vurdering av typen distribusjonsfunksjon, dens parametere, etc.);
  • identifisere forbindelser og mønstre(lineær og ikke-lineær regresjonsanalyse, korrelasjonsanalyse, etc.);
  • multivariat statistisk analyse (lineær og ikke-lineær diskriminantanalyse, klyngeanalyse, komponentanalyse, faktoranalyse, etc.);
  • dynamiske modeller og prognose basert på tidsserier.

Arsenalet av statistiske metoder for Data Mining er klassifisert i fire grupper av metoder:

  1. Deskriptiv analyse og beskrivelse av kildedata.
  2. Relasjonsanalyse (korrelasjons- og regresjonsanalyse, faktoranalyse, variansanalyse).
  3. Multivariat statistisk analyse (komponentanalyse, diskriminantanalyse, multivariat regresjonsanalyse, kanoniske korrelasjoner, etc.).
  4. Tidsserieanalyse (dynamiske modeller og prognoser).

Kybernetiske datautvinningsmetoder

Den andre retningen for Data Mining er en rekke tilnærminger forent av ideen om datamaskinmatematikk og bruken av kunstig intelligensteori.

Denne gruppen inkluderer følgende metoder:

  • kunstige nevrale nettverk (gjenkjenning, gruppering, prognose);
  • evolusjonær programmering (inkludert algoritmer for metoden for grupperegnskap for argumenter);
  • genetiske algoritmer (optimalisering);
  • assosiativt minne (søk etter analoger, prototyper);
  • uklar logikk;
  • beslutning trær;
  • ekspertkunnskapsbehandlingssystemer.

Klyngeanalyse

Hensikten med clustering er å søke etter eksisterende strukturer.

Clustering er en beskrivende prosedyre, den gjør ingen statistiske slutninger, men den gir en mulighet til å utføre utforskende analyser og studere "strukturen til dataene."

Selve begrepet "klynge" er definert tvetydig: hver studie har sine egne "klynger". Konseptet klynge er oversatt som "klynge", "gjeng". En klynge kan karakteriseres som en gruppe objekter som har felles egenskaper.

Egenskapene til en klynge kan beskrives som to:

  • intern homogenitet;
  • ekstern isolasjon.

Et spørsmål som analytikere stiller når de løser mange problemer er hvordan man organiserer data i visuelle strukturer, dvs. utvide taksonomier.

Clustering ble opprinnelig mest brukt i vitenskaper som biologi, antropologi og psykologi. Clustering har vært lite brukt for å løse økonomiske problemer i lang tid på grunn av den spesifikke karakteren til økonomiske data og fenomener.

Klynger kan være usammenhengende, eller eksklusive (ikke-overlappende, eksklusive) og overlappende.

Det skal bemerkes at som et resultat av å bruke forskjellige metoder for klyngeanalyse, kan klynger av forskjellige former oppnås. For eksempel er klynger av typen "kjede" mulig når klynger er representert av lange "kjeder", langstrakte klynger, etc., og noen metoder kan lage klynger med vilkårlig form.

Ulike metoder kan forsøke å lage klynger av spesifikke størrelser (f.eks. små eller store) eller anta at det er klynger av forskjellige størrelser i datasettet. Noen klyngeanalysemetoder er spesielt følsomme for støy eller avvik, andre mindre. Som et resultat av å bruke forskjellige klyngemetoder, kan forskjellige resultater oppnås; dette er normalt og er et trekk ved driften av en bestemt algoritme. Disse funksjonene bør tas i betraktning når du velger en klyngemetode.

La oss gi en kort beskrivelse av tilnærminger til klynging.

Algoritmer basert på dataseparasjon (Partisjoneringsalgoritmer), inkl. iterativ:

  • dele objekter i k klynger;
  • Iterativ omfordeling av objekter for å forbedre klynging.
  • Hierarkialgoritmer:
  • agglomerasjon: hvert objekt er i utgangspunktet en klynge, klynger,
  • forbinder de med hverandre, danner de en større klynge osv.

Tetthetsbaserte metoder:

  • basert på evnen til å koble gjenstander;
  • ignorer støy og finn klynger med vilkårlig form.

Nett - metoder (rutenettbaserte metoder):

  • kvantisering av objekter til rutenettstrukturer.

Modellmetoder (modellbasert):

  • bruke modellen for å finne klynger som passer best til dataene.

Klyngeanalysemetoder. Iterative metoder.

Med et stort antall observasjoner er hierarkiske metoder for klyngeanalyse ikke egnet. I slike tilfeller brukes ikke-hierarkiske metoder basert på deling, som er iterative metoder for å fragmentere den opprinnelige befolkningen. Under delingsprosessen dannes nye klynger inntil stoppregelen er tilfredsstilt.

Slik ikke-hierarkisk clustering består i å dele et datasett i et visst antall individuelle klynger. Det er to tilnærminger. Den første er å bestemme grensene for klynger som de mest tette områdene i det flerdimensjonale rommet til kildedataene, dvs. definere en klynge der det er en stor "kondensering av punkter". Den andre tilnærmingen er å minimere forskjellen mellom objekter

k-betyr algoritme

Den vanligste ikke-hierarkiske metoden er k-middelalgoritmen, også kalt rask klyngeanalyse. En fullstendig beskrivelse av algoritmen finnes i Hartigan og Wong (1978). I motsetning til hierarkiske metoder, som ikke krever foreløpige antakelser om antall klynger, for å kunne bruke denne metoden, er det nødvendig å ha en hypotese om det mest sannsynlige antallet klynger.

K-betyr-algoritmen konstruerer k klynger plassert i størst mulig avstand fra hverandre. Hovedtypen problemer som k-middelalgoritmen løser er tilstedeværelsen av antakelser (hypoteser) angående antall klynger, og de bør være så forskjellige som mulig. Valget av k kan være basert på tidligere forskning, teoretiske betraktninger eller intuisjon.

Den generelle ideen om algoritmen: et gitt fast antall k observasjonsklynger sammenlignes med klynger slik at gjennomsnittene i klyngen (for alle variabler) skiller seg fra hverandre så mye som mulig.

Beskrivelse av algoritmen

1. Innledende fordeling av objekter i klynger.

  • Tallet k velges, og i det første trinnet regnes disse punktene som "sentrene" til klyngene.
  • Hver klynge tilsvarer ett senter.

Valget av innledende sentroider kan gjøres som følger:

  • velge k-observasjoner for å maksimere innledende avstand;
  • tilfeldig utvalg av k-observasjoner;
  • utvalg av de første k-observasjonene.

Som et resultat blir hvert objekt tildelt en bestemt klynge.

2. Iterativ prosess.

Sentrene til klyngene beregnes, som deretter brukes til å beregne koordinatmessige gjennomsnitt av klyngene. Objekter omfordeles igjen.

Prosessen med å beregne sentre og omfordele objekter fortsetter til en av betingelsene er oppfylt:

  • klyngesentre har stabilisert seg, d.v.s. alle observasjoner tilhører klyngen de tilhørte før den nåværende iterasjonen;
  • antall iterasjoner er lik maksimalt antall iterasjoner.

Figuren viser et eksempel på k-middelalgoritmen for k lik to.

Et eksempel på k-middelalgoritmen (k=2)

Å velge antall klynger er et komplekst problem. Hvis det ikke er noen forutsetninger om dette tallet, anbefales det å opprette 2 klynger, deretter 3, 4, 5, osv., og sammenligne resultatene som er oppnådd.

Kontrollerer kvaliteten på klynging

Etter å ha mottatt resultatene av k-means-klyngeanalysen, bør du sjekke riktigheten av klyngene (dvs. vurdere hvor forskjellige klyngene er fra hverandre).

For å gjøre dette beregnes gjennomsnittsverdier for hver klynge. God clustering bør gi svært forskjellige virkemidler for alle målinger, eller i det minste de fleste av dem.

Fordeler med k-means-algoritmen:

  • brukervennlighet;
  • hastighet på bruk;
  • forståelighet og transparens av algoritmen.

Ulemper med k-middelalgoritmen:

  • Algoritmen er for følsom for uteliggere som kan forvrenge gjennomsnittet.

Mulig løsning Dette problemet er å bruke en modifikasjon av algoritmen - k-medianalgoritmen;

  • Algoritmen kan være treg på store databaser. En mulig løsning på dette problemet er å bruke datasampling.

Bayesianske nettverk

I sannsynlighetsteori er begrepet informasjonsavhengighet modellert gjennom betinget avhengighet (eller strengt tatt: fraværet av betinget uavhengighet), som beskriver hvordan vår tillit til utfallet av en hendelse endres når vi får ny kunnskap om fakta, forutsatt at vi allerede visste et sett med andre fakta.

Det er praktisk og intuitivt å representere avhengigheter mellom elementer gjennom en rettet bane som forbinder disse elementene i en graf. Hvis forholdet mellom elementene x og y ikke er direkte og utføres gjennom et tredje element z, så er det logisk å forvente at det vil være et element z på banen mellom x og y. Slike mellomnoder vil "avskjære" avhengigheten mellom x og y, dvs. simulere en situasjon med betinget uavhengighet mellom dem med en kjent verdi av direkte påvirkningsfaktorer.Slike modelleringsspråk er Bayesianske nettverk, som brukes til å beskrive betingede avhengigheter mellom begrepene til et bestemt fagområde.

Bayesianske nettverk er grafiske strukturerå representere sannsynlige sammenhenger mellom et stort antall variabler og å utføre sannsynlige slutninger basert på disse variablene."Naiv" (bayesiansk) klassifisering er en ganske gjennomsiktig og forståelig klassifiseringsmetode. "Naiv" kalles den fordi den er basert på antagelsen om gjensidiguavhengighet av tegn.

Klassifiseringsegenskaper:

1. Bruke alle variabler og bestemme alle avhengigheter mellom dem.

2. Å ha to antakelser om variablene:

  • alle variabler er like viktige;
  • alle variabler er statistisk uavhengige, dvs. verdien av en variabel sier ingenting om verdien av en annen.

Det er to hovedscenarier for bruk av Bayesianske nettverk:

1. Deskriptiv analyse. Fagområdet vises som en graf, hvis noder representerer konsepter, og de rettede buene, vist med piler, illustrerer de direkte avhengighetene mellom disse konseptene. Forholdet mellom x og y betyr: å kjenne verdien av x hjelper deg å gjøre en bedre gjetning om verdien av y. Fraværet av en direkte forbindelse mellom konsepter modellerer den betingede uavhengigheten mellom dem med kjente verdier for et visst sett med "separerende" konsepter. For eksempel er et barns skostørrelse åpenbart knyttet til et barns leseevne gjennom alderen. Dermed gir en større skostørrelse større tillit til at barnet allerede leser, men hvis vi allerede vet alderen, vil det ikke lenger gi oss å vite skostørrelsen tilleggsinformasjon om barnets evne til å lese.


Som et annet, motsatt eksempel, vurder slike i utgangspunktet ikke-relaterte faktorer som røyking og forkjølelse. Men hvis vi kjenner et symptom, for eksempel at en person lider av hoste om morgenen, så øker det å vite at personen ikke røyker tilliten til at personen er forkjølet.

2. Klassifisering og prognoser. Det Bayesianske nettverket, som tillater betinget uavhengighet av en rekke konsepter, gjør det mulig å redusere antall parametere for fellesdistribusjonen, noe som gjør det mulig å trygt estimere dem på de tilgjengelige datavolumene. Så, med 10 variabler, som hver kan ta 10 verdier, er antall parametere for fellesfordelingen 10 milliarder - 1. Hvis vi antar at bare 2 variabler avhenger av hverandre mellom disse variablene, blir antallet parametere 8 * (10-1) + (10*10-1) = 171. Ved å ha en felles distribusjonsmodell som er realistisk med tanke på beregningsressurser, kan vi forutsi den ukjente verdien av et konsept som for eksempel den mest sannsynlige verdien av dette konseptet gitt de kjente verdiene til andre konsepter.

Følgende fordeler med Bayesianske nettverk som en DataMining-metode er notert:

Modellen definerer avhengighetene mellom alle variabler, dette gjør det enkelthåndtere situasjoner der verdiene til noen variabler er ukjente;

Bayesianske nettverk er ganske enkle å tolke og tillatePrediktiv modellering gjør det enkelt å gjennomføre hva-hvis-scenarioanalyse;

Den Bayesianske metoden lar deg kombinere mønstre naturlig,utledet fra data, og for eksempel ekspertkunnskap innhentet eksplisitt;

Bruk av Bayesianske nettverk unngår problemet med overtilpasning(overfitting), det vil si overdreven komplikasjon av modellen, som er en svakhetmange metoder (for eksempel beslutningstrær og nevrale nettverk).

Naive Bayes-tilnærmingen har følgende ulemper:

Det er riktig å multiplisere betingede sannsynligheter bare når alle inndatavariablene er virkelig statistisk uavhengige; selv om ofte denne metodenviser ganske gode resultater når den statistiske betingelsen ikke er oppfyltuavhengighet, men teoretisk sett bør en slik situasjon håndteres av mer kompleksemetoder basert på trening av Bayesianske nettverk;

Direkte behandling av kontinuerlige variabler er ikke mulig - de er påkrevdkonvertering til en intervallskala slik at attributtene er diskrete; imidlertid sliktransformasjoner kan noen ganger føre til tap av betydelige mønstre;

Klassifiseringsresultatet i Naive Bayes-tilnærmingen påvirkes kun avindividuelle verdier av inngangsvariabler, den kombinerte påvirkningen av par ellertrillinger av verdier av forskjellige attributter tas ikke i betraktning her. Dette kan bli bedrekvaliteten på klassifiseringsmodellen når det gjelder dens prediktive nøyaktighet,Det vil imidlertid øke antallet testede alternativer.

Kunstige nevrale nettverk

Kunstige nevrale nettverk (heretter referert til som nevrale nettverk) kan være synkrone og asynkrone.I synkrone nevrale nettverk endres kun tilstanden i hvert øyeblikk ett nevron. I asynkron - tilstanden endres umiddelbart i en hel gruppe nevroner, som regel i alt lag. Det er to grunnleggende arkitekturer- lagdelte og fullt tilkoblede nettverk.Nøkkelbegrepet i lagdelte nettverk er konseptet lag.Et lag er en eller flere nevroner hvis innganger mottar det samme felles signalet.Lagdelte nevrale nettverk er nevrale nettverk der nevroner er delt inn i separate grupper (lag) slik at informasjon behandles lag for lag.I lagdelte nettverk mottar nevroner i det i-te laget inngangssignaler, transformerer dem og overfører dem gjennom forgreningspunkter til nevronene i (i+1) laget. Og så videre til det k-te laget, som produsererutgangssignaler for tolk og bruker. Antall nevroner i hvert lag er ikke relatert til antall nevroner i andre lag og kan være vilkårlig.Innenfor ett lag behandles data parallelt, og på tvers av hele nettverket utføres behandlingen sekvensielt – fra lag til lag. Lagdelte nevrale nettverk inkluderer for eksempel flerlags perseptroner, radielle basisfunksjonsnettverk, kognitron, ikke-kognitron, assosiative minnenettverk.Signalet sendes imidlertid ikke alltid til alle nevroner i laget. I en kognitron, for eksempel, mottar hvert nevron i det nåværende laget signaler bare fra nevroner nær seg i det forrige laget.

Lagdelte nettverk kan på sin side være enkeltlags eller flerlags.

Enkeltlags nettverk- et nettverk bestående av ett lag.

Flerlags nettverk- et nettverk med flere lag.

I et flerlagsnettverk kalles det første laget inngangslaget, påfølgende lag kalles internt eller skjult, og det siste laget kalles utgangslaget. Dermed er mellomlag alle lag i et flerlags nevralt nettverk bortsett fra inngangen og utgangen.Inndatalaget til nettverket kommuniserer med inngangsdataene, og utdatalaget kommuniserer med utdataene.Dermed kan nevroner være input, output og skjult.Inndatalaget er organisert fra inngangsnevroner, som mottar data og distribuerer det til inngangene til nevroner i det skjulte laget av nettverket.En skjult nevron er en nevron som ligger i det skjulte laget av et nevralt nettverk.Utgangsnevroner, som utgangslaget til nettverket er organisert fra, produsererresultater av det nevrale nettverket.

I mesh-nettverk Hvert nevron overfører sin produksjon til andre nevroner, inkludert seg selv. Utgangssignalene til nettverket kan være alle eller noen av utgangssignalene til nevroner etter flere sykluser med nettverksdrift.

Alle inngangssignaler blir gitt til alle nevroner.

Trening av nevrale nettverk

Før du bruker et nevralt nettverk, må det trenes.Prosessen med å trene et nevralt nettverk består av å justere dets interne parametere til en spesifikk oppgave.Algoritmen for nevrale nettverk er iterativ; trinnene kalles epoker eller sykluser.En epoke er én iterasjon i læringsprosessen, inkludert presentasjon av alle eksempler fra treningssettet og eventuelt kontroll av kvaliteten på læringen på et testsett. mange. Læringsprosessen gjennomføres på opplæringsutvalget.Treningssettet inkluderer inngangsverdiene og deres tilsvarende utgangsverdier for datasettet. Under trening finner det nevrale nettverket visse avhengigheter mellom utgangsfeltene og inngangsfeltene.Dermed står vi overfor spørsmålet - hvilke inputfelt (funksjoner) trenger vi?nødvendig å bruke. I første omgang gjøres valget heuristisk, daantall innganger kan endres.

Et problem som kan oppstå er antall observasjoner i datasettet. Og selv om det er visse regler som beskriver forholdet mellom det nødvendige antallet observasjoner og størrelsen på nettverket, er deres riktighet ikke bevist.Antallet nødvendige observasjoner avhenger av kompleksiteten til problemet som skal løses. Når antallet funksjoner øker, øker antallet observasjoner ikke-lineært; dette problemet kalles "dimensjonalitetens forbannelse." Ved utilstrekkelig mengdedata, anbefales det å bruke en lineær modell.

Analytikeren må bestemme antall lag i nettverket og antall nevroner i hvert lag.Deretter må du tilordne slike verdier av vekter og forskyvninger som kanminimere beslutningsfeilen. Vektene og skjevhetene justeres automatisk for å minimere forskjellen mellom de ønskede og mottatte utgangssignalene, kalt treningsfeilen.Treningsfeilen for det konstruerte nevrale nettverket beregnes ved å sammenligneoutput og mål (ønskede) verdier. Feilfunksjonen dannes fra de resulterende forskjellene.

Feilfunksjonen er en objektiv funksjon som krever minimering i prosessenveiledet læring av et nevralt nettverk.Ved å bruke feilfunksjonen kan du evaluere kvaliteten på det nevrale nettverket under trening. For eksempel brukes ofte summen av kvadrerte feil.Kvaliteten på trening av et nevralt nettverk bestemmer dets evne til å løse de tildelte oppgavene.

Omskolere et nevralt nettverk

Når du trener nevrale nettverk, oppstår det ofte en alvorlig vanskelighet kaltproblem med overtilpasning.Overfitting, eller overfitting - overfittingnevrale nettverk til et spesifikt sett med treningseksempler, der nettverket taperevne til å generalisere.Overtrening oppstår når det er for mye trening, ikke noktreningseksempler eller en overkomplisert struktur i nevrale nettverk.Omskolering skyldes at valget av treningssetteter tilfeldig. Fra de første trinnene i læringen avtar feilen. Påpåfølgende trinn for å redusere feilparametere (objektiv funksjon).tilpasse seg egenskapene til treningssettet. Dette skjer imidlertid"justering" ikke til de generelle mønstrene i serien, men til funksjonene i dens del -trening undergruppe. Samtidig avtar nøyaktigheten av prognosen.Et av alternativene for å bekjempe nettverksovertrening er å dele treningsprøven i tosett (trening og testing).Det nevrale nettverket trenes på treningssettet. Den konstruerte modellen kontrolleres på testsettet. Disse settene må ikke krysse hverandre.Med hvert trinn endres modellparametrene, men den konstante nedgangenVerdien av objektivfunksjonen oppstår nøyaktig på treningssettet. Når vi deler settet i to, kan vi observere en endring i prognosefeilen på testsettet parallelt med observasjoner på treningssettet. noenantall prognosefeiltrinn reduseres på begge settene. Imidlertid påVed et bestemt trinn begynner feilen på testsettet å øke, mens feilen på treningssettet fortsetter å avta. Dette øyeblikket regnes som begynnelsen på omskolering

DataMining-verktøy

Både verdenskjente ledere og nye utviklende selskaper er involvert i utviklingen av DataMining-sektoren i det globale programvaremarkedet. DataMining-verktøy kan presenteres enten som en frittstående applikasjon eller som tillegg til hovedproduktet.Det siste alternativet implementeres av mange markedsledere for programvare.Dermed har det allerede blitt en tradisjon at utviklere av universelle statistiske pakker, i tillegg til tradisjonelle metoder for statistisk analyse, inkluderer i pakkenet spesifikt sett med DataMining-metoder. Dette er pakker som SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner). Noen OLAP-løsningsleverandører tilbyr også et sett med DataMining-metoder, for eksempel Cognos-produktfamilien. Det er leverandører som inkluderer DataMining-løsninger i DBMS-funksjonaliteten: disse er Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMIntelligentMinerforData).

Bibliografi

  1. Abdikeev N.M. Danko T.P. Ildemenov S.V. Kiselev A.D., "Reengineering av forretningsprosesser. MBA-kurs", M.: Eksmo Forlag, 2005. - 592 s. - (MBA)
  1. Abdikeev N.M., Kiselev A.D. "Kunnskapsledelse i et selskap og virksomhetsrekonstruksjon" - M.: Infra-M, 2011. - 382 s. – ISBN 978-5-16-004300-5
  1. Barseghyan A.A., Kupriyanov M.S., Stepanenko V.V., Kholod I.I. "Methods and models of data analysis: OLAP and Data Mining", St. Petersburg: BHV-Petersburg, 2004, 336 s., ISBN 5-94157-522-X
  1. hertug I., Samoilenko EN., "Datautvinning.Opplæringskurs" St. Petersburg: Peter, 2001, 386 s.
  1. Chubukova I.A., Data Mining-kurs, http://www.intuit.ru/department/database/datamining/
  1. IanH. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Data Mining: Practical Machine Learning Tools and Techniques (tredje utgave), ISBN 978-0-12-374856-0
  1. Petrushin V.A. , Khan L. , Multimedia Data Mining og Knowledge Discovery

Utdannings- og vitenskapsdepartementet i Den russiske føderasjonen

Federal State Budgetary Educational Institute of Higher Professional Education

"NATIONAL FORSKNING TOMSK POLYTECHNIC UNIVERSITY"

Institutt for kybernetikk

Retning Informatikk og informatikk

Institutt for VT

Test

i disiplinen informatikk og datateknikk

Emne: Datautvinningsmetoder

Introduksjon

Datautvinning. Grunnleggende begreper og definisjoner

1 Trinn i data mining-prosessen

2 Komponenter av intelligente analysesystemer

3 Data mining metoder

Datautvinningsmetoder

1 Utledning av foreningsregler

2 Nevrale nettverksalgoritmer

3 Nærmeste nabo og k-nærmeste naboer metoder

4 Beslutningstrær

5 Klyngealgoritmer

6 genetiske algoritmer

Bruksområder

Produsenter av Data Mining-verktøy

Kritikk av metoder

Konklusjon

Bibliografi

Introduksjon

Resultatet av utvikling informasjonsteknologier er den kolossale mengden data akkumulert i i elektronisk format, vokser i raskt tempo. Samtidig har data som regel en heterogen struktur (tekster, bilder, lyd, video, hypertekstdokumenter, relasjonsdatabaser). Akkumulert for langsiktig data kan inneholde mønstre, trender og relasjoner, som er verdifull informasjon for planlegging, prognoser, beslutningstaking og prosesskontroll. Imidlertid er mennesker fysisk ute av stand til å effektivt analysere slike mengder heterogene data. Metoder for tradisjonell matematisk statistikk har lenge hevdet å være hovedverktøyet for dataanalyse. De tillater imidlertid ikke syntese av nye hypoteser, men kan kun brukes til å bekrefte forhåndsformulerte hypoteser og «grov» utforskende analyse, som danner grunnlaget for online analytisk prosessering (OLAP). Ofte er det formuleringen av en hypotese som viser seg å være den vanskeligste oppgaven når man gjennomfører analyse for påfølgende beslutningstaking, siden ikke alle mønstrene i dataene er åpenbare ved første øyekast. Derfor regnes data mining-teknologier som et av de viktigste og mest lovende temaene for forskning og anvendelse i informasjonsteknologiindustrien. Data mining refererer i dette tilfellet til prosessen med å identifisere ny, korrekt og potensielt nyttig kunnskap basert på store datamengder. Dermed beskrev MIT Technology Review Data Mining som en av de ti nye teknologiene som vil forandre verden.

1. Datautvinning. Grunnleggende begreper og definisjoner

Data Mining er prosessen med å oppdage i «rå» data som tidligere er ukjent, ikke-triviell, praktisk nyttig og tolkbar kunnskap som er nødvendig for beslutningstaking på ulike områder av menneskelig aktivitet.

Essensen og formålet med Data Mining-teknologi kan formuleres som følger: det er en teknologi som er designet for å søke i store datamengder etter ikke-åpenbare, objektive og praktiske mønstre.

Ikke-opplagte mønstre er mønstre som ikke kan oppdages ved standardmetoder for informasjonsbehandling eller ved ekspertanalyse.

Objektive mønstre bør forstås som mønstre som fullt ut samsvarer med virkeligheten, i motsetning til ekspertuttalelser, som alltid er subjektive.

Dette dataanalysekonseptet forutsetter at:

§ data kan være unøyaktige, ufullstendige (inneholde utelatelser), motstridende, heterogene, indirekte, og samtidig ha gigantiske volumer; derfor krever forståelse av data i spesifikke applikasjoner betydelig intellektuell innsats;

§ dataanalysealgoritmer i seg selv kan ha "elementer av intelligens", spesielt evnen til å lære av presedenser, det vil si å trekke generelle konklusjoner basert på spesielle observasjoner; utviklingen av slike algoritmer krever også betydelig intellektuell innsats;

§ prosessene med å behandle rådata til informasjon, og informasjon til kunnskap, kan ikke gjøres manuelt og krever automatisering.

Data Mining-teknologi er basert på konseptet med maler som gjenspeiler fragmenter av flerdimensjonale relasjoner i data. Disse mønstrene representerer mønstre som er iboende i delprøver av data som kan uttrykkes kompakt i en menneskelig lesbar form.

Søket etter mønstre utføres ved hjelp av metoder som ikke er begrenset av a priori antakelser om strukturen til prøven og typen fordelinger av verdiene til de analyserte indikatorene.

Et viktig trekk ved Data Mining er den ikke-standardiserte og ikke-åpenbare naturen til mønstrene som søkes etter. Med andre ord, Data Mining-verktøy skiller seg fra statistiske databehandlingsverktøy og OLAP-verktøy ved at i stedet for å sjekke forhåndsantatte gjensidige avhengigheter av brukere, er de i stand til å finne slike gjensidige avhengigheter uavhengig basert på tilgjengelige data og bygge hypoteser om deres natur. Det er fem standardtyper av mønstre identifisert av Data Mining-metoder:

· assosiasjon - stor sannsynlighet for at hendelser er forbundet med hverandre. Et eksempel på en assosiasjon er varer i en butikk som ofte kjøpes samlet;

· sekvens - en høy sannsynlighet for en kjede av hendelser knyttet til tid. Et eksempel på en sekvens er en situasjon der et annet innen en viss periode etter kjøp av ett produkt vil bli kjøpt med høy grad av sannsynlighet;

· klassifisering - det er tegn som karakteriserer gruppen som denne eller den hendelsen eller objektet tilhører;

· clustering er et mønster som ligner på klassifisering og skiller seg fra det ved at gruppene i seg selv ikke er spesifisert - de identifiseres automatisk under databehandling;

· temporale mønstre - tilstedeværelsen av mønstre i dynamikken i oppførselen til visse data. Et typisk eksempel på et tidsmønster er sesongmessige svingninger i etterspørselen etter visse varer eller tjenester.

1.1 Trinn i data mining-prosessen

Tradisjonelt skilles følgende stadier ut i prosessen med datautvinning:

1. Studie av fagområdet, som et resultat av at hovedmålene for analysen formuleres.

2. Datainnsamling.

Dataforbehandling:

en. Datarensing - eliminerer inkonsekvenser og tilfeldig "støy" fra kildedataene

b. Dataintegrasjon – kombinerer data fra flere mulige kilder til ett depot. Datakonvertering. På dette stadiet blir dataene konvertert til et skjema som er egnet for analyse. Dataaggregering, attributtsampling, datakomprimering og dimensjonalitetsreduksjon brukes ofte.

4. Dataanalyse. Som en del av dette stadiet brukes gruvealgoritmer for å trekke ut mønstre.

5. Tolkning av de funnet mønstrene. Dette stadiet kan inkludere å visualisere de utpakkede mønstrene, identifisere virkelig nyttige mønstre basert på en eller annen verktøyfunksjon.

Bruke ny kunnskap.

1.2 Komponenter i intelligente analysesystemer

Data mining-systemer har vanligvis følgende hovedkomponenter:

1. En database, et datavarehus eller et annet arkiv med informasjon. Dette kan være en eller flere databaser, datavarehus, regneark eller andre typer depoter som kan renses og integreres.

2. Database- eller datavarehusserver. Den angitte serveren er ansvarlig for å hente de essensielle dataene basert på brukerforespørselen.

Kunnskapsbase. Dette er domenekunnskap som veileder hvordan man søker og evaluerer nytten av de resulterende mønstrene.

Kunnskapstjeneste for gruvedrift. Det er en integrert del av data mining-systemet og inneholder et sett med funksjonelle moduler for oppgaver som karakterisering, assosiasjonssøk, klassifisering, klyngeanalyse og variansanalyse.

Modul for mønsterevaluering. Denne komponenten beregner mål av interesse eller nytte av mønstre.

Grafisk brukergrensesnitt. Denne modulen er ansvarlig for kommunikasjon mellom bruker og data mining-systemet, visualisering av mønstre i ulike former.

1.3 Data mining metoder

De fleste av analysemetodene som brukes i Data Mining-teknologi er velkjente matematiske algoritmer og metoder. Det som er nytt i applikasjonen deres er muligheten for å bruke dem til å løse visse spesifikke problemer, på grunn av de nye egenskapene til maskinvare og programvare. Det skal bemerkes at de fleste Data Mining-metoder ble utviklet innenfor rammen av teorien om kunstig intelligens. La oss se på de mest brukte metodene:

Utledning av foreningsregler.

2. Nevrale nettverksalgoritmer, ideen om hvilke er basert på en analogi med funksjonen til nervevev og ligger i det faktum at de første parametrene betraktes som signaler som transformeres i samsvar med de eksisterende forbindelsene mellom "neuroner", og responsen til hele nettverket betraktes som responsen fra analysen til de opprinnelige dataene.

Velge en nær analog av de originale dataene fra eksisterende historiske data. Også kalt "nærmeste nabo"-metoden.

Beslutningstrær er en hierarkisk struktur basert på et sett med spørsmål som krever et "Ja" eller "Nei" svar.

Klyngemodeller brukes til å gruppere lignende hendelser i grupper basert på lignende verdier av flere felt i et datasett.

I neste kapittel vil vi beskrive metodene ovenfor mer detaljert.

2. Datautvinningsmetoder

2.1 Utledning av foreningens regler

Foreningsregler er regler av formen «hvis... da...». Å søke etter slike regler i et datasett avslører skjulte forbindelser i tilsynelatende urelaterte data. Et av de hyppigst siterte eksemplene på å finne foreningsregler er problemet med å finne stabile forbindelser i en handlekurv. Dette problemet er å finne ut hvilke produkter kundene kjøper sammen, slik at markedsførere kan plassere disse produktene i butikken for å øke salget.

Tilknytningsregler er definert som utsagn av formen (X1,X2,...,Xn) -> Y, der det antydes at Y kan være tilstede i en transaksjon forutsatt at X1,X2,...,Xn er tilstede i samme transaksjon. Det skal bemerkes at ordet "kan" antyder at regelen ikke er en identitet, men er tilfredsstilt bare med en viss sannsynlighet. I tillegg kan Y være et sett med elementer, i stedet for bare ett element. Sannsynligheten for å finne Y i en transaksjon som inneholder elementene X1,X2,...,Xn kalles konfidens. Prosentandelen av transaksjoner som inneholder en regel ut av det totale antallet transaksjoner kalles støtte. Nivået av tillit som må overstige konfidensen til en regel kalles interessanthet.

Det finnes ulike typer foreningsregler. I sin enkleste form kommuniserer assosiasjonsreglene bare tilstedeværelse eller fravær av en assosiasjon. Slike regler kalles Boolean Association Rules. Et eksempel på en slik regel: "kunder som kjøper yoghurt kjøper også fettfattig smør."

Regler som grupperer flere assosiasjonsregler sammen kalles Multilevel eller Generalized Association Rules. Når slike regler konstrueres, grupperes elementer vanligvis i henhold til et hierarki, og søket utføres på høyeste konseptuelle nivå. For eksempel, "kunder som kjøper melk kjøper også brød." I dette eksemplet inneholder melk og brød et hierarki av forskjellige typer og merker, men søk på bunnnivået vil ikke avdekke interessante regler.

En mer kompleks type regel er Quantitative Association Rules. Denne typen regel søkes ved hjelp av kvantitative (f.eks. pris) eller kategoriske (f.eks. kjønn) attributter, og er definert som ( , ,…,} -> . For eksempel, "kjøpere med alder mellom 30 og 35 år med en inntekt på over 75 000 per år kjøper biler som koster mer enn 20 000."

Ovennevnte typer regler tar ikke opp det faktum at transaksjoner i sin natur er tidsavhengige. For eksempel vil søk før et produkt er oppført for salg eller etter at det har forsvunnet fra markedet påvirke støtteterskelen negativt. Med dette i betraktning ble begrepet attributtlevetid introdusert i algoritmer for å søke etter midlertidige assosiasjonsregler (Temporal Association Rules).

Problemet med å søke etter assosiasjonsregler kan generelt dekomponeres i to deler: søk etter ofte forekommende sett med elementer, og generering av regler basert på de funnet ofte forekommende settene. Tidligere studier har for det meste fulgt disse linjene og utvidet dem i ulike retninger.

Siden bruken av Apriori-algoritmen er denne algoritmen den mest brukte i det første trinnet. Mange forbedringer, for eksempel i hastighet og skalerbarhet, er rettet mot å forbedre Apriori-algoritmen, på å korrigere den feilaktige egenskapen til å generere for mange kandidater for de mest hyppig forekommende sett med elementer. Apriori genererer sett med elementer kun ved å bruke store sett, funnet i forrige trinn, uten å undersøke transaksjonene på nytt. Den modifiserte AprioriTid-algoritmen forbedrer Apriori ved kun å bruke databasen ved første pass. Ved beregning i påfølgende trinn brukes bare dataene som ble opprettet i den første passeringen og som er mye mindre enn den opprinnelige databasen. Dette fører til en enorm økning i produktiviteten. En ytterligere forbedret versjon av algoritmen, kalt AprioriHybrid, kan oppnås ved å bruke Apriori på de første passeringene, og deretter bytte til AprioriTid på senere passeringer, når de kth kandidatsettene allerede kan være fullstendig plassert i datamaskinens minne.

Ytterligere innsats for å forbedre Apriori-algoritmen er relatert til parallellisering av algoritmen (tellefordeling, datadistribusjon, kandidatdistribusjon, etc.), dens skalering (intelligent datadistribusjon, hybriddistribusjon), introduksjon av nye datastrukturer, for eksempel trær av hyppig forekommende elementer (FP-vekst ).

Det andre trinnet er hovedsakelig preget av autentisitet og interessanthet. De nye modifikasjonene legger til støtte for dimensjonalitet, kvalitet og timing beskrevet ovenfor til de tradisjonelle boolske regelreglene. En evolusjonsalgoritme brukes ofte for å finne regler.

2.2 Nevrale nettverksalgoritmer

Kunstige nevrale nettverk dukket opp som et resultat av bruken av matematiske apparater til studiet av funksjonen til det menneskelige nervesystemet med sikte på reproduksjon. Nemlig: nervesystemets evne til å lære og korrigere feil, noe som skal tillate oss å simulere, om enn ganske grovt, arbeidet til den menneskelige hjerne. Den viktigste strukturelle og funksjonelle delen av det nevrale nettverket er det formelle nevronet, vist i fig. 1, hvor x0, x1,..., xn er komponentene i inngangssignalvektoren, w0,w1,...,wn er verdiene av vektene til nevronets inngangssignaler, og y er nevronens utgang signal.

Ris. 1. Formelt nevron: synapser (1), adder (2), omformer (3).

Et formelt nevron består av 3 typer elementer: synapser, adder og omformer. En synapse karakteriserer styrken til forbindelsen mellom to nevroner.

Adderen legger til inngangssignalene, tidligere multiplisert med de tilsvarende vektene. Konverteren implementerer funksjonen til ett argument - utgangen fra adderen. Denne funksjonen kalles aktiveringsfunksjonen eller overføringsfunksjonen til nevronet.

De formelle nevronene beskrevet ovenfor kan kombineres på en slik måte at utgangssignalene til noen nevroner er input til andre. Det resulterende settet med sammenkoblede nevroner kalles kunstige nevrale nettverk. nevrale nettverk, ANN) eller kort sagt nevrale nettverk.

Det er følgende tre generelle typer nevroner, avhengig av deres posisjon i det nevrale nettverket:

Inngangsnevroner (inngangsnoder) som inngangssignaler tilføres. Slike nevroner har vanligvis én inngang med vektenhet, det er ingen skjevhet, og nevronutgangsverdien er lik inngangssignalet;

Utgangsnoder, hvis utgangsverdier representerer de resulterende utgangssignalene til det nevrale nettverket;

Skjulte nevroner (skjulte noder) som ikke har direkte forbindelser med inngangssignaler, mens verdiene til utgangssignalene til skjulte nevroner ikke er utgangssignalene til ANN.

Basert på strukturen til interneuronforbindelser, skilles to klasser av ANN-er:

Feedforward ANN-er, der signalet bare forplanter seg fra inngangsnevronene til utgangsneuronene.

Tilbakevendende ANN - ANN med tilbakemelding. I slike ANN-er kan signaler overføres mellom alle nevroner, uavhengig av deres plassering i ANN.

Det er to generelle tilnærminger til å trene en ANN:

Trening med lærer.

Læring uten lærer.

Veiledet læring innebærer bruk av et forhåndsgenerert sett med treningseksempler. Hvert eksempel inneholder en vektor av inngangssignaler og en tilsvarende vektor av referanseutgangssignaler, som avhenger av oppgaven. Dette settet kalt treningssettet eller treningssettet. Trening av et nevralt nettverk er rettet mot å endre vektene til ANN-forbindelsene på en slik måte at verdiene til ANN-utgangssignalene avviker så lite som mulig fra de nødvendige verdiene til utgangssignalene for en gitt vektor av inngangssignaler .

Ved uovervåket læring justeres forbindelsesvektene enten som et resultat av konkurranse mellom nevroner, eller tar hensyn til korrelasjonen av utgangssignalene til nevroner som det er en forbindelse mellom. Ved uovervåket læring brukes ikke treningssett.

Nevrale nettverk brukes til å løse et bredt spekter av problemer, for eksempel planlegging av nyttelast for romferger og prognoser for valutakurser. Imidlertid brukes de ikke ofte i data mining-systemer på grunn av kompleksiteten til modellen (kunnskap registrert som vekten av flere hundre interne forbindelser er fullstendig utenfor menneskelig analyse og tolkning) og den lange treningstiden på et stort treningssett. På den annen side har nevrale nettverk slike fordeler for bruk i dataanalyseoppgaver som motstand mot støyende data og høy nøyaktighet.

2.3 Nærmeste nabo og k-nærmeste naboer metoder

Grunnlaget for nærmeste naboalgoritme (nærmeste naboalgoritme) og k-nærmeste naboalgoritme (KNN) er likheten mellom objekter. Algoritmen for nærmeste nabo velger, blant alle kjente objekter, objektet som er så nært som mulig (ved å bruke avstandsmetrikken mellom objekter, for eksempel euklidisk) til et nytt tidligere ukjent objekt. Hovedproblemet med metoden for nærmeste nabo er dens følsomhet for uteliggere i treningsdataene.

Det beskrevne problemet kan unngås med KNN-algoritmen, som identifiserer blant alle observasjoner de k-nærmeste naboene som ligner på det nye objektet. Basert på klassene til nærmeste naboer tas det vedtak om det nye objektet. En viktig oppgave for denne algoritmen er å velge koeffisienten k - antall poster som vil bli ansett som like. En modifikasjon av algoritmen der bidraget til en nabo er proporsjonalt med avstanden til det nye objektet (k-vektet nærmeste nabo-metode) gjør at man kan oppnå større klassifiseringsnøyaktighet. Metoden k nærmeste naboer lar deg også evaluere nøyaktigheten til prognosen. For eksempel, hvis alle k nærmeste naboer har samme klasse, så er sannsynligheten for at objektet som testes vil ha samme klasse svært høy.

Blant funksjonene til algoritmen er det verdt å merke seg dens motstand mot unormale uteliggere, siden sannsynligheten for at en slik post blir inkludert i antall k-nærmeste naboer er lav. Hvis dette skjedde, vil også innvirkningen på stemmegivningen (spesielt vektet) (for k>2) mest sannsynlig være ubetydelig, og derfor vil også innvirkningen på klassifiseringsresultatet være liten. Fordelene er også enkel implementering, enkel tolkning av resultatet av algoritmen, muligheten til å endre algoritmen ved å bruke de mest passende kombinasjonsfunksjonene og beregningene, som lar deg justere algoritmen til en spesifikk oppgave. KNN-algoritmen har også en rekke ulemper. For det første må datasettet som brukes for algoritmen være representativt. For det andre kan modellen ikke skilles fra dataene: alle eksempler må brukes for å klassifisere et nytt eksempel. Denne funksjonen begrenser i stor grad bruken av algoritmen.

2.4 Beslutningstrær

Begrepet "beslutningstrær" refererer til en familie av algoritmer basert på representasjon av klassifiseringsregler i en hierarkisk, sekvensiell struktur. Dette er den mest populære klassen av algoritmer for å løse problemer med datautvinning.

En familie av algoritmer for å konstruere beslutningstrær gjør det mulig å forutsi verdien av en parameter for en gitt sak basert på en stor mengde data om andre lignende saker. Vanligvis brukes algoritmer fra denne familien til å løse problemer som gjør det mulig å dele alle de første dataene i flere diskrete grupper.

Når du bruker beslupå et sett med innledende data, vises resultatet som et tre. Slike algoritmer gjør det mulig å implementere flere nivåer av slik inndeling, og dele de resulterende gruppene (tregrener) i mindre basert på andre egenskaper. Divisjonen fortsetter til verdiene som er ment å bli forutsagt blir de samme (eller, i tilfelle av en kontinuerlig verdi av den forutsagte parameteren, lukkes) for alle resulterende grupper (blader av treet). Det er disse verdiene som brukes til å lage spådommer basert på denne modellen.

Driften av algoritmer for å konstruere beslutningstrær er basert på bruk av regresjons- og korrelasjonsanalysemetoder. En av de mest populære algoritmene i denne familien er CART (Classification and Regression Trees), basert på å dele dataene i en tregren i to undergrener; Dessuten avhenger den videre inndelingen av en bestemt gren av hvor mye innledende data denne grenen beskriver. Noen andre lignende algoritmer lar deg dele en gren i flere underordnede grener. I dette tilfellet gjøres delingen på grunnlag av den høyeste korrelasjonskoeffisienten for dataene beskrevet av grenen mellom parameteren som delingen skjer i henhold til og parameteren som deretter må forutsies.

Populariteten til tilnærmingen er forbundet med klarhet og klarhet. Men beslutningstrær er fundamentalt ute av stand til å finne de "beste" (mest komplette og nøyaktige) reglene i dataene. De implementerer det naive prinsippet om sekvensiell visning av funksjoner og finner faktisk deler av virkelige mønstre, og skaper bare en illusjon av en logisk konklusjon.

2.5 Klyngealgoritmer

Clustering er oppgaven med å dele et sett med objekter i grupper kalt klynger. Hovedforskjellen mellom klynging og klassifisering er at listen over grupper ikke er klart definert og bestemmes under driften av algoritmen.

Anvendelsen av klyngeanalyse generelt kommer ned til følgende trinn:

· utvalg av et utvalg av objekter for gruppering;

· definere et sett med variabler som objekter i utvalget vil bli vurdert etter. Om nødvendig, normaliser verdiene til variabler;

· beregning av likhetsmåleverdier mellom objekter;

· bruk av klyngeanalysemetoden for å lage grupper av lignende objekter (klynger);

· presentasjon av analyseresultater.

Etter å ha mottatt og analysert resultatene, er det mulig å justere den valgte metrikken og klyngemetoden til det optimale resultatet er oppnådd.

Klyngealgoritmer inkluderer hierarkiske og flate grupper. Hierarkiske algoritmer (også kalt taksonomialgoritmer) bygger ikke bare én partisjon av prøven i usammenhengende klynger, men et system med nestede partisjoner. Dermed er utgangen av algoritmen et tre av klynger, hvis rot er hele prøven, og bladene er de minste klynger. Flate algoritmer konstruerer én partisjon av objekter i klynger som ikke krysser hverandre.

En annen klassifisering av klyngealgoritmer er i klare og uklare algoritmer. Tydelige (eller ikke-overlappende) algoritmer tildeler hvert prøveobjekt et klyngenummer, det vil si at hvert objekt bare tilhører én klynge. Fuzzy (eller kryssende) algoritmer tildeler hvert objekt et sett med reelle verdier som viser graden av objektets forhold til klyngene. Dermed hører hvert objekt til hver klynge med en viss sannsynlighet.

Blant hierarkiske klyngealgoritmer er det to hovedtyper: bottom-up og top-down algoritmer. Top-down algoritmer fungerer etter et top-down prinsipp: først plasseres alle objekter i en klynge, som deretter deles inn i mindre og mindre klynger. Mer vanlig er bottom-up-algoritmer, som starter med å plassere hvert objekt i en separat klynge og deretter kombinere klyngene til større og større til alle objektene i prøven er inneholdt i en enkelt klynge. Dermed er et system av nestede partisjoner konstruert. Resultatene av slike algoritmer presenteres vanligvis i form av et tre.

En ulempe med hierarkiske algoritmer er systemet med komplette partisjoner, som kan være unødvendig i sammenheng med at problemet løses.

La oss nå vurdere flate algoritmer. Den enkleste blant denne klassen er kvadratiske feilalgoritmer. Klyngeproblemet for disse algoritmene kan betraktes som å konstruere en optimal partisjon av objekter i grupper. I dette tilfellet kan optimalitet defineres som kravet om å minimere rotmiddelkvadratfeilen ved partisjonering:

,

Hvor c j - "massesenter" av klyngen j(punkt med gjennomsnittskarakteristikker for en gitt klynge).

Den vanligste algoritmen i denne kategorien er k-middelmetoden. Denne algoritmen bygger et gitt antall klynger plassert så langt fra hverandre som mulig. Algoritmenes arbeid er delt inn i flere stadier:

Velg tilfeldig k punkter som er de første "massesentrene" til klyngene.

2. Tilordne hvert objekt til klyngen med nærmeste "massesenter".

Hvis algoritmestoppkriteriet ikke er oppfylt, gå tilbake til trinn 2.

Minimumsendringen i den gjennomsnittlige kvadratfeilen velges vanligvis som kriteriet for å stoppe algoritmen. Det er også mulig å stoppe algoritmen hvis det ved trinn 2 ikke var noen objekter som beveget seg fra klynge til klynge. Ulempene med denne algoritmen inkluderer behovet for å spesifisere antall klynger for partisjonering.

Den mest populære fuzzy clustering-algoritmen er c-means-algoritmen. Det er en modifikasjon av k-middel-metoden. Algoritmetrinn:

1. Velg den første fuzzy-partisjonen n gjenstander på k klynger ved å velge en medlemsmatrise U størrelse n x k.

2. Bruk matrise U, finn verdien av kriteriet for uklar feil:

,

Hvor c k - "massesenter" av den uklare klyngen k:

3. Omgrupper objekter for å redusere denne uklare feilkriterieverdien.

4. Gå tilbake til trinn 2 til matrisen endres U vil ikke bli ubetydelig.

Denne algoritmen er kanskje ikke egnet hvis antall klynger er ukjent på forhånd, eller hvis det er nødvendig å entydig tildele hvert objekt til en klynge.

Den neste gruppen av algoritmer er algoritmer basert på grafteori. Essensen av slike algoritmer er at et utvalg av objekter er representert i form av en graf G=(V, E), hvis hjørner tilsvarer objekter, og hvis kanter har en vekt lik "avstanden" mellom objekter. Fordelene med grafklyngealgoritmer er klarhet, relativ enkel implementering og muligheten til å introdusere ulike forbedringer basert på geometriske betraktninger. Hovedalgoritmene er algoritmen for å identifisere tilkoblede komponenter, algoritmen for å konstruere et minimumsspenningstre og lag-for-lag-klyngealgoritmen.

For å velge en parameter R Vanligvis konstrueres et histogram over fordelinger av parvise avstander. I oppgaver med en veldefinert klyngestruktur av data vil histogrammet ha to topper - den ene tilsvarer intra-klyngeavstander, den andre - interklyngeavstander. Parameter R er valgt fra minimumssonen mellom disse toppene. Samtidig er det ganske vanskelig å kontrollere antall klynger ved hjelp av en avstandsterskel.

Algoritmen for minimumspenningstreet konstruerer først et minimumspenningstre på en graf og fjerner deretter sekvensielt kantene med størst vekt. Lag-for-lag klyngealgoritmen er basert på å identifisere tilkoblede grafkomponenter på et visst nivå av avstander mellom objekter (vertekser). Avstandsnivået settes av avstandsterskelen c. Hvis for eksempel avstanden mellom objekter er , så .

Lag-for-lag klyngealgoritmen genererer en sekvens av undergrafer av grafen G, som gjenspeiler hierarkiske forhold mellom klynger:

,

Hvor G t = (V, E t ) - nivågraf Med t, ,

Med t - t-te avstandsterskel, m - antall hierarkinivåer,
G 0 = (V, o), o er det tomme settet med grafkanter oppnådd av t 0 = 1,
G m = G, det vil si en graf av objekter uten begrensninger på avstand (lengden på kantene på grafen), siden t m = 1.

Ved å endre avstandsterskler ( Med 0 , …, Med m), hvor 0 = Med 0 < Med 1 < …< Med m = 1, er det mulig å kontrollere dybden av hierarkiet til de resulterende klyngene. Dermed er lag-for-lag klyngealgoritmen i stand til å lage både en flat og hierarkisk partisjon av dataene.

Clustering lar deg oppnå følgende mål:

· forbedrer forståelsen av data ved å identifisere strukturelle grupper. Å dele utvalget inn i grupper av lignende objekter gjør det mulig å forenkle ytterligere databehandling og beslutningstaking ved å bruke en annen analysemetode for hver klynge;

· lar deg lagre data kompakt. For å gjøre dette, i stedet for å lagre hele prøven, kan du beholde en typisk observasjon fra hver klynge;

· påvisning av nye atypiske gjenstander som ikke falt i noen klynge.

Vanligvis brukes clustering som en hjelpemetode i dataanalyse.

2.6 Genetiske algoritmer

Genetiske algoritmer er blant de universelle optimaliseringsmetodene som gjør det mulig å løse problemer av ulike typer (kombinatoriske, generelle problemer med og uten begrensninger) og varierende grad av kompleksitet. Samtidig er genetiske algoritmer preget av muligheten for både enkeltkriterier og multikriteriesøk i et stort rom, hvis landskap ikke er jevnt.

Denne gruppen av metoder bruker en iterativ utviklingsprosess av en sekvens av generasjoner av modeller, inkludert operasjonene for seleksjon, mutasjon og kryssing. I begynnelsen av algoritmen dannes populasjonen tilfeldig. For å vurdere kvaliteten på de kodede løsningene brukes kondisjonsfunksjonen, som er nødvendig for å beregne kondisjonen til hver enkelt. Basert på resultatene av vurderingen av individene, velges de som passer best for kryssing. Som et resultat av å krysse utvalgte individer gjennom anvendelsen av den genetiske kryssoperatoren, skapes avkom, hvis genetiske informasjon dannes som et resultat av utveksling av kromosominformasjon mellom foreldreindividene. De skapte etterkommerne danner en ny populasjon, og noen av etterkommerne muterer, noe som kommer til uttrykk i en tilfeldig endring i genotypene deres. Stadiet, inkludert sekvensen "Befolkningsvurdering" - "Utvalg" - "Kryssing" - "Mutasjon", kalles generering. Utviklingen av en befolkning består av en sekvens av slike generasjoner.

Følgende algoritmer for å velge individer for kryssing skilles ut:

· Panmixia. Begge individene som skal danne et foreldrepar er tilfeldig valgt fra hele populasjonen. Enhver person kan bli medlem av flere par. Denne tilnærmingen er universell, men effektiviteten til algoritmen avtar med økende befolkningsstørrelse.

· Utvalg. Foreldre kan være individer med minst gjennomsnittlig kondisjon. Denne tilnærmingen sikrer raskere konvergens av algoritmen.

· Innavl. Metoden er basert på dannelsen av et par basert på nært slektskap. Her forstås slektskap som avstanden mellom medlemmer av en populasjon, både i betydningen den geometriske avstanden til individer i parameterrommet og Heming-avstanden mellom genotyper. Derfor skilles det mellom genotypisk og fenotypisk innavl. Det første medlemmet av paret som skal krysses velges tilfeldig, og det andre er mer sannsynlig det individet som er nærmest det. Innavl kan karakteriseres av egenskapen til å konsentrere søk i lokale noder, noe som faktisk fører til inndeling av befolkningen i separate lokale grupper rundt områder av landskapet som er mistenkelige for ekstremer.

· Utavl. Dannelse av et par basert på fjernt slektskap, for de fjerneste individene. Utavl har som mål å forhindre at algoritmen konvergerer med allerede funnet løsninger, og tvinger algoritmen til å se på nye, uutforskede områder.

Algoritmer for å danne en ny populasjon:

· Utvalg med forskyvning. Av alle individer med samme genotyper, foretrekkes de som har høyere kondisjon. Dermed oppnås to mål: de beste løsningene som er funnet, som har forskjellige kromosomsett, går ikke tapt, og tilstrekkelig genetisk mangfold opprettholdes hele tiden i befolkningen. Forskyvning danner en ny populasjon av fjerntliggende individer, i stedet for at individer grupperer seg rundt den nåværende løsningen som er funnet. Denne metoden brukes for multiekstremale problemer.

· Eliteutvalg. Eliteseleksjonsmetoder sikrer at seleksjon vil sikre at de beste medlemmene av befolkningen overlever. Samtidig går noen av de beste individene videre til neste generasjon uten endringer. Den raske konvergensen som eliteutvelgelsen gir, kan kompenseres med en passende metode for å velge foreldrepar. I dette tilfellet brukes ofte utavl. Det er denne kombinasjonen av "utavl - eliteutvalg" som er en av de mest effektive.

· Turneringsvalg. Turneringsvalg implementerer n turneringer for å velge n individer. Hver turnering er bygget på å velge k elementer fra befolkningen og velge det beste individet blant dem. Det vanligste er turneringsvalg med k = 2.

En av de mest populære anvendelsene av genetiske algoritmer innen Data Mining er søket etter den mest optimale modellen (søk etter en algoritme som tilsvarer spesifikasjonene til et bestemt felt). Genetiske algoritmer brukes først og fremst for å optimalisere topologien til nevrale nettverk og vekter. Imidlertid kan de også brukes som et uavhengig verktøy.

3. Søknader

Data Mining-teknologi har et virkelig bredt spekter av applikasjoner, og er faktisk et sett med universelle verktøy for å analysere data av enhver type.

Markedsføring

Et av de aller første områdene der datautvinningsteknologier ble brukt var markedsføringsfeltet. Oppgaven som utviklingen av Data Mining-metoder startet med kalles handlekurvanalyse.

Denne oppgaven er å identifisere produkter som kjøpere har en tendens til å kjøpe sammen. Kunnskap om handlekurven er nødvendig for å gjennomføre reklamekampanjer, danne personlige anbefalinger til kunder, utvikle en strategi for å lage varebeholdninger og måter å legge dem ut i salgsområder.

Også innen markedsføring løses oppgaver som å bestemme målgruppen til et produkt for mer vellykket markedsføring; Tidsmessig mønsterforskning som hjelper bedrifter med å ta lagerbeslutninger; opprettelse av prediktive modeller, som lar bedrifter gjenkjenne behovene til ulike kategorier av kunder med bestemt oppførsel; forutsi kundelojalitet, som lar deg identifisere på forhånd tidspunktet for kundens avgang når du analyserer hans oppførsel og muligens forhindre tap av en verdifull kunde.

Industri

Et av de viktige områdene på dette området er overvåking og kvalitetskontroll, hvor det ved hjelp av analyseverktøy er mulig å forutsi utstyrssvikt, forekomst av funksjonsfeil og planlegge reparasjonsarbeid. Å forutsi populariteten til visse funksjoner og vite hvilke funksjoner som vanligvis bestilles sammen, hjelper til med å optimalisere produksjonen og fokusere den på forbrukernes reelle behov.

Medisin

I medisin brukes dataanalyse også ganske vellykket. Eksempler på oppgaver er å analysere undersøkelsesresultater, diagnostikk, sammenligne effektiviteten av behandlingsmetoder og medisiner, analysere sykdommer og deres spredning og identifisere bivirkninger. Data Mining-teknologier som assosiasjonsregler og sekvensielle mønstre har blitt brukt med hell for å identifisere sammenhenger mellom medisiner og bivirkninger.

Molekylær genetikk og genteknologi

Den kanskje mest akutte og samtidig klare oppgaven med å oppdage mønstre i eksperimentelle data er inne molekylær genetikk og genteknologi. Her er det formulert som en definisjon av markører, som forstås som genetiske koder som kontrollerer visse fenotypiske egenskaper ved en levende organisme. Slike koder kan inneholde hundrevis, tusenvis eller flere relaterte elementer. Resultatet av analytisk dataanalyse er også forholdet oppdaget av genetiske forskere mellom endringer i menneskets DNA-sekvens og risikoen for å utvikle ulike sykdommer.

Anvendt kjemi

Data Mining-metoder brukes også innen anvendt kjemi. Her oppstår ofte spørsmålet om å avklare egenskapene til den kjemiske strukturen til visse forbindelser som bestemmer deres egenskaper. Denne oppgaven er spesielt relevant når man analyserer komplekse kjemiske forbindelser, hvis beskrivelse inkluderer hundrevis og tusenvis av strukturelle elementer og deres forbindelser.

Bekjempelse av kriminalitet

Data Mining-verktøy har blitt brukt relativt nylig innen sikkerhet, men praktiske resultater er allerede oppnådd som bekrefter effektiviteten av data mining på dette området. Sveitsiske forskere har utviklet et system for å analysere protestaktivitet for å forutsi fremtidige hendelser og et system for sporing av nye cybertrusler og hackerhandlinger i verden. Det nyeste systemet lar deg forutsi cybertrusler og andre risikoer informasjonssikkerhet. Data Mining-metoder brukes også med hell for å oppdage kredittkortsvindel. Ved å analysere tidligere transaksjoner som senere viste seg å være uredelige, identifiserer banken noen mønstre for slik svindel.

Andre applikasjoner

· Risikoanalyse. For eksempel, ved å identifisere kombinasjoner av faktorer knyttet til betalte krav, kan forsikringsselskapene redusere sine ansvarstap. Det er et kjent tilfelle der et stort forsikringsselskap i USA oppdaget at beløpene som ble betalt på krav fra gifte personer var dobbelt så høye som beløpene som ble betalt på krav fra enslige. Selskapet reagerte på denne nye kunnskapen ved å revidere sin generelle policy om å tilby rabatter til familiekunder.

· Meteorologi. Værprediksjon ved bruk av nevrale nettverksmetoder, spesielt selvorganiserende Kohonen-kart brukes.

· Personalpolitikk. Analyseverktøy hjelper HR-tjenester med å velge de mest suksessrike kandidatene basert på dataanalyse av deres CV, og modellere egenskapene til ideelle ansatte for en bestemt stilling.

4. Produsenter av Data Mining-verktøy

Data Mining-verktøy er tradisjonelt dyre programvareprodukter. Derfor, inntil nylig, var hovedforbrukerne av denne teknologien banker, finans- og forsikringsselskaper, store handelsbedrifter, og hovedoppgavene som krever bruk av Data Mining ble ansett for å være vurdering av kreditt- og forsikringsrisiko og utvikling av markedsføringspolitikk. , tariffplaner og andre prinsipper for å jobbe med kunder. De siste årene har situasjonen gjennomgått visse endringer: relativt rimelige Data Mining-verktøy og til og med fritt distribuerte systemer har dukket opp på programvaremarkedet, noe som har gjort denne teknologien tilgjengelig for små og mellomstore bedrifter.

Blant betalte verktøy og dataanalysesystemer er lederne SAS Institute (SAS Enterprise Miner), SPSS (SPSS, Clementine) og StatSoft (STATISTICA Data Miner). Kjente løsninger er fra Angoss (Angoss KnowledgeSTUDIO), IBM (IBM SPSS Modeler), Microsoft (Microsoft Analysis Services) og (Oracle) Oracle Data Mining.

Valget av gratis programvare er også variert. Det finnes både universelle analyseverktøy, som JHepWork, KNIME, Orange, RapidMiner, og spesialiserte verktøy, for eksempel Carrot2 - et rammeverk for gruppering av tekstdata og søkeresultater, Chemicalize.org - en løsning innen anvendt kjemi, NLTK (Natural Language Toolkit) verktøy for behandling av naturlig språk.

5. Kritikk av metoder

Resultatene av Data Mining avhenger i stor grad av nivået av dataforberedelse, og ikke av de "fantastiske egenskapene" til en algoritme eller sett med algoritmer. Omtrent 75 % av arbeidet i Data Mining består av datainnsamling, som skjer før analyseverktøyene tas i bruk. Analfabet bruk av verktøy vil føre til sløsing med selskapets potensial, og noen ganger millioner av dollar.

Mening fra Herb Edelstein, en verdenskjent ekspert innen feltet Data Mining, Data Warehousing og CRM: «En fersk studie av Two Crows viste at Data Mining fortsatt er i sine tidlige utviklingsstadier. Mange organisasjoner er interessert i denne teknologien, men bare noen få implementerer slike prosjekter aktivt. Klarte å finne ut en til viktig poeng: Prosessen med å implementere Data Mining i praksis viser seg å være mer kompleks enn forventet Teams blir revet med av myten om at Data Mining-verktøy er enkle å bruke. Det antas at det er nok å kjøre et slikt verktøy på en terabyte-database, og nyttig informasjon vil umiddelbart vises. Faktisk krever et vellykket Data Mining-prosjekt en forståelse av aktiviteten, kunnskap om data og verktøy og prosessen med dataanalyse." Før du bruker Data Mining-teknologi, er det derfor nødvendig å nøye analysere begrensningene som pålegges av metodene og de kritiske problemene knyttet til den, samt nøkternt evaluere teknologiens evner. Kritiske problemer inkluderer følgende:

1. Teknologi kan ikke gi svar på spørsmål som ikke er stilt. Det kan ikke erstatte analytikeren, men gir ham bare et kraftig verktøy for å lette og forbedre arbeidet hans.

2. Kompleksiteten ved å utvikle og drive en Data Mining-applikasjon.

Fordi det denne teknologien er et tverrfaglig felt, for å utvikle en applikasjon som inkluderer Data Mining, er det nødvendig å involvere spesialister fra forskjellige felt, samt sikre deres høykvalitets interaksjon.

3. Brukerkvalifikasjoner.

Ulike Data Mining-verktøy har ulik grad av brukervennlighet av grensesnittet og krever visse brukerkvalifikasjoner. Derfor programvare må samsvare med brukerens opplæringsnivå. Bruken av Data Mining bør være uløselig knyttet til å forbedre brukerens kvalifikasjoner. Imidlertid er det for tiden få Data Mining-spesialister som er godt kjent med forretningsprosesser.

4. Å trekke ut nyttig informasjon er umulig uten en god forståelse av essensen av dataene.

Nøye valg av modellen og tolkning av avhengighetene eller mønstrene som oppdages er nødvendig. Arbeid med slike verktøy krever derfor et nært samarbeid mellom en domeneekspert og en spesialist på Data Mining-verktøy. Vedvarende modeller må integreres intelligent i forretningsprosesser for å tillate at modeller kan evalueres og oppdateres. Nylig er Data Mining-systemer levert som en del av datavarehusteknologi.

5. Vanskeligheter med å utarbeide data.

Vellykket analyse krever dataforbehandling av høy kvalitet. I følge analytikere og databasebrukere kan forbehandlingsprosessen ta opptil 80 % av hele Data Mining-prosessen.

For at teknologien skal fungere for seg selv, vil det derfor kreve mye innsats og tid, som går med til foreløpig dataanalyse, modellvalg og justering av den.

6. En stor prosentandel av falske, upålitelige eller ubrukelige resultater.

Ved å bruke Data Mining-teknologier kan du finne virkelig verdifull informasjon, som kan gi en betydelig fordel i videre planlegging, ledelse og beslutningstaking. Imidlertid inneholder resultatene oppnådd ved bruk av Data Mining-metoder ganske ofte falske og meningsløse konklusjoner. Mange eksperter hevder at Data Mining-verktøy kan produsere et stort antall statistisk upålitelige resultater. For å redusere prosentandelen av slike resultater, er det nødvendig å kontrollere tilstrekkeligheten til de oppnådde modellene på testdata. Det er imidlertid umulig helt å unngå falske konklusjoner.

7. Høy kostnad.

Kvalitativ programvare er et resultat av betydelig innsats fra utbyggers side. Derfor er Data Mining-programvare tradisjonelt et dyrt programvareprodukt.

8. Tilgjengelighet av tilstrekkelige representative data.

Data Mining-verktøy, i motsetning til statistiske, krever teoretisk sett ikke en strengt definert mengde historiske data. Denne funksjonen kan føre til at upålitelige, falske modeller oppdages og som et resultat tar feil avgjørelser basert på dem. Det er nødvendig å overvåke den statistiske signifikansen til den oppdagede kunnskapen.

nevrale nettverksalgoritme clustering data mining

Konklusjon

Dana en kort beskrivelse av bruksområder og gir kritikk av Data Mining-teknologi og meninger fra eksperter på dette feltet.

Listelitteratur

1. Han og Micheline Kamber. Data Mining: Konsepter og teknikker. Andre utgave. - University of Illinois i Urbana-Champaign

Berry, Michael J. A. Data mining-teknikker: for markedsføring, salg og håndtering av kunderelasjoner - 2. utg.

Siu Nin Lam. Oppdage assosiasjonsregler i datautvinning. - Institutt for informatikk University of Illinois i Urbana-Champaign




Topp