Okända mönster i kända data. Introduktion till modern Data Mining. Närmaste granne och k-närmaste grannar metoder

Datautvinningsverktyg

För närvarande representeras Data Mining-teknologi av ett antal kommersiella och fritt distribuerade mjukvaruprodukter. En ganska komplett och regelbundet uppdaterad lista över dessa produkter finns på hemsidan www. kdnuggets. com, tillägnad Data Mining. Data Mining mjukvaruprodukter kan klassificeras enligt samma principer som ligger till grund för klassificeringen av själva tekniken. En sådan klassificering kommer dock inte att ha något praktiskt värde. På grund av hög konkurrens på marknaden och önskan om fullständighet av tekniska lösningar, täcker många av Data Mining-produkterna bokstavligen alla aspekter av tillämpningen av analytisk teknologi. Därför är det mer meningsfullt att klassificera Data Mining-produkter efter hur de implementeras och följaktligen vilken potential för integration de ger. Uppenbarligen är detta också en konvention, eftersom ett sådant kriterium inte tillåter oss att dra tydliga gränser mellan produkter. En sådan klassificering har dock en otvivelaktig fördel. Det låter dig snabbt fatta beslut om att välja en eller annan färdig lösning när du initierar projekt inom området dataanalys, utvecklar beslutsstödssystem, skapar datalager etc.

Så, Data Mining-produkter kan delas in i tre stora kategorier:

    ingår som en integrerad del i databashanteringssystem;

    bibliotek av Data Mining-algoritmer med tillhörande infrastruktur;

    box- eller skrivbordslösningar ("svarta lådor").

Produkter i de två första kategorierna ger de största integrationsmöjligheterna och låter dig realisera den analytiska potentialen i nästan alla applikationer inom vilket område som helst. Boxade applikationer kan i sin tur ge några unika framsteg inom området Data Mining eller vara specialiserade för en specifik applikation. Men i de flesta fall är de problematiska att integrera i bredare lösningar.

Införandet av analytisk förmåga i kommersiella databashanteringssystem är en naturlig trend med enorm potential. Ja, var, om inte på platser där data är koncentrerad, är det mest meningsfullt att placera metoder för att bearbeta dem? Baserat på denna princip, funktionaliteten av Data Mining i för närvarande implementeras i följande kommersiella databaser:

    Microsoft SQL Server;

Huvudpunkter

  • Datautvinning låter dig automatiskt, baserat på en stor mängd ackumulerad data, generera hypoteser som kan verifieras av andra analysverktyg (till exempel OLAP).

    Data Mining är forskning och upptäckt av en maskin (algoritmer, artificiella intelligensverktyg) av dold kunskap i rådata som tidigare var okänd, icke-trivial, praktiskt användbar och tillgänglig för mänsklig tolkning.

    Data Mining-metoder löser tre huvudproblem: problemet med klassificering och regression, problemet med att söka efter associationsregler och problemet med klustring. Enligt deras syfte är de uppdelade i beskrivande och prediktiva. Utifrån metoderna för att lösa problem delas de in i övervakat lärande (lärande med lärare) och oövervakat lärande (lärande utan lärare).

    Uppgiften med klassificering och regression handlar om att bestämma värdet av den beroende variabeln för ett objekt från dess oberoende variabler. Om den beroende variabeln tar numeriska värden, talar vi om ett regressionsproblem, annars - om ett klassificeringsproblem.

    När man söker efter associationsregler är målet att hitta frekventa beroenden (eller associationer) mellan objekt eller händelser. De hittade beroendena presenteras i form av regler och kan användas både för att bättre förstå arten av de analyserade data och för att förutsäga händelser.

    Uppgiften med klustring är att söka efter oberoende grupper (kluster) och deras egenskaper i hela uppsättningen av analyserade data. Att lösa det här problemet hjälper dig att förstå data bättre. Dessutom gör gruppering av homogena objekt det möjligt att minska antalet och därmed underlätta analysen.

    Datautvinningsmetoder finns i korsningen olika riktningar informationsteknik: statistik, neurala nätverk, fuzzy sets, genetiska algoritmer, etc.

    Intelligent analys inkluderar följande steg: förstå och formulera analysproblemet, förbereda data för automatiserad analys, tillämpa Data Mining-metoder och bygga modeller, kontrollera de konstruerade modellerna och tolka modellerna av människor.

    Innan datautvinningstekniker tillämpas måste källdata omvandlas. Typen av transformation beror på de metoder som används.

    Datautvinningsmetoder kan effektivt användas inom olika områden av mänsklig aktivitet: affärer, medicin, vetenskap, telekommunikation, etc.

3. Analys av textinformation - Text Mining

Analys av strukturerad information lagrad i databaser kräver preliminär bearbetning: designa en databas, mata in information enligt vissa regler, placera den i speciella strukturer (till exempel relationstabeller) etc. Alltså direkt för att analysera denna information och få ny kunskap från den kräver ytterligare ansträngning. De är dock inte alltid relaterade till analys och leder inte nödvändigtvis till det önskade resultatet. På grund av detta minskar effektiviteten i att analysera strukturerad information. Dessutom kan inte alla typer av data struktureras utan att användbar information går förlorad. Till exempel är textdokument nästan omöjliga att konvertera till en tabellrepresentation utan att förlora textens semantik och relationerna mellan entiteter. Av denna anledning lagras sådana dokument i databasen utan transformation, som textfält (BLOB-fält). Samtidigt döljs en enorm mängd information i texten, men dess ostrukturerade karaktär tillåter inte användningen av Data Mining-algoritmer. Metoder för att analysera ostrukturerad text löser detta problem. I västerländsk litteratur kallas sådan analys för Text Mining.

Analysmetoder i ostrukturerade texter ligger i skärningspunkten mellan flera områden: Data Mining, naturlig språkbehandling, informationssökning, informationsextraktion och kunskapshantering.

Definition av textutvinning: Upptäckt av textkunskap är den icke-triviala processen att upptäcka verkligt nya, potentiellt användbara och begripliga mönster i ostrukturerad textdata.

Som du kan se skiljer det sig från definitionen av Data Mining endast i det nya konceptet "ostrukturerad textdata". Sådan kunskap förstås som en uppsättning dokument som representerar en logiskt enhetlig text utan några begränsningar för dess struktur. Exempel på sådana dokument är: webbsidor, e-post, regleringsdokument etc. I allmänhet kan sådana dokument vara komplexa och stora och innehålla inte bara text utan även grafisk information. Dokument som använder XML (extensible Markup Language), SGML (Standard Generalized Markup Language) och andra liknande textstrukturkonventioner kallas semistrukturerade dokument. De kan också bearbetas med Text Mining-metoder.

Processen att analysera textdokument kan representeras som en sekvens av flera steg

    Sök information. Det första steget är att identifiera vilka dokument som behöver analyseras och säkerställa deras tillgänglighet. Som regel kan användare bestämma uppsättningen av dokument som ska analyseras oberoende - manuellt, men med ett stort antal dokument är det nödvändigt att använda automatiska urvalsalternativ enligt specificerade kriterier.

    Preliminära dokumentbehandling. I detta steg utförs enkla men nödvändiga transformationer på dokument för att representera dem i en form som Text Mining-metoder fungerar med. Syftet med sådana transformationer är att ta bort onödiga ord och ge texten en mer strikt form. Förbehandlingsmetoder kommer att beskrivas mer i detalj i avsnittet.

    Informationsextraktion. Att extrahera information från utvalda dokument innebär att identifiera nyckelbegrepp i dem, som kommer att analyseras i framtiden.

Tillämpning av Text Mining-metoder. I detta steg extraheras mönster och relationer som finns i texterna. Detta steg är det viktigaste i textanalysprocessen och praktiska problem löses i detta steg.

Tolkning av resultat. Det sista steget i kunskapsupptäcksprocessen innebär att tolka resultaten. Typiskt består tolkning av att antingen presentera resultat i naturligt språk eller visualisera dem grafiskt.

Visualisering kan också användas som ett textanalysverktyg. För att göra detta extraheras nyckelbegrepp och presenteras grafiskt. Detta tillvägagångssätt hjälper användaren att snabbt identifiera huvudämnena och begreppen och avgöra deras betydelse.

Förbearbetning av text

Ett av huvudproblemen med textanalys är det stora antalet ord i ett dokument. Om vart och ett av dessa ord analyseras kommer söktiden för ny kunskap att öka kraftigt och kommer sannolikt inte att tillfredsställa användarnas krav. Samtidigt är det uppenbart att inte alla ord i texten bär på användbar information. Dessutom, på grund av naturliga språks flexibilitet, betyder formellt olika ord (synonymer etc.) faktiskt samma begrepp. Att ta bort oinformativa ord, samt föra ord som är nära i betydelse till en enda form, minskar således tiden för textanalys avsevärt. Eliminering av de beskrivna problemen utförs i stadiet av textförbehandling.

Följande tekniker används vanligtvis för att ta bort oinformativa ord och öka texternas stränghet:

    Ta bort stoppord. Stoppord är ord som är hjälpmedel och innehåller lite information om innehållet i dokumentet.

    Stemming är en morfologisk sökning. Det består av att konvertera varje ord till dess normala form.

    L-gram är ett alternativ till morfologisk analys och stopp för borttagning av ord. De låter dig göra texten mer strikt, men löser inte problemet med att minska antalet oinformativa ord;

    Fallkonvertering. Denna teknik innebär att alla tecken konverteras till versaler eller gemener.

Det mest effektiva är den kombinerade användningen av dessa metoder.

Text Mining Tasks

För närvarande beskrivs många tillämpade problem i litteraturen som kan lösas med analys av textdokument. Dessa inkluderar klassiska Data Mining-uppgifter: klassificering, klustring och uppgifter som endast är typiska för textdokument: automatisk anteckning, extraktion av nyckelbegrepp, etc.

Klassificering är en standarduppgift inom området Data Mining. Syftet är att för varje dokument definiera en eller flera fördefinierade kategorier som detta dokument tillhör. Ett kännetecken för klassificeringsproblemet är antagandet att uppsättningen av sekretessbelagda dokument inte innehåller "skräp", det vill säga att vart och ett av dokumenten motsvarar en given kategori.

Ett specialfall av klassificeringsproblemet är problemet med att fastställa föremålet för en handling.

Syftet med dokumentklustring är att automatiskt identifiera grupper av semantiskt liknande dokument bland en given fast uppsättning. Observera att grupper endast bildas på basis av parvis likhet mellan dokumentbeskrivningar, och inga egenskaper hos dessa grupper är specificerade i förväg.

Automatisk anteckning (sammanfattning) gör att du kan förkorta texten samtidigt som den behåller dess innebörd. Lösningen på detta problem styrs vanligtvis av användaren genom att bestämma antalet meningar som ska extraheras eller procentandelen text som extraheras i förhållande till hela texten. Resultatet inkluderar de viktigaste meningarna i texten.

Det primära målet med funktionsextraktion är att identifiera fakta och samband i texten. I de flesta fall är dessa begrepp substantiv och vanliga substantiv: för- och efternamn på personer, namn på organisationer, etc. Algoritmer för begreppsextraktion kan använda ordböcker för att identifiera vissa termer och språkliga mönster för att definiera andra.

Textbaserad navigering tillåter användare att navigera i dokument baserat på ämnen och relevanta termer. Detta görs genom att identifiera nyckelbegrepp och vissa relationer mellan dem.

Trendanalys låter dig identifiera trender i uppsättningar av dokument över en tidsperiod. En trend kan till exempel användas för att upptäcka förändringar i ett företags intressen från ett marknadssegment till ett annat.

Att söka föreningar är också en av huvuduppgifterna för Data Mining. För att lösa det identifieras associativa relationer mellan nyckelbegrepp i en given uppsättning dokument.

Det finns ett ganska stort antal varianter av de listade problemen, såväl som metoder för att lösa dem. Detta bekräftar än en gång vikten av textanalys. Resten av detta kapitel diskuterar lösningar på följande problem: extrahering av nyckelbegrepp, klassificering, klustring och automatisk anteckning.

Klassificering av textdokument

Klassificering av textdokument, såväl som vid objektklassificering, består i att tilldela ett dokument till en av de tidigare kända klasserna. Klassificering i förhållande till textdokument kallas ofta för kategorisering eller rubrikering. Uppenbarligen kommer dessa namn från uppgiften att systematisera dokument i kataloger, kategorier och rubriker. I det här fallet kan katalogstrukturen vara antingen en-nivå eller multi-level (hierarkisk).

Formellt beskrivs uppgiften att klassificera textdokument av en uppsättning uppsättningar.

I klassificeringsproblemet är det nödvändigt att konstruera en procedur baserad på dessa data, som består i att hitta den mest sannolika kategorin från mängden C för dokumentet som studeras.

De flesta textklassificeringsmetoder är på ett eller annat sätt baserade på antagandet att dokument som tillhör samma kategori innehåller samma egenskaper (ord eller fraser), och närvaron eller frånvaron av sådana egenskaper i ett dokument indikerar att det tillhör eller inte tillhör en särskilt ämne.

En sådan uppsättning funktioner kallas ofta en ordbok, eftersom den består av lexem som innehåller ord och/eller fraser som kännetecknar kategorin.

Det bör noteras att dessa uppsättningar funktioner är ett utmärkande drag för klassificeringen av textdokument från klassificeringen av objekt i Data Mining, som kännetecknas av en uppsättning attribut.

Beslutet att tilldela dokument d till kategori c fattas baserat på skärningspunkten mellan gemensamma egenskaper

Klassificeringsmetodernas uppgift är att på bästa sätt välja sådana egenskaper och formulera regler på grundval av vilka beslut kommer att fattas om att tilldela ett dokument till en kategori.

Verktyg för att analysera textinformation

    Oracle Tools - Oracle Text2

Från och med Oracle version 7.3.3 är textanalysverktyg en integrerad del av Oracle-produkter. I Oracle har dessa verktyg utvecklats och fått ett nytt namn - Oracle Text - ett mjukvarupaket integrerat i ett DBMS som gör att du effektivt kan arbeta med frågor relaterade till ostrukturerade texter. I det här fallet kombineras textbehandling med de möjligheter som användaren har för att arbeta med relationsdatabaser. I synnerhet har användningen av SQL blivit möjlig när man skriver textbehandlingsapplikationer.

Huvuduppgiften som Oracle Text-verktyg syftar till att lösa är uppgiften att söka i dokument efter deras innehåll - med ord eller fraser, som vid behov kombineras med booleska operationer. Sökresultaten rangordnas efter vikt, med hänsyn till hur ofta frågeorden förekommer i de hittade dokumenten.

    Verktyg från IBM - Intelligent Miner for Text1

IBM Intelligent Miner for Text-produkten är en uppsättning individuella verktyg som lanseras från kommandorad eller från skript oberoende av varandra. Systemet innehåller en kombination av några verktyg för att lösa problem med textinformationsanalys.

IBM Intelligent Miner for Text kombinerar en kraftfull uppsättning verktyg baserade främst på mekanismer för informationshämtning, vilket är specificiteten för hela produkten. Systemet består av ett antal grundläggande komponenter som har oberoende betydelse utöver Text Mining-tekniken:

    SAS Institute Tools - Text Miner

Det amerikanska företaget SAS Institute har släppt SAS Text Miner-systemet för att jämföra vissa grammatiska och verbala sekvenser i skriftligt tal. Text Miner är väldigt mångsidig eftersom den kan arbeta med textdokument i olika format – i databaser, filsystem och vidare på webben.

Text Miner tillhandahåller logisk textbehandling inom SAS Enterprise Miner-miljön. Detta gör det möjligt för användare att berika dataanalysprocessen genom att integrera ostrukturerad textinformation med befintlig strukturerad data som ålder, inkomst och konsumentefterfrågan.

Huvudpunkter

    Upptäckt av textkunskap är en icke-trivial process för att upptäcka verkligt nya, potentiellt användbara och begripliga mönster i ostrukturerad textdata.

    Processen att analysera textdokument kan representeras som en sekvens av flera steg: söka information, förbehandling av dokument, informationsutvinning, tillämpning av Text Mining-metoder, tolkning av resultat.

    Följande tekniker används vanligtvis för att ta bort oinformativa ord och öka texternas stränghet: ta bort stoppord, stemming, L-gram, minskning av skiftlägen.

    Arbetsuppgifterna för textinformationsanalys är: klassificering, klustring, automatisk anteckning, extraktion av nyckelbegrepp, textnavigering, trendanalys, sökning efter associationer m.m.

    Att extrahera nyckelbegrepp ur texter kan betraktas både som en separat tillämpad uppgift och som ett separat steg i textanalys. I det senare fallet används fakta utvunna ur texten för att lösa olika analysproblem.

    Processen att extrahera nyckelbegrepp med hjälp av mallar utförs i två steg: i det första extraheras individuella fakta från textdokument med hjälp av lexikal analys, i det andra steget är integrationen av de extraherade fakta och/eller härledning av nya fakta. utförd.

    De flesta textklassificeringsmetoder är på ett eller annat sätt baserade på antagandet att dokument som tillhör samma kategori innehåller samma egenskaper (ord eller fraser), och närvaron eller frånvaron av sådana egenskaper i ett dokument indikerar att det tillhör eller inte tillhör en särskilt ämne.

    De flesta klustringsalgoritmer kräver att data representeras i en vektorrymdsmodell, som används flitigt för informationshämtning och använder en metafor för att återspegla semantisk likhet som rumslig närhet.

    Det finns två huvudsakliga tillvägagångssätt för att automatiskt kommentera textdokument: extraktion (välja de viktigaste fragmenten) och generalisering (med hjälp av tidigare insamlad kunskap).

Slutsats

Data mining är ett av de mest relevanta och populära områdena inom tillämpad matematik. Moderna affärs- och tillverkningsprocesser genererar enorma mängder data, vilket gör det allt svårare för människor att tolka och reagera på stora mängder data som förändras dynamiskt under körtiden, än mindre att förhindra kritiska situationer. "Data mining" för att extrahera maximal användbar kunskap från multidimensionella, heterogena, ofullständiga, felaktiga, motsägelsefulla, indirekta data. Det hjälper att göra detta effektivt om datavolymen mäts i gigabyte eller till och med terabyte. Hjälper till att bygga algoritmer som kan lära sig att fatta beslut inom olika yrkesområden.

Data Mining-verktyg skyddar människor från informationsöverbelastning genom att bearbeta driftsdata till handlingsbar information så att rätt åtgärder kan vidtas vid rätt tidpunkt.

Tillämpad utveckling genomförs inom följande områden: prognoser i ekonomiska system; automatisering av marknadsundersökningar och analys av kundmiljöer för tillverkning, handel, telekommunikation och internetföretag; automatisering av kreditbeslut och kreditriskbedömning; övervakning av finansiella marknader; automatiska handelssystem.

Bibliografi

    "Dataanalysteknik: Data Mining. Visuell gruvdrift. Text Mining, OLAP" A. A. Barseghyan. M. S. Kupriyanov, V. V. Stenanenko, I. I. Kholod. - 2:a uppl., reviderad. och ytterligare

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - Internetartikel

    http://www.piter.com/contents/978549807257/978549807257_p.pdf -Dataanalysteknik

    Avhandling >> Bankverksamhet

    Låntagare använder kluster, verbal analys, justeringsfaktorer etc. också... låntagarens kreditvärdighet utifrån intellektuell analys Data Mining (med... I det inledande skedet analys hölls analys egna medel och...

  1. Analys och klassificering av den moderna marknaden av informationssystem som implementerar diskretionära, m

    Sammanfattning >> Datavetenskap

    1.3 Rolldifferentiering 6 2. Jämförande analys olika typer system 7 OS... system, inklusive: analys säkerhetspolicyer och deras egenskaper, ... applikationer eller implementera mer intellektuell analys data. Förutom...

  2. Intelligent begåvade barns förmågor i samband med skolprestationer

    Avhandling >> Psykologi

    Sambandet mellan akademisk prestation och egenskaper intellektuell utveckling. Baserat på teoretiska analys forskningsproblemet var... att intellektera utan analys dess psykologiska struktur. Avgörande för bedömning intellektuell förmågor är...

Vi välkomnar dig till Data Mining-portalen - en unik portal dedikerad till moderna Data Mining-metoder.

Data Mining-teknik är ett kraftfullt verktyg för modern affärsanalys och dataforskning för att upptäcka dolda mönster och bygga prediktiva modeller. Data Mining eller kunskapsextraktion bygger inte på spekulativa resonemang, utan på verkliga data.

Ris. 1. Data Mining Application Scheme

Problemdefinition – Förklaring av problemet: dataklassificering, segmentering, konstruktion av prediktiva modeller, prognoser.
Datainsamling och förberedelse – Insamling och förberedelse av data, rengöring, verifiering, borttagning av dubbletter av register.
Modellbyggnad – Modellbyggnad, noggrannhetsbedömning.
Knowledge Deployment – ​​Tillämpning av en modell för att lösa ett givet problem.

Data Mining används för att genomföra storskaliga analytiska projekt inom företag, marknadsföring, internet, telekommunikation, industri, geologi, medicin, läkemedel och andra områden.

Data Mining låter dig starta processen att hitta signifikanta korrelationer och samband som ett resultat av att sålla igenom en enorm mängd data med hjälp av moderna mönsterigenkänningsmetoder och användning av unika analytiska teknologier, inklusive beslutsträd och klassificering, klustring, neurala nätverksmetoder och andra.

En användare som upptäcker datautvinningsteknik för första gången är förvånad över det överflöd av metoder och effektiva algoritmer som gör att han kan hitta metoder för att lösa svåra problem i samband med analys av stora datamängder.

Generellt sett kan Data Mining karakteriseras som en teknik utformad för att söka i stora datamängder. ej uppenbart, mål och praktiskt taget användbar mönster.

Data Mining bygger på effektiva metoder och algoritmer utformade för att analysera ostrukturerad data av stor volym och dimension.

Nyckelpunkten är att högvolym, högdimensionell data verkar sakna struktur och kopplingar. Målet med data mining-teknik är att identifiera dessa strukturer och hitta mönster där kaos och godtycke vid första anblicken råder.

Här är ett aktuellt exempel på tillämpningen av datautvinning inom läkemedels- och läkemedelsindustrin.

Läkemedelsinteraktioner är ett växande problem som modern sjukvård står inför.

Med tiden ökar antalet utskrivna läkemedel (receptfria och alla typer av kosttillskott), vilket gör det mer och mer sannolikt att det kommer att finnas läkemedelsinteraktioner som kan orsaka allvarliga biverkningar som läkare och patienter inte känner till.

Detta område avser post-klinisk forskning, när läkemedlet redan har släppts på marknaden och används intensivt.

Kliniska studier avser utvärdering av ett läkemedels effektivitet, men tar inte hänsyn till läkemedlets interaktioner med andra läkemedel på marknaden.

Forskare vid Stanford University i Kalifornien undersökte FDA:s databas över läkemedelsbiverkningar och fann att två vanligt använda läkemedel – det antidepressiva medlet paroxetin och det kolesterolsänkande läkemedlet pravastatin – ökade risken för att utveckla diabetes om de används tillsammans.

En liknande analysstudie baserad på FDA-data identifierade 47 tidigare okända negativa interaktioner.

Detta är bra, med förbehållet att många av de negativa effekterna som noterats av patienter förblir oupptäckta. Det är i det här fallet som onlinesökning kan prestera som bäst.

Kommande Data Mining-kurser på StatSoft Data Analysis Academy 2020

Vi börjar vår introduktion till Data Mining med hjälp av de fantastiska videorna från Data Science Academy.

Se till att titta på våra videor så kommer du att förstå vad Data Mining är!

Video 1. Vad är Data Mining?


Video 2. Genomgång av datautvinningsmetoder: beslutsträd, generaliserade prediktiva modeller, klustring och mycket mer

JavaScript är inaktiverat i din webbläsare


Innan vi startar ett forskningsprojekt måste vi organisera en process för att hämta data från Externa källor, nu ska vi visa hur detta går till.

Videon kommer att introducera dig till unik teknik STATISTIK Databasbearbetning på plats och koppling av Data Mining med riktiga data.

Video 3. Ordningen för interaktion med databaser: grafiskt gränssnitt för att bygga SQL-frågor, databasbehandlingsteknik på plats

JavaScript är inaktiverat i din webbläsare


Nu ska vi bekanta oss med interaktiva borrtekniker som är effektiva för att genomföra explorativ dataanalys. Begreppet borrning i sig speglar sambandet mellan Data Mining-teknik och geologisk prospektering.

Video 4: Interactive Drilling: Exploration and Graphics Techniques for Interactive Data Exploration

JavaScript är inaktiverat i din webbläsare


Nu ska vi bekanta oss med associationsanalys (associationsregler), dessa algoritmer låter dig hitta samband som finns i verklig data. Nyckelpunkten är effektiviteten hos algoritmer på stora datamängder.

Resultatet av anslutningsanalysalgoritmer, till exempel Apriori-algoritmen, är att hitta anslutningsregler för de objekt som studeras med en given tillförlitlighet, till exempel 80 %.

Inom geologi kan dessa algoritmer användas i prospekteringsanalys av mineraler, till exempel hur egenskap A är relaterad till egenskaper B och C.

du kan hitta specifika exempel sådana lösningar med hjälp av våra länkar:

I detaljhandeln gör Apriori-algoritmer eller deras modifieringar det möjligt att studera förhållandet mellan olika produkter, till exempel vid försäljning av parfymer (parfym - nagellack - mascara, etc.) eller produkter av olika märken.

Analys av de mest intressanta avsnitten på sajten kan också effektivt utföras med hjälp av föreningsregler.

Så kolla in vår nästa video.

Video 5. Föreningens regler

JavaScript är inaktiverat i din webbläsare

Här är exempel på tillämpningen av Data Mining inom specifika områden.

Näthandel:

  • analys av kundbanor från att besöka sajten till att köpa varor
  • bedömning av tjänsteeffektivitet, analys av fel på grund av brist på varor
  • koppling av produkter som är intressanta för besökare

Detaljhandel: analys av kundinformation baserat på kreditkort, rabattkort m.m.

Typiska detaljhandelsuppgifter lösta av Data Mining-verktyg:

  • kundvagnsanalys;
  • skapande av prediktiva modeller och klassificeringsmodeller för köpare och köpta varor;
  • skapa kundprofiler;
  • CRM, bedömning av lojalitet hos kunder i olika kategorier, planering av lojalitetsprogram;
  • tidsserieforskning och tidsberoende, identifiering av säsongsfaktorer, bedömning av effektivitet kampanjer på ett stort antal verkliga data.

Telekommunikationssektorn öppnar för obegränsade möjligheter för användning av datautvinningsmetoder, såväl som modern big data-teknik:

  • klassificering av klienter baserat på nyckelegenskaper för samtal (frekvens, varaktighet, etc.), SMS-frekvens;
  • identifiera kundlojalitet;
  • bedrägeriupptäckt osv.

Försäkring:

  • riskanalys. Genom att identifiera kombinationer av faktorer förknippade med utbetalda skador kan försäkringsgivare minska sina ansvarsförluster. Det finns ett fall där ett försäkringsbolag upptäckt att de belopp som betalats ut på skador från gifta personer var dubbelt så höga som de belopp som betalades ut på skador av ensamstående. Företaget svarade på detta genom att revidera sin rabattpolicy för familjekunder.
  • spårning av bedrägerier. Försäkringsbolag kan minska bedrägerierna genom att leta efter vissa mönster i anspråk som kännetecknar relationerna mellan advokater, läkare och skadelidande.

Den praktiska tillämpningen av datautvinning och att lösa specifika problem presenteras i vår nästa video.

Webbseminarium 1. Webbseminarium "Praktiska uppgifter för Data Mining: problem och lösningar"

JavaScript är inaktiverat i din webbläsare

Webbseminarium 2. Webbseminarium "Data Mining och Text Mining: exempel på att lösa verkliga problem"

JavaScript är inaktiverat i din webbläsare


Du kan få mer djupgående kunskaper om data mining-metodik och teknik i StatSoft-kurser.

Vad är Data Mining

Företagsdatabasen för alla moderna företag innehåller vanligtvis en uppsättning tabeller som lagrar uppgifter om vissa fakta eller objekt (till exempel om varor, deras försäljning, kunder, konton). Som regel beskriver varje post i en sådan tabell ett specifikt objekt eller faktum. Till exempel återspeglar en post i försäljningstabellen det faktum att en sådan och en produkt såldes till en sådan och en kund vid den tidpunkten av en sådan och en chef, och i stort sett inte innehåller något annat än denna information. Men insamlingen av ett stort antal sådana register, ackumulerade under flera år, kan bli en källa till ytterligare, mycket mer värdefull information som inte kan erhållas på grundval av ett specifikt register, nämligen information om mönster, trender eller ömsesidiga beroenden mellan någon data. Exempel på sådan information är information om hur försäljningen av en viss produkt beror på veckodag, tid på dygnet eller tid på året, vilka kategorier av kunder som oftast köper den eller den produkten, hur stor andel köpare av en specifik produkt som köper. en annan specifik produkt, vilken kategori av kunder oftast inte betalar tillbaka lånet i tid.

Denna typ av information används vanligtvis i prognoser, strategisk planering, riskanalys, och dess värde för företaget är mycket högt. Tydligen var det därför som processen att söka efter det kallades Data Mining (mining på engelska betyder "mining", och att söka efter mönster i en enorm uppsättning faktadata är verkligen besläktad med detta). Termen Data Mining betecknar inte så mycket en specifik teknologi som processen att söka efter korrelationer, trender, samband och mönster genom olika matematiska och statistiska algoritmer: klustring, skapa delsampler, regressions- och korrelationsanalys. Syftet med denna sökning är att presentera data i en form som tydligt återspeglar affärsprocesser, och även att bygga en modell med vilken du kan förutsäga processer som är avgörande för affärsplanering (till exempel dynamiken i efterfrågan på vissa varor eller tjänster eller beroendet av deras förvärv av vissa konsumentegenskaper).

Observera att traditionell matematisk statistik, som under lång tid förblev huvudverktyget för dataanalys, såväl som verktyg för online analytisk bearbetning (OLAP), som vi redan har skrivit om flera gånger (se material om detta ämne på vår CD) , kan inte alltid framgångsrikt användas för att lösa sådana problem. Vanligtvis används statistiska metoder och OLAP för att testa förformulerade hypoteser. Det är dock ofta formuleringen av en hypotes som visar sig vara den svåraste uppgiften när man implementerar affärsanalyser för efterföljande beslutsfattande, eftersom inte alla mönster i data är uppenbara vid första anblicken.

Grunden modern teknologi Data Mining bygger på konceptet med mönster som återspeglar mönster som är inneboende i delprover av data. Sökandet efter mönster utförs med metoder som inte använder några a priori antaganden om dessa delprover. Medan statistisk analys eller OLAP vanligtvis ställer frågor som "Vad är det genomsnittliga antalet obetalda fakturor bland kunder för den här tjänsten?", innebär Data Mining vanligtvis att svara på frågor som "Finns det en typisk kategori av icke-betalande kunder?". Samtidigt är det svaret på den andra frågan som ofta ger ett mer icke-trivialt förhållningssätt till marknadsföringspolitik och att organisera arbetet med kunder.

En viktig egenskap hos Data Mining är den icke-standardiserade och icke-uppenbara karaktären hos mönstren som eftersträvas. Med andra ord skiljer sig Data Mining-verktyg från statistiska databearbetningsverktyg och OLAP-verktyg genom att istället för att kontrollera förutsatta ömsesidiga beroenden av användare, kan de hitta sådana ömsesidiga beroenden oberoende baserat på tillgänglig data och bygga hypoteser om deras natur.

Det bör noteras att användningen av Data Mining-verktyg inte utesluter användningen av statistiska verktyg och OLAP-verktyg, eftersom resultaten av databearbetning med de sistnämnda som regel bidrar till en bättre förståelse av arten av de mönster som bör bli eftersökt.

Källdata för Data Mining

Användningen av Data Mining är motiverad om det finns en tillräckligt stor mängd data, helst i ett korrekt designat datalager (i själva verket skapas själva datalagren vanligtvis för att lösa analys- och prognosproblem i samband med beslutsstöd). Vi har också skrivit upprepade gånger om principerna för att bygga datalager; relevant material kan hittas på vår CD, så vi kommer inte att uppehålla oss vid denna fråga. Låt oss bara komma ihåg att data i lagret är en påfylld uppsättning, gemensam för hela företaget och gör att man kan återställa en bild av dess aktiviteter när som helst. Observera också att lagringsdatastrukturen är utformad på ett sådant sätt att förfrågningar till den utförs så effektivt som möjligt. Det finns dock Data Mining-verktyg som kan söka efter mönster, korrelationer och trender inte bara i datalager utan även i OLAP-kuber, det vill säga i uppsättningar av förbehandlade statistiska data.

Typer av mönster som identifieras av Data Mining-metoder

Enligt V.A. Duke finns det fem standardtyper av mönster som identifieras av Data Mining-metoder:

Association - en hög sannolikhet för att händelser är kopplade till varandra (till exempel köps en produkt ofta tillsammans med en annan);

Sekvens - en hög sannolikhet för en kedja av händelser relaterad i tid (till exempel inom en viss period efter köpet av en produkt kommer en annan att köpas med en hög grad av sannolikhet);

Klassificering - det finns tecken som kännetecknar den grupp som den eller den händelsen eller objektet tillhör (vanligtvis, baserat på analysen av redan klassificerade händelser, formuleras vissa regler);

Clustering är ett mönster som liknar klassificering och skiljer sig från det genom att själva grupperna inte specificeras - de identifieras automatiskt under databehandlingen;

Temporala mönster - förekomsten av mönster i dynamiken i beteendet hos vissa data (ett typiskt exempel är säsongsmässiga fluktuationer i efterfrågan på vissa varor eller tjänster) som används för prognoser.

Datautvinningsmetoder

Idag finns det ett ganska stort antal olika datautvinningsmetoder. Baserat på ovanstående klassificering som föreslagits av V.A. Duke, bland dem kan vi särskilja:

Regressions-, varians- och korrelationsanalys (implementerad i de flesta moderna statistikpaket, särskilt i produkter från SAS Institute, StatSoft, etc.);

Analysmetoder inom ett specifikt ämnesområde, baserade på empiriska modeller (används ofta i t.ex. billiga finansiella analysverktyg);

Neurala nätverksalgoritmer, vars idé är baserad på en analogi med nervvävnadens funktion och ligger i det faktum att de initiala parametrarna betraktas som signaler som omvandlas i enlighet med de befintliga kopplingarna mellan "neuroner" och svar från hela nätverket på de initiala betraktas som svaret som härrör från analysdata. I detta fall skapas förbindelser med hjälp av den så kallade nätverksträningen genom en stor urvalsstorlek som innehåller både initiala data och korrekta svar;

Algoritmer - val av en nära analog av originaldata från befintliga historiska data. Kallas även "närmaste granne"-metoden;

Beslutsträd är en hierarkisk struktur baserad på en uppsättning frågor som kräver ett "Ja" eller "Nej" svar; fastän den här metoden databehandling hittar inte alltid befintliga mönster perfekt, den används ganska ofta i prognossystem på grund av tydligheten i det mottagna svaret;

Klustermodeller (ibland även kallade segmenteringsmodeller) används för att gruppera liknande händelser baserat på liknande värden för flera fält i en datamängd; också mycket populär när man skapar prognossystem;

Begränsade sökalgoritmer som beräknar frekvenser av kombinationer av enkla logiska händelser i undergrupper av data;

Evolutionär programmering - sökning och generering av en algoritm som uttrycker det ömsesidiga beroendet av data, baserat på en initialt specificerad algoritm, modifierad under sökprocessen; ibland utförs sökningen efter ömsesidiga beroenden bland vissa typer av funktioner (till exempel polynom).

Mer information om dessa och andra Data Mining-algoritmer, såväl som om verktygen som implementerar dem, kan läsas i boken "Data Mining: Training Course" av V.A. Duke och A.P. Samoilenko, publicerad av Peter förlag 2001. Idag är detta en av få böcker på ryska som ägnas åt detta problem.

Ledande tillverkare av Data Mining-verktyg

Data Mining-verktyg, som de flesta Business Intelligence-verktyg, är traditionellt dyra mjukvaruverktyg - vissa av dem kostar upp till flera tiotusentals dollar. Tills nyligen var de största konsumenterna av denna teknik därför banker, finans- och försäkringsbolag, stora handelsföretag, och huvuduppgifterna som kräver användning av Data Mining ansågs vara bedömningen av kredit- och försäkringsrisker och utvecklingen av marknadsföringspolicyer , tariffplaner och andra principer för att arbeta med kunder. Under de senaste åren har situationen genomgått vissa förändringar: relativt billiga Data Mining-verktyg från flera tillverkare har dykt upp på mjukvarumarknaden, vilket har gjort denna teknik tillgänglig för små och medelstora företag som inte tidigare tänkt på det.

TILL moderna medel Business Intelligence inkluderar rapportgeneratorer, verktyg för analys av databearbetning, verktyg för utveckling av BI-lösningar (BI-plattformar) och de så kallade Enterprise BI Suites - dataanalys- och bearbetningsverktyg i företagsskala som låter dig utföra en uppsättning åtgärder relaterade till dataanalys och rapportskapande, och inkluderar ofta en integrerad uppsättning BI-verktyg och BI-applikationsutvecklingsverktyg. De sistnämnda innehåller som regel rapporteringsverktyg, OLAP-verktyg och ofta Data Mining-verktyg.

Enligt analytiker från Gartner Group är de ledande på marknaden för dataanalys- och bearbetningsverktyg i företagsskala Business Objects, Cognos, Information Builders och Microsoft och Oracle hävdar också ledarskap (Fig. 1). När det gäller utvecklingsverktygen för BI-lösningar är de främsta utmanarna till ledarskap inom detta område Microsoft och SAS Institute (Fig. 2).

Observera att Microsofts Business Intelligence-verktyg är relativt billiga produkter tillgängliga för ett brett spektrum av företag. Det är därför vi kommer att titta på några praktiska aspekter av att använda Data Mining med exemplet på detta företags produkter i de efterföljande delarna av denna artikel.

Litteratur:

1. Duke V.A. Data Mining - data mining. - http://www.olap.ru/basic/dm2.asp.

2. Duke V.A., Samoilenko A.P. Data Mining: utbildningskurs. - St. Petersburg: Peter, 2001.

3. B. de Ville. Microsoft Data Mining. Digital Press, 2001.

OLAP-system ger analytikern ett sätt att testa hypoteser vid analys av data, det vill säga analytikerns huvuduppgift är att generera hypoteser, som han löser baserat på sin kunskap och erfarenhet. Men inte bara en person har kunskap, utan också den ackumulerade data som analyseras . Sådan kunskap finns i en enorm mängd information som en person inte kan forska i på egen hand. På grund av detta finns det en risk att missa hypoteser som kan ge betydande fördelar.

För att upptäcka "dold" kunskap används speciella metoder för automatisk analys, med hjälp av vilka det är nödvändigt att praktiskt extrahera kunskap från "blockeringar" av information. Termen "data mining" eller "data mining" har tilldelats detta område.

Det finns många definitioner av DataMining som kompletterar varandra. Här är några av dem.

Data Mining är processen att upptäcka icke-triviala och praktiskt användbara mönster i databaser. (Basgrupp)

Data Mining är processen att extrahera, utforska och modellera stora mängder data för att upptäcka tidigare okända mönster (mönster) för att uppnå affärsfördelar (SAS Institute)

Data Mining är en process som syftar till att upptäcka nya signifikanta korrelationer, mönster och trender genom att sålla igenom stora mängder lagrad data med hjälp av mönsterigenkänningstekniker plus tillämpning av statistiska och matematiska tekniker (GartnerGroup)

Data Mining är forskning och upptäckt av en "maskin" (algoritmer, artificiell intelligens) av dold kunskap i rådata.var tidigare okända, icke-triviala, praktiskt användbara, tillgängliga för tolkning(A. Bargesyan “Data Analysis Technologies”)

DataMining är processen att upptäcka användbar kunskap om affärer. (N.M. Abdikeev "KBA")

Egenskaper av upptäckt kunskap

Låt oss överväga egenskaperna hos den upptäckta kunskapen.

  • Kunskapen måste vara ny, tidigare okänd. Ansträngningen som läggs på att upptäcka kunskap som redan är känd för användaren lönar sig inte. Därför är det ny, tidigare okänd kunskap som är värdefull.
  • Kunskap måste vara icke-trivial. Resultaten av analysen bör återspegla icke-uppenbara, oväntademönster i data som utgör så kallad dold kunskap. Resultat som kunde ha uppnåtts mer på enkla sätt(till exempel visuell inspektion) motiverar inte användningen av kraftfulla DataMining-metoder.
  • Kunskap måste vara praktiskt användbart. Den kunskap som hittas ska vara tillämpbar, även på nya data, med en tillräckligt hög grad av tillförlitlighet. Användbarheten ligger i det faktum att denna kunskap kan ge vissa fördelar när den tillämpas.
  • Kunskap måste vara tillgänglig för mänsklig förståelse. Mönstren som hittas måste vara logiskt förklarade, annars finns det en möjlighet att de är slumpmässiga. Dessutom måste den upptäckta kunskapen presenteras i en form som är begriplig för människor.

Inom DataMining används modeller för att representera den förvärvade kunskapen. Typerna av modeller beror på de metoder som används för att skapa dem. De vanligaste är: regler, beslutsträd, kluster och matematiska funktioner.

DataMining uppgifter

Låt oss komma ihåg att DataMining-tekniken är baserad på konceptet mallar, som är mönster. Som ett resultat av upptäckten av dessa mönster, dolda för blotta ögat, löses DataMining-problem. Olika typer av mönster som kan uttryckas i en läsbar form motsvarar specifika DataMining-uppgifter.

Det finns ingen konsensus om vilka uppgifter som ska klassificeras som DataMining. De flesta auktoritativa källorna listar följande: klassificering,

klustring, förutsägelse, association, visualisering, analys och upptäckt

avvikelser, bedömning, analys av samband, summering.

Syftet med beskrivningen som följer är att ge en allmän uppfattning om DataMining-problem, jämföra några av dem och även presentera några metoder för att lösa dessa problem. De vanligaste uppgifterna i Data Mining är klassificering, klustring, association, prognoser och visualisering. Således är uppgifter uppdelade efter vilken typ av information som produceras, detta är den mest allmänna klassificeringen av DataMining-uppgifter.

Klassificering

Problemet med att dela upp en uppsättning objekt eller observationer i a priori angivna grupper, kallade klasser, inom var och en av vilka de antas vara lika varandra, med ungefär samma egenskaper och egenskaper. I detta fall erhålls lösningen baserat på analys värden på attribut (funktioner).

Klassificering är en av de viktigaste uppgifterna DataMining . Den används i marknadsföring vid bedömning av låntagares kreditvärdighet, fastställande kund lojalitet, mönsterigenkänning , medicinsk diagnostik och många andra applikationer. Om analytikern känner till egenskaperna hos objekt i varje klass, när en ny observation tillhör en viss klass, utökas dessa egenskaper automatiskt till den.

Om antalet klasser är begränsat till två, dåbinär klassificering , till vilka många mer komplexa problem kan reduceras. Till exempel, istället för att definiera sådana grader av kreditrisk som "Hög", "Medium" eller "Låg", kan du bara använda två - "Emission" eller "Vejra".

DataMining använder många olika modeller för klassificering: neurala nätverk, beslutsträd , stödvektormaskiner, k-nearest neighbors-metod, täckande algoritmer etc., i vars konstruktion övervakad inlärning används närutgångsvariabel(klassetikett ) specificeras för varje observation. Formellt görs klassificering utifrån partitionenhar utrymmen in i områden, inom vart och ett av dessaflerdimensionella vektorer anses vara identiska. Med andra ord, om ett objekt faller in i ett område av rymden som är associerat med en viss klass, tillhör det det.

Klustring

Kort beskrivning. Clustering är en logisk fortsättning på idén

klassificeringar. Detta är en mer komplex uppgift, det speciella med klustring är att objektklasser inte är fördefinierade från början. Resultatet av klustring är uppdelningen av objekt i grupper.

Ett exempel på en metod för att lösa ett klustringsproblem: "oövervakad" träning av en speciell typ av neurala nätverk - självorganiserande Kohonen-kartor.

Föreningar

Kort beskrivning. När man löser problemet med att söka efter associationsregler, hittas mönster mellan relaterade händelser i en datamängd.

Skillnaden mellan association och de två tidigare DataMining-uppgifterna: sökningen efter mönster utförs inte på basis av egenskaperna hos det analyserade objektet, utan mellan flera händelser som inträffar samtidigt. Den mest välkända algoritmen för att lösa problemet med att hitta associationsregler är Apriori-algoritmen.

Sekvens eller sekventiell association

Kort beskrivning. Sekvens låter dig hitta tidsmässiga mönster mellan transaktioner. Sekvensuppgiften liknar association, men dess mål är att etablera mönster inte mellan samtidigt inträffande händelser, utan mellan händelser som är relaterade i tid (dvs. inträffar vid något specifikt tidsintervall). Med andra ord, en sekvens bestäms av en hög sannolikhet för en kedja av händelser relaterad i tiden. Faktum är att en association är ett specialfall av en sekvens med en tidsfördröjning på noll. Denna DataMining-uppgift kallas också den sekventiella mönsterhittningsuppgiften.

Sekvensregel: efter händelse X kommer händelse Y att inträffa efter en viss tid.

Exempel. Efter att ha köpt en lägenhet köper invånarna i 60 % av fallen ett kylskåp inom två veckor och inom två månader i 50 % av fallen köper de en TV. Lösningen på detta problem används i stor utsträckning inom marknadsföring och förvaltning, till exempel inom Customer Lifecycle Management.

Regression, prognos (prognoser)

Kort beskrivning. Som ett resultat av att lösa prognosproblemet uppskattas saknade eller framtida värden för numeriska målindikatorer baserat på egenskaperna hos historiska data.

För att lösa sådana problem används metoder för matematisk statistik, neurala nätverk etc. i stor utsträckning.

Ytterligare uppgifter

Avvikelsedetektering, varians- eller extremanalys

Kort beskrivning. Målet med att lösa detta problem är att upptäcka och analysera data som skiljer sig mest från den allmänna uppsättningen av data, och identifiera så kallade okarakteristiska mönster.

Uppskattning

Uppskattningsuppgiften handlar om att förutsäga kontinuerliga värden för en funktion.

Länkanalys

Uppgiften att hitta beroenden i en datamängd.

Visualisering (GraphMining)

Som ett resultat av visualisering skapas en grafisk bild av den analyserade datan. För att lösa visualiseringsproblemet används grafiska metoder för att visa förekomsten av mönster i datan.

Ett exempel på visualiseringstekniker är att presentera data i 2-D och 3-D dimensioner.

Sammanfattning

En uppgift vars mål är att beskriva specifika grupper av objekt från den analyserade datamängden.

Ganska nära ovanstående klassificering ligger uppdelningen av DataMining-uppgifter i följande: forskning och upptäckt, prognoser och klassificering, förklaring och beskrivning.

Automatisk utforskning och upptäckt (fri sökning)

Exempeluppgift: att upptäcka nya marknadssegment.

För att lösa denna klass av problem används klusteranalysmetoder.

Förutsägelse och klassificering

Exempelproblem: förutsäga försäljningstillväxt baserat på aktuella värden.

Metoder: regression, neurala nätverk, genetiska algoritmer, beslutsträd.

Klassificerings- och prognosuppgifter utgör en grupp av så kallad induktiv modellering, som resulterar i studiet av det analyserade objektet eller systemet. I processen att lösa dessa problem utvecklas en generell modell eller hypotes baserad på en uppsättning data.

Förklaring och beskrivning

Exempelproblem: karaktärisera kunder utifrån demografi och köphistorik.

Metoder: beslutsträd, regelsystem, associationsregler, sambandsanalys.

Om klientens inkomst är mer än 50 konventionella enheter och hans ålder är mer än 30 år, då är klientens klass först.

Jämförelse av klustring och klassificering

Karakteristisk

Klassificering

Klustring

Styrbarhet av träning

Kontrollerade

Okontrollerbar

Strategier

Handledd utbildning

Oövervakat lärande

Tillgänglighet av klassetikett

Träningsset

åtföljs av en etikett som anger

klass som den tillhör

observation

Etiketter för tränarklass

set är okända

Grund för klassificering

Ny data klassificeras utifrån träningsuppsättningen

Mycket data ges för ändamålet

fastställa existensen

klasser eller datakluster

Användningsområden för DataMining

Det bör noteras att idag används DataMining-teknologi mest för att lösa affärsproblem. Kanske är anledningen att det är i denna riktning som avkastningen på användningen av DataMining-verktyg kan vara, enligt vissa källor, upp till 1000% och kostnaderna för dess implementering kan snabbt betala sig.

Vi kommer att titta på fyra huvudsakliga tillämpningsområden för DataMining-teknik i detalj: vetenskap, näringsliv, statlig forskning och webben.

affärsuppgifter. Huvudområden: bank, finans, försäkring, CRM, tillverkning, telekommunikation, e-handel, marknadsföring, aktiemarknad och andra.

    Ska jag ge ut ett lån till kunden?

    Marknadssegmentering

    Attraktion av nya kunder

    Kreditkortsbedrägerier

Tillämpning av DataMining för lösa problem på statlig nivå. Huvudvägar: Sök efter skattesmitare; medel i kampen mot terrorism.

Tillämpning av DataMining för vetenskaplig forskning. Huvudområden: medicin, biologi, molekylär genetik och genteknik, bioinformatik, astronomi, tillämpad kemi, forskning relaterad till drogberoende och andra.

Använder DataMining för att lösa Webbuppgifter. Huvudområden: sökmotorer, räknare och andra.

E-handel

Inom området e-handel används DataMining för att generera

Denna klassificering gör det möjligt för företag att identifiera specifika kundgrupper och genomföra marknadsföringspolicyer i enlighet med kundernas identifierade intressen och behov. DataMining-teknik för e-handel är nära besläktad med WebMining-teknik.

DataMinings huvuduppgifter i industriell produktion:

· omfattande systemanalys av produktionssituationer;

· kortsiktiga och långsiktiga prognoser för utvecklingen av produktionssituationer;

· utveckling av alternativ för optimeringslösningar;

· förutsäga kvaliteten på en produkt beroende på vissa parametrar

teknisk process;

· upptäckt av dolda trender och mönster i utvecklingen av produktionen

processer;

· prognostisering av utvecklingsmönster produktionsprocess;

· upptäckt av dolda påverkansfaktorer;

· upptäckt och identifiering av tidigare okända samband mellan

produktionsparametrar och påverkande faktorer;

· analys av interaktionsmiljön för produktionsprocesser och prognoser

förändringar i dess egenskaper;

processer;

· visualisering av analysresultat, upprättande av preliminära rapporter och projekt

genomförbara lösningar med bedömningar av tillförlitligheten och effektiviteten av möjliga implementeringar.

Marknadsföring

Inom marknadsföringsområdet används DataMining flitigt.

Grundläggande marknadsföringsfrågor: "Vad säljs?", "Hur säljs det?", "Vem är det

konsument?"

Föreläsningen om klassificering och klusterproblem beskriver i detalj användningen av klusteranalys för att lösa marknadsföringsproblem, såsom konsumentsegmentering.

En annan vanlig uppsättning metoder för att lösa marknadsföringsproblem är metoder och algoritmer för att söka efter associationsregler.

Sökandet efter tidsmässiga mönster används också framgångsrikt här.

Detaljhandeln

Inom detaljhandeln, liksom i marknadsföringen, används följande:

· algoritmer för att söka efter associationsregler (för att fastställa ofta förekommande uppsättningar av

varor som köpare köper samtidigt). Att identifiera sådana regler hjälper

placera varor i butikshyllorna, ta fram strategier för inköp av varor

och deras placering i lager m.m.

· användning av tidssekvenser, till exempel för att bestämma

erforderliga volymer varor i lagret.

· klassificering och klustringsmetoder för att identifiera grupper eller kategorier av kunder,

kunskap om vilka bidrar till framgångsrik marknadsföring av varor.

Aktiemarknad

Här är en lista över börsproblem som kan lösas med hjälp av datateknik

Gruvdrift: · prognostisera framtida värden på finansiella instrument och deras indikatorer

tidigare värden;

· trendprognos (framtida rörelseriktning - tillväxt, nedgång, platt) finansiell

instrumentet och dess styrka (stark, måttligt stark, etc.);

· identifiering av klusterstrukturen för marknaden, industrin, sektorn enligt en viss uppsättning

egenskaper;

· dynamisk portföljförvaltning;

· volatilitetsprognos;

· riskbedömning;

· förutsäga början av en kris och förutsäga dess utveckling;

· urval av tillgångar m.m.

Utöver de verksamhetsområden som beskrivs ovan kan DataMining-teknik användas inom en mängd olika affärsområden där det finns behov av dataanalys och en viss mängd retrospektiv information har samlats.

Tillämpning av DataMining i CRM

Ett av de mest lovande områdena för att använda DataMining är användningen av denna teknik i analytisk CRM.

CRM (CustomerRelationshipManagement) - hantering av kundrelationer.

När dessa teknologier används tillsammans kombineras utvinningen av kunskap med "utvinningen av pengar" från kunddata.

En viktig aspekt i marknadsförings- och försäljningsavdelningarnas arbete är sammanställningenen helhetssyn på klienter, information om deras egenskaper, egenskaper och klientbasens struktur. CRM använder sig av så kallad profileringkunder, vilket ger en fullständig bild av all nödvändig information om kunder.

Kundprofilering inkluderar följande komponenter: kundsegmentering, kundlönsamhet, kundbehållning, kundresponsanalys. Var och en av dessa komponenter kan undersökas med DataMining, och att analysera dem tillsammans som profileringskomponenter kan i slutändan ge kunskap som är omöjlig att få från varje enskild egenskap.

WebMining

WebMining kan översättas som "datautvinning på webben." WebIntelligence eller webb.

Intelligence är redo att "öppna ett nytt kapitel" i den snabba utvecklingen av elektroniska affärer. Möjligheten att bestämma varje besökares intressen och preferenser genom att observera hans beteende är en seriös och kritisk konkurrensfördel på e-handelsmarknaden.

WebMining-system kan svara på många frågor, till exempel vem av besökarna som är en potentiell kund till webbbutiken, vilken grupp av webbbutikskunder som ger mest inkomst, vilka intressen har en viss besökare eller grupp av besökare.

Metoder

Klassificering av metoder

Det finns två grupper av metoder:

  • statistiska metoder baserade på användningen av genomsnittlig ackumulerad erfarenhet, vilket återspeglas i retrospektiva data;
  • cybernetiska metoder, inklusive många heterogena matematiska metoder.

Nackdelen med denna klassificering är att både statistiska och cybernetiska algoritmer på ett eller annat sätt förlitar sig på en jämförelse av statistisk erfarenhet med resultaten av övervakning av den aktuella situationen.

Fördelen med denna klassificering är dess lätthet att tolka - den används för att beskriva de matematiska medlen för ett modernt tillvägagångssätt för att extrahera kunskap från uppsättningar av initiala observationer (operativa och retrospektiva), d.v.s. i Data Mining-uppgifter.

Låt oss ta en närmare titt på grupperna som presenteras ovan.

Statistiska metoder Data mining

I dessa metoder representerar fyra inbördes relaterade avsnitt:

  • preliminär analys av arten av statistiska data (testning av hypoteser om stationaritet, normalitet, oberoende, homogenitet, bedömning av typen av distributionsfunktion, dess parametrar, etc.);
  • identifiera kopplingar och mönster(linjär och icke-linjär regressionsanalys, korrelationsanalys, etc.);
  • multivariat statistisk analys (linjär och icke-linjär diskriminantanalys, klusteranalys, komponentanalys, faktoranalys, etc.);
  • dynamiska modeller och prognos baserad på tidsserier.

Arsenalen av statistiska metoder för Data Mining är klassificerad i fyra grupper av metoder:

  1. Beskrivande analys och beskrivning av källdata.
  2. Relationsanalys (korrelations- och regressionsanalys, faktoranalys, variansanalys).
  3. Multivariat statistisk analys (komponentanalys, diskriminantanalys, multivariat regressionsanalys, kanoniska korrelationer, etc.).
  4. Tidsserieanalys (dynamiska modeller och prognoser).

Cybernetiska datautvinningsmetoder

Den andra riktningen för Data Mining är en mängd olika tillvägagångssätt som förenas av idén om datormatematik och användningen av artificiell intelligensteori.

Denna grupp inkluderar följande metoder:

  • artificiella neurala nätverk (igenkänning, klustring, prognos);
  • evolutionär programmering (inklusive algoritmer för metoden för gruppredovisning av argument);
  • genetiska algoritmer (optimering);
  • associativt minne (sökning efter analoger, prototyper);
  • rolig logik;
  • beslutsträd;
  • expertkunskapsbearbetningssystem.

Klusteranalys

Syftet med klustring är att söka efter befintliga strukturer.

Klustring är en beskrivande procedur, den gör inga statistiska slutsatser, men den ger en möjlighet att genomföra utforskande analys och studera "datastrukturen."

Själva begreppet "kluster" definieras tvetydigt: varje studie har sina egna "kluster". Begreppet kluster översätts som "kluster", "gäng". Ett kluster kan karakteriseras som en grupp av objekt som har gemensamma egenskaper.

Egenskaperna för ett kluster kan beskrivas som två:

  • intern homogenitet;
  • yttre isolering.

En fråga som analytiker ställer när man löser många problem är hur man organiserar data i visuella strukturer, d.v.s. utöka taxonomier.

Clustering användes till en början mest inom vetenskaper som biologi, antropologi och psykologi. Klustring har använts lite för att lösa ekonomiska problem under lång tid på grund av den specifika karaktären hos ekonomiska data och fenomen.

Kluster kan vara osammanhängande eller exklusiva (icke-överlappande, exklusiva) och överlappande.

Det bör noteras att som ett resultat av att tillämpa olika metoder för klusteranalys kan kluster av olika former erhållas. Till exempel är kluster av "kedja"-typ möjliga när klustren representeras av långa "kedjor", långsträckta kluster, etc., och vissa metoder kan skapa kluster med godtycklig form.

Olika metoder kan sträva efter att skapa kluster av specifika storlekar (t.ex. små eller stora) eller anta att det finns kluster av olika storlekar i datamängden. Vissa klusteranalysmetoder är särskilt känsliga för buller eller extremvärden, andra mindre känsliga. Som ett resultat av att använda olika klustringsmetoder kan olika resultat erhållas; detta är normalt och är en funktion av en viss algoritms funktion. Dessa funktioner bör beaktas när du väljer en klustringsmetod.

Låt oss ge en kort beskrivning av metoder för klustring.

Algoritmer baserade på dataseparation (Partitioneringsalgoritmer), inkl. iterativ:

  • uppdelning av objekt i k kluster;
  • Iterativ omfördelning av objekt för att förbättra klustring.
  • Hierarkialgoritmer:
  • agglomeration: varje objekt är initialt ett kluster, kluster,
  • ansluter till varandra bildar de ett större kluster osv.

Densitetsbaserade metoder:

  • baserat på förmågan att ansluta objekt;
  • ignorera brus och hitta kluster av godtycklig form.

Rutnät - metoder (rutnätsbaserade metoder):

  • kvantisering av objekt till rutnätsstrukturer.

Modellmetoder (modellbaserad):

  • använda modellen för att hitta kluster som bäst passar data.

Metoder för klusteranalys. Iterativa metoder.

Med ett stort antal observationer är hierarkiska metoder för klusteranalys inte lämpliga. I sådana fall används icke-hierarkiska metoder baserade på division, vilket är iterativa metoder för att fragmentera den ursprungliga populationen. Under delningsprocessen bildas nya kluster tills stoppregeln är uppfylld.

Sådan icke-hierarkisk klustring består av att dela upp en datamängd i ett visst antal individuella kluster. Det finns två tillvägagångssätt. Den första är att bestämma gränserna för kluster som de mest täta områdena i det flerdimensionella utrymmet för källdata, dvs. definiera ett kluster där det finns en stor "kondensering av punkter". Det andra tillvägagångssättet är att minimera måttet på skillnaden mellan objekt

k-betyder algoritm

Den vanligaste icke-hierarkiska metoden är k-medelalgoritmen, även kallad snabb klusteranalys. En fullständig beskrivning av algoritmen finns i Hartigan och Wong (1978). Till skillnad från hierarkiska metoder, som inte kräver preliminära antaganden om antalet kluster, för att kunna använda denna metod, är det nödvändigt att ha en hypotes om det mest sannolika antalet kluster.

K-medelalgoritmen konstruerar k kluster belägna på största möjliga avstånd från varandra. Den huvudsakliga typen av problem som k-medelalgoritmen löser är förekomsten av antaganden (hypoteser) angående antalet kluster, och de bör vara så olika som möjligt. Valet av k kan baseras på tidigare forskning, teoretiska överväganden eller intuition.

Algoritmens allmänna idé: ett givet fast antal k observationskluster jämförs med kluster så att medelvärdena i klustret (för alla variabler) skiljer sig från varandra så mycket som möjligt.

Beskrivning av algoritmen

1. Initial distribution av objekt i kluster.

  • Siffran k väljs, och i det första steget betraktas dessa punkter som "centra" för klustren.
  • Varje kluster motsvarar ett centrum.

Valet av initiala tyngdpunkter kan göras på följande sätt:

  • välja k-observationer för att maximera initialt avstånd;
  • slumpmässigt urval av k-observationer;
  • urval av de första k-observationerna.

Som ett resultat tilldelas varje objekt till ett specifikt kluster.

2. Iterativ process.

Klustrens centra beräknas, som sedan används för att beräkna de koordinatmässiga medelvärdena för klustren. Objekt omfördelas igen.

Processen med att beräkna centra och omfördela objekt fortsätter tills ett av villkoren är uppfyllt:

  • klustercentra har stabiliserats, d.v.s. alla observationer tillhör det kluster som de tillhörde före den aktuella iterationen;
  • antalet iterationer är lika med det maximala antalet iterationer.

Figuren visar ett exempel på k-medelalgoritmen för k lika med två.

Ett exempel på k-medelalgoritmen (k=2)

Att välja antal kluster är en komplex fråga. Om det inte finns några antaganden om detta antal, rekommenderas det att skapa 2 kluster, sedan 3, 4, 5, etc., jämföra de erhållna resultaten.

Kontrollera kvaliteten på klustring

Efter att ha mottagit resultaten av k-means-klusteranalysen bör du kontrollera klustringens korrekthet (dvs. bedöma hur olika klustren är från varandra).

För att göra detta beräknas medelvärden för varje kluster. Bra klustring bör ge väldigt olika medel för alla mätningar, eller åtminstone de flesta av dem.

Fördelar med k-means-algoritmen:

  • enkel användning;
  • användningshastighet;
  • förståelse och transparens av algoritmen.

Nackdelar med k-medelalgoritmen:

  • Algoritmen är för känslig för extremvärden som kan förvränga genomsnittet.

Möjlig lösning Detta problem är att använda en modifiering av algoritmen - k-medianalgoritmen;

  • Algoritmen kan vara långsam på stora databaser. En möjlig lösning på detta problem är att använda datasampling.

Bayesianska nätverk

I sannolikhetsteorin modelleras begreppet informationsberoende genom villkorligt beroende (eller strikt: frånvaron av villkorligt oberoende), som beskriver hur vår tilltro till resultatet av någon händelse förändras när vi får ny kunskap om fakta, förutsatt att vi redan visste några andra fakta.

Det är bekvämt och intuitivt att representera beroenden mellan element genom en riktad väg som förbinder dessa element i en graf. Om förhållandet mellan elementen x och y inte är direkt och utförs genom ett tredje element z, så är det logiskt att förvänta sig att det kommer att finnas ett element z på vägen mellan x och y. Sådana mellanliggande noder kommer att "klippa av" beroendet mellan x och y, dvs. simulera en situation av villkorligt oberoende mellan dem med ett känt värde av direkta påverkande faktorer.Sådana modelleringsspråk är Bayesianska nätverk, som används för att beskriva villkorliga beroenden mellan begreppen inom ett visst ämnesområde.

Bayesianska nätverk är grafiska strukturer att representera probabilistiska samband mellan ett stort antal variabler och att utföra probabilistisk slutledning baserat på dessa variabler."Naiv" (bayesiansk) klassificering är en ganska transparent och begriplig klassificeringsmetod. "Naiv" kallas den för att den bygger på antagandet om ömsesidigtoberoende av tecken.

Klassificeringsegenskaper:

1. Använda alla variabler och bestämma alla beroenden mellan dem.

2. Att ha två antaganden om variablerna:

  • alla variabler är lika viktiga;
  • alla variabler är statistiskt oberoende, d.v.s. värdet på en variabel säger ingenting om värdet på en annan.

Det finns två huvudscenarier för att använda Bayesianska nätverk:

1. Beskrivande analys. Ämnesområdet visas som en graf, vars noder representerar begrepp, och de riktade bågarna, som visas med pilar, illustrerar de direkta beroenden mellan dessa begrepp. Förhållandet mellan x och y betyder: att känna till värdet på x hjälper dig att göra en bättre gissning om värdet på y. Frånvaron av en direkt koppling mellan begrepp modellerar det villkorliga oberoendet mellan dem med kända värden för en viss uppsättning "separerande" begrepp. Till exempel är ett barns skostorlek uppenbarligen relaterat till ett barns läsförmåga genom ålder. Alltså, en större skostorlek ger större förtroende för att barnet redan läser, men om vi redan vet åldern, så kommer vi inte längre att känna till skostorleken ytterligare information om barnets förmåga att läsa.


Som ett annat, motsatt exempel, betrakta sådana initialt orelaterade faktorer som rökning och förkylningar. Men om vi känner till ett symtom, till exempel att en person drabbas av hosta på morgonen, så ökar vetskapen om att personen inte röker vår tilltro till att personen är förkyld.

2. Klassificering och prognoser. Det bayesianska nätverket, som tillåter det villkorade oberoendet av ett antal koncept, gör det möjligt att minska antalet parametrar för den gemensamma distributionen, vilket gör det möjligt att säkert uppskatta dem på tillgängliga datavolymer. Så, med 10 variabler, som var och en kan ta 10 värden, är antalet parametrar för den gemensamma fördelningen 10 miljarder - 1. Om vi ​​antar att endast 2 variabler beror på varandra mellan dessa variabler, så blir antalet parametrar 8 * (10-1) + (10*10-1) = 171. Med en gemensam fördelningsmodell som är realistisk i termer av beräkningsresurser kan vi förutsäga det okända värdet av ett begrepp som till exempel det mest sannolika värdet av detta koncept med tanke på de kända värdena för andra koncept.

Följande fördelar med Bayesian-nätverk som DataMining-metod noteras:

Modellen definierar beroenden mellan alla variabler, detta gör det enkelthantera situationer där värdena för vissa variabler är okända;

Bayesianska nätverk är ganska lätta att tolka och tillåtaPrediktiv modellering gör det enkelt att utföra what-if-scenarioanalys;

Den Bayesianska metoden låter dig kombinera mönster naturligt,härledda från data, och till exempel expertkunskap som erhållits explicit;

Att använda Bayesianska nätverk undviker problemet med överanpassning(overfitting), det vill säga överdriven komplikation av modellen, vilket är en svaghetmånga metoder (till exempel beslutsträd och neurala nätverk).

Naive Bayes-metoden har följande nackdelar:

Det är korrekt att multiplicera betingade sannolikheter endast när all inmatningvariablerna är verkligen statistiskt oberoende; även om ofta denna metodvisar ganska bra resultat när det statistiska villkoret inte är uppfylltoberoende, men teoretiskt sett borde en sådan situation hanteras av mer komplexametoder baserade på träning av Bayesianska nätverk;

Direkt bearbetning av kontinuerliga variabler är inte möjlig - de krävskonvertering till en intervallskala så att attributen är diskreta; dock sådantransformationer kan ibland leda till förlust av betydande mönster;

Klassificeringsresultatet i Naive Bayes-metoden påverkas endast avindividuella värden för indatavariabler, den kombinerade inverkan av par ellertrillingar av värden av olika attribut beaktas inte här. Detta kan förbättrasklassificeringsmodellens kvalitet i termer av dess prediktiva noggrannhet,det skulle dock öka antalet testade alternativ.

Artificiellt nervsystem

Artificiella neurala nätverk (nedan kallade neurala nätverk) kan vara synkrona och asynkrona.I synkrona neurala nätverk ändras endast dess tillstånd vid varje tidpunkt en neuron. I asynkron - tillståndet förändras omedelbart i en hel grupp av neuroner, som regel i alla lager. Det finns två grundläggande arkitekturer- skiktade och helt uppkopplade nätverk.Nyckelbegreppet i skiktade nätverk är begreppet skikt.Ett lager är en eller flera neuroner vars ingångar får samma gemensamma signal.Skiktade neurala nätverk är neurala nätverk där neuroner är uppdelade i separata grupper (lager) så att information bearbetas lager för lager.I skiktade nätverk tar neuroner i det i:te lagret emot insignaler, transformerar dem och överför dem genom förgreningspunkter till neuronerna i (i+1) lagret. Och så vidare tills det k-te lagret, som producerarutsignaler för tolk och användare. Antalet neuroner i varje lager är inte relaterat till antalet neuroner i andra lager och kan vara godtyckligt.Inom ett lager bearbetas data parallellt och över hela nätverket sker bearbetning sekventiellt - från lager till lager. Skiktade neurala nätverk inkluderar till exempel flerskiktsperceptroner, radiella basfunktionsnätverk, kognitron, icke-kognitron, associativa minnesnätverk.Signalen skickas dock inte alltid till alla neuroner i lagret. I en kognitron, till exempel, tar varje neuron i det nuvarande lagret emot signaler endast från neuroner nära sig i det föregående lagret.

Nätverk med skikt kan i sin tur vara enskikts- eller flerskiktsnätverk.

Enkelskiktsnätverk- ett nätverk bestående av ett lager.

Flerskiktsnätverk- ett nätverk med flera lager.

I ett flerskiktsnätverk kallas det första lagret för ingångslager, efterföljande lager kallas interna eller dolda, och det sista lagret kallas utdatalagret. Således är mellanliggande lager alla lager i ett flerlagers neuralt nätverk utom input och output.Nätverkets ingångsskikt kommunicerar med indata, och utgångsskiktet kommunicerar med utgången.Således kan neuroner inmatas, utmatas och döljas.Ingångsskiktet är organiserat från ingångsneuroner, som tar emot data och distribuerar det till ingångarna hos neuroner i nätverkets dolda skikt.En dold neuron är en neuron som ligger i det dolda lagret av ett neuralt nätverk.Utgångsneuroner, från vilka utgångsskiktet i nätverket är organiserat, producerarresultatet av det neurala nätverket.

I mesh-nätverk Varje neuron överför sin produktion till andra neuroner, inklusive sig själv. Nätverkets utsignaler kan vara alla eller några av utsignalerna från neuroner efter flera cykler av nätverksdrift.

Alla insignaler ges till alla neuroner.

Träning av neurala nätverk

Innan du använder ett neuralt nätverk måste det tränas.Processen att träna ett neuralt nätverk består av att anpassa dess interna parametrar till en specifik uppgift.Algoritmen för neurala nätverk är iterativ, dess steg kallas epoker eller cykler.En epok är en iteration i inlärningsprocessen, inklusive presentation av alla exempel från träningsuppsättningen och, eventuellt, kontroll av kvaliteten på lärandet på en testuppsättning. många. Inlärningsprocessen genomförs på utbildningsprovet.Träningsuppsättningen inkluderar ingångsvärdena och deras motsvarande utdatavärden för datasetet. Under träning hittar det neurala nätverket vissa beroenden mellan utmatningsfälten och inmatningsfälten.Därför ställs vi inför frågan - vilka inmatningsfält (funktioner) behöver vi?nödvändiga att använda. Inledningsvis görs valet heuristiskt, dåantalet ingångar kan ändras.

Ett problem som kan uppstå är antalet observationer i datamängden. Och även om det finns vissa regler som beskriver förhållandet mellan det erforderliga antalet observationer och nätverkets storlek, har deras riktighet inte bevisats.Antalet observationer som krävs beror på komplexiteten i det problem som ska lösas. När antalet funktioner ökar, ökar antalet observationer olinjärt; detta problem kallas "dimensionalitetens förbannelse." Vid otillräcklig mängddata, rekommenderas att använda en linjär modell.

Analytikern måste bestämma antalet lager i nätverket och antalet neuroner i varje lager.Därefter måste du tilldela sådana värden av vikter och offset som kanminimera beslutsfelet. Vikterna och förspänningarna justeras automatiskt för att minimera skillnaden mellan de önskade och mottagna utsignalerna, kallat träningsfel.Träningsfelet för det konstruerade neurala nätverket beräknas genom jämförelseoutput och målvärden (önskade). Felfunktionen bildas av de resulterande skillnaderna.

Felfunktionen är en objektiv funktion som kräver minimering i processenövervakad inlärning av ett neuralt nätverk.Med hjälp av felfunktionen kan du utvärdera kvaliteten på det neurala nätverket under träning. Till exempel används ofta summan av kvadratiska fel.Kvaliteten på utbildningen av ett neuralt nätverk avgör dess förmåga att lösa de tilldelade uppgifterna.

Omskola ett neuralt nätverk

När man tränar neurala nätverk uppstår ofta en allvarlig svårighet som kallasproblem med övermontering.Overfitting, eller overfitting - överfittingneurala nätverk till en specifik uppsättning träningsexempel, där nätverket förlorarförmåga att generalisera.Överträning uppstår när det är för mycket träning, inte tillräckligtträningsexempel eller en överkomplicerad struktur för neurala nätverk.Omskolning beror på att valet av träningsuppsättningär slumpmässigt. Från de första inlärningsstegen minskar felet. Påefterföljande steg för att minska felparametrarna (objektiv funktion).anpassa sig till träningsuppsättningens egenskaper. Detta händer dock"justering" inte till de allmänna mönstren i serien, utan till funktionerna i dess del -träningsdelmängd. Samtidigt minskar träffsäkerheten i prognosen.Ett av alternativen för att bekämpa nätverksöverträning är att dela upp träningsprovet i tvåset (träning och testning).Det neurala nätverket tränas på träningssetet. Den konstruerade modellen kontrolleras på testsetet. Dessa uppsättningar får inte korsa varandra.Med varje steg ändras modellparametrarna, men den konstanta minskningenVärdet av den objektiva funktionen uppstår just på träningsuppsättningen. När vi delar upp setet i två kan vi observera en förändring av prognosfelet på testsetet parallellt med observationer på träningssetet. någraantalet prognosfelsteg minskar på båda uppsättningarna. Dock påVid ett visst steg börjar felet på testsetet att öka, medan felet på träningssetet fortsätter att minska. Detta ögonblick anses vara början på omskolning

DataMining-verktyg

Både världsberömda ledare och nyutvecklingsföretag är involverade i utvecklingen av DataMining-sektorn på den globala mjukvarumarknaden. DataMining-verktyg kan presenteras antingen som en fristående applikation eller som tillägg till huvudprodukten.Det senare alternativet implementeras av många mjukvarumarknadsledare.Således har det redan blivit en tradition att utvecklare av universella statistiska paket, förutom traditionella metoder för statistisk analys, inkluderar i paketeten specifik uppsättning DataMining-metoder. Det här är paket som SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner). Vissa OLAP-lösningsleverantörer erbjuder också en uppsättning DataMining-metoder, till exempel Cognos-produktfamiljen. Det finns leverantörer som inkluderar DataMining-lösningar i DBMS-funktionaliteten: dessa är Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMIntelligentMinerforData).

Bibliografi

  1. Abdikeev N.M. Danko T.P. Ildemenov S.V. Kiselev A.D., "Omstrukturering av affärsprocesser. MBA-kurs", M.: Eksmo Publishing House, 2005. - 592 sid. - (MBA)
  1. Abdikeev N.M., Kiselev A.D. "Kunskapshantering i ett företag och omstrukturering av företag" - M.: Infra-M, 2011. - 382 sid. – ISBN 978-5-16-004300-5
  1. Barseghyan A.A., Kupriyanov M.S., Stepanenko V.V., Kholod I.I. "Methods and models of data analysis: OLAP and Data Mining", St. Petersburg: BHV-Petersburg, 2004, 336 s., ISBN 5-94157-522-X
  1. hertig I., Samoilenko A., "Data Mining.Utbildningskurs" St. Petersburg: Peter, 2001, 386 s.
  1. Chubukova I.A., Data Mining-kurs, http://www.intuit.ru/department/database/datamining/
  1. IanH. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Data Mining: Practical Machine Learning Tools and Techniques (tredje upplagan), ISBN 978-0-12-374856-0
  1. Petrushin V.A. , Khan L., Multimedia Data Mining och Knowledge Discovery

Ministeriet för utbildning och vetenskap i Ryska federationen

Federal State Budgetary Educational Institute of Higher Professional Education

"NATIONELLA FORSKNING TOMSK POLYTECHNIC UNIVERSITY"

Institutet för cybernetik

Inriktning Informatik och datavetenskap

Institutionen för VT

Testa

inom disciplinen informatik och datateknik

Ämne: Data Mining Methods

Introduktion

Data Mining. Grundläggande begrepp och definitioner

1 Steg i datautvinningsprocessen

2 Komponenter i intelligenta analyssystem

3 Datautvinningsmetoder

Datautvinningsmetoder

1 Härledning av föreningsregler

2 Neurala nätverksalgoritmer

3 Närmaste granne och k-närmaste grannar metoder

4 Beslutsträd

5 klustringsalgoritmer

6 genetiska algoritmer

Användningsområden

Tillverkare av verktyg för datautvinning

Kritik av metoder

Slutsats

Bibliografi

Introduktion

Resultatet av utveckling informationsteknikär den kolossala mängden data som samlas in i elektroniskt format, växer i snabb takt. Samtidigt har data som regel en heterogen struktur (texter, bilder, ljud, video, hypertextdokument, relationsdatabaser). Ackumulerat för långsiktigt data kan innehålla mönster, trender och samband, som är värdefull information för planering, prognoser, beslutsfattande och processkontroll. Men människor är fysiskt oförmögna att effektivt analysera sådana volymer av heterogena data. Metoder för traditionell matematisk statistik har länge gjort anspråk på att vara det främsta verktyget för dataanalys. De tillåter dock inte syntes av nya hypoteser, utan kan endast användas för att bekräfta förformulerade hypoteser och ”grov” utforskande analys, som utgör grunden för online analytisk bearbetning (OLAP). Ofta är det formuleringen av en hypotes som visar sig vara den svåraste uppgiften när man gör analys för efterföljande beslutsfattande, eftersom inte alla mönster i data är uppenbara vid första anblicken. Därför anses datautvinningsteknik som ett av de viktigaste och mest lovande ämnena för forskning och tillämpning inom informationsteknologibranschen. Datautvinning avser i detta fall processen att identifiera ny, korrekt och potentiellt användbar kunskap baserad på stora mängder data. Således beskrev MIT Technology Review Data Mining som en av de tio framväxande teknologierna som kommer att förändra världen.

1. Data Mining. Grundläggande begrepp och definitioner

Data Mining är processen att upptäcka tidigare okänd, icke-trivial, praktiskt användbar och tolkningsbar kunskap i "rå" data som är nödvändig för beslutsfattande inom olika områden av mänsklig aktivitet.

Kärnan och syftet med Data Mining-teknologi kan formuleras på följande sätt: det är en teknik som är designad för att söka i stora datamängder efter icke-uppenbara, objektiva och praktiska mönster.

Icke-uppenbara mönster är mönster som inte kan upptäckas med standardmetoder för informationsbearbetning eller genom expertanalys.

Objektiva mönster ska förstås som mönster som helt överensstämmer med verkligheten, i motsats till expertutlåtanden, som alltid är subjektiv.

Detta dataanalyskoncept förutsätter att:

§ data kan vara felaktiga, ofullständiga (innehålla utelämnanden), motsägelsefulla, heterogena, indirekta och samtidigt ha gigantiska volymer; därför kräver förståelse av data i specifika tillämpningar betydande intellektuell ansträngning;

§ dataanalysalgoritmer i sig kan ha "inslag av intelligens", i synnerhet förmågan att lära av prejudikat, det vill säga att dra allmänna slutsatser baserade på särskilda observationer; utvecklingen av sådana algoritmer kräver också betydande intellektuell ansträngning;

§ processerna för att bearbeta rådata till information och information till kunskap kan inte göras manuellt och kräver automatisering.

Data Mining-teknik är baserad på konceptet med mallar som återspeglar fragment av flerdimensionella relationer i data. Dessa mönster representerar mönster som är inneboende i delprover av data som kan uttryckas kompakt i en läsbar form.

Sökandet efter mönster utförs med metoder som inte är begränsade av a priori antaganden om strukturen hos provet och typen av fördelningar av värdena för de analyserade indikatorerna.

En viktig egenskap hos Data Mining är den icke-standardiserade och icke-uppenbara karaktären hos mönstren som eftersträvas. Med andra ord skiljer sig Data Mining-verktyg från statistiska databearbetningsverktyg och OLAP-verktyg genom att istället för att kontrollera förutsatta ömsesidiga beroenden av användare, kan de hitta sådana ömsesidiga beroenden oberoende baserat på tillgänglig data och bygga hypoteser om deras natur. Det finns fem standardtyper av mönster som identifieras av Data Mining-metoder:

· association - stor sannolikhet för händelser som är kopplade till varandra. Ett exempel på en förening är varor i en butik som ofta köps ihop;

· sekvens - en hög sannolikhet för en kedja av händelser relaterad i tid. Ett exempel på en sekvens är en situation där, inom en viss period efter köpet av en produkt, en annan kommer att köpas med en hög grad av sannolikhet;

· klassificering - det finns tecken som kännetecknar den grupp som den eller den händelsen eller objektet tillhör;

· klustring är ett mönster som liknar klassificering och skiljer sig från det genom att grupperna i sig inte specificeras - de identifieras automatiskt under databehandling;

· temporala mönster - förekomsten av mönster i dynamiken i beteendet hos vissa data. Ett typiskt exempel på ett tidsmönster är säsongsmässiga fluktuationer i efterfrågan på vissa varor eller tjänster.

1.1 Steg i datautvinningsprocessen

Traditionellt särskiljs följande steg i datautvinningsprocessen:

1. Studie av ämnesområdet, varvid huvudmålen för analysen formuleras.

2. Datainsamling.

Dataförbehandling:

a. Datarensning - eliminerar inkonsekvenser och slumpmässigt "brus" från källdata

b. Dataintegration - kombinera data från flera möjliga källor till ett arkiv. Datakonvertering. I detta skede omvandlas data till en form som lämpar sig för analys. Dataaggregation, attributsampling, datakomprimering och dimensionsreduktion används ofta.

4. Dataanalys. Som en del av detta steg används gruvalgoritmer för att extrahera mönster.

5. Tolkning av de hittade mönstren. Detta steg kan innefatta att visualisera de extraherade mönstren, identifiera verkligt användbara mönster baserat på någon hjälpfunktion.

Använda ny kunskap.

1.2 Komponenter i intelligenta analyssystem

Vanligtvis har datautvinningssystem följande huvudkomponenter:

1. En databas, datalager eller annat arkiv med information. Detta kan vara en eller flera databaser, datalager, kalkylblad eller andra typer av arkiv som kan rengöras och integreras.

2. Databas- eller datalagerserver. Den angivna servern är ansvarig för att hämta de väsentliga uppgifterna baserat på användarens begäran.

Kunskapsbas. Detta är domänkunskap som vägleder hur man söker och utvärderar användbarheten av de resulterande mönstren.

Kunskapstjänst för gruvdrift. Det är en integrerad del av data mining-systemet och innehåller en uppsättning funktionsmoduler för uppgifter som karaktärisering, associationssökning, klassificering, klusteranalys och variansanalys.

Mönsterutvärderingsmodul. Denna komponent beräknar mått på intresse eller användbarhet av mönster.

Grafisk användargränssnitt. Denna modul ansvarar för kommunikation mellan användaren och data mining-systemet, visualisering av mönster i olika former.

1.3 Datautvinningsmetoder

De flesta av de analysmetoder som används inom Data Mining-tekniken är välkända matematiska algoritmer och metoder. Det som är nytt i deras applikation är möjligheten att använda dem för att lösa vissa specifika problem, på grund av de framväxande egenskaperna hos hårdvara och mjukvara. Det bör noteras att de flesta Data Mining-metoder utvecklades inom ramen för teorin om artificiell intelligens. Låt oss titta på de mest använda metoderna:

Härledning av föreningsregler.

2. Neurala nätverksalgoritmer, vars idé är baserad på en analogi med nervvävnadens funktion och ligger i det faktum att de initiala parametrarna betraktas som signaler som transformeras i enlighet med de befintliga kopplingarna mellan "neuroner", och svaret från hela nätverket betraktas som svaret som resulterar från analysen på originaldata.

Att välja en nära analog till originaldata från befintliga historiska data. Kallas även "närmaste granne"-metoden.

Beslutsträd är en hierarkisk struktur baserad på en uppsättning frågor som kräver ett "Ja" eller "Nej" svar.

Klustermodeller används för att gruppera liknande händelser i grupper baserat på liknande värden för flera fält i en datamängd.

I nästa kapitel kommer vi att beskriva ovanstående metoder mer i detalj.

2. Datautvinningsmetoder

2.1 Slutledning av föreningsregler

Föreningsregler är regler av formen "om... då...". Att söka efter sådana regler i en datamängd avslöjar dolda kopplingar i till synes orelaterade data. Ett av de vanligaste exemplen på att hitta föreningsregler är problemet med att hitta stabila förbindelser i en kundvagn. Detta problem är att avgöra vilka produkter som köps av kunder tillsammans, så att marknadsförare på lämpligt sätt kan placera dessa produkter i butiken för att öka försäljningen.

Associationsregler definieras som uttalanden av formen (X1,X2,...,Xn) -> Y, där det antyds att Y kan vara närvarande i en transaktion förutsatt att X1,X2,...,Xn är närvarande i samma transaktion. Det bör noteras att ordet "kan" antyder att regeln inte är en identitet, utan är tillfredsställd endast med viss sannolikhet. Dessutom kan Y vara en uppsättning element, snarare än bara ett element. Sannolikheten att hitta Y i en transaktion som innehåller elementen X1,X2,...,Xn kallas konfidens. Andelen transaktioner som innehåller en regel av det totala antalet transaktioner kallas support. Den nivå av förtroende som måste överstiga förtroendet för en regel kallas intressanthet.

Det finns olika typer av föreningsregler. I sin enklaste form kommunicerar föreningsreglerna endast närvaron eller frånvaron av en förening. Sådana regler kallas Boolean Association Rules. Ett exempel på en sådan regel: "kunder som köper yoghurt köper också smör med låg fetthalt."

Regler som grupperar flera föreningsregler kallas Multilevel eller Generalized Association Rules. När man konstruerar sådana regler grupperas element vanligtvis enligt en hierarki, och sökningen utförs på högsta begreppsnivå. Till exempel, "kunder som köper mjölk köper också bröd." I det här exemplet innehåller mjölk och bröd en hierarki av olika typer och märken, men sökning på bottennivån kommer inte att avslöja intressanta regler.

En mer komplex typ av regel är Quantitative Association Rules. Denna typ av regel söks med hjälp av kvantitativa (t.ex. pris) eller kategoriska (t.ex. kön) attribut, och definieras som ( , ,…,} -> . Till exempel, "köpare vars ålder är mellan 30 och 35 år med en inkomst på mer än 75 000 per år köper bilar som kostar mer än 20 000."

Ovanstående typer av regler tar inte upp det faktum att transaktioner till sin natur är tidsberoende. Till exempel kommer sökningar innan en produkt har listats för försäljning eller efter att den har försvunnit från marknaden att påverka stödtröskeln negativt. Med hänsyn till detta introducerades begreppet attributlivstid i algoritmer för att söka efter tillfälliga associationsregler (Temporal Association Rules).

Problemet med att söka efter associationsregler kan generellt delas upp i två delar: sökning efter ofta förekommande uppsättningar av element, och generering av regler baserat på de hittade ofta förekommande uppsättningarna. Tidigare studier har till största delen följt dessa linjer och utvidgat dem i olika riktningar.

Sedan tillkomsten av Apriori-algoritmen är denna algoritm den vanligaste i det första steget. Många förbättringar, till exempel i hastighet och skalbarhet, syftar till att förbättra Apriori-algoritmen, att korrigera dess felaktiga egenskap att generera för många kandidater för de vanligast förekommande uppsättningarna av element. Apriori genererar uppsättningar av element med endast stora set, som finns i föregående steg, utan att ompröva transaktionerna. Den modifierade AprioriTid-algoritmen förbättrar Apriori genom att endast använda databasen vid första passet. Vid beräkning i efterföljande steg används endast de data som skapades i det första passet och som är mycket mindre till storleken än den ursprungliga databasen. Detta leder till en enorm ökning av produktiviteten. En ytterligare förbättrad version av algoritmen, kallad AprioriHybrid, kan erhållas genom att använda Apriori på de första passen, och sedan byta till AprioriTid vid senare pass, när de k:te kandidatuppsättningarna redan kan finnas helt och hållet i datorns minne.

Ytterligare ansträngningar för att förbättra Apriori-algoritmen är relaterade till parallellisering av algoritmen (räknedistribution, datadistribution, kandidatdistribution, etc.), dess skalning (intelligent datadistribution, hybriddistribution), införandet av nya datastrukturer, såsom träd av ofta förekommande element (FP-tillväxt).

Det andra steget kännetecknas främst av autenticitet och intressanthet. De nya ändringarna lägger till stödet för dimensionalitet, kvalitet och timing som beskrivs ovan till de traditionella booleska regelreglerna. En evolutionär algoritm används ofta för att hitta regler.

2.2 Neurala nätverksalgoritmer

Konstgjorda neurala nätverk dök upp som ett resultat av tillämpningen av matematiska apparater för att studera hur det mänskliga nervsystemet fungerar i syfte att reproduktionen. Nämligen: nervsystemets förmåga att lära sig och rätta till fel, vilket borde göra det möjligt för oss att simulera, om än ganska grovt, den mänskliga hjärnans arbete. Den huvudsakliga strukturella och funktionella delen av det neurala nätverket är den formella neuronen, som visas i fig. 1, där x0, x1,..., xn är komponenterna i insignalvektorn, w0,w1,...,wn är värdena för vikterna av neurons insignaler, och y är neurons utsignal signal.

Ris. 1. Formell neuron: synapser (1), adderare (2), omvandlare (3).

En formell neuron består av 3 typer av element: synapser, adderare och omvandlare. En synaps kännetecknar styrkan i sambandet mellan två neuroner.

Adderaren adderar insignalerna, tidigare multiplicerade med motsvarande vikter. Omvandlaren implementerar funktionen av ett argument - utdata från adderaren. Denna funktion kallas neurons aktiveringsfunktion eller överföringsfunktion.

De formella neuronerna som beskrivs ovan kan kombineras på ett sådant sätt att utsignalerna från vissa neuroner är input till andra. Den resulterande uppsättningen av sammankopplade neuroner kallas artificiella neurala nätverk. neurala nätverk, ANN) eller, kort sagt, neurala nätverk.

Det finns följande tre generella typer av neuroner, beroende på deras position i det neurala nätverket:

Ingångsneuroner (ingångsnoder) till vilka ingångssignaler tillförs. Sådana neuroner har vanligtvis en ingång med enhetsvikt, det finns ingen bias och neuronutgångsvärdet är lika med insignalen;

Utgångsnoder, vars utvärden representerar de resulterande utsignalerna från det neurala nätverket;

Dolda neuroner (dolda noder) som inte har direkta kopplingar med insignaler, medan värdena för utsignalerna från dolda neuroner inte är utsignalerna från ANN.

Baserat på strukturen av interneuronanslutningar särskiljs två klasser av ANN:

Feedforward ANNs, där signalen endast fortplantar sig från ingångsneuronerna till utgångsneuronerna.

Återkommande ANN - ANN med respons. I sådana ANN kan signaler överföras mellan alla neuroner, oavsett deras placering i ANN.

Det finns två allmänna tillvägagångssätt för att träna en ANN:

Träning med lärare.

Lärande utan lärare.

Övervakat lärande innebär användning av en förgenererad uppsättning utbildningsexempel. Varje exempel innehåller en vektor av ingångssignaler och en motsvarande vektor av referensutgångssignaler, som beror på den aktuella uppgiften. Detta set kallas träningssetet eller träningssetet. Att träna ett neuralt nätverk syftar till att ändra vikterna för ANN-anslutningarna på ett sådant sätt att värdena för ANN-utgångssignalerna skiljer sig så lite som möjligt från de erforderliga värdena för utgångssignalerna för en given vektor av insignaler .

Vid oövervakad inlärning justeras kopplingsvikterna antingen som ett resultat av konkurrens mellan neuroner, eller med hänsyn till korrelationen av utsignalerna från neuroner mellan vilka det finns en koppling. Vid oövervakat lärande används inget träningsset.

Neurala nätverk används för att lösa ett brett spektrum av problem, såsom nyttolastplanering för rymdfärjor och prognostisering av växelkurser. De används dock inte ofta i datautvinningssystem på grund av modellens komplexitet (kunskap som registreras som vikten av flera hundra interna kopplingar är helt bortom mänsklig analys och tolkning) och den långa träningstiden på en stor träningsuppsättning. Å andra sidan har neurala nätverk sådana fördelar för användning i dataanalysuppgifter som motstånd mot bullriga data och hög noggrannhet.

2.3 Närmaste granne och k-närmaste granne metoder

Grunden för den närmaste granne-algoritmen (närmaste granne-algoritmen) och k-närmaste granne-algoritmen (KNN) är likheten mellan objekt. Algoritmen för närmaste granne väljer, bland alla kända objekt, det objekt som är så nära som möjligt (med hjälp av avståndsmåttet mellan objekt, till exempel euklidiskt) till ett nytt tidigare okänt objekt. Det största problemet med metoden närmaste granne är dess känslighet för extremvärden i träningsdata.

Det beskrivna problemet kan undvikas med KNN-algoritmen, som bland alla observationer identifierar de k-närmaste grannarna som liknar det nya objektet. Utifrån klasserna av närmaste grannar tas beslut om det nya objektet. En viktig uppgift för denna algoritm är att välja koefficienten k - antalet poster som kommer att anses vara lika. En modifiering av algoritmen där bidraget från en granne är proportionellt mot avståndet till det nya objektet (k-vägd närmaste granne-metod) gör att man kan uppnå större klassificeringsnoggrannhet. Metoden k närmaste grannar låter dig också utvärdera prognosens noggrannhet. Till exempel, om alla k närmaste grannar har samma klass, då är sannolikheten att objektet som testas kommer att ha samma klass mycket hög.

Bland funktionerna i algoritmen är det värt att notera dess motstånd mot anomala extremvärden, eftersom sannolikheten för att en sådan post inkluderas i antalet k-närmaste grannar är låg. Om detta hände, kommer inverkan på röstningen (särskilt viktad) (för k>2) också med största sannolikhet att vara obetydlig, och därför kommer påverkan på klassificeringsresultatet också att vara liten. Fördelarna är också enkelheten i implementeringen, enkel tolkning av resultatet av algoritmen, möjligheten att modifiera algoritmen genom att använda de mest lämpliga kombinationsfunktionerna och mätvärdena, vilket gör att du kan justera algoritmen till en specifik uppgift. KNN-algoritmen har också ett antal nackdelar. För det första måste datamängden som används för algoritmen vara representativ. För det andra kan modellen inte separeras från data: alla exempel måste användas för att klassificera ett nytt exempel. Denna funktion begränsar kraftigt användningen av algoritmen.

2.4 Beslutsträd

Termen "beslutsträd" hänvisar till en familj av algoritmer baserade på representation av klassificeringsregler i en hierarkisk, sekventiell struktur. Detta är den mest populära klassen av algoritmer för att lösa datautvinningsproblem.

En familj av algoritmer för att konstruera beslutsträd gör det möjligt att förutsäga värdet av en parameter för ett givet fall baserat på en stor mängd data om andra liknande fall. Vanligtvis används algoritmer av denna familj för att lösa problem som gör det möjligt att dela upp alla initiala data i flera diskreta grupper.

När beslutsträdkonstruktionsalgoritmer tillämpas på en uppsättning initialdata, visas resultatet som ett träd. Sådana algoritmer gör det möjligt att implementera flera nivåer av sådan uppdelning, dela upp de resulterande grupperna (trädgrenar) i mindre baserat på andra egenskaper. Uppdelningen fortsätter tills värdena som är tänkta att förutsägas blir desamma (eller, i fallet med ett kontinuerligt värde på den förutsagda parametern, stänger) för alla resulterande grupper (trädets blad). Det är dessa värden som används för att göra förutsägelser baserade på denna modell.

Funktionen av algoritmer för att konstruera beslutsträd baseras på användning av metoder för regressions- och korrelationsanalys. En av de mest populära algoritmerna i denna familj är CART (Classification and Regression Trees), baserad på att dela upp data i en trädgren i två underordnade grenar; Dessutom beror den ytterligare uppdelningen av en viss gren på hur mycket initial data denna gren beskriver. Vissa andra liknande algoritmer låter dig dela upp en gren i fler underordnade grenar. I detta fall görs divisionen på basis av den högsta korrelationskoefficienten för data som beskrivs av grenen mellan parametern enligt vilken divisionen sker och parametern som därefter måste förutsägas.

Tillvägagångssättets popularitet är förknippat med klarhet och tydlighet. Men beslutsträd är i grunden oförmögna att hitta de "bästa" (mest kompletta och korrekta) reglerna i data. De implementerar den naiva principen om sekventiell visning av funktioner och hittar faktiskt delar av verkliga mönster, vilket bara skapar en illusion av en logisk slutsats.

2.5 Klustringsalgoritmer

Klustring är uppgiften att dela upp en uppsättning objekt i grupper som kallas kluster. Den största skillnaden mellan klustring och klassificering är att listan över grupper inte är tydligt definierad och bestäms under driften av algoritmen.

Tillämpningen av klusteranalys i allmänhet kommer ner till följande steg:

· urval av ett urval av objekt för klustring;

· definiera en uppsättning variabler med vilka objekt i urvalet kommer att bedömas. Om det behövs, normalisera värdena för variabler;

· beräkning av likhetsmåttvärden mellan objekt;

· tillämpning av klusteranalysmetoden för att skapa grupper av liknande objekt (kluster);

· presentation av analysresultat.

Efter att ha tagit emot och analyserat resultaten är det möjligt att justera den valda metriken och klustringsmetoden tills det optimala resultatet erhålls.

Klustringsalgoritmer inkluderar hierarkiska och platta grupper. Hierarkiska algoritmer (även kallade taxonomialgoritmer) bygger inte bara en partition av provet till disjunkta kluster, utan ett system av kapslade partitioner. Algoritmens utdata är således ett träd av kluster, vars rot är hela provet, och löven är de minsta klustren. Platta algoritmer konstruerar en partition av objekt till kluster som inte skär varandra.

En annan klassificering av klustringsalgoritmer är i skarpa och otydliga algoritmer. Tydliga (eller icke-överlappande) algoritmer tilldelar varje provobjekt ett klusternummer, det vill säga varje objekt tillhör endast ett kluster. Fuzzy (eller korsande) algoritmer tilldelar varje objekt en uppsättning verkliga värden som visar graden av objektets relation till klustren. Varje objekt tillhör alltså varje kluster med en viss sannolikhet.

Bland hierarkiska klustringsalgoritmer finns det två huvudtyper: bottom-up och top-down algoritmer. Top-down-algoritmer fungerar enligt en top-down-princip: först placeras alla objekt i ett kluster, som sedan delas upp i mindre och mindre kluster. Vanligare är bottom-up-algoritmer, som börjar med att placera varje objekt i ett separat kluster och sedan kombinera klustren till större och större tills alla objekt i provet finns i ett enda kluster. Således konstrueras ett system av kapslade partitioner. Resultaten av sådana algoritmer presenteras vanligtvis i form av ett träd.

En nackdel med hierarkiska algoritmer är systemet med kompletta partitioner, vilket kan vara onödigt i samband med att problemet löses.

Låt oss nu överväga platta algoritmer. Den enklaste bland denna klass är kvadratiska felalgoritmer. Klustringsproblemet för dessa algoritmer kan betraktas som att konstruera en optimal uppdelning av objekt i grupper. I det här fallet kan optimitet definieras som kravet på att minimera rotmedelkvadratfelet för partitionering:

,

Var c j - "massacentrum" för klustret j(punkt med genomsnittliga egenskaper för ett givet kluster).

Den vanligaste algoritmen i denna kategori är k-medelmetoden. Denna algoritm bygger ett givet antal kluster placerade så långt ifrån varandra som möjligt. Algoritmens arbete är uppdelat i flera steg:

Välj slumpmässigt k punkter som är de initiala "masscentrumen" för klustren.

2. Tilldela varje objekt till klustret med närmaste "massacentrum".

Om algoritmstoppkriteriet inte är uppfyllt, gå tillbaka till steg 2.

Den minsta förändringen i medelkvadratfelet väljs vanligtvis som kriterium för att stoppa algoritmen. Det är också möjligt att stoppa algoritmen om det vid steg 2 inte fanns några objekt som flyttade från kluster till kluster. Nackdelarna med denna algoritm inkluderar behovet av att specificera antalet kluster för partitionering.

Den mest populära fuzzy klustringsalgoritmen är c-means-algoritmen. Det är en modifiering av k-medelmetoden. Algoritmsteg:

1. Välj den initiala fuzzy partitionen n föremål på k kluster genom att välja en medlemsmatris U storlek n x k.

2. Använd matris U för att hitta värdet på kriteriet för luddigt fel:

,

Var c k - "massacentrum" för det luddiga klustret k:

3. Gruppera om objekt för att minska detta luddiga felkriteriumvärde.

4. Gå tillbaka till steg 2 tills matrisen ändras U kommer inte att bli obetydlig.

Denna algoritm kanske inte är lämplig om antalet kluster är okänt i förväg, eller om det är nödvändigt att entydigt tilldela varje objekt till ett kluster.

Nästa grupp av algoritmer är algoritmer baserade på grafteori. Kärnan i sådana algoritmer är att ett urval av objekt representeras i form av en graf G=(V, E), vars hörn motsvarar objekt, och vars kanter har en vikt som är lika med "avståndet" mellan objekt. Fördelarna med grafklustringsalgoritmer är tydlighet, relativ enkel implementering och möjligheten att införa olika förbättringar baserat på geometriska överväganden. De huvudsakliga algoritmerna är algoritmen för att identifiera anslutna komponenter, algoritmen för att konstruera ett minsta spännträd och lager-för-lager-klustringsalgoritmen.

För att välja en parameter R Vanligtvis konstrueras ett histogram av fördelningar av parvisa avstånd. I uppgifter med en väldefinierad klusterstruktur av data kommer histogrammet att ha två toppar - en motsvarar avstånd inom kluster, den andra - avstånd mellan kluster. Parameter R väljs från minimizonen mellan dessa toppar. Samtidigt är det ganska svårt att styra antalet kluster med hjälp av en avståndströskel.

Algoritmen för minsta spännträd konstruerar först ett minsta spännträd på en graf och tar sedan sekventiellt bort kanterna med den största vikten. Lager-för-lager-klustringsalgoritmen bygger på att identifiera anslutna grafkomponenter på en viss nivå av avstånd mellan objekt (vertices). Avståndsnivån ställs in av avståndströskeln c. Till exempel, om avståndet mellan objekt är , då .

Lager-för-lager-klustringsalgoritmen genererar en sekvens av subgrafer av grafen G, som återspeglar hierarkiska relationer mellan kluster:

,

Var G t = (V, E t ) - nivågraf Med t, ,

Med t - t:te avståndströskel, m - antal hierarkinivåer,
G 0 = (V, o), o är den tomma uppsättningen grafkanter som erhålls av t 0 = 1,
G m = G, det vill säga en graf över objekt utan avståndsbegränsningar (längden på grafens kanter), eftersom t m = 1.

Genom att ändra avståndströskelvärdena ( Med 0 , …, Med m), där 0 = Med 0 < Med 1 < …< Med m = 1, är det möjligt att styra djupet av hierarkin för de resulterande klustren. Sålunda kan lager-för-lager-klustringsalgoritmen skapa både en platt och hierarkisk partition av data.

Clustering låter dig uppnå följande mål:

· förbättrar förståelsen av data genom att identifiera strukturella grupper. Att dela in urvalet i grupper av liknande objekt gör det möjligt att förenkla ytterligare databearbetning och beslutsfattande genom att tillämpa en annan analysmetod för varje kluster;

· låter dig lagra data kompakt. För att göra detta, istället för att lagra hela provet, kan du behålla en typisk observation från varje kluster;

· upptäckt av nya atypiska föremål som inte hamnade i något kluster.

Vanligtvis används klustring som en hjälpmetod vid dataanalys.

2.6 Genetiska algoritmer

Genetiska algoritmer är bland de universella optimeringsmetoderna som tillåter att lösa problem av olika slag (kombinatoriska, allmänna problem med och utan begränsningar) och varierande grad av komplexitet. Samtidigt kännetecknas genetiska algoritmer av möjligheten till både enstaka kriterier och multikriteriesökning i ett stort utrymme, vars landskap inte är jämnt.

Denna grupp av metoder använder en iterativ process av evolution av en sekvens av generationer av modeller, inklusive operationerna för selektion, mutation och korsning. I början av algoritmen bildas populationen slumpmässigt. För att bedöma kvaliteten på de kodade lösningarna används fitnessfunktionen, som är nödvändig för att beräkna konditionen för varje individ. Baserat på resultaten av bedömningen av individerna väljs de som passar bäst för korsning. Som ett resultat av korsning av utvalda individer genom tillämpning av den genetiska korsningsoperatorn skapas avkommor, vars genetiska information bildas som ett resultat av utbytet av kromosominformation mellan förälderindividerna. De skapade ättlingarna bildar en ny population, och några av ättlingarna muterar, vilket uttrycks i en slumpmässig förändring av deras genotyper. Stadiet, inklusive sekvensen "Befolkningsbedömning" - "Urval" - "Korsning" - "Mutation", kallas generering. Utvecklingen av en befolkning består av en sekvens av sådana generationer.

Följande algoritmer för att välja individer för korsning särskiljs:

· Panmixia. Båda individerna som kommer att bilda ett föräldrapar är slumpmässigt utvalda från hela populationen. Varje individ kan bli medlem i flera par. Detta tillvägagångssätt är universellt, men effektiviteten av algoritmen minskar med ökande befolkningsstorlek.

· Urval. Föräldrar kan vara individer med minst genomsnittlig kondition. Detta tillvägagångssätt säkerställer snabbare konvergens av algoritmen.

· Inavel. Metoden bygger på bildandet av ett par baserat på nära släktskap. Här förstås släktskap som avståndet mellan medlemmar i en population, både i betydelsen det geometriska avståndet för individer i parameterrummet och Heming-avståndet mellan genotyper. Därför skiljer man på genotypisk och fenotypisk inavel. Den första medlemmen i paret som ska korsas väljs slumpmässigt, och den andra är mer sannolikt den individ som är närmast den. Inavel kan kännetecknas av egenskapen att koncentrera sökningen i lokala noder, vilket faktiskt leder till uppdelning av befolkningen i separata lokala grupper runt områden i landskapet som är misstänkta för extremer.

· Utavel. Bildande av ett par baserat på avlägset släktskap, för de mest avlägsna individerna. Utavel syftar till att förhindra att algoritmen konvergerar till redan hittade lösningar, vilket tvingar algoritmen att titta på nya, outforskade områden.

Algoritmer för att bilda en ny population:

· Urval med förskjutning. Av alla individer med samma genotyper föredras de vars kondition är högre. Således uppnås två mål: de bästa lösningarna som hittas, som har olika kromosomuppsättningar, går inte förlorade, och tillräcklig genetisk mångfald upprätthålls ständigt i befolkningen. Förskjutning bildar en ny population av avlägset belägna individer, istället för att individer grupperar sig kring den nuvarande lösningen. Denna metod används för multiextremala problem.

· Elitval. Elitvalsmetoder säkerställer att urvalet säkerställer att de bästa medlemmarna av befolkningen överlever. Samtidigt går några av de bästa individerna vidare till nästa generation utan några förändringar. Den snabba konvergensen som elitvalet ger kan kompenseras med en lämplig metod för att välja föräldrapar. I det här fallet används ofta utavel. Det är denna kombination av "utavel - elitval" som är en av de mest effektiva.

· Val av turneringar. Turneringsval implementerar n turneringar för att välja n individer. Varje turnering bygger på att välja k element från befolkningen och välja den bästa individen bland dem. Det vanligaste är turneringsval med k = 2.

En av de mest populära tillämpningarna av genetiska algoritmer inom området Data Mining är sökandet efter den mest optimala modellen (sök efter en algoritm som motsvarar specifikationerna för ett visst område). Genetiska algoritmer används främst för att optimera topologin för neurala nätverk och vikter. Men de kan också användas som ett oberoende verktyg.

3. Ansökningar

Data Mining-teknologi har ett verkligt brett utbud av applikationer, och är i själva verket en uppsättning universella verktyg för att analysera data av alla slag.

Marknadsföring

Ett av de allra första områdena där datautvinningsteknik användes var marknadsföringsområdet. Uppgiften med vilken utvecklingen av Data Mining-metoder började kallas varukorgsanalys.

Denna uppgift är att identifiera produkter som köpare tenderar att köpa tillsammans. Kunskap om varukorgen är nödvändig för att genomföra reklamkampanjer, utforma personliga rekommendationer till kunder, utveckla en strategi för att skapa varulager och sätt att lägga ut dem i försäljningsområden.

Även inom marknadsföring löses uppgifter som att bestämma målgrupp för en produkt för mer framgångsrik marknadsföring; Tidsmönsterforskning som hjälper företag att fatta lagerbeslut; skapande av prediktiva modeller, som gör det möjligt för företag att känna igen arten av behoven hos olika kategorier av kunder med visst beteende; förutsäga kundlojalitet, vilket gör att du i förväg kan identifiera ögonblicket för kundens avgång när du analyserar hans beteende och eventuellt förhindra förlusten av en värdefull kund.

Industri

Ett av de viktiga områdena inom detta område är övervakning och kvalitetskontroll, där det med hjälp av analysverktyg är möjligt att förutsäga utrustningsfel, förekomst av felfunktioner och planera reparationsarbeten. Att förutsäga populariteten för vissa funktioner och veta vilka funktioner som vanligtvis beställs tillsammans hjälper till att optimera produktionen och fokusera den på konsumenternas verkliga behov.

Medicin

Inom medicin används dataanalys också ganska framgångsrikt. Exempel på uppgifter är att analysera undersökningsresultat, diagnostik, jämföra effektiviteten av behandlingsmetoder och läkemedel, analysera sjukdomar och deras spridning samt identifiera biverkningar. Data Mining-teknologier som associationsregler och sekventiella mönster har framgångsrikt använts för att identifiera samband mellan mediciner och biverkningar.

Molekylär genetik och genteknik

Den kanske mest akuta och samtidigt tydliga uppgiften att upptäcka mönster i experimentella data är inne molekylär genetik och genteknik. Här formuleras det som en definition av markörer, som förstås som genetiska koder som styr vissa fenotypiska egenskaper hos en levande organism. Sådana koder kan innehålla hundratals, tusentals eller fler relaterade element. Resultatet av analytisk dataanalys är också det samband som genetiska forskare upptäckt mellan förändringar i den mänskliga DNA-sekvensen och risken att utveckla olika sjukdomar.

Tillämpad kemi

Data Mining-metoder används också inom området tillämpad kemi. Här uppstår ofta frågan om att klargöra egenskaperna hos den kemiska strukturen hos vissa föreningar som bestämmer deras egenskaper. Denna uppgift är särskilt relevant vid analys av komplexa kemiska föreningar, vars beskrivning inkluderar hundratals och tusentals strukturella element och deras anslutningar.

Bekämpa brott

Datautvinningsverktyg har använts relativt nyligen inom säkerhet, men praktiska resultat har redan erhållits som bekräftar effektiviteten av datautvinning på detta område. Schweiziska forskare har utvecklat ett system för att analysera protestaktivitet för att förutsäga framtida incidenter och ett system för att spåra nya cyberhot och hackeraktioner i världen. Det senaste systemet låter dig förutse cyberhot och andra risker informationssäkerhet. Data Mining-metoder används också framgångsrikt för att upptäcka kreditkortsbedrägerier. Genom att analysera tidigare transaktioner som senare visade sig vara bedrägliga identifierar banken några mönster av sådana bedrägerier.

Andra applikationer

· Riskanalys. Till exempel, genom att identifiera kombinationer av faktorer som är förknippade med utbetalda skador, kan försäkringsgivare minska sina ansvarsförluster. Det finns ett känt fall där ett stort försäkringsbolag i USA upptäckte att de belopp som betalades på anspråk från gifta personer var dubbelt så höga som de belopp som betalades på fordringar av ensamstående. Företaget svarade på denna nya kunskap genom att revidera sin allmänna policy att erbjuda rabatter till familjekunder.

· Meteorologi. Väderförutsägelser med hjälp av neurala nätverksmetoder, i synnerhet självorganiserande Kohonen-kartor används.

· Personalpolicy. Analysverktyg hjälper HR-tjänster att välja ut de mest framgångsrika kandidaterna baserat på dataanalys av deras CV, och modellera egenskaperna hos idealiska medarbetare för en viss position.

4. Tillverkare av verktyg för datautvinning

Data Mining-verktyg är traditionellt dyra mjukvaruprodukter. Tills nyligen var de största konsumenterna av denna teknik därför banker, finans- och försäkringsbolag, stora handelsföretag, och huvuduppgifterna som kräver användning av Data Mining ansågs vara bedömningen av kredit- och försäkringsrisker och utvecklingen av marknadsföringspolicyer , taxeplaner och andra principer för att arbeta med kunder. Under de senaste åren har situationen genomgått vissa förändringar: relativt billiga Data Mining-verktyg och till och med fritt distribuerade system har dykt upp på mjukvarumarknaden, vilket har gjort denna teknik tillgänglig för små och medelstora företag.

Bland betalda verktyg och dataanalyssystem är ledare SAS Institute (SAS Enterprise Miner), SPSS (SPSS, Clementine) och StatSoft (STATISTICA Data Miner). Välkända lösningar är från Angoss (Angoss KnowledgeSTUDIO), IBM (IBM SPSS Modeler), Microsoft (Microsoft Analysis Services) och (Oracle) Oracle Data Mining.

Valet av gratis programvara är också varierat. Det finns både universella analysverktyg, såsom JHepWork, KNIME, Orange, RapidMiner, och specialiserade verktyg, till exempel, Carrot2 - ett ramverk för klustring av textdata och sökfrågeresultat, Chemicalize.org - en lösning inom området tillämpad kemi, NLTK (Natural Language Toolkit) verktyg för bearbetning av naturligt språk.

5. Kritik mot metoder

Resultaten av Data Mining beror till stor del på nivån av dataförberedelser och inte på de "underbara kapaciteterna" hos någon algoritm eller uppsättning algoritmer. Cirka 75 % av arbetet inom Data Mining består av datainsamling, vilket sker innan analysverktygen tillämpas. Analfabet användning av verktyg kommer att leda till ett slöseri med företagets potential, och ibland miljontals dollar.

Åsikt från Herb Edelstein, en världskänd expert inom området Data Mining, Data Warehousing och CRM: "En nyligen genomförd studie av Two Crows visade att Data Mining fortfarande är i ett tidigt utvecklingsstadium. Många organisationer är intresserade av denna teknik, men endast ett fåtal genomför sådana projekt aktivt. Lyckades ta reda på en till viktig poäng: Processen att implementera Data Mining i praktiken visar sig vara mer komplex än förväntat. Teams bärs med av myten att Data Mining-verktyg är enkla att använda. Det antas att det räcker att köra ett sådant verktyg på en terabyte-databas, och användbar information kommer omedelbart att visas. Faktum är att ett framgångsrikt Data Mining-projekt kräver förståelse för aktiviteten, kunskap om data och verktyg och processen för dataanalys.” Innan du använder Data Mining-teknik är det därför nödvändigt att noggrant analysera de begränsningar som sätts av metoderna och de kritiska problem som är förknippade med det, samt att noggrant utvärdera teknikens kapacitet. Kritiska frågor inkluderar följande:

1. Tekniken kan inte ge svar på frågor som inte har ställts. Det kan inte ersätta analytikern, utan ger honom bara ett kraftfullt verktyg för att underlätta och förbättra hans arbete.

2. Komplexiteten i att utveckla och driva en Data Mining-applikation.

Eftersom den denna teknikär ett tvärvetenskapligt område, för att utveckla en applikation som inkluderar Data Mining, är det nödvändigt att involvera specialister från olika områden, samt säkerställa deras högkvalitativa interaktion.

3. Användarkvalifikationer.

Olika Data Mining-verktyg har olika grader av användarvänlighet i gränssnittet och kräver vissa användarkvalifikationer. Det är därför programvara måste motsvara användarens utbildningsnivå. Användningen av Data Mining bör vara oupplösligt kopplad till att förbättra användarens kvalifikationer. Men det finns för närvarande få Data Mining-specialister som är väl insatta i affärsprocesser.

4. Det är omöjligt att extrahera användbar information utan en god förståelse av informationens väsen.

Det krävs noggrant val av modell och tolkning av de beroenden eller mönster som upptäcks. Att arbeta med sådana verktyg kräver därför ett nära samarbete mellan en domänexpert och en verktygsspecialist för Data Mining. Beständiga modeller måste integreras intelligent i affärsprocesser för att modeller ska kunna utvärderas och uppdateras. Nyligen har Data Mining-system levererats som en del av datalagringsteknik.

5. Svårigheter att förbereda data.

Framgångsrik analys kräver dataförbehandling av hög kvalitet. Enligt analytiker och databasanvändare kan förbearbetningsprocessen ta upp till 80 % av hela Data Mining-processen.

För att tekniken ska fungera för sig själv kommer det alltså att krävas mycket ansträngning och tid, vilket går till preliminär dataanalys, modellval och justering av den.

6. En stor andel falska, opålitliga eller värdelösa resultat.

Genom att använda Data Mining-teknik kan du hitta mycket värdefull information, som kan ge en betydande fördel i ytterligare planering, förvaltning och beslutsfattande. Resultaten som erhålls med Data Mining-metoder innehåller dock ganska ofta falska och meningslösa slutsatser. Många experter hävdar att Data Mining-verktyg kan producera ett stort antal statistiskt opålitliga resultat. För att minska andelen sådana resultat är det nödvändigt att kontrollera lämpligheten hos de erhållna modellerna på testdata. Det är dock omöjligt att helt undvika falska slutsatser.

7. Hög kostnad.

Kvalitativ programvaraär resultatet av betydande ansträngningar från byggherrens sida. Därför är Data Mining-mjukvara traditionellt en dyr mjukvaruprodukt.

8. Tillgång till tillräckligt representativa data.

Data Mining-verktyg, till skillnad från statistiska, kräver teoretiskt sett inte en strikt definierad mängd historisk data. Denna funktion kan orsaka upptäckt av opålitliga, falska modeller och, som ett resultat, fatta felaktiga beslut baserat på dem. Det är nödvändigt att övervaka den statistiska signifikansen av den upptäckta kunskapen.

neural nätverksalgoritm klustringsdatautvinning

Slutsats

Dana en kort beskrivning av användningsområden och ger kritik av Data Mining-teknik och åsikter från experter inom detta område.

Listalitteratur

1. Han och Micheline Kamber. Data Mining: Koncept och tekniker. Andra upplagan. - University of Illinois i Urbana-Champaign

Berry, Michael J. A. Data mining-tekniker: för marknadsföring, försäljning och hantering av kundrelationer - 2nd ed.

Siu Nin Lam. Upptäcka föreningsregler inom datautvinning. - Institutionen för datavetenskap University of Illinois i Urbana-Champaign




Topp