Ismeretlen minták az ismert adatokban. Bevezetés a modern adatbányászatba. Legközelebbi szomszéd és k-legközelebbi szomszéd módszer

Adatbányászati ​​eszközök

Jelenleg az adatbányászati ​​technológiát számos kereskedelmi és szabadon terjesztett szoftvertermék képviseli. Ezen termékek meglehetősen teljes és rendszeresen frissített listája megtalálható a weboldalon www. kdnuggets. com, adatbányászatnak szentelt. Az adatbányászati ​​szoftvertermékek ugyanazon elvek szerint osztályozhatók, amelyek a technológia besorolásának alapját képezik. Egy ilyen besorolásnak azonban nem lesz gyakorlati értéke. A nagy piaci verseny és a műszaki megoldások teljessége iránti vágy miatt az adatbányászati ​​termékek közül sok az analitikai technológiák alkalmazásának minden aspektusát lefedi. Ezért ésszerűbb az adatbányászati ​​termékeket aszerint osztályozni, hogy hogyan vannak implementálva, és ennek megfelelően milyen integrációs potenciált biztosítanak. Nyilvánvalóan ez is konvenció, hiszen egy ilyen kritérium nem teszi lehetővé, hogy egyértelmű határokat húzzunk a termékek között. Egy ilyen besorolásnak azonban van egy kétségtelen előnye. Lehetővé teszi, hogy gyorsan döntsön egy vagy másik kész megoldás kiválasztásáról az adatelemzési projektek inicializálása, a döntéstámogató rendszerek fejlesztése, az adattárházak stb.

Tehát az adatbányászati ​​termékek három nagy kategóriába sorolhatók:

    az adatbázis-kezelő rendszerek szerves részeként;

    Adatbányászati ​​algoritmusok könyvtárai a kapcsolódó infrastruktúrával;

    dobozos vagy asztali megoldások („fekete dobozok”).

Az első két kategóriába tartozó termékek biztosítják a legnagyobb integrációs lehetőségeket, és lehetővé teszik az analitikai potenciál kiaknázását szinte minden alkalmazásban, bármilyen területen. A dobozos alkalmazások viszont egyedülálló előrelépést jelenthetnek az adatbányászat területén, vagy egy adott alkalmazásra specializálódhatnak. A legtöbb esetben azonban problémás a szélesebb körű megoldásokba integrálása.

Az analitikai képességek beépítése a kereskedelmi adatbázis-kezelő rendszerekbe természetes tendencia, amely óriási lehetőségeket rejt magában. Valóban, hol van a legértelmesebb elhelyezni a feldolgozási eszközöket, ha nem olyan helyeken, ahol az adatok koncentrálódnak? Ezen elv alapján az adatbányászat funkcionalitása in jelenleg a következő kereskedelmi adatbázisokban van megvalósítva:

    Microsoft SQL Server;

Főbb pontok

  • Az adatbányászat lehetővé teszi, hogy nagy mennyiségű felhalmozott adat alapján automatikusan hipotéziseket állítson elő, amelyek más elemző eszközökkel (például OLAP) ellenőrizhetők.

    Az adatbányászat olyan rejtett tudás kutatása és felfedezése egy géppel (algoritmusok, mesterséges intelligencia eszközök) nyers adatokban, amelyek korábban ismeretlenek, nem triviálisak, gyakorlatilag hasznosak és emberi értelmezés számára hozzáférhetőek voltak.

    Az adatbányászati ​​módszerek három fő problémát oldanak meg: az osztályozás és a regresszió problémáját, az asszociációs szabályok keresésének problémáját és a klaszterezés problémáját. Céljuk szerint leíróra és prediktívre osztják őket. A problémamegoldási módszerek alapján fel vannak osztva irányított tanulásra (tanárral való tanulás) és felügyelet nélküli tanulásra (tanár nélküli tanulás).

    Az osztályozás és a regresszió feladata egy objektum függő változójának értékének meghatározása a független változóiból. Ha a függő változó numerikus értékeket vesz fel, akkor regressziós problémáról beszélünk, ellenkező esetben - osztályozási problémáról.

    Az asszociációs szabályok keresésekor a cél az, hogy az objektumok vagy események között gyakori függőséget (vagy asszociációt) találjunk. A talált függőségek szabályok formájában jelennek meg, és felhasználhatók mind az elemzett adatok természetének jobb megértésére, mind az események előrejelzésére.

    A klaszterezés feladata független csoportok (klaszterek) és azok jellemzőinek keresése a teljes elemzett adathalmazban. A probléma megoldása segít az adatok jobb megértésében. Ezenkívül a homogén objektumok csoportosítása lehetővé teszi számuk csökkentését, és ezáltal megkönnyíti az elemzést.

    Az adatbányászati ​​módszerek a metszéspontban vannak különböző irányokba információs technológiák: statisztikák, neurális hálózatok, fuzzy halmazok, genetikai algoritmusok stb.

    Az intelligens elemzés a következő szakaszokból áll: az elemzési probléma megértése és megfogalmazása, adatok előkészítése automatizált elemzéshez, adatbányászati ​​módszerek alkalmazása és modellek felépítése, a megszerkesztett modellek ellenőrzése és a modellek ember általi értelmezése.

    Az adatbányászati ​​technikák alkalmazása előtt a forrásadatokat át kell alakítani. Az átalakítás típusa az alkalmazott módszerektől függ.

    Az adatbányászati ​​módszerek hatékonyan alkalmazhatók az emberi tevékenység különböző területein: üzlet, orvostudomány, tudomány, telekommunikáció stb.

3. Szöveges információk elemzése - Szövegbányászat

Az adatbázisokban tárolt strukturált információk elemzése előzetes feldolgozást igényel: adatbázis tervezése, információk meghatározott szabályok szerinti bevitele, speciális struktúrákba (például relációs táblákba) történő elhelyezése stb. Így közvetlenül ezen információk elemzéséhez és új ismeretek megszerzéséhez. további erőfeszítést igényel. Ezek azonban nem mindig kapcsolódnak az elemzéshez, és nem feltétlenül vezetnek a kívánt eredményhez. Emiatt csökken a strukturált információk elemzésének hatékonysága. Ráadásul nem minden adattípus strukturálható hasznos információk elvesztése nélkül. Például a szöveges dokumentumokat szinte lehetetlen táblázatos ábrázolássá alakítani anélkül, hogy elveszítené a szöveg szemantikáját és az entitások közötti kapcsolatokat. Emiatt az ilyen dokumentumok átalakítás nélkül tárolódnak az adatbázisban, például szövegmezők (BLOB mezők). A szövegben ugyanakkor hatalmas mennyiségű információ rejtőzik, de strukturálatlansága nem teszi lehetővé az adatbányászati ​​algoritmusok használatát. A strukturálatlan szövegelemzési módszerek megoldják ezt a problémát. A nyugati irodalomban az ilyen elemzést szövegbányászatnak nevezik.

A strukturálatlan szövegek elemzési módszerei több terület metszéspontjában helyezkednek el: adatbányászat, természetes nyelvi feldolgozás, információkeresés, információkinyerés és tudásmenedzsment.

A szövegbányászat definíciója: A szövegismeret felfedezése az a nem triviális folyamat, amelynek során valóban új, potenciálisan hasznos és érthető mintákat fedezünk fel a strukturálatlan szövegadatokban.

Mint látható, ez csak a „strukturálatlan szöveges adatok” új fogalmában tér el az adatbányászat definíciójától. Az ilyen ismeretek olyan dokumentumok halmazát jelentik, amelyek logikailag egységes szöveget képviselnek, annak szerkezetére vonatkozó korlátozások nélkül. Ilyen dokumentumok például: weboldalak, e-mailek, szabályozási dokumentumok stb. Általában az ilyen dokumentumok összetettek és nagyok lehetnek, és nemcsak szöveget, hanem grafikus információkat is tartalmazhatnak. Az XML-t (extensible Markup Language), az SGML-t (Standard Generalized Markup Language) és más hasonló szövegszerkezeti konvenciókat használó dokumentumokat félig strukturált dokumentumoknak nevezzük. Szövegbányászati ​​módszerekkel is feldolgozhatók.

A szöveges dokumentumok elemzésének folyamata több lépésből álló sorozatként ábrázolható

    Információ keresése. Az első lépés annak meghatározása, hogy mely dokumentumokat kell elemezni, és biztosítani kell azok elérhetőségét. A felhasználók általában önállóan - manuálisan - meghatározhatják az elemezni kívánt dokumentumok készletét, de nagy számú dokumentum esetén szükség van az automatizált kiválasztási lehetőségek használatára meghatározott kritériumok szerint.

    Előzetes dokumentum feldolgozás. Ebben a lépésben egyszerű, de szükséges átalakításokat hajtanak végre a dokumentumokon, hogy azokat olyan formában jelenítsék meg, amellyel a szövegbányászati ​​módszerek működnek. Az ilyen átalakítások célja a felesleges szavak eltávolítása és a szöveg szigorúbb formája. Az előfeldolgozási módszereket a fejezetben ismertetjük részletesebben.

    Információ kinyerése. A kiválasztott dokumentumokból információk kinyerése magában foglalja a bennük lévő kulcsfogalmak azonosítását, amelyeket a jövőben elemeznek.

Szövegbányászati ​​módszerek alkalmazása. Ebben a lépésben a szövegekben jelenlévő mintákat és kapcsolatokat vonják ki. Ez a lépés a fő lépés a szövegelemzés folyamatában, és ebben a lépésben oldódnak meg a gyakorlati problémák.

Az eredmények értelmezése. A tudásfeltárási folyamat utolsó lépése az eredmények értelmezése. Az értelmezés jellemzően az eredmények természetes nyelven történő bemutatásából vagy grafikus megjelenítéséből áll.

A vizualizáció szövegelemző eszközként is használható. Ehhez a kulcsfogalmakat kivonják és grafikusan bemutatják. Ez a megközelítés segít a felhasználónak gyorsan azonosítani a fő témákat és fogalmakat, és meghatározni azok fontosságát.

Szöveg előfeldolgozása

A szövegelemzés egyik fő problémája a dokumentumban található szavak nagy száma. Ha ezeket a szavakat elemezzük, az új ismeretek keresésének ideje meredeken megnő, és nem valószínű, hogy kielégíti a felhasználói igényeket. Ugyanakkor nyilvánvaló, hogy a szövegben nem minden szó hordoz hasznos információt. Ráadásul a természetes nyelvek rugalmassága miatt a formailag különböző szavak (szinonimák stb.) valójában ugyanazokat a fogalmakat jelentik. Így a nem informatív szavak eltávolítása, valamint a jelentésükben közel álló szavak egyetlen formába hozása jelentősen csökkenti a szövegelemzés idejét. A leírt problémák kiküszöbölése a szöveg előfeldolgozás szakaszában történik.

Általában a következő technikákat használják a nem informatív szavak eltávolítására és a szövegek szigorúságának növelésére:

    Stop szavak eltávolítása. A stop szavak segédszavak, amelyek kevés információt hordoznak a dokumentum tartalmáról.

    A száradás morfológiai keresés. Ez abból áll, hogy minden szót normál formájúra alakít.

    Az L-gramok alternatívát jelentenek a morfológiai elemzéshez és a szó eltávolításához. Lehetővé teszik a szöveg szigorúbbá tételét, de nem oldják meg a nem informatív szavak számának csökkentését;

    Ügy átalakítás. Ez a technika magában foglalja az összes karakter nagy- vagy kisbetűvé alakítását.

A leghatékonyabb ezeknek a módszereknek a kombinált alkalmazása.

Szövegbányászati ​​feladatok

Jelenleg számos olyan alkalmazott probléma található a szakirodalomban, amely szöveges dokumentumok elemzésével megoldható. Ide tartoznak a klasszikus adatbányászati ​​feladatok: osztályozás, klaszterezés és csak szöveges dokumentumokra jellemző feladatok: automatikus annotáció, kulcsfogalmak kinyerése stb.

Az osztályozás szabványos feladat az adatbányászat területén. Célja, hogy minden dokumentumhoz meghatározzon egy vagy több előre meghatározott kategóriát, amelyhez a dokumentum tartozik. A minősítési probléma sajátossága az a feltételezés, hogy a minősített dokumentumok halmaza nem tartalmaz „szemetet”, azaz mindegyik dokumentum egy adott kategóriának felel meg.

Az osztályozási probléma speciális esete a dokumentum tárgyának meghatározásának problémája.

A dokumentum klaszterezés célja a szemantikailag hasonló dokumentumok csoportjainak automatikus azonosítása egy adott rögzített halmaz között. Vegye figyelembe, hogy a csoportok csak a dokumentumleírások páronkénti hasonlósága alapján jönnek létre, és ezeknek a csoportoknak a jellemzői nincsenek előre meghatározva.

Az automatikus annotáció (összegzés) lehetővé teszi a szöveg lerövidítését a jelentésének megőrzése mellett. Ennek a problémának a megoldását általában a felhasználó irányítja a kivonandó mondatok számának vagy a kivont szöveg százalékos arányának meghatározásával a teljes szöveghez viszonyítva. Az eredmény tartalmazza a szöveg legjelentősebb mondatait.

A jellemzők kinyerésének elsődleges célja a tények és összefüggések azonosítása a szövegben. A legtöbb esetben ezek a fogalmak főnevek és köznevek: emberek kereszt- és vezetékneve, szervezetek neve stb. A fogalomkivonatoló algoritmusok szótárak segítségével azonosíthatnak egyes kifejezéseket, illetve nyelvi mintákat mások definiálására.

A szövegalapú navigáció lehetővé teszi a felhasználók számára, hogy témák és releváns kifejezések alapján navigáljanak a dokumentumokban. Ez a kulcsfogalmak és a köztük lévő kapcsolatok azonosításával történik.

A trendelemzés lehetővé teszi a trendek azonosítását a dokumentumkészletekben egy adott időszakra vonatkozóan. Egy trend felhasználható például a vállalati érdekek egyik piaci szegmensről a másikra történő változásának észlelésére.

Az asszociációk keresése is az Adatbányászat egyik fő feladata. Ennek megoldására a kulcsfogalmak közötti asszociatív kapcsolatokat egy adott dokumentumcsoportban azonosítják.

A felsorolt ​​problémáknak és megoldásuknak számos fajtája létezik. Ez ismét megerősíti a szövegelemzés fontosságát. A fejezet további része a következő problémák megoldásait tárgyalja: kulcsfogalmak kinyerése, osztályozás, klaszterezés és automatikus annotáció.

Szöveges dokumentumok osztályozása

A szöveges dokumentumok osztályozása, akárcsak az objektumosztályozás esetén, abból áll, hogy egy dokumentumot hozzárendelünk valamelyik korábban ismert osztályhoz. A szöveges dokumentumokkal kapcsolatos osztályozást gyakran kategorizálásnak vagy rubrikálásnak nevezik. Nyilvánvalóan ezek az elnevezések abból a feladatból származnak, hogy a dokumentumokat katalógusokba, kategóriákba és címsorokba kell rendszerezni. Ebben az esetben a címtárszerkezet lehet egyszintű vagy többszintű (hierarchikus).

Formálisan a szöveges dokumentumok osztályozásának feladatát halmazok halmaza írja le.

Az osztályozási feladatban ezen adatok alapján szükséges egy eljárást felépíteni, amely abból áll, hogy a vizsgált dokumentumra a C halmazból megtaláljuk a legvalószínűbb kategóriát.

A legtöbb szövegosztályozási módszer így vagy úgy azon a feltételezésen alapul, hogy az azonos kategóriába tartozó dokumentumok ugyanazokat a jellemzőket (szavakat vagy kifejezéseket) tartalmazzák, és az ilyen jellemzők jelenléte vagy hiánya egy dokumentumban azt jelzi, hogy egy dokumentumhoz tartozik vagy nem tartozik. adott téma.

Az ilyen jellemzőkészletet gyakran szótárnak is nevezik, mert olyan lexémákból áll, amelyek a kategóriát jellemző szavakat és/vagy kifejezéseket tartalmazzák.

Meg kell jegyezni, hogy ezek a jellemzőkészletek a szöveges dokumentumok osztályozásának megkülönböztető jellemzői az adatbányászat objektumai osztályozásától, amelyeket attribútumkészlet jellemez.

A d dokumentum c kategóriába való besorolásáról a közös jellemzők metszéspontja alapján döntenek

Az osztályozási módszerek feladata, hogy a legjobban kiválasszák azokat a jellemzőket, és olyan szabályokat fogalmazzanak meg, amelyek alapján döntés születik egy dokumentum kategóriához rendeléséről.

Eszközök szöveges információk elemzéséhez

    Oracle Tools - Oracle Text2

Az Oracle 7.3.3-as verziójától kezdve a szövegelemző eszközök az Oracle termékek szerves részét képezik. Az Oracle-ben ezeket az eszközöket fejlesztették ki, és új nevet kaptak - Oracle Text - egy DBMS-be integrált szoftvercsomag, amely lehetővé teszi a strukturálatlan szövegekkel kapcsolatos lekérdezések hatékony kezelését. Ebben az esetben a szövegfeldolgozást kombinálják a felhasználónak a relációs adatbázisokkal való munkavégzéshez biztosított lehetőségekkel. Különösen a szövegfeldolgozó alkalmazások írásakor vált lehetővé az SQL használata.

Az Oracle Text eszközök fő feladata a dokumentumok tartalmuk szerinti keresése - szavak vagy kifejezések alapján, amelyeket szükség esetén Boole-műveletekkel kombinálnak. A keresési eredmények fontossági sorrendbe kerülnek, figyelembe véve a keresett szavak előfordulási gyakoriságát a talált dokumentumokban.

    Eszközök az IBM-től – Intelligent Miner for Text1

Az IBM Intelligent Miner for Text termék az egyedi segédprogramok készlete, amelyről indult parancs sor vagy scriptekből egymástól függetlenül. A rendszer tartalmaz néhány segédprogram kombinációját a szöveges információelemzés problémáinak megoldására.

Az IBM Intelligent Miner for Text egy erőteljes eszközkészletet egyesít, amelyek főként információ-visszakereső mechanizmusokon alapulnak, ami a teljes termék sajátossága. A rendszer számos alapvető komponensből áll, amelyek a Text Mining technológián túl független jelentőséggel bírnak:

    SAS Institute Tools – Text Miner

Az amerikai SAS Institute cég kiadta a SAS Text Miner rendszert bizonyos nyelvtani és verbális szekvenciák összehasonlítására az írott beszédben. A Text Miner nagyon sokoldalú, mert különféle formátumú szöveges dokumentumokkal tud dolgozni - adatbázisokban, fájlrendszerekben és tovább az interneten.

A Text Miner logikai szövegfeldolgozást biztosít a SAS Enterprise Miner környezetben. Ez lehetővé teszi a felhasználók számára, hogy gazdagítsák az adatelemzési folyamatot azáltal, hogy a strukturálatlan szöveges információkat integrálják a meglévő strukturált adatokkal, mint például az életkor, a jövedelem és a fogyasztói kereslet mintái.

Főbb pontok

    A szövegismeret felfedezése egy nem triviális folyamat, amelynek során valóban új, potenciálisan hasznos és érthető mintákat fedezünk fel a strukturálatlan szövegadatokban.

    A szöveges dokumentumok elemzésének folyamata több lépésből álló sorozatként ábrázolható: keressen információt, dokumentumok előfeldolgozása, információ kinyerése, Text Mining módszerek alkalmazása, eredmények értelmezése.

    A nem informatív szavak eltávolítására és a szövegek szigorúságának növelésére általában a következő technikákat alkalmazzák: stopszavak eltávolítása, törzsszavak, L-gramok, kis- és nagybetűk csökkentése.

    A szöveges információelemzés feladatai: osztályozás, klaszterezés, automatikus annotáció, kulcsfogalmak kinyerése, szövegnavigáció, trendelemzés, asszociációk keresése stb.

    A kulcsfogalmak szövegekből való kiemelése egyrészt önálló alkalmazott feladatnak, másrészt a szövegelemzés külön szakaszának tekinthető. Utóbbi esetben a szövegből kinyert tényeket különböző elemzési problémák megoldására használják fel.

    A kulcsfogalmak sablonok segítségével történő kinyerésének folyamata két szakaszban történik: az első lépésben a szöveges dokumentumokból az egyes tényeket lexikális elemzéssel kinyerjük, a második szakaszban a kinyert tények integrálása és/vagy új tények származtatása történik. végrehajtani.

    A legtöbb szövegosztályozási módszer így vagy úgy azon a feltételezésen alapul, hogy az azonos kategóriába tartozó dokumentumok ugyanazokat a jellemzőket (szavakat vagy kifejezéseket) tartalmazzák, és az ilyen jellemzők jelenléte vagy hiánya egy dokumentumban azt jelzi, hogy egy dokumentumhoz tartozik vagy nem tartozik. adott téma.

    A legtöbb klaszterező algoritmus megköveteli, hogy az adatokat vektortérmodellben ábrázolják, amelyet széles körben használnak információ-visszakeresésre, és metaforát használ a szemantikai hasonlóság térbeli közelségként való tükrözésére.

    A szöveges dokumentumok automatikus megjegyzéseinek két fő megközelítése van: a kivonás (a legfontosabb töredékek kiválasztása) és az általánosítás (korábban összegyűjtött ismeretek felhasználása).

Következtetés

Az adatbányászat az alkalmazott matematika egyik legrelevánsabb és legnépszerűbb területe. A modern üzleti és gyártási folyamatok hatalmas mennyiségű adatot generálnak, így az emberek egyre nehezebbé teszik a nagy mennyiségű adat értelmezését és a futásidő során dinamikusan változó adatokra való reagálást, nem is beszélve a kritikus helyzetek elkerüléséről. „Adatbányászat” a többdimenziós, heterogén, hiányos, pontatlan, ellentmondásos, közvetett adatokból a maximális hasznos tudás kinyerésére. Ebben segít hatékonyan, ha az adatmennyiséget gigabájtban vagy akár terabájtban mérik. Segít olyan algoritmusok felépítésében, amelyek képesek megtanulni döntéseket hozni különféle szakmai területeken.

Az adatbányászati ​​eszközök megvédik az embereket az információs túlterheltségtől azáltal, hogy az operatív adatokat hasznosítható információkká dolgozzák fel, hogy a megfelelő lépéseket a megfelelő időben meg lehessen tenni.

Alkalmazott fejlesztések a következő területeken valósulnak meg: előrejelzés a gazdasági rendszerekben; Marketingkutatás automatizálása és ügyfélkörnyezetek elemzése gyártó, kereskedelmi, távközlési és internetes cégek számára; hitelezési döntéshozatal és hitelkockázat-értékelés automatizálása; pénzügyi piacok nyomon követése; automatikus kereskedési rendszerek.

Bibliográfia

    „Adatelemzési technológiák: adatbányászat. Vizuális bányászat. Szövegbányászat, OLAP" A. A. Barseghyan. M. S. Kuprijanov, V. V. Sztenanenko, I. I. Kholod. - 2. kiadás, átdolgozva. és további

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - Internetes cikk

    http://www.piter.com/contents/978549807257/978549807257_p.pdf - Adatelemzési technológiák

    Szakdolgozat >> Bankügy

    Kölcsönvevő fürtöt használva, verbális elemzés, korrekciós tényezők stb., továbbá... a hitelfelvevő hitelképessége alapján szellemi elemzés Adatbányászat (a... kezdeti szakaszban elemzés tartott elemzés saját tőke és...

  1. Elemzésés a diszkrecionális, m

    Absztrakt >> Számítástechnika

    1.3 Szerepdifferenciálás 6 2. Összehasonlító elemzés különféle típusok rendszerek 7 OS... rendszerek, beleértve: elemzés biztonsági szabályzatok és jellemzőik, ... alkalmazások vagy több megvalósítás szellemi elemzés adat. Kívül...

  2. Intelligens a tehetséges gyermekek iskolai teljesítménnyel kapcsolatos képességei

    Szakdolgozat >> Pszichológia

    A tanulmányi teljesítmény és a jellemzők kapcsolata szellemi fejlesztés. Elméleti alapon elemzés a kutatási probléma az volt... hogy az értelem nélkül elemzés pszichológiai szerkezetét. Döntő az értékelés szempontjából szellemi a képességek...

Üdvözöljük az Adatbányászati ​​portálon – egy egyedülálló portálon, amely a modern adatbányászati ​​módszereknek szentelt.

Az adatbányászati ​​technológiák a modern üzleti elemzés és adatkutatás hatékony eszközei a rejtett minták felderítésére és prediktív modellek felépítésére. Az adatbányászat vagy tudáskinyerés nem spekulatív érvelésen, hanem valós adatokon alapul.

Rizs. 1. Adatbányászati ​​alkalmazási séma

Problémameghatározás – A probléma megfogalmazása: adatok osztályozása, szegmentálása, prediktív modellek felépítése, előrejelzés.
Adatgyűjtés és -előkészítés – Adatgyűjtés, -előkészítés, -tisztítás, -ellenőrzés, iratmásolatok eltávolítása.
Modellkészítés – Modellkészítés, pontosság felmérése.
Knowledge Deployment – ​​Modell alkalmazása egy adott probléma megoldására.

Az adatbányászatot nagyszabású elemzési projektek megvalósítására használják az üzleti élet, a marketing, az internet, a telekommunikáció, az ipar, a geológia, az orvostudomány, a gyógyszeripar és más területeken.

Az adatbányászat lehetővé teszi a jelentős összefüggések és kapcsolatok keresésének folyamatát a hatalmas adatmennyiség átszűrése eredményeként modern mintafelismerő módszerekkel, valamint egyedi analitikai technológiák alkalmazásával, beleértve a döntési fákat és az osztályozást, a klaszterezést, a neurális hálózati módszereket és mások.

Az adatbányászati ​​technológiát először felfedező felhasználót lenyűgözi a rengeteg módszer és hatékony algoritmus, amelyek lehetővé teszik számára, hogy megoldásokat találjon a nagy mennyiségű adat elemzésével kapcsolatos nehéz problémák megoldására.

Általánosságban az adatbányászat olyan technológiaként jellemezhető, amelyet nagy mennyiségű adat keresésére terveztek. nem nyilvánvaló, célkitűzésés gyakorlatilag hasznos minták.

Az adatbányászat alapja hatékony módszerekés nagy volumenű és méretű strukturálatlan adatok elemzésére tervezett algoritmusok.

A lényeg az, hogy a nagy volumenű, nagy dimenziós adatokból hiányzik a struktúra és a kapcsolatok. Az adatbányászati ​​technológia célja, hogy azonosítsa ezeket a struktúrákat, és olyan mintákat találjon, ahol első pillantásra káosz és önkény uralkodik.

Íme egy aktuális példa az adatbányászat alkalmazására a gyógyszer- és gyógyszeriparban.

A kábítószer-kölcsönhatások egyre nagyobb problémát jelentenek a modern egészségügyben.

Idővel növekszik a felírt gyógyszerek (recept nélkül és mindenféle kiegészítők) száma, így egyre valószínűbb, hogy lesznek olyan gyógyszer-gyógyszer kölcsönhatások, amelyek súlyos mellékhatásokat okozhatnak, amelyekről az orvosok és a betegek nem is tudnak.

Ez a terület a posztklinikai kutatásokra vonatkozik, amikor a gyógyszer már megjelent a piacon, és intenzíven használják.

A klinikai vizsgálatok egy gyógyszer hatékonyságának értékelésére vonatkoznak, de nem veszik figyelembe a gyógyszer kölcsönhatásait más, forgalomban lévő gyógyszerekkel.

A kaliforniai Stanford Egyetem kutatói megvizsgálták az FDA gyógyszermellékhatások adatbázisát, és azt találták, hogy két gyakran használt gyógyszer – az antidepresszáns paroxetin és a koleszterinszint-csökkentő gyógyszer, a pravasztatin – együtt alkalmazva növeli a cukorbetegség kialakulásának kockázatát.

Egy hasonló, az FDA adatain alapuló elemzési tanulmány 47 korábban ismeretlen káros interakciót azonosított.

Ez nagyszerű, azzal a megkötéssel, hogy a betegek által észlelt negatív hatások közül sok észrevétlen marad. Ebben az esetben az online keresés teljesíthet a legjobban.

Közelgő adatbányászati ​​tanfolyamok a StatSoft Data Analysis Academy-n 2020-ban

Az adatbányászat bemutatását a Data Science Academy csodálatos videóival kezdjük.

Feltétlenül nézze meg videóinkat, és megérti, mi az adatbányászat!

Videó 1. Mi az adatbányászat?


2. videó. Adatbányászati ​​módszerek áttekintése: döntési fák, általánosított prediktív modellek, klaszterezés és még sok más

A JavaScript le van tiltva a böngészőjében


Kutatási projekt megkezdése előtt meg kell szerveznünk egy folyamatot az adatok beszerzéséhez külső források, most megmutatjuk, hogyan történik ez.

A videó bemutatja egyedülálló technológia STATISZTIKA Helyi adatbázis-feldolgozás és az adatbányászat összekapcsolása valós adatokkal.

3. videó. Az adatbázisokkal való interakció sorrendje: grafikus felület SQL lekérdezések készítéséhez, Helyi adatbázis-feldolgozási technológia

A JavaScript le van tiltva a böngészőjében


Most megismerkedünk azokkal az interaktív fúrási technológiákkal, amelyek hatékonyak a feltáró adatelemzésben. Maga a fúrás kifejezés az adatbányászati ​​technológia és a geológiai feltárás közötti kapcsolatot tükrözi.

4. videó: Interaktív fúrás: Feltárás és grafikai technikák az interaktív adatfeltáráshoz

A JavaScript le van tiltva a böngészőjében


Most megismerkedünk az asszociációs elemzéssel (asszociációs szabályok), ezek az algoritmusok lehetővé teszik a valós adatokban létező kapcsolatok megtalálását. A kulcsfontosságú szempont az algoritmusok hatékonysága nagy mennyiségű adat esetén.

A kapcsolatelemző algoritmusok eredménye, például az Apriori algoritmus, a vizsgált objektumok kapcsolódási szabályainak megtalálása adott megbízhatósággal, például 80%-kal.

A geológiában ezek az algoritmusok felhasználhatók ásványok kutatási elemzésére, például arra, hogy az A jellemző hogyan kapcsolódik a B és C tulajdonságokhoz.

megtalálhatod konkrét példák ilyen megoldások linkjeink segítségével:

A kiskereskedelemben az Apriori algoritmusok vagy azok módosításai lehetővé teszik a különböző termékek közötti kapcsolat vizsgálatát, például parfümök (parfüm - körömlakk - szempillaspirál stb.) vagy különböző márkájú termékek értékesítése során.

A webhely legérdekesebb szakaszainak elemzése is hatékonyan elvégezhető társítási szabályok segítségével.

Tehát nézze meg következő videónkat.

Videó 5. Egyesületi szabályzat

A JavaScript le van tiltva a böngészőjében

Itt vannak példák az adatbányászat alkalmazására bizonyos területeken.

Online kereskedés:

  • a vásárlói pályák elemzése a helyszín látogatásától az áruvásárlásig
  • szolgáltatás hatékonyságának felmérése, áruhiány miatti meghibásodások elemzése
  • a látogatók számára érdekes termékek összekapcsolása

Kiskereskedelem: vásárlói információk elemzése hitelkártyák, kedvezménykártyák stb. alapján.

Az adatbányászati ​​eszközökkel megoldott tipikus kiskereskedelmi feladatok:

  • bevásárlókosár elemzés;
  • prediktív modellek létrehozása a vásárlók és a vásárolt áruk osztályozási modelljei;
  • vásárlói profilok létrehozása;
  • CRM, különböző kategóriájú ügyfelek lojalitásának felmérése, hűségprogramok tervezése;
  • idősoros kutatásés időfüggések, szezonális tényezők azonosítása, hatékonyság felmérése promóciók valós adatok széles skáláján.

A távközlési szektor korlátlan lehetőségeket nyit az adatbányászati ​​módszerek, valamint a modern big data technológiák alkalmazására:

  • ügyfelek besorolása a hívások legfontosabb jellemzői (gyakorisága, időtartama stb.), SMS gyakorisága alapján;
  • a vásárlói hűség azonosítása;
  • csalás felderítése stb.

Biztosítás:

  • kockázatelemzés. A kifizetett kárigényekhez kapcsolódó tényezők kombinációinak azonosításával a biztosítók csökkenthetik felelősségi veszteségeiket. Van olyan eset, amikor egy biztosítótársaság felfedezte, hogy a házasok követeléseiből kifizetett összegek kétszer akkora összegek, mint az egyedülállók által kifizetett összegek. A cég erre reagálva felülvizsgálta a családi vásárlókra vonatkozó kedvezménypolitikáját.
  • csalások felderítése. A biztosítótársaságok úgy csökkenthetik a csalást, hogy bizonyos mintákat keresnek a követelésekben, amelyek az ügyvédek, az orvosok és a felperesek közötti kapcsolatokat jellemzik.

Az adatbányászat gyakorlati alkalmazását és konkrét problémák megoldását mutatjuk be következő videónkban.

Webinárium 1. Webinárium „Az adatbányászat gyakorlati feladatai: problémák és megoldások”

A JavaScript le van tiltva a böngészőjében

Webinar 2. Webinar "Adatbányászat és szövegbányászat: példák valós problémák megoldására"

A JavaScript le van tiltva a böngészőjében


Az adatbányászati ​​módszertanról és technológiáról a StatSoft tanfolyamokon szerezhet mélyebb ismereteket.

Mi az adatbányászat

Bármely modern vállalat vállalati adatbázisa általában olyan táblákat tartalmaz, amelyek bizonyos tényekről vagy tárgyakról (például árukról, értékesítésükről, ügyfelekről, számlákról) tárolnak rekordokat. Általános szabály, hogy egy ilyen táblázatban minden bejegyzés egy adott objektumot vagy tényt ír le. Például egy bejegyzés az értékesítési táblázatban azt tükrözi, hogy ilyen és ilyen terméket adott el egy ilyen és egy ilyen ügyfélnek egy ilyen és ilyen menedzser, és általában nem tartalmaz mást, mint ezt az információt. Az ilyen rekordok nagyszámú, több éven át felhalmozott gyűjtése azonban további, sokkal értékesebb információk forrásává válhat, amelyek nem szerezhetők be egyetlen rekord alapján, nevezetesen az egymás közötti mintákról, trendekről vagy összefüggésekről szóló információknak. bármilyen adatot. Ilyen információk például az arra vonatkozó információk, hogy egy adott termék eladásai hogyan függenek a hét napjától, a napszaktól vagy az évszaktól, a vásárlók mely kategóriái vásárolnak leggyakrabban egy adott terméket, egy adott terméket vásárlók milyen arányban vásárolnak. egy másik konkrét termék, mely vásárlói kategória a leggyakrabban nem fizeti vissza időben a nyújtott hitelt.

Az ilyen jellegű információkat általában előrejelzésben, stratégiai tervezésben, kockázatelemzésben használják fel, és értéke a vállalat számára igen magas. Nyilván ezért hívták a keresési folyamatot Data Miningnek (a bányászat angolul „bányászatot” jelent, és a tényadatok hatalmas halmazában való minták keresése valóban ehhez hasonló). Az adatbányászat kifejezés nem annyira egy specifikus technológiát jelöl, mint inkább a korrelációk, trendek, kapcsolatok és minták keresésének folyamatát különféle matematikai és statisztikai algoritmusok segítségével: klaszterezés, részminták létrehozása, regressziós és korrelációs elemzés. Ennek a keresésnek az a célja, hogy az adatokat olyan formában mutassa be, amely egyértelműen tükrözi az üzleti folyamatokat, valamint olyan modell felépítése, amellyel előre jelezheti az üzleti tervezés szempontjából kritikus folyamatokat (például bizonyos áruk vagy szolgáltatások iránti kereslet dinamikáját). illetve megszerzésük bizonyos akkori fogyasztói jellemzőktől való függése).

Vegye figyelembe, hogy a hagyományos matematikai statisztika, amely sokáig az adatelemzés fő eszköze maradt, valamint az online analitikai feldolgozás (OLAP) eszközei, amelyekről már többször írtunk (lásd a CD-n található anyagokat a témában) nem mindig lehet sikeresen felhasználni az ilyen problémák megoldására. Általában statisztikai módszereket és OLAP-t használnak az előre megfogalmazott hipotézisek tesztelésére. Gyakran azonban egy hipotézis megfogalmazása bizonyul a legnehezebb feladatnak a későbbi döntéshozatalhoz szükséges üzleti elemzés végrehajtása során, mivel az adatokban nem minden mintázat egyértelmű első pillantásra.

Az alap modern technológia Az adatbányászat a minták koncepcióján alapul, amelyek tükrözik az adatok részmintáiban rejlő mintákat. A minták keresése olyan módszerekkel történik, amelyek nem használnak a priori feltételezéseket ezekről a részmintákról. Míg a statisztikai elemzés vagy az OLAP általában olyan kérdéseket tesz fel, mint például: „Átlagosan mennyi a kifizetetlen számlák száma az ügyfelek között ennél a szolgáltatásnál?”, az adatbányászat általában olyan kérdésekre vonatkozik, mint „Van-e a nem fizető ügyfelek tipikus kategóriája?”. Ugyanakkor a második kérdésre adott válasz az, ami gyakran nem triviális megközelítést ad a marketingpolitikához és az ügyfelekkel való munkaszervezéshez.

Az adatbányászat egyik fontos jellemzője a keresett minták nem szabványos és nem nyilvánvaló jellege. Más szóval, az adatbányászati ​​eszközök abban különböznek a statisztikai adatfeldolgozó eszközöktől és az OLAP eszközöktől, hogy a felhasználók által előre feltételezett kölcsönös függőségek ellenőrzése helyett önállóan, a rendelkezésre álló adatok alapján képesek ilyen kölcsönös függőségeket megtalálni, és hipotéziseket felállítani a természetükről.

Meg kell jegyezni, hogy az adatbányászati ​​eszközök használata nem zárja ki a statisztikai eszközök és az OLAP eszközök használatát, mivel az utóbbiak felhasználásával végzett adatfeldolgozás eredményei általában hozzájárulnak a szükséges minták természetének jobb megértéséhez. keresni kell.

Forrásadatok az adatbányászathoz

Az adatbányászat alkalmazása akkor indokolt, ha kellően nagy mennyiségű adat áll rendelkezésre, ideális esetben egy megfelelően kialakított adattárházban (valójában maguk az adattárházak általában a döntéstámogatáshoz kapcsolódó elemzési és előrejelzési problémák megoldására jönnek létre). Az adattárházak építésének elveiről is többször írtunk; a vonatkozó anyagok megtalálhatók a CD-n, ezért ezen a kérdésen nem térünk ki. Emlékezzünk csak arra, hogy a raktárban lévő adatok egy feltöltött halmaz, amely az egész vállalkozásra jellemző, és lehetővé teszi, hogy bármikor képet kapjunk a tevékenységéről. Vegye figyelembe azt is, hogy a tárolási adatstruktúra úgy van kialakítva, hogy a lekérdezéseket a lehető leghatékonyabban hajtsák végre. Vannak azonban olyan Data Mining eszközök, amelyek nem csak adattárházakban, hanem OLAP kockákban, azaz előre feldolgozott statisztikai adatok halmazaiban is kereshetnek mintákat, összefüggéseket és trendeket.

Az adatbányászati ​​módszerekkel azonosított minták típusai

V.A. Duke szerint az adatbányászati ​​módszerekkel öt szabványos mintatípus létezik:

Társulás - nagy a valószínűsége annak, hogy az események összekapcsolódnak egymással (például egy terméket gyakran vásárolnak egy másikkal együtt);

Sorozat - időben összefüggő események láncolatának nagy valószínűsége (például egy termék megvásárlását követő bizonyos időszakon belül nagy valószínűséggel egy másikat vásárolnak meg);

Osztályozás - vannak olyan jelek, amelyek azt a csoportot jellemzik, amelyhez ez vagy az az esemény vagy objektum tartozik (általában a már minősített események elemzése alapján bizonyos szabályokat fogalmaznak meg);

A klaszterezés az osztályozáshoz hasonló mintázat, és abban különbözik attól, hogy maguk a csoportok nincsenek megadva - az adatfeldolgozás során automatikusan azonosításra kerülnek;

Időbeli minták - minták jelenléte bizonyos adatok viselkedésének dinamikájában (tipikus példa bizonyos áruk vagy szolgáltatások iránti kereslet szezonális ingadozása), amelyeket előrejelzésre használnak.

Adatbányászati ​​módszerek

Manapság meglehetősen sok különböző adatbányászati ​​módszer létezik. A V. A. Duke által javasolt fenti besorolás alapján ezek közül megkülönböztethetünk:

Regressziós, variancia- és korrelációs elemzés (a legtöbb modern statisztikai csomagban megvalósítva, különösen a SAS Institute, StatSoft stb. termékeiben);

Egy adott tárgykörben empirikus modelleken alapuló elemzési módszerek (gyakran alkalmazzák pl. olcsó pénzügyi elemzési eszközökben);

Neurális hálózati algoritmusok, amelyek ötlete az idegszövet működésével való analógián alapul, és abban a tényben rejlik, hogy a kezdeti paramétereket olyan jeleknek tekintik, amelyek a „neuronok” és a „neuronok” közötti meglévő kapcsolatoknak megfelelően átalakulnak. a teljes hálózatnak a kezdeti válaszokra adott válaszát az elemzési adatokból származó válasznak tekintjük. Ebben az esetben a kapcsolatok az úgynevezett hálózati tréning segítségével jönnek létre, nagy mintaméreten keresztül, amely mind a kiindulási adatokat, mind a helyes válaszokat tartalmazza;

Algoritmusok - az eredeti adatok közeli analógjának kiválasztása a meglévő történeti adatokból. „Legközelebbi szomszéd” módszernek is nevezik;

A döntési fák olyan hierarchikus struktúrák, amelyek olyan kérdések halmazán alapulnak, amelyek „igen” vagy „nem” választ igényelnek; habár ez a módszer Az adatfeldolgozás nem mindig találja meg tökéletesen a meglévő mintákat, a kapott válasz egyértelműsége miatt meglehetősen gyakran használják előrejelző rendszerekben;

A klasztermodellek (néha szegmentációs modelleknek is nevezik) a hasonló események csoportosítására szolgálnak egy adatkészlet több mezőjének hasonló értékei alapján; nagyon népszerű előrejelző rendszerek létrehozásakor is;

Korlátozott keresési algoritmusok, amelyek kiszámítják az egyszerű logikai események kombinációinak gyakoriságát az adatok alcsoportjaiban;

Evolúciós programozás - az adatok egymásra utaltságát kifejező algoritmus keresése és generálása egy kezdetben meghatározott, a keresési folyamat során módosított algoritmus alapján; néha az interdependenciák keresése bizonyos típusú függvények (például polinomok) között történik.

Ezekről és más adatbányászati ​​algoritmusokról, valamint az ezeket megvalósító eszközökről további információ V.A. Duke és A.P. Samoilenko „Data Mining: Training Course” című könyvében olvasható, amelyet a Peter kiadó adott ki 2001-ben. Ma ez azon kevés orosz nyelvű könyvek egyike, amelyek ennek a problémának szentelték.

Az adatbányászati ​​eszközök vezető gyártói

Az adatbányászati ​​eszközök, mint a legtöbb Business Intelligence eszköz, hagyományosan drága szoftvereszközök – némelyikük akár több tízezer dollárba is kerül. Ezért egészen a közelmúltig ennek a technológiának a fő fogyasztói bankok, pénzügyi és biztosítótársaságok, nagy kereskedelmi vállalkozások voltak, az adatbányászat alkalmazását igénylő fő feladatnak a hitel- és biztosítási kockázatok felmérését, valamint a marketingpolitikák kialakítását tekintették. , díjcsomagokés az ügyfelekkel való munka egyéb alapelvei. Az elmúlt években a helyzet bizonyos változásokon ment keresztül: több gyártó viszonylag olcsó Data Mining eszközei jelentek meg a szoftverpiacon, amivel olyan kis- és középvállalkozások számára is elérhetővé vált ez a technológia, amelyek korábban nem gondoltak rá.

NAK NEK modern eszközökkel Az üzleti intelligencia jelentéskészítőket, elemző adatfeldolgozó eszközöket, BI-megoldás-fejlesztő eszközöket (BI Platformokat) és az úgynevezett Enterprise BI Suite-okat – a vállalati szintű adatelemző és -feldolgozó eszközöket, amelyek lehetővé teszik az adatelemzéssel kapcsolatos műveletek végrehajtását. és jelentések létrehozása, és gyakran tartalmazzák a BI-eszközök és a BI-alkalmazás-fejlesztő eszközök integrált készletét. Ez utóbbiak általában jelentéskészítő eszközöket, OLAP eszközöket és gyakran adatbányászati ​​eszközöket tartalmaznak.

A Gartner Group elemzői szerint a vállalati szintű adatelemző és -feldolgozó eszközök piacának vezető szerepet tölt be a Business Objects, a Cognos, az Information Builders, és a Microsoft és az Oracle is vezető szerepet vállalt (1. ábra). Ami a BI-megoldások fejlesztőeszközeit illeti, ezen a területen a vezető szerepért a Microsoft és a SAS Institute a fő versenyzők (2. ábra).

Vegye figyelembe, hogy a Microsoft Business Intelligence eszközei viszonylag olcsó termékek, amelyek a vállalatok széles köre számára elérhetők. Éppen ezért a cikk további részeiben az adatbányászat használatának néhány gyakorlati vonatkozását a vállalat termékeinek példáján tekintjük át.

Irodalom:

1. Duke V.A. Data Mining - adatbányászat. - http://www.olap.ru/basic/dm2.asp.

2. Duke V.A., Samoilenko A.P. Adatbányászat: képzés. - Szentpétervár: Péter, 2001.

3. B. de Ville. Microsoft adatbányászat. Digitális sajtó, 2001.

Az OLAP rendszerek lehetőséget adnak az elemzőnek a hipotézisek tesztelésére az adatok elemzésekor, vagyis az elemző fő feladata hipotézisek generálása, amelyeket tudása és tapasztalata alapján old meg, azonban nem csak az ember rendelkezik tudással, hanem az elemzett felhalmozott adatok. Az ilyen ismereteket hatalmas mennyiségű információ tartalmazza, amelyet az ember önmagában nem tud kutatni. Emiatt fennáll annak a veszélye, hogy elmulasztanak olyan hipotéziseket, amelyek jelentős előnyökkel járhatnak.

A „rejtett” ismeretek felderítésére speciális automatikus elemzési módszereket alkalmaznak, amelyek segítségével az információ „blokkolásaiból” kell a tudást gyakorlatilag kinyerni. Ehhez a területhez az „adatbányászat” vagy „adatbányászat” kifejezést rendelték.

A DataMiningnek számos definíciója létezik, amelyek kiegészítik egymást. Itt van néhány közülük.

Az adatbányászat nem triviális és gyakorlatilag hasznos minták felfedezésének folyamata az adatbázisokban. (Alapcsoport)

Az adatbányászat nagy mennyiségű adat kinyerésének, feltárásának és modellezésének folyamata, hogy korábban ismeretlen mintákat (mintákat) fedezzenek fel az üzleti előnyök elérése érdekében (SAS Institute)

Az adatbányászat egy olyan folyamat, amelynek célja új jelentős összefüggések, minták és trendek felfedezése nagy mennyiségű tárolt adat átszűrésével mintafelismerő technikák, valamint statisztikai és matematikai technikák alkalmazásával (GartnerGroup).

Az adatbányászat egy „gép” (algoritmusok, mesterséges intelligencia eszközök) kutatása és felfedezése a nyers adatokban rejtett tudásnak.korábban ismeretlenek, nem triviálisak, gyakorlatilag hasznosak, értelmezhetőek voltak(A. Bargesyan „Data Analysis Technologies”)

Az adatbányászat az üzleti életről szóló hasznos ismeretek felfedezésének folyamata. (N.M. Abdikeev „KBA”)

A felfedezett tudás tulajdonságai

Tekintsük a felfedezett tudás tulajdonságait.

  • A tudásnak újnak, korábban ismeretlennek kell lennie. A felhasználó által már ismert tudás felfedezésére fordított erőfeszítés nem térül meg. Ezért az új, korábban ismeretlen tudás az értékes.
  • A tudásnak nem triviálisnak kell lennie. Az elemzés eredményeinek nem nyilvánvalót, váratlant kell tükrözniükminták az adatokban, amelyek úgynevezett rejtett tudást alkotnak. Eredmények, amiket többet is meg lehetett volna szerezni egyszerű módokon(például szemrevételezés) nem indokolják a hatékony DataMining módszerek használatát.
  • A tudásnak gyakorlatilag hasznosnak kell lennie. A talált tudásnak kellően nagy megbízhatósággal alkalmazhatónak kell lennie, beleértve az új adatokat is. A hasznosság abban rejlik, hogy ez a tudás bizonyos előnyökkel járhat, ha alkalmazzák.
  • A tudásnak hozzáférhetőnek kell lennie az emberi megértés számára. A talált mintáknak logikailag magyarázhatónak kell lenniük, különben fennáll annak a lehetősége, hogy véletlenszerűek. Emellett a feltárt tudást az ember számára érthető formában kell bemutatni.

A DataMiningben modelleket használnak a megszerzett tudás reprezentálására. A modellek típusai a létrehozásukhoz használt módszerektől függenek. A leggyakoribbak a szabályok, a döntési fák, a klaszterek és a matematikai függvények.

Adatbányászati ​​feladatok

Emlékezzünk vissza, hogy a DataMining technológia a sablonok koncepcióján alapul, amelyek minták. Ezeknek a szabad szem elől rejtett mintáknak a felfedezésének eredményeként a DataMining problémák megoldódnak. Az ember által olvasható formában kifejezhető különböző típusú minták megfelelnek az adott DataMining feladatoknak.

Nincs egyetértés abban, hogy mely feladatokat kell DataMining kategóriába sorolni. A legtöbb hiteles forrás a következőket sorolja fel: osztályozás,

klaszterezés, előrejelzés, asszociáció, vizualizáció, elemzés és felfedezés

eltérések, értékelés, összefüggések elemzése, összegzés.

Az alábbi leírás célja, hogy általános képet adjon a DataMining problémákról, összehasonlítson néhányat, valamint bemutatjon néhány módszert, amellyel ezeket a problémákat megoldják. A leggyakoribb adatbányászati ​​feladatok az osztályozás, a klaszterezés, az asszociáció, az előrejelzés és a vizualizáció. Így a feladatok az előállított információ típusa szerint vannak felosztva, ez a DataMining feladatok legáltalánosabb osztályozása.

Osztályozás

Az objektumok vagy megfigyelések halmazának a priori felosztásának problémája meghatározott csoportok, úgynevezett osztályok, amelyek mindegyikén belül feltételezzük, hogy hasonlóak egymáshoz, megközelítőleg azonos tulajdonságokkal és jellemzőkkel rendelkeznek. Ebben az esetben a megoldást az alapján kapjuk meg elemzés attribútumok (jellemzők) értékei.

Az osztályozás az egyik legfontosabb feladat Adatbányászat . ben használják marketing a hitelfelvevők hitelképességének felmérése során meghatározva vásárlói hűség, mintafelismerés , orvosi diagnosztika és sok más alkalmazás. Ha az elemző ismeri az egyes osztályok objektumainak tulajdonságait, akkor amikor egy új megfigyelés egy adott osztályhoz tartozik, ezek a tulajdonságok automatikusan kiterjesztésre kerülnek arra.

Ha az osztályok száma kettőre korlátozódik, akkorbináris osztályozás , amelyre számos összetettebb probléma redukálható. Például a „Magas”, „Közepes” vagy „Alacsony” hitelkockázati fokozatok meghatározása helyett csak kettőt használhat: „Kiadás” vagy „Elutasítás”.

A DataMining számos különböző modellt használ az osztályozáshoz: neurális hálózatok, döntési fák , támogatási vektor gépek, k-legközelebbi szomszédok módszere, lefedő algoritmusok stb., amelyek felépítésében felügyelt tanulást alkalmaznak, hakimeneti változó(osztálycímke ) van megadva minden megfigyeléshez. Formálisan az osztályozás a partíció alapján történikjellemző terek területekre, amelyek mindegyikén belültöbbdimenziós vektorok azonosnak tekintendők. Más szóval, ha egy objektum egy bizonyos osztályhoz tartozó térrégióba esik, akkor ahhoz tartozik.

Klaszterezés

Rövid leírás. A klaszterezés az ötlet logikus folytatása

osztályozások. Ez egy összetettebb feladat, a klaszterezés sajátossága, hogy az objektumosztályok kezdetben nincsenek előre definiálva. A klaszterezés eredménye az objektumok csoportokra osztása.

Példa egy klaszterezési probléma megoldási módszerére: egy speciális típusú neurális hálózat – önszerveződő Kohonen térképek – „felügyelet nélküli” betanítása.

Egyesületek

Rövid leírás. Az asszociációs szabályok keresésének problémájának megoldása során egy adathalmaz kapcsolódó eseményei között mintákat találunk.

Az asszociáció és a két korábbi DataMining feladat közötti különbség: a minták keresése nem az elemzett objektum tulajdonságai alapján történik, hanem több, egyidejűleg bekövetkező esemény között. Az asszociációs szabályok megtalálásának problémájának megoldására a legismertebb algoritmus az Apriori algoritmus.

Sorozat vagy szekvenciális asszociáció

Rövid leírás. A szekvencia lehetővé teszi a tranzakciók közötti időbeli minták megtalálását. A szekvenciafeladat hasonló az asszociációhoz, de célja nem egyidejűleg bekövetkező események, hanem időben összefüggő (azaz bizonyos időintervallumban bekövetkező) események közötti minták kialakítása. Más szavakkal, a sorozatot időben összefüggő események láncolatának nagy valószínűsége határozza meg. Valójában az asszociáció egy nulla időeltolódású sorozat speciális esete. Ezt a DataMining feladatot szekvenciális mintakereső feladatnak is nevezik.

Sorrendszabály: X esemény után egy bizonyos idő után Y esemény következik be.

Példa. Lakásvásárlás után a lakók az esetek 60%-ában két héten belül hűtőt, két hónapon belül pedig az esetek 50%-ában tévét vásárolnak. A probléma megoldását széles körben alkalmazzák a marketingben és a menedzsmentben, például az Ügyféléletciklus-kezelésben.

Regresszió, előrejelzés (előrejelzés)

Rövid leírás. Az előrejelzési probléma megoldása eredményeként a cél numerikus mutatók hiányzó vagy jövőbeli értékeit a történeti adatok jellemzői alapján becsüljük meg.

Az ilyen problémák megoldására széles körben alkalmazzák a matematikai statisztikai módszereket, a neurális hálózatokat stb.

További feladatok

Eltérés észlelése, variancia- vagy kiugró elemzés

Rövid leírás. A probléma megoldásának célja az általános adathalmaztól leginkább eltérő adatok észlelése és elemzése, úgynevezett jellegtelen minták azonosítása.

Becslés

A becslési feladat egy jellemző folytonos értékeinek előrejelzésére irányul.

Linkelemzés

Függőségek keresésének feladata egy adathalmazban.

Vizualizáció (GraphMining)

A vizualizáció eredményeként az elemzett adatokról grafikus kép jön létre. A vizualizációs probléma megoldására grafikus módszerekkel mutatják be a minták jelenlétét az adatokban.

A vizualizációs technikák egyik példája az adatok 2D és 3D dimenziókban történő bemutatása.

Összegzés

Olyan feladat, amelynek célja az elemzett adathalmazból meghatározott objektumcsoportok leírása.

A fenti osztályozáshoz egészen közel áll a DataMining feladatok felosztása a következőkre: kutatás és felfedezés, előrejelzés és osztályozás, magyarázat és leírás.

Automatikus feltárás és felfedezés (ingyenes keresés)

Példafeladat: új piaci szegmensek felfedezése.

A problémák ezen osztályának megoldására klaszterelemzési módszereket alkalmaznak.

Előrejelzés és osztályozás

Példaprobléma: az értékesítés növekedésének előrejelzése a jelenlegi értékek alapján.

Módszerek: regresszió, neurális hálózatok, genetikai algoritmusok, döntési fák.

Az osztályozási és előrejelzési feladatok az ún. induktív modellezés egy csoportját alkotják, amely az elemzett objektum vagy rendszer vizsgálatát eredményezi. E problémák megoldása során egy általános modellt vagy hipotézist dolgoznak ki egy adathalmaz alapján.

Magyarázat és leírás

Példaprobléma: a vásárlók jellemzése demográfiai adatok és vásárlási előzmények alapján.

Módszerek: döntési fák, szabályrendszerek, asszociációs szabályok, kapcsolatelemzés.

Ha az ügyfél jövedelme meghaladja az 50 konvencionális egységet és életkora meghaladja a 30 évet, akkor az ügyfél osztálya az első.

Klaszterezés és osztályozás összehasonlítása

Jellegzetes

Osztályozás

Klaszterezés

Az edzés irányíthatósága

Ellenőrzött

Irányíthatatlan

Stratégiák

Oktatói képzés

Felügyelet nélküli tanulás

Az osztálycímke elérhetősége

Edzőkészlet

felirattal kísérve

osztályba tartozik

megfigyelés

Edző osztály címkék

készletek ismeretlenek

Az osztályozás alapja

Az új adatok osztályozása a képzési halmaz alapján történik

Sok adatot megadnak erre a célra

a létezés megállapítása

osztályok vagy adatklaszterek

A DataMining alkalmazási területei

Meg kell jegyezni, hogy ma a DataMining technológiát a legszélesebb körben használják üzleti problémák megoldására. Ennek oka talán az, hogy ebben az irányban a DataMining eszközök használatának megtérülése egyes források szerint akár 1000%-ot is elérhet, és a megvalósítás költségei gyorsan megtérülhetnek.

Részletesen megvizsgáljuk a DataMining technológia négy fő alkalmazási területét: a tudományt, az üzleti életet, a kormányzati kutatást és a webet.

üzleti feladatokat. Főbb területek: bank, pénzügy, biztosítás, CRM, gyártás, távközlés, e-kereskedelem, marketing, tőzsde és mások.

    Ki kell adni kölcsönt az ügyfélnek?

    Piaci szegmentáció

    Új ügyfelek vonzása

    Hitelkártya-csalás

A DataMining alkalmazása a a problémák állami szintű megoldása. Főbb irányok: adóelkerülők felkutatása; jelenti a terrorizmus elleni küzdelemben.

A DataMining alkalmazása a tudományos kutatás. Főbb területek: orvostudomány, biológia, molekuláris genetika és géntechnológia, bioinformatika, csillagászat, alkalmazott kémia, drogfüggőséggel kapcsolatos kutatások és egyebek.

A DataMining használata a megoldáshoz Webes feladatok. Főbb területek: keresőmotorok, számlálók és mások.

E-kereskedelem

Az e-kereskedelem területén a DataMininget használják generálásra

Ez a besorolás lehetővé teszi a vállalatok számára, hogy meghatározott ügyfélcsoportokat azonosítsanak, és marketingpolitikákat hajtsanak végre az ügyfelek azonosított érdekeinek és igényeinek megfelelően. Az e-kereskedelemhez használt DataMining technológia szorosan kapcsolódik a WebMining technológiához.

A DataMining fő feladatai az ipari termelésben:

· a termelési helyzetek átfogó rendszerelemzése;

· a termelési helyzetek alakulásának rövid és hosszú távú előrejelzése;

· optimalizálási megoldási lehetőségek kidolgozása;

· egy termék minőségének előrejelzése bizonyos paraméterek függvényében

technológiai folyamat;

· rejtett trendek és minták feltárása a termelés fejlődésében

folyamatok;

· fejlődési minták előrejelzése termelési folyamatok;

· rejtett befolyásoló tényezők feltárása;

· közötti korábban ismeretlen kapcsolatok felderítése és azonosítása

termelési paraméterek és befolyásoló tényezők;

· a termelési folyamatok interakciós környezetének elemzése és előrejelzés

jellemzőiben bekövetkezett változások;

folyamatok;

· elemzési eredmények megjelenítése, előzetes jelentések, projektek elkészítése

megvalósítható megoldások a lehetséges megvalósítások megbízhatóságának és hatékonyságának értékelésével.

Marketing

A marketing területén a DataMininget széles körben használják.

Alapvető marketingkérdések: „Mit árulnak?”, „Hogyan adják el?”, „Ki az

fogyasztó?"

Az osztályozási és klaszterezési problémákról szóló előadás részletesen ismerteti a klaszterelemzés alkalmazását marketing problémák megoldására, például fogyasztói szegmentációra.

A marketing problémák megoldásának másik elterjedt módszerei az asszociációs szabályok keresésének módszerei és algoritmusai.

Itt is sikeresen alkalmazzák az időbeli minták keresését.

Kiskereskedelem

A kiskereskedelemben, akárcsak a marketingben, a következőket használják:

· algoritmusok az asszociációs szabályok kereséséhez (a gyakran előforduló halmazok meghatározásához

áruk, amelyeket a vásárlók egyidejűleg vásárolnak). Az ilyen szabályok azonosítása segít

áruk elhelyezése a boltok polcain, árubeszerzési stratégiák kidolgozása

és raktári elhelyezésük stb.

· idősorozatok használata például annak meghatározására

szükséges mennyiségű árut a raktárban.

· osztályozási és klaszterezési módszerek az ügyfelek csoportjainak vagy kategóriáinak azonosítására,

amelyek ismerete hozzájárul az áruk sikeres promóciójához.

Tőzsde

Az alábbiakban felsoroljuk azokat a tőzsdei problémákat, amelyek Data technológia segítségével megoldhatók

Bányászat: · pénzügyi eszközök jövőbeli értékeinek és mutatóinak előrejelzése

múltbeli értékek;

· trend előrejelzés (a mozgás jövőbeli iránya - növekedés, csökkenés, lapos) pénzügyi

a hangszer és annak erőssége (erős, közepesen erős stb.);

· a piac, iparág, szektor klaszterszerkezetének azonosítása egy adott halmaz szerint

jellemzők;

· dinamikus portfóliókezelés;

· volatilitás előrejelzés;

· kockázatértékelés;

· a válság kialakulásának előrejelzése és fejlődésének előrejelzése;

· eszközök kiválasztása stb.

A fent leírt tevékenységi területeken túl a DataMining technológia a legkülönfélébb üzleti területeken alkalmazható, ahol adatelemzésre van szükség, és bizonyos mennyiségű visszamenőleges információ halmozódott fel.

A DataMining alkalmazása CRM-ben

A DataMining használatának egyik legígéretesebb területe ennek a technológiának az analitikus CRM-ben való alkalmazása.

CRM (CustomerRelationshipManagement) - ügyfélkapcsolat-kezelés.

Ha ezeket a technológiákat együtt alkalmazzák, a tudás kinyerése az ügyféladatokból való „pénzkivonással” kombinálódik.

A marketing és értékesítési osztályok munkájában fontos szempont az összeállításholisztikus nézet az ügyfelekről, információk jellemzőiről, jellemzőiről és az ügyfélbázis szerkezetéről. A CRM úgynevezett profilalkotást használügyfeleket, teljes képet adva az ügyfelekről szükséges összes információról.

Az ügyfélprofilalkotás a következő összetevőket tartalmazza: vevőszegmentáció, vevő jövedelmezősége, vevőmegtartás, vevői válaszelemzés. Ezen komponensek mindegyike a DataMining segítségével vizsgálható, és profilalkotási komponensként együtt elemezve végső soron olyan ismereteket adhatunk, amelyeket az egyes jellemzőkből lehetetlen megszerezni.

WebMining

A WebMining úgy fordítható, hogy „adatbányászat a weben”. WebIntelligence vagy Web.

Az Intelligence készen áll arra, hogy „új fejezetet nyisson” az elektronikus üzletág rohamos fejlődésében. Komoly és kritikus versenyelőny az e-kereskedelmi piacon, hogy az egyes látogatók érdeklődési körét és preferenciáit viselkedésének megfigyelésével meghatározhatjuk.

A WebMining rendszerek számos kérdésre adhatnak választ, például, hogy a látogatók közül ki a webáruház potenciális ügyfele, a webáruház vásárlóinak melyik csoportja hozza a legtöbb bevételt, mi az érdeklődési köre egy-egy látogatónak vagy látogatói csoportnak.

Mód

A módszerek osztályozása

A módszereknek két csoportja van:

  • az átlagosan felhalmozott tapasztalatok felhasználásán alapuló statisztikai módszerek, amelyek visszamenőleges adatokban jelennek meg;
  • kibernetikai módszerek, köztük sok heterogén matematikai megközelítés.

Ennek az osztályozásnak az a hátránya, hogy mind a statisztikai, mind a kibernetikai algoritmusok így vagy úgy támaszkodnak a statisztikai tapasztalatok összehasonlítására a jelenlegi helyzet monitorozásának eredményeivel.

Ennek az osztályozásnak az az előnye, hogy könnyen értelmezhető – a kezdeti megfigyelések (operatív és retrospektív) tömbjeiből tudáskinyerés modern megközelítésének matematikai eszközeinek leírására szolgál, pl. az adatbányászati ​​feladatokban.

Nézzük meg közelebbről a fent bemutatott csoportokat.

Statisztikai módszerek Adatbányászat

Ezekben A módszerek négy egymással összefüggő szakaszt képviselnek:

  • a statisztikai adatok jellegének előzetes elemzése (stacionaritás, normalitás, függetlenség, homogenitás hipotéziseinek tesztelése, eloszlásfüggvény típusának, paramétereinek stb. felmérése);
  • kapcsolatok azonosítása és minták(lineáris és nemlineáris regresszióanalízis, korrelációs elemzés stb.);
  • többváltozós statisztikai elemzés (lineáris és nemlineáris diszkriminanciaanalízis, klaszteranalízis, komponensanalízis, faktoranalízis stb.);
  • dinamikus modellek és idősorok alapján előrejelzés.

Az adatbányászat statisztikai módszereinek arzenálja négy módszercsoportba sorolható:

  1. A forrásadatok leíró elemzése és leírása.
  2. Kapcsolatelemzés (korrelációs és regresszióanalízis, faktoranalízis, varianciaanalízis).
  3. Többváltozós statisztikai elemzés (komponensanalízis, diszkriminanciaanalízis, többváltozós regresszióanalízis, kanonikus korrelációk stb.).
  4. Idősor elemzés (dinamikus modellek és előrejelzés).

Kibernetikus adatbányászati ​​módszerek

Az adatbányászat második iránya a különféle megközelítések, amelyeket a számítógépes matematika gondolata és a mesterséges intelligencia elméletének alkalmazása egyesít.

Ez a csoport a következő módszereket tartalmazza:

  • mesterséges neurális hálózatok (felismerés, klaszterezés, előrejelzés);
  • evolúciós programozás (beleértve az argumentumok csoportos számviteli módszerének algoritmusait);
  • genetikai algoritmusok (optimalizálás);
  • asszociatív memória (analógok, prototípusok keresése);
  • zavaros logika;
  • döntési fák;
  • szakértői tudásfeldolgozó rendszerek.

Klaszteranalízis

A klaszterezés célja meglévő struktúrák keresése.

A klaszterezés leíró eljárás, nem von le statisztikai következtetéseket, de lehetőséget ad feltáró elemzés elvégzésére és az „adatszerkezet” tanulmányozására.

Maga a „klaszter” fogalma kétértelműen definiált: minden tanulmánynak megvannak a maga „klaszterei”. A klaszter fogalmát „klaszternek”, „csomónak” fordítják. A klaszter olyan objektumok csoportjaként jellemezhető, amelyek közös tulajdonságokkal rendelkeznek.

A klaszter jellemzői kétféleképpen írhatók le:

  • belső homogenitás;
  • külső szigetelés.

Az elemzők által sok probléma megoldása során felmerülő kérdés, hogy hogyan lehet az adatokat vizuális struktúrákba rendezni, pl. taxonómiákat bővíteni.

A klaszterezést kezdetben a legszélesebb körben olyan tudományokban használták, mint a biológia, az antropológia és a pszichológia. A klaszterezést a gazdasági adatok és jelenségek sajátossága miatt hosszú ideig kevéssé alkalmazzák gazdasági problémák megoldására.

A klaszterek lehetnek diszjunkt, vagy kizárólagos (nem átfedő, kizárólagos) és átfedőek.

Megjegyzendő, hogy a különböző klaszterelemzési módszerek alkalmazásával különböző alakú klaszterek nyerhetők. Például „lánc” típusú klaszterek lehetségesek, amikor a klasztereket hosszú „láncok”, megnyúlt klaszterek stb. képviselik, és egyes módszerek tetszőleges alakú klasztereket hozhatnak létre.

Különféle módszerek törekedhetnek meghatározott méretű (például kicsi vagy nagy) klaszterek létrehozására, vagy feltételezhetik, hogy az adatkészletben különböző méretű klaszterek vannak. Egyes klaszterelemzési módszerek különösen érzékenyek a zajra vagy a kiugró értékekre, mások kevésbé. Különböző klaszterezési módszerek alkalmazásával eltérő eredményeket kaphatunk, ez normális, és egy adott algoritmus működésének sajátossága. Ezeket a jellemzőket figyelembe kell venni a klaszterezési módszer kiválasztásakor.

Adjunk rövid leírást a klaszterezés megközelítéseiről.

Adatleválasztáson alapuló algoritmusok (Particionáló algoritmusok), beleértve ismétlődő:

  • objektumok felosztása k klaszterre;
  • Az objektumok iteratív újraelosztása a klaszterezés javítása érdekében.
  • Hierarchia-algoritmusok:
  • agglomeráció: minden objektum kezdetben egy klaszter, klaszterek,
  • egymással összekapcsolódva nagyobb klasztert alkotnak stb.

Sűrűség alapú módszerek:

  • tárgyak összekapcsolásának képessége alapján;
  • figyelmen kívül hagyja a zajt, és keressen tetszőleges alakú klasztereket.

Rács - módszerek (grid alapú módszerek):

  • objektumok kvantálása rácsszerkezetekké.

Modell módszerek (modell alapú):

  • a modell segítségével megtalálja az adatokhoz legjobban illeszkedő klasztereket.

Klaszterelemzési módszerek. Iteratív módszerek.

Nagyszámú megfigyelés esetén a klaszteranalízis hierarchikus módszerei nem megfelelőek. Ilyen esetekben nem hierarchikus, felosztáson alapuló módszereket alkalmaznak, amelyek az eredeti sokaság feldarabolásának iteratív módszerei. A felosztási folyamat során új klaszterek jönnek létre, amíg a leállítási szabály teljesül.

Az ilyen nem hierarchikus klaszterezés egy adathalmaz bizonyos számú egyedi klaszterre való felosztásából áll. Két megközelítés létezik. Az első, hogy meghatározzuk a klaszterek határait, mint a legsűrűbb területeket a forrásadatok többdimenziós terében, azaz. olyan klaszter meghatározása, ahol nagy a „pontsűrűség”. A második megközelítés az objektumok közötti különbség mértékének minimalizálása

k-közép algoritmus

A leggyakoribb nem hierarchikus módszer a k-közép algoritmus, más néven gyors klaszterelemzés. Az algoritmus teljes leírása Hartigan és Wong (1978) könyvében található. Ellentétben a hierarchikus módszerekkel, amelyek nem igényelnek előzetes feltételezéseket a klaszterek számát illetően, a módszer használatához szükség van egy hipotézisre a klaszterek legvalószínűbb számáról.

A k-közép algoritmus k klasztert hoz létre, amelyek egymástól a lehető legnagyobb távolságra helyezkednek el. A k-means algoritmus által megoldott problémák fő típusa a klaszterek számával kapcsolatos feltételezések (hipotézisek) jelenléte, amelyek lehetőleg különbözőek legyenek. A k választása alapozhat korábbi kutatásokon, elméleti megfontolásokon vagy intuíción.

Az algoritmus általános gondolata: egy adott fix számú megfigyelési klasztert klaszterekkel hasonlítanak össze, hogy a klaszterben (minden változónál) az átlagok a lehető legnagyobb mértékben eltérjenek egymástól.

Az algoritmus leírása

1. Az objektumok kezdeti elosztása klaszterekbe.

  • Kiválasztjuk a k számot, és első lépésben ezeket a pontokat tekintjük a klaszterek „középpontjának”.
  • Minden klaszter egy központnak felel meg.

A kezdeti centroidok kiválasztása a következőképpen történhet:

  • k-megfigyelések kiválasztása a kezdeti távolság maximalizálása érdekében;
  • a k-megfigyelések véletlenszerű kiválasztása;
  • az első k-megfigyelések kiválasztása.

Ennek eredményeként minden objektum egy adott fürthöz van hozzárendelve.

2. Iteratív folyamat.

A rendszer kiszámítja a klaszterek középpontját, amelyet azután a klaszterek koordináta szerinti átlagának kiszámításához használ. Az objektumok újra elosztásra kerülnek.

A központok kiszámításának és az objektumok újraelosztásának folyamata addig folytatódik, amíg az egyik feltétel teljesül:

  • a klaszterközpontok stabilizálódtak, i.e. minden megfigyelés ahhoz a klaszterhez tartozik, amelyhez az aktuális iteráció előtt tartozott;
  • az iterációk száma megegyezik az iterációk maximális számával.

Az ábra egy példát mutat a k-közép algoritmusra, ha k egyenlő kettővel.

Példa a k-közép algoritmusra (k=2)

A klaszterek számának megválasztása összetett kérdés. Ha erre a számra vonatkozóan nincsenek feltételezések, akkor a kapott eredmények összehasonlításával ajánlatos 2 klasztert létrehozni, majd 3, 4, 5 stb.

A klaszterezés minőségének ellenőrzése

A k-közép klaszteranalízis eredményeinek kézhezvétele után ellenőrizni kell a klaszterezés helyességét (azaz fel kell mérni, hogy a klaszterek mennyire különböznek egymástól).

Ehhez az egyes klaszterek átlagos értékeit kiszámítják. A jó klaszterezés minden méréshez, vagy legalábbis a legtöbb méréshez nagyon eltérő eszközöket eredményez.

A k-means algoritmus előnyei:

  • egyszerű használat;
  • a használat sebessége;
  • az algoritmus érthetősége és átláthatósága.

A k-means algoritmus hátrányai:

  • az algoritmus túl érzékeny a kiugró értékekre, amelyek torzíthatják az átlagot.

Lehetséges megoldás Ez a probléma az algoritmus egy módosítása – a k-medián algoritmus – használata;

  • az algoritmus lassú lehet nagy adatbázisokon. A probléma lehetséges megoldása az adatmintavételezés.

Bayesi hálózatok

A valószínűségelméletben az információfüggőség fogalmát a feltételes függés (vagy szigorúan: a feltételes függetlenség hiánya) modellezi, amely leírja, hogyan változik bizonyos esemény kimenetelébe vetett bizalmunk, amikor új ismereteket szerezünk a tényekről, feltéve, hogy már tudtuk. néhány egyéb tény.

Kényelmes és intuitív az elemek közötti függőségek ábrázolása egy irányított útvonalon keresztül, amely ezeket az elemeket összeköti egy gráfban. Ha az x és y elemek közötti kapcsolat nem közvetlen, és egy harmadik z elemen keresztül valósul meg, akkor logikus, hogy az x és y közötti úton lesz egy z elem. Az ilyen közvetítő csomópontok „levágják” az x és y közötti függőséget, azaz. szimulálja a köztük lévő feltételes függetlenség helyzetét a közvetlen befolyásoló tényezők ismert értékével.Ilyen modellező nyelvek a Bayes-hálózatok, amelyek egy bizonyos témakör fogalmai közötti feltételes függőségek leírására szolgálnak.

A bayesi hálózatok grafikus szerkezetek nagyszámú változó közötti valószínűségi összefüggések ábrázolására és azokra a változókra alapozott valószínűségi következtetés levonására.A „naiv" (bayesi) osztályozás meglehetősen átlátható és érthető osztályozási módszer. „Naiv"-nak nevezik, mert a kölcsönösség feltételezésén alapul.a jelek függetlensége.

Osztályozási tulajdonságok:

1. Az összes változó használata és a köztük lévő összes függőség meghatározása.

2. Két feltételezés van a változókkal kapcsolatban:

  • minden változó egyformán fontos;
  • minden változó statisztikailag független, azaz. az egyik változó értéke semmit sem mond a másik értékéről.

A Bayes-hálózatok használatának két fő forgatókönyve van:

1. Leíró elemzés. A tárgyterület grafikonként jelenik meg, melynek csomópontjai fogalmakat, a nyilakkal megjelenített irányított ívek pedig e fogalmak közötti közvetlen függőségeket szemléltetik. Az x és y közötti kapcsolat azt jelenti, hogy az x értékének ismerete segít jobban kitalálni y értékét. A fogalmak közötti közvetlen kapcsolat hiánya modellezi a köztük lévő feltételes függetlenséget egy bizonyos „elválasztó” fogalmak ismert értékeivel. Például a gyermek cipőmérete nyilvánvalóan összefügg a gyermek olvasási képességével az életkoron keresztül. Így a nagyobb cipőméret nagyobb magabiztosságot ad abban, hogy a gyerek már olvas, de ha már ismerjük a korát, akkor a cipőméret ismerete már nem ad nekünk további információ a gyermek olvasási képességéről.


Egy másik, ellentétes példaként vegyünk olyan, kezdetben egymással nem összefüggő tényezőket, mint a dohányzás és a megfázás. De ha ismerünk egy tünetet, például, hogy az ember reggel köhög, akkor annak tudata, hogy az illető nem dohányzik, növeli a bizalmunkat, hogy az illető megfázott.

2. Osztályozás és előrejelzés. A Bayes-hálózat, amely lehetővé teszi számos fogalom feltételes függetlenségét, lehetővé teszi a közös eloszlás paramétereinek számának csökkentését, lehetővé téve azok megbízható becslését a rendelkezésre álló adatmennyiségeken. Tehát 10 változóval, amelyek mindegyike 10 értéket vehet fel, az együttes eloszlás paramétereinek száma 10 milliárd - 1. Ha feltételezzük, hogy ezek között a változók között csak 2 változó függ egymástól, akkor a paraméterek száma 8 lesz. * (10-1) + (10*10-1) = 171. A számítási erőforrások szempontjából reális közös elosztási modell birtokában egy fogalom ismeretlen értékét megjósolhatjuk például a legvalószínűbb értékként. ez a fogalom, tekintettel más fogalmak ismert értékeire.

A Bayes-hálózatok adatbányászati ​​módszerként a következő előnyei vannak:

A modell meghatározza az összes változó közötti függőséget, ez megkönnyítikezelni azokat a helyzeteket, amelyekben egyes változók értéke ismeretlen;

A Bayes-hálózatok meglehetősen könnyen értelmezhetők és megengedhetőkA prediktív modellezés megkönnyíti a mi lenne, ha forgatókönyv-elemzést;

A Bayes-módszer lehetővé teszi a minták természetes kombinálását,adatokból, és például kifejezetten megszerzett szakértői tudásból következtetnek;

A Bayes-hálózatok használatával elkerülhető a túlillesztés problémája(overfitting), vagyis a modell túlzott bonyolítása, ami gyengeségszámos módszer (például döntési fák és neurális hálózatok).

A Naive Bayes megközelítésnek a következő hátrányai vannak:

A feltételes valószínűségeket csak akkor helyes szorozni, ha minden bemeneta változók statisztikailag valóban függetlenek; bár gyakran ez a módszerelég jó eredményeket mutat, ha a statisztikai feltétel nem teljesülfüggetlenség, de elméletileg egy ilyen helyzetet összetettebben kellene kezelnia Bayes-hálózatok képzésén alapuló módszerek;

A folytonos változók közvetlen feldolgozása nem lehetséges – szükségesekátalakítás intervallumskálára, hogy az attribútumok diszkrétek legyenek; azonban olyanaz átalakulások néha jelentős minták elvesztéséhez vezethetnek;

Az osztályozás eredményét a Naive Bayes megközelítésben csak az befolyásoljabemeneti változók egyedi értékei, párok együttes hatása illitt nem vesszük figyelembe a különböző attribútumok értékhármasait. Ez javíthataz osztályozási modell minősége a prediktív pontosság szempontjából,ugyanakkor növelné a tesztelt opciók számát.

Mesterséges idegi hálózat

A mesterséges neurális hálózatok (a továbbiakban: neurális hálózatok) lehetnek szinkronok és aszinkronok.A szinkron neurális hálózatokban minden időpillanatban csak az állapota változik egy neuron. Aszinkronban - az állapot azonnal megváltozik a neuronok egész csoportjában, általában mindenben réteg. Van két alapvető architektúrák- réteges és teljesen összekapcsolt hálózatok.A réteges hálózatok kulcsfogalma a réteg fogalma.A réteg egy vagy több neuron, amelyek bemenetei ugyanazt a közös jelet kapják.A réteges neurális hálózatok olyan neurális hálózatok, amelyekben a neuronok külön csoportokra (rétegekre) vannak osztva, így az információt rétegről rétegre dolgozzák fel.A réteges hálózatokban az i-edik réteg idegsejtjei fogadják a bemeneti jeleket, átalakítják azokat, és elágazási pontokon keresztül továbbítják az (i+1) réteg neuronjaihoz. És így tovább a k-edik rétegig, amelyik termelkimeneti jelek a tolmács és a felhasználó számára. Az egyes rétegekben lévő neuronok száma nem függ össze a többi rétegben lévő neuronok számával, és tetszőleges lehet.Egy rétegen belül az adatok feldolgozása párhuzamosan történik, a teljes hálózaton pedig szekvenciálisan – rétegről rétegre – történik a feldolgozás. A réteges neurális hálózatok közé tartoznak például a többrétegű perceptronok, a radiális bázisfüggvény-hálózatok, a kognitron, a nonkognitron és az asszociatív memóriahálózatok.A jel azonban nem mindig jut el a réteg minden neuronjához. Egy kognitronban például az aktuális réteg minden neuronja csak az előző rétegben hozzá közeli neuronoktól kap jeleket.

A réteges hálózatok pedig lehetnek egyrétegűek vagy többrétegűek.

Egyrétegű hálózat- egy rétegből álló hálózat.

Többrétegű hálózat- több rétegű hálózat.

Egy többrétegű hálózatban az első réteget bemeneti rétegnek, a következő rétegeket belsőnek vagy rejtettnek, az utolsó réteget pedig kimeneti rétegnek nevezik. Így a köztes rétegek egy többrétegű neurális hálózat összes rétege, kivéve a bemenetet és a kimenetet.A hálózat bemeneti rétege kommunikál a bemeneti adatokkal, a kimeneti réteg pedig a kimenettel.Így a neuronok lehetnek bemeneti, kimeneti és rejtett.A bemeneti réteg bemeneti neuronokból szerveződik, amelyek adatokat fogadnak és elosztják a hálózat rejtett rétegében lévő neuronok bemenetei között.A rejtett neuron egy neuron, amely egy neurális hálózat rejtett rétegében található.A kimeneti neuronok, amelyekből a hálózat kimeneti rétege szerveződik, termelneka neurális hálózat eredményei.

Mesh hálózatokban Mindegyik neuron továbbítja a kimenetét más neuronoknak, beleértve önmagát is. A hálózat kimenőjelei lehetnek a neuronok kimenőjelei, vagy azok egy része több hálózati működési ciklus után.

Minden bemeneti jel az összes neuronhoz kerül.

Neurális hálózatok képzése

A neurális hálózat használata előtt betanítani kell.A neurális hálózat betanítási folyamata abból áll, hogy belső paramétereit egy adott feladathoz igazítjuk.A neurális hálózat algoritmusa iteratív, lépéseit korszakoknak vagy ciklusoknak nevezzük.Az epocha a tanulási folyamat egy iterációja, amely magában foglalja a képzési halmaz összes példájának bemutatását, és esetleg a tanulás minőségének ellenőrzését egy tesztkészleten. sok. A tanulási folyamat a képzési mintán történik.A képzési készlet tartalmazza az adatkészlet bemeneti értékeit és a hozzájuk tartozó kimeneti értékeket. A betanítás során a neurális hálózat bizonyos függőséget talál a kimeneti és a bemeneti mezők között.Így azzal a kérdéssel állunk szemben, hogy milyen beviteli mezőkre (szolgáltatásokra) van szükségünk?használatához szükséges. Kezdetben a választás heurisztikusan történik, majda bemenetek száma módosítható.

Problémát jelenthet az adathalmazban található megfigyelések száma. És bár vannak bizonyos szabályok, amelyek leírják az összefüggést a szükséges megfigyelések száma és a hálózat mérete között, ezek helyessége nem bizonyított.A szükséges megfigyelések száma a megoldandó probléma összetettségétől függ. A jellemzők számának növekedésével a megfigyelések száma nemlineárisan növekszik; ezt a problémát a „dimenzionalitás átkának” nevezik. Elégtelen mennyiség eseténadatok, lineáris modell használata javasolt.

Az elemzőnek meg kell határoznia a hálózat rétegeinek számát és az egyes rétegekben lévő neuronok számát.Ezután hozzá kell rendelnie a súlyok és az eltolások olyan értékeit, amelyek képesekminimalizálja a döntési hibát. A súlyok és a torzítások automatikusan beállításra kerülnek, hogy minimalizálják a kívánt és a vett kimeneti jelek közötti különbséget, amelyet edzési hibának neveznek.A felépített neurális hálózat betanítási hibáját összehasonlítással számítjuk kikimeneti és cél (kívánt) értékek. A hibafüggvény a kapott különbségekből alakul ki.

A hibafüggvény egy célfüggvény, amely minimalizálást igényel a folyamatbanneurális hálózat felügyelt tanulása.A hibafüggvény segítségével kiértékelheti a neurális hálózat minőségét a képzés során. Például gyakran használják a hibák négyzetes összegét.Egy neurális hálózat képzésének minősége határozza meg a rábízott feladatok megoldási képességét.

Neurális hálózat átképzése

A neurális hálózatok képzése során gyakran felmerül egy komoly nehézség, úntúlillesztés problémája.Túlillesztés, vagy túlillesztés - túlillesztésa neurális hálózatot a képzési példák egy meghatározott halmazához, amelyben a hálózat veszítáltalánosítás képessége.A túledzettség akkor fordul elő, ha túl sok az edzés, de nem elégképzési példák vagy túlbonyolított neurális hálózati struktúra.Az átképzés annak a ténynek köszönhető, hogy a képzési készlet kiválasztásavéletlenszerű. A tanulás első lépéseitől kezdve a hiba csökken. Továbbtovábbi lépéseket a hiba (objektív függvény) paramétereinek csökkentése érdekébenalkalmazkodni az edzéskészlet jellemzőihez. Ez azonban megtörténik„igazítás” nem a sorozat általános mintáihoz, hanem a rész jellemzőihez -képzési részhalmaz. Ugyanakkor az előrejelzés pontossága csökken.A hálózati túlképzés leküzdésének egyik lehetősége a képzési minta két részre osztásakészletek (képzés és tesztelés).A neurális hálózatot az oktatókészleten tanítják. A megépített modellt a tesztkészleten ellenőrizzük. Ezek a halmazok nem metszhetik egymást.Minden lépésnél a modell paraméterei változnak, de folyamatosan csökkennekA célfüggvény értéke pontosan a képzési halmazon jelenik meg. Ha a halmazt két részre bontjuk, akkor az előrejelzési hiba változását figyelhetjük meg a tesztkészleten, párhuzamosan a betanító halmaz megfigyeléseivel. néhányaz előrejelzési hibalépések száma mindkét halmazon csökken. Azonban továbbEgy bizonyos lépésnél a tesztkészlet hibája növekedni kezd, míg a tanítókészlet hibája tovább csökken. Ezt a pillanatot tekintik az átképzés kezdetének

Adatbányászati ​​eszközök

Világhírű vezetők és új fejlesztő cégek egyaránt részt vesznek a globális szoftverpiac DataMining szektorának fejlesztésében. A DataMining eszközök önálló alkalmazásként vagy a fő termék kiegészítőjeként is bemutathatók.Ez utóbbi lehetőséget számos szoftverpiaci vezető valósítja meg.Így már hagyománnyá vált, hogy az univerzális statisztikai csomagok fejlesztői a hagyományos statisztikai elemzési módszerek mellett a csomagba beépítika DataMining metódusok meghatározott készlete. Ezek olyan csomagok, mint SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner). Egyes OLAP-megoldásszolgáltatók egy sor DataMining metódust is kínálnak, például a Cognos termékcsaládot. Vannak olyan beszállítók, amelyek a DataMining megoldásokat is beépítik a DBMS funkcióba: ezek a Microsoft (MicrosoftSQLServer), az Oracle, az IBM (IBMIntelligentMinerforData).

Bibliográfia

  1. Abdikeev N.M. Danko T.P. Ildemenov S.V. Kiselev A.D., „Üzleti folyamatok újratervezése. MBA tanfolyam", M.: Eksmo Kiadó, 2005. - 592 p. - (MBA)
  1. Abdikeev N.M., Kiselev A.D. „Tudásmenedzselés egy vállalatban és üzleti újratervezés” - M.: Infra-M, 2011. - 382 p. – ISBN 978-5-16-004300-5
  1. Barseghyan A.A., Kupriyanov M.S., Stepanenko V.V., Kholod I.I. „Az adatelemzés módszerei és modelljei: OLAP és adatbányászat”, St. Petersburg: BHV-Petersburg, 2004, 336 pp., ISBN 5-94157-522-X
  1. Herceg BAN BEN., Samoilenko A., "Adatbányászat.Képzési tanfolyam" St. Petersburg: Peter, 2001, 386 p.
  1. Chubukova I.A., adatbányászati ​​tanfolyam, http://www.intuit.ru/department/database/datamining/
  1. IanH. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Adatbányászat: Gyakorlati gépi tanulási eszközök és technikák (harmadik kiadás), ISBN 978-0-12-374856-0
  1. Petrushin V.A. , Khan L., Multimédiás adatbányászat és tudásfeltárás

Az Orosz Föderáció Oktatási és Tudományos Minisztériuma

Szövetségi Állami Költségvetési Szakmai Felsőoktatási Intézmény

"NEMZETI KUTATÁSI TOMSZKI MŰKÖDÉSI EGYETEM"

Kibernetikai Intézet

Irány Informatika és Számítástechnika

VT osztály

Teszt

az informatika és számítástechnika tudományágban

Téma: Adatbányászati ​​módszerek

Bevezetés

Adatbányászat. Alapfogalmak és definíciók

1 Az adatbányászati ​​folyamat lépései

2 Intelligens elemző rendszerek összetevői

3 Adatbányászati ​​módszerek

Adatbányászati ​​módszerek

1 Társulási szabályzat levezetése

2 Neurális hálózati algoritmusok

3 Legközelebbi szomszéd és k-legközelebbi szomszéd módszer

4 Döntési fák

5 Klaszterezési algoritmusok

6 Genetikai algoritmusok

Alkalmazási területek

Adatbányászati ​​eszközök gyártói

A módszerek kritikája

Következtetés

Bibliográfia

Bevezetés

A fejlődés eredménye információs technológiák az a hatalmas mennyiségű adat, amelyben felhalmozódnak elektronikus formában, gyors ütemben növekszik. Ugyanakkor az adatok általában heterogén szerkezettel rendelkeznek (szövegek, képek, hangok, videók, hipertext dokumentumok, relációs adatbázisok). számára felhalmozott hosszútávú az adatok mintákat, trendeket és kapcsolatokat tartalmazhatnak, amelyek értékes információk a tervezéshez, előrejelzéshez, döntéshozatalhoz és folyamatszabályozáshoz. Az emberek azonban fizikailag képtelenek ilyen mennyiségű heterogén adat hatékony elemzésére. A hagyományos matematikai statisztika módszerei régóta tartják magukat az adatelemzés fő eszközének. Új hipotézisek szintézisét azonban nem teszik lehetővé, hanem csak előre megfogalmazott hipotézisek megerősítésére és az online analitikai feldolgozás (OLAP) alapját képező „durva” feltáró elemzésre használhatók. Gyakran egy hipotézis megfogalmazása bizonyul a legnehezebb feladatnak a későbbi döntéshozatali elemzés során, mivel az adatokban nem minden mintázat nyilvánvaló első pillantásra. Ezért az adatbányászati ​​technológiákat az egyik legfontosabb és legígéretesebb kutatási és alkalmazási témának tekintik az információs technológiai iparban. Az adatbányászat ebben az esetben az új, helyes és potenciálisan hasznos tudás azonosításának folyamatát jelenti nagy mennyiségű adat alapján. Így az MIT Technology Review az adatbányászatot a világot megváltoztató tíz feltörekvő technológia egyikeként írta le.

1. Adatbányászat. Alapfogalmak és definíciók

Az adatbányászat az a folyamat, amely az emberi tevékenység különböző területein a döntéshozatalhoz szükséges, korábban ismeretlen, nem triviális, gyakorlatilag hasznos és értelmezhető ismeretek „nyers” adatokban való feltárását jelenti.

Az adatbányászati ​​technológia lényege és célja a következőképpen fogalmazható meg: ez egy olyan technológia, amelyet arra terveztek, hogy nagy mennyiségű adatban keressen nem nyilvánvaló, objektív és praktikus mintákat.

A nem nyilvánvaló minták olyan minták, amelyek nem mutathatók ki szabványos információfeldolgozási módszerekkel vagy szakértői elemzéssel.

Az objektív mintákon olyan mintákat kell érteni, amelyek teljes mértékben megfelelnek a valóságnak, ellentétben a mindig szubjektív szakértői véleményekkel.

Ez az adatelemzési koncepció a következőket feltételezi:

§ adatok lehetnek pontatlanok, hiányosak (kihagyásokat tartalmazhatnak), ellentmondásosak, heterogének, közvetettek, ugyanakkor gigantikus terjedelműek; ezért az adatok megértése konkrét alkalmazásokban jelentős intellektuális erőfeszítést igényel;

§ maguk az adatelemző algoritmusok is rendelkezhetnek „intelligencia elemekkel”, különösen azzal a képességgel, hogy tanuljanak a precedensekből, azaz konkrét megfigyelések alapján általános következtetéseket vonjanak le; az ilyen algoritmusok kidolgozása jelentős intellektuális erőfeszítést is igényel;

§ a nyers adatok információvá, illetve az információ tudássá feldolgozása folyamatai nem végezhetők manuálisan, és automatizálást igényelnek.

Az adatbányászati ​​technológia a sablonok koncepcióján alapul, amelyek tükrözik az adatok többdimenziós kapcsolatainak töredékeit. Ezek a minták az adatok részmintáiban rejlő mintákat képviselnek, amelyek kompaktan, ember által olvasható formában kifejezhetők.

A minták keresése olyan módszerekkel történik, amelyeket nem korlátoznak a minta szerkezetére és az elemzett mutatók értékeinek eloszlásának típusára vonatkozó előzetes feltételezések.

Az adatbányászat egyik fontos jellemzője a keresett minták nem szabványos és nem nyilvánvaló jellege. Más szóval, az adatbányászati ​​eszközök abban különböznek a statisztikai adatfeldolgozó eszközöktől és az OLAP eszközöktől, hogy a felhasználók által előre feltételezett kölcsönös függőségek ellenőrzése helyett önállóan, a rendelkezésre álló adatok alapján képesek ilyen kölcsönös függőségeket megtalálni, és hipotéziseket felállítani a természetükről. Az adatbányászati ​​módszerek öt szabványos mintatípust azonosítanak:

· asszociáció – nagy a valószínűsége annak, hogy az események összefüggenek egymással. Az asszociációra példa az üzletben található tételek, amelyeket gyakran együtt vásárolnak;

· sorrend – időben összefüggő események láncolatának nagy valószínűsége. Példa a sorozatra az a helyzet, amikor egy termék megvásárlását követő bizonyos időn belül nagy valószínűséggel egy másik terméket vásárolnak meg;

· osztályozás - vannak olyan jelek, amelyek azt a csoportot jellemzik, amelyhez ez vagy az az esemény vagy tárgy tartozik;

· a klaszterezés az osztályozáshoz hasonló mintázat, és attól különbözik, hogy maguk a csoportok nincsenek megadva - az adatfeldolgozás során automatikusan azonosításra kerülnek;

· időbeli minták – minták jelenléte bizonyos adatok viselkedésének dinamikájában. Az időbeli mintázat tipikus példája bizonyos áruk vagy szolgáltatások iránti kereslet szezonális ingadozása.

1.1 Az adatbányászati ​​folyamat lépései

Az adatbányászat folyamatában hagyományosan a következő szakaszokat különböztetik meg:

1. A témakör tanulmányozása, melynek eredményeként megfogalmazódnak az elemzés főbb céljai.

2. Adatgyűjtés.

Adatok előfeldolgozása:

a. Adattisztítás - az inkonzisztenciák és a véletlenszerű „zaj” kiküszöbölése a forrásadatokból

b. Adatintegráció - több lehetséges forrásból származó adatok egyesítése egy tárolóba. Adatkonverzió. Ebben a szakaszban az adatokat elemzésre alkalmas formává alakítják. Gyakran használják az adatösszesítést, az attribútum-mintavételt, az adattömörítést és a méretcsökkentést.

4. Adatelemzés. Ennek a szakasznak a részeként bányászati ​​algoritmusokat használnak a minták kinyerésére.

5. A talált minták értelmezése. Ez a szakasz magában foglalhatja a kinyert minták vizualizálását, a valóban hasznos minták azonosítását valamilyen hasznossági függvény alapján.

Az új ismeretek felhasználása.

1.2 Intelligens elemző rendszerek összetevői

Az adatbányászati ​​rendszerek általában a következő fő összetevőket tartalmazzák:

1. Adatbázis, adattárház vagy egyéb információtár. Ez lehet egy vagy több adatbázis, adattárház, táblázatok vagy más típusú tárolók, amelyek tisztíthatók és integrálhatók.

2. Adatbázis vagy adattárház szerver. A megadott szerver felelős a lényeges adatok lekéréséért a felhasználói kérés alapján.

Tudásbázis. Ez egy olyan tartományismeret, amely eligazítja, hogyan lehet keresni és értékelni a kapott minták hasznosságát.

Tudásbányászati ​​szolgáltatás. Az adatbányászati ​​rendszer szerves része, és funkcionális modulokat tartalmaz olyan feladatokhoz, mint a jellemzés, az asszociációkeresés, az osztályozás, a klaszteranalízis és a varianciaanalízis.

Mintaértékelési modul. Ez a komponens kiszámítja a minták érdeklődését vagy hasznosságát.

Grafikus felhasználói felület. Ez a modul felelős a felhasználó és az adatbányászati ​​rendszer közötti kommunikációért, a minták különféle formájú megjelenítéséért.

1.3 Adatbányászati ​​módszerek

Az adatbányászati ​​technológiában használt analitikai módszerek többsége jól ismert matematikai algoritmusok és módszerek. Alkalmazásukban újdonság az, hogy a hardver és szoftver feltörekvő képességei miatt bizonyos konkrét problémák megoldásában is felhasználhatók. Megjegyzendő, hogy a legtöbb adatbányászati ​​módszert a mesterséges intelligencia elméletének keretein belül fejlesztették ki. Nézzük a legszélesebb körben használt módszereket:

Társulási szabályzat levezetése.

2. Neurális hálózati algoritmusok, amelyek ötlete az idegszövet működésével való analógián alapul, és abban a tényben rejlik, hogy a kezdeti paramétereket olyan jeleknek tekintik, amelyek a „neuronok” közötti meglévő kapcsolatoknak megfelelően átalakulnak. a teljes hálózat válaszát pedig az elemzés eredményeként az eredeti adatokra adott válasznak tekintjük.

Az eredeti adatok közeli analógjának kiválasztása a meglévő előzményadatok közül. „Legközelebbi szomszéd” módszernek is nevezik.

A döntési fák egy olyan hierarchikus struktúra, amely olyan kérdéseken alapul, amelyekre „igen” vagy „nem” választ kell adni.

A fürtmodellek a hasonló események csoportokba csoportosítására szolgálnak egy adatkészlet több mezőjének hasonló értékei alapján.

A következő fejezetben a fenti módszereket ismertetjük részletesebben.

2. Adatbányászati ​​módszerek

2.1 A társulási szabályok levezetése

A társulási szabályok „ha... akkor...” alakú szabályok. Ilyen szabályok keresése egy adathalmazban rejtett kapcsolatokat tár fel a látszólag nem kapcsolódó adatokban. Az asszociációs szabályok megtalálásának egyik leggyakrabban idézett példája a stabil kapcsolatok megtalálásának problémája a bevásárlókosárban. Ez a probléma annak meghatározása, hogy a vásárlók mely termékeket vásárolják együtt, hogy a marketingesek megfelelően el tudják helyezni ezeket a termékeket az üzletben az eladások növelése érdekében.

Az asszociációs szabályokat az (X1,X2,…,Xn) -> Y formájú utasításokként határozzuk meg, ahol azt jelenti, hogy Y jelen lehet egy tranzakcióban, feltéve, hogy X1,X2,…,Xn jelen van ugyanabban a tranzakcióban. Meg kell jegyezni, hogy a "lehet" szó arra utal, hogy a szabály nem azonosság, hanem csak bizonyos valószínűséggel elégszik ki. Ezenkívül Y lehet elemek halmaza, nem pedig egyetlen elem. Az X1,X2,…,Xn elemeket tartalmazó tranzakcióban Y megtalálásának valószínűségét bizalomnak nevezzük. Támogatásnak nevezzük azoknak a tranzakcióknak a százalékos arányát, amelyek szabályt tartalmaznak az összes tranzakcióból. Azt a megbízhatósági szintet, amelynek meg kell haladnia egy szabály megbízhatóságát, érdekességnek nevezzük.

Különféle típusú társulási szabályok léteznek. A legegyszerűbb formájukban az asszociációs szabályok csak az asszociáció meglétét vagy hiányát közlik. Az ilyen szabályokat logikai asszociációs szabályoknak nevezzük. Példa egy ilyen szabályra: „azok a vásárlók, akik joghurtot vásárolnak, alacsony zsírtartalmú vajat is vásárolnak”.

Azokat a szabályokat, amelyek több társítási szabályt csoportosítanak, többszintű vagy általánosított társítási szabályoknak nevezzük. Az ilyen szabályok megalkotásakor az elemeket általában hierarchia szerint csoportosítják, és a keresés a legmagasabb fogalmi szinten történik. Például: „a tejet vásárló vásárlók kenyeret is vásárolnak”. Ebben a példában a tej és a kenyér különböző típusú és márkák hierarchiáját tartalmazza, de az alsó szinten végzett keresés nem tár fel érdekes szabályokat.

Egy bonyolultabb szabálytípus a mennyiségi asszociációs szabályok. Az ilyen típusú szabályok keresése mennyiségi (pl. ár) vagy kategorikus (pl. nem) attribútumok használatával történik, és a következőképpen definiálható: ( , ,…,} -> . Például "azok a vásárlók, akiknek életkora 30 és 35 év között van, és évi 75 000 feletti bevételük van, 20 000-nél több autót vásárolnak."

A fenti típusú szabályok nem foglalkoznak azzal a ténnyel, hogy a tranzakciók természetüknél fogva időfüggőek. Például egy termék eladásra való bevezetése előtt vagy a piacról való eltűnése után történő keresés hátrányosan befolyásolja a támogatási küszöböt. Ennek figyelembevételével vezették be az attribútum élettartama fogalmát az ideiglenes asszociációs szabályok keresésére szolgáló algoritmusokba (Temporal Association Rules).

Az asszociációs szabályok keresésének problémája általában két részre bontható: gyakran előforduló elemhalmazok keresése, és a talált gyakran előforduló halmazok alapján szabályok generálása. A korábbi tanulmányok többnyire ezeket a vonalakat követték, és különböző irányokba terjesztették ki.

Az Apriori algoritmus megjelenése óta ez az algoritmus a leggyakrabban használt első lépésben. Számos fejlesztés, például a sebesség és a skálázhatóság célja az Apriori algoritmus javítása, annak a hibás tulajdonságának kijavítása, hogy túl sok jelöltet generál a leggyakrabban előforduló elemkészletekhez. Az Apriori csak a használatával állít elő elemkészleteket nagy készletek, amelyet az előző lépésben találtunk, a tranzakciók újbóli vizsgálata nélkül. A módosított AprioriTid algoritmus úgy javítja az Apriorit, hogy csak az adatbázist használja az első lépésben. A következő lépésekben történő számításnál csak az első lépésben keletkezett és az eredeti adatbázisnál jóval kisebb méretű adatokat használjuk fel. Ez a termelékenység jelentős növekedéséhez vezet. Az algoritmus továbbfejlesztett változata, az AprioriHybrid, úgy érhető el, hogy az első néhány lépésben Apriorit használunk, majd a későbbi menetekben átváltunk AprioriTid-re, amikor a k-adik jelölthalmaz már teljes egészében megtalálható a számítógép memóriájában.

Az Apriori algoritmus továbbfejlesztésére tett további erőfeszítések az algoritmus párhuzamosításával (számlálási eloszlás, adatelosztás, jelöltelosztás stb.), skálázásával (Intelligens adatelosztás, hibrid elosztás), új adatstruktúrák, például fáinak bevezetésével kapcsolatosak. gyakran előforduló elemek (FP-növekedés ).

A második lépést elsősorban a hitelesség és az érdekesség jellemzi. Az új módosítások hozzáadják a fent leírt dimenziós, minőségi és időzítési támogatást a hagyományos logikai szabályokhoz. Evolúciós algoritmust gyakran használnak a szabályok megtalálására.

2.2 Neurális hálózati algoritmusok

A mesterséges neurális hálózatok a matematikai apparátusnak az emberi idegrendszer működésének tanulmányozására történő alkalmazása eredményeként jelentek meg, annak reprodukálása céljából. Nevezetesen: az idegrendszer képessége a tanulásra és a hibák kijavítására, aminek lehetővé kell tennie, hogy bár elég durván, de szimuláljuk az emberi agy munkáját. A neurális hálózat fő szerkezeti és funkcionális része a formális neuron, az ábrán látható. 1, ahol x0, x1,..., xn a bemeneti jel vektor komponensei, w0,w1,...,wn a neuron bemeneti jeleinek súlyának értékei, y pedig a neuron kimenete jel.

Rizs. 1. Formális neuron: szinapszisok (1), összeadó (2), konverter (3).

A formális neuron 3 típusú elemből áll: szinapszisokból, összeadóból és konverterből. A szinapszis két neuron közötti kapcsolat erősségét jellemzi.

Az összeadó összeadja a bemeneti jeleket, amelyeket előzőleg megszoroznak a megfelelő súlyokkal. A konverter egy argumentum – az összeadó kimenetének – funkcióját valósítja meg. Ezt a funkciót az idegsejt aktiválási funkciójának vagy átviteli függvényének nevezik.

A fent leírt formális neuronok úgy kombinálhatók, hogy egyes neuronok kimeneti jelei a többiek bemeneti jelei. Az így létrejövő, összekapcsolt idegsejtek halmazát mesterséges neurális hálózatoknak nevezzük. neurális hálózatok, ANN) vagy röviden neurális hálózatok.

A neuronoknak a következő három általános típusa van, attól függően, hogy a neurális hálózatban elhelyezkednek:

Bemeneti neuronok (bemeneti csomópontok), amelyekhez bemeneti jelek jutnak. Az ilyen neuronoknak általában egy egységsúlyú bemenetük van, nincs torzítás, és a neuron kimeneti értéke megegyezik a bemeneti jellel;

Kimeneti csomópontok, amelyek kimeneti értékei a neurális hálózat eredő kimeneti jeleit jelentik;

Rejtett neuronok (rejtett csomópontok), amelyeknek nincs közvetlen kapcsolatuk a bemeneti jelekkel, míg a rejtett neuronok kimeneti jeleinek értékei nem az ANN kimeneti jelei.

Az interneuron kapcsolatok szerkezete alapján az ANN-ok két osztályát különböztetjük meg:

Feedforward ANN-ok, amelyekben a jel csak a bemeneti neuronoktól terjed a kimeneti neuronokhoz.

Ismétlődő ANN - ANN vele Visszacsatolás. Az ilyen ANN-okban a jelek bármely neuron között továbbíthatók, függetlenül azok elhelyezkedésétől az ANN-ban.

Két általános megközelítés létezik az ANN képzésére:

Képzés tanárral.

Tanulás tanár nélkül.

A felügyelt tanulás magában foglalja a képzési példák előre generált halmazának használatát. Mindegyik példa a bemeneti jelek vektorát és a referencia kimeneti jelek megfelelő vektorát tartalmazza, amelyek az adott feladattól függenek. Ez a készlet edzéskészletnek vagy edzéskészletnek nevezzük. A neurális hálózat betanításának célja az ANN kapcsolatok súlyának megváltoztatása oly módon, hogy az ANN kimeneti jelek értékei a lehető legkisebb mértékben térjenek el az adott bemeneti jelvektorhoz szükséges kimeneti jelek értékétől. .

Felügyelet nélküli tanulásban a kapcsolati súlyok vagy az idegsejtek közötti versengés eredményeként, vagy az olyan neuronok kimeneti jeleinek korrelációját figyelembe véve, amelyek között kapcsolat van. Felügyelet nélküli tanulás esetén nem használunk tréningkészletet.

A neurális hálózatokat számos probléma megoldására használják, például az űrsiklók hasznos tehertervezésére és az árfolyamok előrejelzésére. Adatbányászati ​​rendszerekben azonban nem gyakran használják őket a modell összetettsége (a több száz interneurális kapcsolat súlyaként rögzített tudás az emberi elemzésen és értelmezésen felülmúlhatatlan) és a nagy képzési készleten való hosszú képzési idő miatt. Másrészt a neurális hálózatok olyan előnyökkel rendelkeznek az adatelemzési feladatokban, mint a zajos adatokkal szembeni ellenállás és a nagy pontosság.

2.3 Legközelebbi szomszéd és k-legközelebbi szomszéd módszer

A legközelebbi szomszéd algoritmus (a legközelebbi szomszéd algoritmus) és a k-legközelebbi szomszéd algoritmus (KNN) alapja az objektumok hasonlósága. A legközelebbi szomszéd algoritmus az összes ismert objektum közül kiválasztja azt az objektumot, amely a lehető legközelebb van (az objektumok közötti távolság metrikája, például az euklideszi mérőszám segítségével) egy új, korábban ismeretlen objektumhoz. A legközelebbi szomszéd módszerrel a fő probléma a képzési adatok kiugró értékeire való érzékenysége.

A leírt probléma elkerülhető a KNN algoritmussal, amely az összes megfigyelés között azonosítja az új objektumhoz hasonló k legközelebbi szomszédokat. A legközelebbi szomszédok osztályai alapján születik döntés az új objektumról. Ennek az algoritmusnak egy fontos feladata a k együttható kiválasztása - a hasonlónak tekintett rekordok száma. Az algoritmus olyan módosítása, amelyben a szomszéd hozzájárulása arányos az új objektum távolságával (k-súlyozott legközelebbi szomszédok módszere), nagyobb osztályozási pontosságot tesz lehetővé. A k legközelebbi szomszédok módszere lehetővé teszi az előrejelzés pontosságának értékelését is. Például, ha mind a k legközelebbi szomszéd azonos osztályú, akkor nagyon nagy a valószínűsége annak, hogy a tesztelt objektum azonos osztályú lesz.

Az algoritmus jellemzői közül érdemes megemlíteni az anomális kiugró értékekkel szembeni ellenállását, mivel kicsi annak a valószínűsége, hogy egy ilyen rekord bekerüljön a k-közeli szomszédok számába. Ha ez megtörtént, akkor a szavazásra gyakorolt ​​hatás (különösen súlyozottan) (k>2 esetén) szintén nagy valószínűséggel jelentéktelen lesz, így a besorolási eredményre gyakorolt ​​hatás is csekély lesz. Előnye továbbá a megvalósítás egyszerűsége, az algoritmus eredményének könnyű értelmezhetősége, az algoritmus módosításának lehetősége a legmegfelelőbb kombinációs függvények és metrikák használatával, ami lehetővé teszi az algoritmus egy adott feladathoz való igazítását. A KNN algoritmusnak számos hátránya is van. Először is, az algoritmushoz használt adatkészletnek reprezentatívnak kell lennie. Másodszor, a modell nem választható el az adatoktól: minden példát fel kell használni egy új példa osztályozásához. Ez a funkció nagymértékben korlátozza az algoritmus használatát.

2.4 Döntési fák

A „döntési fák” kifejezés az osztályozási szabályok hierarchikus, szekvenciális struktúrában való megjelenítésén alapuló algoritmusok családjára utal. Ez az adatbányászati ​​problémák megoldására szolgáló algoritmusok legnépszerűbb osztálya.

A döntési fák felépítésére szolgáló algoritmuscsalád lehetővé teszi egy adott esetre vonatkozó paraméter értékének előrejelzését más hasonló esetekre vonatkozó nagy mennyiségű adat alapján. Általában ennek a családnak az algoritmusait használják olyan problémák megoldására, amelyek lehetővé teszik az összes kezdeti adat több különálló csoportra való felosztását.

Ha döntési fa építési algoritmusokat alkalmaz egy kezdeti adathalmazra, az eredmény faként jelenik meg. Az ilyen algoritmusok lehetővé teszik az ilyen felosztás több szintjének megvalósítását, az így létrejövő csoportokat (faágakat) más jellemzők alapján kisebb csoportokra osztva. Az osztás addig folytatódik, amíg a megjósolni kívánt értékek azonosak nem lesznek (vagy a megjósolt paraméter folytonos értéke esetén bezáródnak) az összes eredményül kapott csoportban (a fa leveleinél). Ezeket az értékeket használják a modell alapján történő előrejelzésekhez.

A döntési fák felépítésére szolgáló algoritmusok működése regressziós és korrelációs elemzési módszerek alkalmazásán alapul. Ennek a családnak az egyik legnépszerűbb algoritmusa a CART (Classification and Regression Trees), amely egy faág adatainak két gyermekágra való felosztásán alapul; Sőt, egy adott ág további felosztása attól függ, hogy ez az ág mennyi kezdeti adatot ír le. Néhány más hasonló algoritmus lehetővé teszi egy ág felosztását több gyermekágra. Ebben az esetben az osztás az elágazás által leírt adatok legmagasabb korrelációs együtthatója alapján történik az osztás szerinti paraméter és az ezt követően megjósolandó paraméter között.

A megközelítés népszerűsége egyértelműséggel és egyértelműséggel jár. De a döntési fák alapvetően nem képesek megtalálni a „legjobb” (legteljesebb és legpontosabb) szabályokat az adatokban. A jellemzők szekvenciális megtekintésének naiv elvét valósítják meg, és ténylegesen megtalálják a valós minták részeit, csak a logikus következtetés illúzióját keltve.

2.5 Klaszterezési algoritmusok

A klaszterezés az objektumok halmazának fürtöknek nevezett csoportokra osztásának feladata. A fő különbség a klaszterezés és az osztályozás között az, hogy a csoportok listája nincs egyértelműen meghatározva, és az algoritmus működése során kerül meghatározásra.

A klaszteranalízis alkalmazása általában a következő lépésekből áll:

· objektumok mintájának kiválasztása klaszterezéshez;

· olyan változókészlet meghatározása, amely alapján a mintában lévő objektumok értékelésre kerülnek. Ha szükséges, normalizálja a változók értékeit;

· az objektumok közötti hasonlósági mérési értékek kiszámítása;

· a klaszterelemzés módszerének alkalmazása hasonló objektumok (klaszterek) csoportjainak létrehozására;

· elemzési eredmények bemutatása.

Az eredmények beérkezése és elemzése után lehetőség van a kiválasztott metrika és klaszterezési módszer módosítására az optimális eredmény eléréséig.

A klaszterező algoritmusok hierarchikus és lapos csoportokat tartalmaznak. A hierarchikus algoritmusok (más néven taxonómiai algoritmusok) a minta nem csak egy partícióját építik fel diszjunkt klaszterekké, hanem egy beágyazott partíciók rendszerét. Így az algoritmus kimenete egy klaszterfa, melynek gyökere a teljes minta, a levelek pedig a legkisebb klaszterek. A lapos algoritmusok az objektumok egy partícióját olyan klaszterekbe építik fel, amelyek nem metszik egymást.

A klaszterező algoritmusok másik osztályozása az egyértelmű és fuzzy algoritmusok. Az egyértelmű (vagy nem átfedő) algoritmusok minden mintaobjektumhoz fürtszámot rendelnek, vagyis minden objektum csak egy fürthöz tartozik. A fuzzy (vagy metsző) algoritmusok minden objektumhoz hozzárendelnek egy valódi értékek halmazát, amelyek megmutatják az objektum és a klaszterek közötti kapcsolat mértékét. Így minden objektum bizonyos valószínűséggel minden klaszterhez tartozik.

A hierarchikus klaszterező algoritmusok között két fő típus létezik: alulról felfelé és felülről lefelé haladó algoritmusok. A felülről lefelé irányuló algoritmusok felülről lefelé irányuló elven működnek: először minden objektum egy klaszterbe kerül, amelyet aztán egyre kisebb klaszterekre osztanak fel. Elterjedtebbek az alulról felfelé építkező algoritmusok, amelyek azzal kezdődnek, hogy minden objektumot külön klaszterbe helyeznek, majd a klasztereket egyre nagyobbakká kombinálják, amíg a mintában lévő összes objektum egyetlen klaszterbe kerül. Így létrejön a beágyazott partíciók rendszere. Az ilyen algoritmusok eredményeit általában fa formájában mutatják be.

A hierarchikus algoritmusok hátránya a teljes partíciók rendszere, amely a megoldandó probléma kontextusában szükségtelen lehet.

Nézzük most a lapos algoritmusokat. Ebben az osztályban a legegyszerűbbek a másodfokú hibaalgoritmusok. Ezeknek az algoritmusoknak a klaszterezési problémája az objektumok optimális csoportosításának felépítése. Ebben az esetben az optimalitás úgy definiálható, mint a particionálás négyzetes középhibájának minimalizálásának követelménye:

,

Ahol c j - a klaszter „tömegközéppontja”. j(egy adott klaszter átlagos jellemzőivel rendelkező pont).

Ebben a kategóriában a leggyakoribb algoritmus a k-közép módszer. Ez az algoritmus adott számú, egymástól a lehető legtávolabb elhelyezkedő klasztert épít fel. Az algoritmus munkája több szakaszra oszlik:

Véletlenszerűen válassza ki k pontok, amelyek a klaszterek kezdeti „tömegközéppontjai”.

2. Rendeljen minden objektumot a legközelebbi „tömegközépponttal” rendelkező klaszterhez.

Ha az algoritmus leállítási feltétele nem teljesül, térjen vissza a 2. lépéshez.

Az algoritmus leállításának kritériumaként általában az átlagos négyzetes hiba minimális változását választják. Lehetőség van az algoritmus leállítására is, ha a 2. lépésben nem voltak olyan objektumok, amelyek fürtről fürtre kerültek. Ennek az algoritmusnak a hátrányai közé tartozik, hogy meg kell adni a particionáláshoz szükséges klaszterek számát.

A legnépszerűbb fuzzy klaszterezési algoritmus a c-means algoritmus. Ez a k-közép módszer módosítása. Az algoritmus lépései:

1. Válassza ki a kezdeti fuzzy partíciót n tárgyakat k klasztereket tagsági mátrix kiválasztásával U méret n x k.

2. Az U mátrix segítségével keresse meg a fuzzy hibakritérium értékét:

,

Ahol c k - a fuzzy klaszter „tömegközéppontja”. k:

3. Csoportosítsa át az objektumokat a fuzzy hibakritérium értékének csökkentése érdekében.

4. Térjen vissza a 2. lépéshez, amíg a mátrix meg nem változik U nem lesz jelentéktelen.

Ez az algoritmus nem biztos, hogy megfelelő, ha a klaszterek száma előre nem ismert, vagy ha minden objektumot egyértelműen egy klaszterhez kell hozzárendelni.

Az algoritmusok következő csoportját a gráfelméletre épülő algoritmusok alkotják. Az ilyen algoritmusok lényege, hogy az objektumok egy részét gráf formájában ábrázolják G=(V, E), amelynek csúcsai objektumoknak felelnek meg, és éleinek súlya megegyezik az objektumok közötti „távolsággal”. A gráfklaszterezési algoritmusok előnyei az áttekinthetőség, a viszonylagos könnyű implementáció, valamint a geometriai megfontolások alapján történő különféle fejlesztések bevezetésének lehetősége. A fő algoritmusok az összekapcsolt komponensek azonosítására szolgáló algoritmus, a minimális feszítőfa felépítésére szolgáló algoritmus és a rétegenkénti klaszterezési algoritmus.

Paraméter kiválasztásához RÁltalában a páronkénti távolságok eloszlásának hisztogramját készítik. Az adatok jól meghatározott klaszterszerkezetével rendelkező feladatoknál a hisztogramnak két csúcsa lesz – az egyik a klaszteren belüli távolságoknak, a második a fürtök közötti távolságoknak felel meg. Paraméter R a csúcsok közötti minimális zónából van kiválasztva. Ugyanakkor meglehetősen nehéz szabályozni a klaszterek számát távolsági küszöb segítségével.

A minimális feszítőfa algoritmus először egy minimális feszítőfát készít egy gráfon, majd sorban eltávolítja a legnagyobb súlyú éleket. A rétegenkénti klaszterezési algoritmus azon alapul, hogy az objektumok (csúcsok) közötti távolságok bizonyos szintjén összekapcsolt gráfkomponenseket azonosítanak. A távolság szintjét a távolsági küszöb határozza meg c. Például, ha az objektumok közötti távolság , akkor .

A rétegről rétegre klaszterező algoritmus a gráf részgráfjainak sorozatát állítja elő G, amelyek a klaszterek közötti hierarchikus kapcsolatokat tükrözik:

,

Ahol G t = (V, E t ) - szintgrafikon Val vel t, ,

Val vel t - t-edik távolsági küszöb, m - hierarchiaszintek száma,
G 0 = (V, o), o a gráfélek üres halmaza t 0 = 1,
G m = G, azaz objektumok gráfja távolsági korlátozások nélkül (a gráf éleinek hossza), mivel t m = 1.

A távolsági küszöbök megváltoztatásával ( Val vel 0 , …, Val vel m), ahol 0 = Val vel 0 < Val vel 1 < …< Val vel m = 1, akkor szabályozható a kapott klaszterek hierarchiájának mélysége. Így a rétegről rétegre klaszterező algoritmus képes az adatok lapos és hierarchikus partíciójának létrehozására is.

A klaszterezés lehetővé teszi a következő célok elérését:

· a szerkezeti csoportok azonosításával javítja az adatok megértését. A minta hasonló objektumok csoportjaira bontása lehetővé teszi a további adatfeldolgozás és döntéshozatal egyszerűsítését azáltal, hogy minden klaszterre eltérő elemzési módszert alkalmazunk;

· lehetővé teszi az adatok kompakt tárolását. Ehhez a teljes minta tárolása helyett megtarthat egy tipikus megfigyelést minden klaszterből;

· új atipikus objektumok észlelése, amelyek nem kerültek semmilyen klaszterbe.

A klaszterezést általában az adatelemzés segédmódszereként használják.

2.6 Genetikai algoritmusok

A genetikai algoritmusok az univerzális optimalizálási módszerek közé tartoznak, amelyek különböző típusú (kombinatorikus, általános problémák korlátozásokkal és korlátozás nélkül) és különböző bonyolultságú problémák megoldását teszik lehetővé. Ugyanakkor a genetikai algoritmusokra jellemző az egykritériumú és többszempontú keresés is nagy térben, amelynek tájképe nem egyenletes.

Ez a módszercsoport a modellek generációinak sorozatának iteratív evolúciós folyamatát használja, beleértve a szelekciót, a mutációt és a keresztezést. Az algoritmus kezdetén a populációt véletlenszerűen alakítjuk ki. A kódolt megoldások minőségének felmérésére a fitnesz függvényt használják, amely az egyes egyedek alkalmasságának kiszámításához szükséges. Az egyedek felmérésének eredménye alapján kiválasztják közülük a legalkalmasabbat a keresztezésre. A kiválasztott egyedek keresztezése során a genetikai crossover operátor alkalmazásával utódok jönnek létre, amelyek genetikai információi a szülő egyedek közötti kromoszóma információcsere eredményeként jönnek létre. A létrejött leszármazottak új populációt alkotnak, és a leszármazottak egy része mutálódik, ami genotípusuk véletlenszerű változásában fejeződik ki. A szakaszt, beleértve a „Népességértékelés” – „Kiválasztás” – „Keresztezés” – „Mutáció” sorozatot, generációnak nevezzük. Egy populáció evolúciója ilyen generációk sorozatából áll.

A következő algoritmusokat különböztetjük meg az egyének kiválasztásához a keresztezéshez:

· Panmixia. Mindkét egyedet, akik szülőpárt alkotnak, véletlenszerűen választják ki a teljes populációból. Bármely egyén több pár tagjává válhat. Ez a megközelítés univerzális, de az algoritmus hatékonysága csökken a populáció méretének növekedésével.

· Kiválasztás. A szülők legalább átlagos kondíciójú egyének lehetnek. Ez a megközelítés biztosítja az algoritmus gyorsabb konvergenciáját.

· Beltenyésztés. A módszer a közeli rokonságon alapuló párképzésen alapul. Itt rokonság alatt egy populáció tagjai közötti távolságot értjük, mind a paramétertérben lévő egyedek geometriai távolsága, mind a genotípusok közötti Heming-távolság értelmében. Ezért különbséget kell tenni a genotípusos és a fenotípusos beltenyésztés között. A keresztezendő pár első tagja véletlenszerűen kerül kiválasztásra, és a második valószínűleg a hozzá legközelebb álló egyed. A beltenyésztés azzal a tulajdonsággal jellemezhető, hogy a keresést a helyi csomópontokban koncentrálják, ami tulajdonképpen a populáció külön helyi csoportokra oszlásához vezet a táj szélsőségekre gyanús területein.

· Kültenyésztés. Páralakítás távoli rokonság alapján, a legtávolabbi egyedek számára. Az outbreeding célja, hogy megakadályozza, hogy az algoritmus konvergáljon a már megtalált megoldásokhoz, és arra kényszerítse az algoritmust, hogy új, feltáratlan területeket nézzen meg.

Algoritmusok egy új sokaság kialakításához:

· Kiválasztás elmozdulással. Az azonos genotípusú egyedek közül azokat részesítik előnyben, akiknek az alkalmassága magasabb. Így két célt érünk el: a megtalált legjobb, eltérő kromoszómakészlettel rendelkező megoldások nem vesznek el, és a populációban folyamatosan megmarad a kellő genetikai diverzitás. Az elmozdulás távoli egyedek új populációját képezi, ahelyett, hogy az egyedek a jelenlegi megoldás köré csoportosulnának. Ezt a módszert multiextremális problémák esetén alkalmazzák.

· Elit kiválasztás. Az elit szelekciós módszerek biztosítják, hogy a szelekció biztosítsa a populáció legjobb tagjainak életben maradását. Ugyanakkor a legjobb egyedek egy része változtatás nélkül ad át a következő generációnak. Az elitszelekció által biztosított gyors konvergenciát a szülőpárok kiválasztásának megfelelő módszerével lehet kompenzálni. Ebben az esetben gyakran alkalmazzák az outbreeding-et. A „tenyésztés - elit kiválasztás” kombinációja az egyik leghatékonyabb.

· Versenyválasztás. A versenykiválasztás n versenyt valósít meg n személy kiválasztásához. Minden verseny arra épül, hogy k elemet kell kiválasztani a populációból, és kiválasztani közülük a legjobb egyént. A legelterjedtebb a versenykiválasztás k = 2-vel.

A genetikai algoritmusok egyik legnépszerűbb alkalmazása az adatbányászat területén a legoptimálisabb modell keresése (egy adott terület sajátosságainak megfelelő algoritmus keresése). A genetikai algoritmusokat elsősorban a neurális hálózatok topológiájának és súlyozásának optimalizálására használják. Azonban önálló eszközként is használhatók.

3. Alkalmazások

Az adatbányászati ​​technológiának valóban széles skálája van az alkalmazásoknak, valójában univerzális eszközök készlete bármilyen típusú adatelemzéshez.

Marketing

Az egyik legelső olyan terület, ahol az adatbányászati ​​technológiákat alkalmazták, a marketing volt. Azt a feladatot, amellyel az adatbányászati ​​módszerek fejlesztése elkezdődött, bevásárlókosár elemzésnek nevezzük.

Ez a feladat azon termékek azonosítása, amelyeket a vásárlók hajlamosak együtt vásárolni. A bevásárlókosár ismerete szükséges a reklámkampányok lebonyolításához, a vásárlóknak szóló személyes ajánlások megfogalmazásához, az árukészletek létrehozására és az értékesítési területeken való elhelyezésükre vonatkozó stratégia kidolgozásához.

A marketingben is olyan feladatokat oldanak meg, mint egy termék célközönségének meghatározása a sikeresebb promóció érdekében; Időbeli minták kutatása, amely segíti a vállalkozásokat a készletekkel kapcsolatos döntésekben; prediktív modellek létrehozása, amelyek lehetővé teszik a vállalkozások számára, hogy felismerjék az ügyfelek különböző kategóriáinak szükségleteit bizonyos viselkedéssel; a vásárlói hűség előrejelzése, amely lehetővé teszi, hogy viselkedésének elemzésekor előre azonosítsa az ügyfél távozásának pillanatát, és esetleg megelőzze egy értékes ügyfél elvesztését.

Ipar

Ezen a területen az egyik fontos terület a monitoring és minőség-ellenőrzés, ahol elemző eszközök segítségével előre jelezhető a berendezés meghibásodása, a meghibásodások előfordulása, megtervezhető a javítási munkák. Egyes szolgáltatások népszerűségének előrejelzése és annak ismerete, hogy mely funkciókat jellemzően együtt rendelik, segít optimalizálni a termelést, és a fogyasztók valós igényeire összpontosítani.

Gyógyszer

Az orvostudományban az adatelemzést is meglehetősen sikeresen alkalmazzák. A feladatok közé tartozik például a vizsgálati eredmények elemzése, diagnosztika, a kezelési módszerek és gyógyszerek hatékonyságának összehasonlítása, a betegségek és azok terjedésének elemzése, mellékhatások azonosítása. Az adatbányászati ​​technológiákat, például az asszociációs szabályokat és a szekvenciális mintákat sikeresen alkalmazták a gyógyszerek és a mellékhatások közötti kapcsolatok azonosítására.

Molekuláris genetika és géntechnológia

Talán a legégetőbb és egyben legvilágosabb feladat a kísérleti adatok mintáinak feltárása molekuláris genetikaés a géntechnológia. Itt a markerek definíciójaként van megfogalmazva, amelyek genetikai kódok alatt értendők, amelyek egy élő szervezet bizonyos fenotípusos jellemzőit szabályozzák. Az ilyen kódok több száz, ezer vagy több kapcsolódó elemet tartalmazhatnak. Az analitikai adatelemzés eredménye egyben a genetikusok által felfedezett kapcsolat az emberi DNS-szekvencia változásai és a különböző betegségek kialakulásának kockázata között.

Alkalmazott kémia

Az adatbányászati ​​módszereket az alkalmazott kémia területén is alkalmazzák. Itt gyakran felmerül a kérdés, hogy tisztázni kell bizonyos vegyületek kémiai szerkezetének jellemzőit, amelyek meghatározzák azok tulajdonságait. Ez a feladat különösen fontos összetett kémiai vegyületek elemzésekor, amelyek leírása több száz és ezer szerkezeti elemet és azok összefüggéseit tartalmazza.

A bűnözés elleni küzdelem

A Data Mining eszközöket viszonylag nemrégiben alkalmazzák a biztonság területén, de már születtek gyakorlati eredmények, amelyek megerősítik az adatbányászat hatékonyságát ezen a területen. Svájci tudósok kifejlesztettek egy rendszert a tiltakozási tevékenység elemzésére, hogy előre jelezzék a jövőbeni incidenseket, valamint egy rendszert a világban felmerülő kiberfenyegetések és hackerakciók nyomon követésére. A legújabb rendszer lehetővé teszi a kiberfenyegetések és egyéb kockázatok előrejelzését információ biztonság. Az adatbányászati ​​módszereket sikeresen alkalmazzák a hitelkártya-csalás felderítésére is. A múltbeli tranzakciók elemzésével, amelyekről később kiderült, hogy csalók, a bank azonosítja az ilyen csalások néhány mintáját.

Egyéb alkalmazások

· Kockázatelemzés. Például a kifizetett kárigényekhez kapcsolódó tényezők kombinációjának azonosításával a biztosítók csökkenthetik felelősségi veszteségeiket. Ismert egy eset, amikor egy nagy biztosítótársaság az Egyesült Államokban felfedezte, hogy a házasok követeléseiből kifizetett összegek kétszer olyan magasak, mint az egyedülállók által fizetett összegek. A cég erre az új tudásra reagált azzal, hogy felülvizsgálta a családi ügyfeleknek nyújtott kedvezmények általános politikáját.

· Meteorológia. Időjárás előrejelzés neurális hálózati módszerekkel, különösen önszerveződő Kohonen térképekkel.

· Személyzeti politika. Az elemző eszközök segítenek a HR szolgálatoknak önéletrajzuk adatelemzése alapján kiválasztani a legsikeresebb jelölteket, és modellezni az adott pozícióra ideális munkatársak jellemzőit.

4. Adatbányászati ​​eszközök gyártói

Az adatbányászati ​​eszközök hagyományosan drága szoftvertermékek. Ezért egészen a közelmúltig ennek a technológiának a fő fogyasztói bankok, pénzügyi és biztosítótársaságok, nagy kereskedelmi vállalkozások voltak, az adatbányászat alkalmazását igénylő fő feladatnak a hitel- és biztosítási kockázatok felmérését, valamint a marketingpolitikák kialakítását tekintették. , díjcsomagok és az ügyfelekkel való munka egyéb alapelvei. Az elmúlt években a helyzet bizonyos változásokon ment keresztül: viszonylag olcsó Data Mining eszközök, sőt szabadon terjesztett rendszerek jelentek meg a szoftverpiacon, ami a kis- és középvállalkozások számára is elérhetővé tette ezt a technológiát.

A fizetős eszközök és adatelemző rendszerek közül a SAS Institute (SAS Enterprise Miner), az SPSS (SPSS, Clementine) és a StatSoft (STATISTICA Data Miner) a vezető. A jól ismert megoldások az Angoss (Angoss KnowledgeSTUDIO), az IBM (IBM SPSS Modeler), a Microsoft (Microsoft Analysis Services) és az (Oracle) Oracle Data Mining cégektől származnak.

Az ingyenes szoftverek választéka is változatos. Vannak univerzális elemző eszközök, mint például JHepWork, KNIME, Orange, RapidMiner, és speciális eszközök, például a Carrot2 - egy keretrendszer a szöveges adatok és a keresési lekérdezések eredményeinek klaszterezésére, a Chemicalize.org - egy megoldás az alkalmazott kémia területén, NLTK (Natural Language Toolkit) természetes nyelv feldolgozó eszköz.

5. A módszerek kritikája

Az adatbányászat eredményei nagymértékben az adatok előkészítésének szintjétől függenek, nem pedig egyes algoritmusok vagy algoritmuskészletek „csodálatos képességeitől”. Az adatbányászatban végzett munka körülbelül 75%-a adatgyűjtésből áll, amely az elemzési eszközök alkalmazása előtt történik. Az eszközök írástudatlan használata a vállalat potenciáljának, sőt néha több millió dolláros pazarlásához vezet.

Herb Edelstein, az adatbányászat, adattárház és CRM szakértője: „A Two Crows nemrégiben végzett tanulmánya kimutatta, hogy az adatbányászat még a fejlesztés korai szakaszában van. Sok szervezet érdeklődik a technológia iránt, de csak néhányan hajtanak végre ilyen projekteket. Sikerült még egyet kideríteni fontos pont: Az adatbányászat gyakorlati megvalósítása a vártnál bonyolultabbnak bizonyul, a csapatokat elragadja az a mítosz, hogy az adatbányászati ​​eszközöket könnyű használni. Feltételezzük, hogy elég egy ilyen eszközt egy terabájtos adatbázison futtatni, és azonnal megjelennek a hasznos információk. Valójában egy sikeres adatbányászati ​​projekthez szükség van a tevékenység megértésére, az adatok és eszközök ismeretére, valamint az adatelemzés folyamatára.” Az adatbányászati ​​technológia alkalmazása előtt tehát alaposan elemezni kell a módszerek által támasztott korlátokat és a hozzá kapcsolódó kritikus kérdéseket, valamint józanul fel kell mérni a technológia adottságait. A kritikus kérdések a következők:

1. A technológia nem tud választ adni a fel nem tett kérdésekre. Nem helyettesítheti az elemzőt, csak hatékony eszközt ad neki munkájának megkönnyítésére és javítására.

2. Az adatbányászati ​​alkalmazás fejlesztésének és üzemeltetésének összetettsége.

Mert a ezt a technológiát egy multidiszciplináris terület, az adatbányászatot is magában foglaló alkalmazás fejlesztéséhez különböző szakterületek szakembereinek bevonása, valamint ezek magas színvonalú interakciójának biztosítása szükséges.

3. Felhasználói képesítések.

A különböző adatbányászati ​​eszközök felhasználói felülete eltérő mértékben felhasználóbarát, és bizonyos felhasználói képesítéseket igényel. Ezért szoftver meg kell felelnie a felhasználó képzettségi szintjének. Az adatbányászat használatának elválaszthatatlanul össze kell kapcsolódnia a felhasználó képesítésének javításával. Jelenleg azonban kevés olyan adatbányászati ​​szakember van, aki jártas az üzleti folyamatokban.

4. Hasznos információk kinyerése lehetetlen az adatok lényegének alapos megértése nélkül.

A modell gondos kiválasztására és a felfedezett függőségek vagy minták értelmezésére van szükség. Ezért az ilyen eszközökkel való munkavégzés szoros együttműködést igényel egy tartományszakértő és egy adatbányászati ​​eszközszakértő között. A tartós modelleket intelligensen integrálni kell az üzleti folyamatokba, hogy lehetővé tegyék a modellek értékelését és frissítését. Az utóbbi időben az adatbányászati ​​rendszereket az adattárház technológia részeként szállítják.

5. Az adatok előkészítésének nehézségei.

A sikeres elemzéshez jó minőségű adat-előfeldolgozás szükséges. Elemzők és adatbázis-felhasználók szerint az előfeldolgozási folyamat a teljes adatbányászati ​​folyamat akár 80%-át is igénybe veheti.

Így ahhoz, hogy a technológia magától működjön, sok erőfeszítést és időt igényel, ami az előzetes adatelemzésre, a modellválasztásra és annak beállítására megy el.

6. Hamis, megbízhatatlan vagy haszontalan eredmények nagy százaléka.

A Data Mining technológiák segítségével valóban nagyon értékes információkhoz juthat, amelyek jelentős előnyt jelenthetnek a további tervezésben, menedzsmentben, döntéshozatalban. Az adatbányászati ​​módszerekkel kapott eredmények azonban gyakran tartalmaznak hamis és értelmetlen következtetéseket. Sok szakértő azzal érvel, hogy az adatbányászati ​​eszközök nagyszámú statisztikailag megbízhatatlan eredményt tudnak produkálni. Az ilyen eredmények százalékos arányának csökkentése érdekében ellenőrizni kell a kapott modellek megfelelőségét a tesztadatokon. A hamis következtetéseket azonban lehetetlen teljesen elkerülni.

7. Magas költség.

Minőségi szoftver a fejlesztő jelentős erőfeszítéseinek eredménye. Ezért a Data Mining szoftver hagyományosan drága szoftvertermék.

8. Elegendő reprezentatív adat rendelkezésre állása.

Az adatbányászati ​​eszközök a statisztikai eszközökkel ellentétben elméletileg nem igényelnek szigorúan meghatározott mennyiségű történelmi adatot. Ez a funkció megbízhatatlan, hamis modellek észlelését és ennek eredményeként azok alapján helytelen döntések meghozatalát okozhatja. A feltárt ismeretek statisztikai szignifikanciáját figyelemmel kell kísérni.

neurális hálózati algoritmus klaszterező adatbányászat

Következtetés

Dana rövid leírása alkalmazási területeket, és kritikát fogalmaz meg az adatbányászati ​​technológiával kapcsolatban, valamint az e terület szakértőinek véleményét.

Listairodalom

1. Han és Micheline Kamber. Adatbányászat: fogalmak és technikák. Második kiadás. - Illinoisi Egyetem, Urbana-Champaign

Berry, Michael J. A. Adatbányászati ​​technikák: marketinghez, értékesítéshez és ügyfélkapcsolat-kezeléshez – 2. kiadás.

Siu Nin Lam. Társítási szabályok felfedezése az adatbányászatban. - Az Illinoisi Egyetem Számítástechnikai Tanszéke, Urbana-Champaign




Top