Непознати обрасци во познати податоци. Вовед во современото рударство на податоци. Методи на најблискиот сосед и k-најблискиот сосед

Алатки за ископување податоци

Во моментов, технологијата на Data Mining е претставена со голем број комерцијални и слободно дистрибуирани софтверски производи. Прилично комплетна и редовно ажурирана листа на овие производи може да се најде на веб-страницата www. kdnuggets. com, посветен на податочно рударство. Софтверските производи за рударење податоци може да се класифицираат според истите принципи кои ја формираат основата за класификација на самата технологија. Сепак, таквата класификација нема да има практична вредност. Поради високата конкуренција на пазарот и желбата за комплетност на техничките решенија, многу од производите на Data Mining ги покриваат буквално сите аспекти од примената на аналитичките технологии. Затоа, има повеќе смисла да се класифицираат производите на Data Mining според тоа како се имплементирани и, соодветно, каков потенцијал за интеграција обезбедуваат. Очигледно, ова е исто така конвенција, бидејќи таквиот критериум не ни дозволува да ги наведеме јасните граници помеѓу производите. Сепак, таквата класификација има една несомнена предност. Ви овозможува брзо да донесете одлука за избор на едно или друго подготвено решение при иницијализирање проекти од областа на анализа на податоци, развој на системи за поддршка на одлуки, создавање складишта за податоци итн.

Значи, производите за рударство податоци може да се поделат во три големи категории:

    вклучени како составен дел во системите за управување со бази на податоци;

    библиотеки на алгоритми за рударство податоци со придружна инфраструктура;

    решенија за кутии или десктоп („црни кутии“).

Производите од првите две категории обезбедуваат најголеми можности за интеграција и ви овозможуваат да го реализирате аналитичкиот потенцијал во речиси секоја апликација во која било област. Апликациите во кутии, пак, можат да обезбедат уникатен напредок во полето на податоци за рударство или да бидат специјализирани за одредена апликација. Меѓутоа, во повеќето случаи тие се проблематични да се интегрираат во пошироки решенија.

Вклучувањето на аналитичките способности во системите за управување со комерцијални бази на податоци е природен тренд со огромен потенцијал. Навистина, каде, ако не на места каде што се концентрирани податоците, дали има најлогично поставување средства за нивна обработка? Врз основа на овој принцип, функционалноста на Data Mining во моменталноимплементирани во следните комерцијални бази на податоци:

    Microsoft SQL Server;

Главни точки

  • Рударството на податоци ви овозможува автоматски, врз основа на голема количина на акумулирани податоци, да генерирате хипотези кои можат да се потврдат со други алатки за анализа (на пример, OLAP).

    Податочно рударство е истражување и откривање од страна на машина (алгоритми, алатки за вештачка интелигенција) на скриено знаење во необработени податоци кои претходно биле непознати, нетривијални, практично корисни и достапни за човечкото толкување.

    Методите за ископување податоци решаваат три главни проблеми: проблемот на класификација и регресија, проблемот на барање правила за асоцијација и проблемот на кластерирање. Според нивната намена, тие се делат на описни и предвидувачки. Врз основа на методите на решавање проблеми, тие се поделени на надгледувано учење (учење со наставник) и учење без надзор (учење без наставник).

    Задачата за класификација и регресија се сведува на одредување на вредноста на зависната променлива на објектот од неговите независни променливи. Ако зависната променлива зема нумерички вредности, тогаш зборуваме за проблем на регресија, во спротивно - за проблем со класификација.

    Кога барате правила за асоцијација, целта е да се најдат чести зависности (или асоцијации) помеѓу предмети или настани. Пронајдените зависности се претставени во форма на правила и може да се користат и за подобро разбирање на природата на анализираните податоци и за предвидување на настаните.

    Задачата на кластерирањето е пребарување на независни групи (кластери) и нивните карактеристики во целиот сет на анализирани податоци. Решавањето на овој проблем ви помага подобро да ги разберете податоците. Покрај тоа, групирањето на хомогени предмети овозможува да се намали нивниот број и, според тоа, да се олесни анализата.

    Методите за рударење податоци се на раскрсницата различни насокиинформатички технологии: статистика, невронски мрежи, нејасни множества, генетски алгоритми итн.

    Интелигентната анализа ги вклучува следните фази: разбирање и формулирање на проблемот со анализата, подготовка на податоци за автоматска анализа, примена на методи на Data Mining и градење модели, проверка на конструираните модели и интерпретација на моделите од луѓе.

    Пред да се применат техниките за рударство на податоци, изворните податоци мора да се трансформираат. Типот на трансформација зависи од користените методи.

    Методите за ископување податоци можат ефикасно да се користат во различни области на човековата активност: бизнис, медицина, наука, телекомуникации итн.

3. Анализа на текстуални информации - Text Mining

Анализата на структурираните информации складирани во базите на податоци бара прелиминарна обработка: дизајнирање база на податоци, внесување информации според одредени правила, нивно поставување во посебни структури (на пример, релациони табели) итн. Така, директно за анализа на овие информации и добивање на нови знаења од нив бара дополнителен напор. Сепак, тие не се секогаш поврзани со анализата и не мора да водат до посакуваниот резултат. Поради ова, ефикасноста на анализа на структурирани информации се намалува. Покрај тоа, не може да се структурираат сите видови податоци без губење на корисни информации. На пример, текстуалните документи е речиси невозможно да се претворат во табеларен приказ без губење на семантиката на текстот и односите меѓу ентитетите. Поради оваа причина, таквите документи се чуваат во базата на податоци без трансформација, како текстуални полиња (BLOB полиња). Во исто време, во текстот се кријат огромно количество информации, но неговата неструктурирана природа не дозволува користење на алгоритми за податочно рударство. Методите за анализа на неструктуриран текст го решаваат овој проблем. Во западната литература, ваквата анализа се нарекува Текст рударство.

Методите на анализа во неструктурирани текстови лежат на пресекот на неколку области: ископување податоци, обработка на природен јазик, пронаоѓање информации, екстракција на информации и управување со знаење.

Дефиниција за ископување текст: Откривањето на знаењето за текст е нетривијален процес на откривање навистина нови, потенцијално корисни и разбирливи обрасци во неструктурирани текстуални податоци.

Како што можете да видите, таа се разликува од дефиницијата за ископување податоци само во новиот концепт на „неструктурирани текстуални податоци“. Таквото знаење се подразбира како збир на документи кои претставуваат логички обединет текст без никакви ограничувања на неговата структура. Примери за такви документи се: веб-страници, е-пошта, регулаторни документи итн. Општо земено, таквите документи можат да бидат сложени и големи и да вклучуваат не само текст, туку и графички информации. Документите кои користат XML (проширлив јазик за означување), SGML (стандарден генерализиран јазик за означување) и други слични конвенции за структурата на текстот се нарекуваат полуструктурирани документи. Тие, исто така, може да се обработат со користење на методи за рударство на текст.

Процесот на анализа на текстуалните документи може да се претстави како низа од неколку чекори

    Пребарајте информации. Првиот чекор е да се идентификуваат кои документи треба да се анализираат и да се обезбеди нивната достапност. Како по правило, корисниците можат да го одредат множеството документи што треба да се анализираат самостојно - рачно, но со голем број документи неопходно е да се користат автоматизирани опции за избор според одредени критериуми.

    Прелиминарните обработка на документи. На овој чекор, се вршат едноставни, но неопходни трансформации на документите за да се претстават во форма со која работат методите на Text Mining. Целта на ваквите трансформации е да се отстранат непотребните зборови и да се даде на текстот построга форма. Методите на предобработка ќе бидат подетално опишани во Дел.

    Извлекување информации. Извлекувањето информации од избраните документи вклучува идентификување на клучните концепти во нив, кои ќе бидат анализирани во иднина.

Примена на методи за рударство на текст. Во овој чекор се извлекуваат обрасци и врски присутни во текстовите. Овој чекор е главниот во процесот на анализа на текстот, а практичните проблеми се решаваат на овој чекор.

Толкување на резултатите. Последниот чекор во процесот на откривање знаење вклучува толкување на наодите. Вообичаено, толкувањето се состои или од прикажување на резултатите на природен јазик или нивно визуелизирање графички.

Визуелизацијата може да се користи и како алатка за анализа на текст. За да го направите ова, клучните концепти се извлекуваат и се прикажуваат графички. Овој пристап му помага на корисникот брзо да ги идентификува главните теми и концепти и да ја одреди нивната важност.

Претходна обработка на текстот

Еден од главните проблеми на анализата на текстот е големиот број зборови во документот. Ако секој од овие зборови се анализира, времето за пребарување на ново знаење нагло ќе се зголеми и веројатно нема да ги задоволи барањата на корисниците. Во исто време, очигледно е дека не сите зборови во текстот носат корисни информации. Покрај тоа, поради флексибилноста на природните јазици, формално различните зборови (синоними итн.) всушност значат исти концепти. Така, отстранувањето на неинформативните зборови, како и приближувањето на зборовите кои се блиски по значење до една форма, значително го намалува времето на анализа на текстот. Елиминацијата на опишаните проблеми се врши во фазата на претходна обработка на текстот.

Следниве техники обично се користат за отстранување на неинформативни зборови и зголемување на строгоста на текстовите:

    Отстранување стоп зборови. Стоп зборовите се зборови кои се помошни и носат малку информации за содржината на документот.

    Стемингот е морфолошка потрага. Се состои од претворање на секој збор во неговата нормална форма.

    L-грамите се алтернатива за морфолошка анализа и запирање на отстранувањето на зборовите. Тие ви дозволуваат да го направите текстот построг, но не го решаваат проблемот со намалување на бројот на неинформативни зборови;

    Конверзија на случај. Оваа техника вклучува конвертирање на сите знаци во големи или мали букви.

Најефективна е комбинираната употреба на овие методи.

Задачи за рударство на текст

Во моментов, многу применети проблеми се опишани во литературата кои можат да се решат со помош на анализа на текстуални документи. Тие вклучуваат класични задачи за рударство на податоци: класификација, групирање и задачи типични само за текстуални документи: автоматска прибелешка, екстракција на клучни концепти итн.

Класификацијата е стандардна задача во областа на податоци за рударство. Неговата цел е да дефинира за секој документ една или повеќе предефинирани категории на кои припаѓа овој документ. Карактеристика на проблемот со класификацијата е претпоставката дека множеството класифицирани документи не содржи „ѓубре“, т.е. секој од документите одговара на дадена категорија.

Посебен случај на проблемот со класификацијата е проблемот на определување на предметот на документот.

Целта на кластерирањето на документи е автоматски да се идентификуваат групи на семантички слични документи меѓу дадено фиксно множество. Имајте на ум дека групите се формираат само врз основа на парна сличност на описите на документите и нема однапред наведени карактеристики на овие групи.

Автоматската прибелешка (резимеирање) ви овозможува да го скратите текстот додека го одржувате неговото значење. Решението на овој проблем обично го контролира корисникот со одредување на бројот на реченици што треба да се извлечат или процентот на извлечен текст во однос на целиот текст. Резултатот ги вклучува најзначајните реченици во текстот.

Примарната цел на екстракција на карактеристики е да се идентификуваат фактите и односите во текстот. Во повеќето случаи, овие концепти се именки и општи именки: имиња и презимиња на луѓе, имиња на организации итн. Алгоритмите за извлекување концепти можат да користат речници за да идентификуваат некои термини и јазични обрасци за да дефинираат други.

Навигацијата преку текстуална основа им овозможува на корисниците да се движат низ документите врз основа на теми и релевантни термини. Ова се прави со идентификување на клучните концепти и некои односи меѓу нив.

Анализата на трендовите ви овозможува да ги идентификувате трендовите во групите документи во одреден временски период. Тренд може да се користи, на пример, за откривање на промени во интересите на компанијата од еден до друг сегмент на пазарот.

Пребарувањето за асоцијации е исто така една од главните задачи на рударството на податоци. За да се реши, асоцијативните односи помеѓу клучните концепти се идентификувани во даден сет на документи.

Има доста голем број на сорти на наведените проблеми, како и методи за нивно решавање. Ова уште еднаш ја потврдува важноста на анализата на текстот. Остатокот од ова поглавје ги разгледува решенијата за следните проблеми: екстракција на клучни концепти, класификација, групирање и автоматско прибележување.

Класификација на текстуални документи

Класификацијата на текстуалните документи, како и во случај на класификација на објекти, се состои во доделување документ на една од претходно познатите класи. Често класификацијата во однос на текстуалните документи се нарекува категоризација или рубрикација. Очигледно, овие имиња доаѓаат од задачата за систематизирање на документите во каталози, категории и наслови. Во овој случај, структурата на директориумот може да биде или на едно ниво или на повеќе нивоа (хиерархиска).

Формално, задачата за класификација на текстуалните документи е опишана со збир на множества.

Во проблемот со класификацијата, неопходно е да се конструира постапка врз основа на овие податоци, која се состои од наоѓање на најверојатната категорија од множеството C за документот што се проучува.

Повеќето методи за класификација на текстот на еден или друг начин се засноваат на претпоставката дека документите кои припаѓаат на истата категорија ги содржат истите карактеристики (зборови или фрази), а присуството или отсуството на такви карактеристики во документот укажува на неговата припадност или неприпадност на одредена тема.

Таквиот сет на карактеристики често се нарекува речник, бидејќи се состои од лексеми кои вклучуваат зборови и/или фрази што ја карактеризираат категоријата.

Треба да се напомене дека овие множества карактеристики се карактеристична карактеристика на класификацијата на текстуалните документи од класификацијата на објектите во Data Mining, кои се карактеризираат со збир на атрибути.

Одлуката за доделување на документот г во категоријата в се донесува врз основа на пресекот на заедничките карактеристики

Задачата на методите за класификација е најдобро да ги изберат таквите карактеристики и да формулираат правила врз основа на кои ќе се донесе одлука за доделување документ на категорија.

Алатки за анализа на текстуални информации

    Oracle Tools - Oracle Text2

Почнувајќи од верзијата 7.3.3 на Oracle, алатките за анализа на текст се составен дел на производите на Oracle. Во Oracle, овие алатки се развиени и добија ново име - Oracle Text - софтверски пакет интегриран во DBMS кој ви овозможува ефикасно да работите со прашања поврзани со неструктурирани текстови. Во овој случај, обработката на текстот се комбинира со можностите што му се даваат на корисникот за работа со релациони бази на податоци. Особено, употребата на SQL стана возможна при пишување апликации за обработка на текст.

Главната задача кон која се насочени алатките за Oracle Text е задачата да пребарувате документи според нивната содржина - со зборови или фрази, кои, доколку е потребно, се комбинираат со помош на Булова операции. Резултатите од пребарувањето се рангирани по важност, земајќи ја предвид зачестеноста на појавувањето на прашалните зборови во пронајдените документи.

    Алатки од IBM - Интелигентен рудар за текст1

Производот IBM Intelligent Miner for Text е збир на поединечни комунални услуги лансирани од командна линијаили од сценарија независно еден од друг. Системот содржи комбинација од некои алатки за решавање проблеми на анализа на текст информации.

IBM Intelligent Miner for Text комбинира моќен сет на алатки базирани главно на механизми за пронаоѓање информации, што е специфичноста на целиот производ. Системот се состои од голем број основни компоненти кои имаат независно значење надвор од технологијата за рударство на текст:

    Алатки на Институтот САС - Текст рудар

Американската компанија SAS Institute го објави системот SAS Text Miner за споредување на одредени граматички и вербални секвенци во пишаниот говор. Text Miner е многу разноврсен бидејќи може да работи со текстуални документи од различни формати - во бази на податоци, датотечни системи и понатаму на веб.

Текст рудар обезбедува логичка обработка на текст во рамките на околината SAS Enterprise Miner. Ова им овозможува на корисниците да го збогатат процесот на анализа на податоци со интегрирање на неструктурирани текстуални информации со постоечки структурирани податоци како што се возраста, приходите и моделите на побарувачка на потрошувачите.

Главни точки

    Откривањето на знаењето за текст е нетривијален процес на откривање навистина нови, потенцијално корисни и разбирливи обрасци во неструктурирани текстуални податоци.

    Процесот на анализа на текстуални документи може да се претстави како низа од неколку чекори: барај информации, претходна обработка на документи, извлекување информации, примена на методи на Text Mining, интерпретација на резултати.

    Следниве техники обично се користат за отстранување на неинформативните зборови и за зголемување на строгоста на текстовите: отстранување на стоп зборови, стебла, L-грами, намалување на буквите.

    Задачите на анализа на текстуални информации се: класификација, кластерирање, автоматско прибележување, екстракција на клучни концепти, навигација на текст, анализа на трендови, пребарување на асоцијации итн.

    Извлекувањето на клучните концепти од текстовите може да се смета и како посебна применета задача и како посебна фаза на анализа на текстот. Во вториот случај, фактите извлечени од текстот се користат за решавање на различни проблеми со анализата.

    Процесот на извлекување на клучните концепти со помош на шаблони се изведува во две фази: во првата, поединечните факти се извлекуваат од текстуалните документи со помош на лексичка анализа, во втората фаза, интегрирањето на извлечените факти и/или изведувањето на нови факти е спроведена.

    Повеќето методи за класификација на текстот на еден или друг начин се засноваат на претпоставката дека документите кои припаѓаат на истата категорија ги содржат истите карактеристики (зборови или фрази), а присуството или отсуството на такви карактеристики во документот укажува на неговата припадност или неприпадност на одредена тема.

    Повеќето алгоритми за кластерирање бараат податоците да бидат претставени во модел на векторски простор, кој е широко користен за пронаоѓање информации и користи метафора за да ја одрази семантичката сличност како просторна близина.

    Постојат два главни пристапи за автоматско бележење на текстуални документи: екстракција (избор на најважните фрагменти) и генерализација (со користење на претходно собрани знаења).

Заклучок

Рударството на податоци е една од најрелевантните и најпопуларните области на применетата математика. Современите деловни и производствени процеси генерираат огромни количини на податоци, што им отежнува на луѓето да интерпретираат и да одговорат на големи количини на податоци кои динамично се менуваат со текот на времето, а камоли да спречат критични ситуации. „Рударење податоци“ за извлекување на максимално корисно знаење од повеќедимензионални, хетерогени, нецелосни, неточни, контрадикторни, индиректни податоци. Тоа помага да се направи ефикасно ако обемот на податоците се мери во гигабајти или дури и терабајти. Помага да се изградат алгоритми кои можат да научат да донесуваат одлуки во различни професионални области.

Алатките за ископување податоци ги штитат луѓето од преоптоварување со информации со обработка на оперативните податоци во информации што можат да се преземат за да може да се преземат вистинските активности во вистинско време.

Применетите движења се спроведуваат во следните области: прогнозирање во економските системи; автоматизација на маркетинг истражување и анализа на клиентски средини за производство, трговија, телекомуникациски и интернет компании; автоматизација на одлучување за кредит и проценка на кредитниот ризик; следење на финансиските пазари; автоматски системи за тргување.

Библиографија

    „Технологии за анализа на податоци: Рударство на податоци. Визуелно рударство. Текст рударство, OLAP" A. A. Barseghyan. M. S. Kupriyanov, V. V. Stenanenko, I. I. Kholod. - второ издание, ревидирана. и дополнителни

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - Интернет статија

    http://www.piter.com/contents/978549807257/978549807257_p.pdf -Технологии за анализа на податоци

    Теза >> Банкарство

    Заемопримачот кој користи кластер, вербален анализа, фактори на приспособување итн., исто така... кредитната способност на заемопримачот врз основа на интелектуална анализаПодатоци за рударство (со... Во почетната фаза анализаодржана анализасопствени средства и...

  1. Анализаи класификација на современиот пазар на информациски системи кои спроведуваат дискреционо, м

    Апстракт >> Компјутерски науки

    1.3 Диференцијација на улоги 6 2. Компаративна анализа разни видовисистеми 7 ОС... системи, вклучувајќи: анализабезбедносни политики и нивните карактеристики, ... апликации или имплементирање повеќе интелектуална анализаподатоци. Покрај ...

  2. Интелигентенспособности на надарените деца во врска со училишната изведба

    Теза >> Психологија

    Врската помеѓу академските перформанси и карактеристиките интелектуалнаразвој. Врз основа на теоретски анализаистражувачкиот проблем бил... да се интелектира без анализанеговата психолошка структура. Одлучувачки за оценување интелектуалнаспособностите е...

Ви посакуваме добредојде на порталот Data Mining - уникатен портал посветен на современите методи на Data Mining.

Технологиите за ископување податоци се моќна алатка за модерна деловна аналитика и истражување на податоци за откривање скриени обрасци и градење предвидливи модели. Рударството на податоци или екстракцијата на знаење не се заснова на шпекулативно расудување, туку на реални податоци.

Ориз. 1. Апликативен дијаграм на податоци за рударство

Дефиниција на проблемот – Изјава за проблемот: класификација на податоци, сегментација, конструкција на модели за предвидување, предвидување.
Собирање и подготовка на податоци – Собирање и подготовка на податоци, чистење, верификација, отстранување на дупликат записи.
Изградба на модел – Изградба на модел, проценка на точноста.
Распоредување на знаење - Примена на модел за решавање на даден проблем.

Податочно рударство се користи за имплементација на големи аналитички проекти во бизнисот, маркетингот, Интернетот, телекомуникациите, индустријата, геологијата, медицината, фармацевтските производи и други области.

Рударството на податоци ви овозможува да го започнете процесот на наоѓање значајни корелации и врски како резултат на просејување низ огромна количина на податоци со користење на современи методи за препознавање шаблони и употреба на уникатни аналитички технологии, вклучувајќи стебла на одлуки и класификација, кластерирање, методи на невронска мрежа и други.

Корисникот кој за прв пат ја открива технологијата за ископување податоци е изненаден од изобилството на методи и ефективни алгоритми кои му овозможуваат да најде пристапи за решавање на тешки проблеми поврзани со анализа на големи количини на податоци.

Општо земено, Data Mining може да се карактеризира како технологија дизајнирана за пребарување на големи количини на податоци. неочигледна, објективени практично корисниобрасци.

Рударството на податоци се заснова на ефективни методии алгоритми дизајнирани да анализираат неструктурирани податоци со голем обем и димензија.

Клучната точка е што се чини дека податоците со голем обем и големи димензии немаат структура и врски. Целта на технологијата за ископување податоци е да се идентификуваат овие структури и да се најдат обрасци каде што, на прв поглед, владее хаос и самоволие.

Еве еден актуелен пример за примена на податоци за рударство во фармацевтската и индустријата за лекови.

Интеракциите со лекови се растечки проблем со кој се соочува современото здравство.

Со текот на времето, бројот на препишаните лекови (без рецепт и сите видови додатоци) се зголемува, што ја прави сè поголема веројатноста дека ќе има интеракции на лекови кои можат да предизвикаат сериозни несакани ефекти за кои лекарите и пациентите не се свесни.

Оваа област се однесува на постклинички истражувања, кога лекот е веќе пуштен на пазарот и интензивно се користи.

Клиничките студии се однесуваат на евалуација на ефективноста на лекот, но не ги земаат предвид интеракциите на лекот со другите лекови на пазарот.

Истражувачите од Универзитетот Стенфорд во Калифорнија ја испитуваа базата на податоци на ФДА за несакани ефекти од лековите и открија дека два најчесто користени лекови - антидепресивот пароксетин и лекот за намалување на холестеролот правастатин - го зголемуваат ризикот од развој на дијабетес ако се користат заедно.

Слична анализа на студијата заснована на податоците на FDA идентификуваше 47 претходно непознати несакани интеракции.

Ова е одлично, со предупредување дека многу од негативните ефекти забележани од пациентите остануваат неоткриени. Во овој случај, пребарувањето преку Интернет може да биде најдобро.

Претстојни курсеви за рударство податоци на Академијата за анализа на податоци StatSoft во 2020 година

Го започнуваме нашиот вовед во рударството на податоци користејќи ги неверојатните видеа од Академијата за наука за податоци.

Задолжително гледајте ги нашите видеа и ќе разберете што е податочно рударство!

Видео 1. Што е податочно рударство?


Видео 2. Преглед на методи за рударство податоци: стебла на одлуки, генерализирани модели на предвидување, кластерирање и многу повеќе

JavaScript е оневозможен во вашиот прелистувач


Пред да започнеме истражувачки проект, мора да организираме процес за добивање податоци од надворешни извори, сега ќе покажеме како се прави ова.

Видеото ќе ве запознае со единствена технологија СТАТИСТИКАОбработка на база на податоци на место и поврзување на Data Mining со реални податоци.

Видео 3. Редоследот на интеракција со базите на податоци: графички интерфејс за градење SQL прашања, технологија за обработка на база на податоци на место

JavaScript е оневозможен во вашиот прелистувач


Сега ќе се запознаеме со интерактивни технологии за дупчење кои се ефективни при спроведување на истражувачка анализа на податоци. Самиот поим дупчење ја одразува врската помеѓу технологијата за рударство на податоци и геолошките истражувања.

Видео 4: Интерактивно дупчење: истражување и графички техники за интерактивно истражување на податоци

JavaScript е оневозможен во вашиот прелистувач


Сега ќе се запознаеме со анализа на асоцијација (правила за асоцијација), овие алгоритми ви дозволуваат да најдете врски што постојат во реални податоци. Клучната точка е ефикасноста на алгоритмите на големи количини на податоци.

Резултатот од алгоритмите за анализа на поврзување, на пример, алгоритмот Априори, е наоѓање правила за поврзување за објектите што се проучуваат со дадена сигурност, на пример, 80%.

Во геологијата, овие алгоритми може да се користат во истражувачката анализа на минералите, на пример, како карактеристиката А е поврзана со карактеристиките Б и В.

Можеш да најдеш конкретни примеритакви решенија користејќи ги нашите врски:

Во малопродажбата, алгоритмите на Априори или нивните модификации овозможуваат проучување на односот помеѓу различни производи, на пример, при продажба на парфеми (парфем - лак - маскара и сл.) или производи од различни брендови.

Анализата на најинтересните делови на страницата, исто така, може ефективно да се изврши со користење на правила за асоцијација.

Затоа, погледнете го нашето следно видео.

Видео 5. Правила на асоцијација

JavaScript е оневозможен во вашиот прелистувач

Еве примери за примена на Data Mining во одредени области.

Онлајн тргување:

  • анализа на траекториите на клиентите од посета на локацијата до купување на стоки
  • проценка на ефикасноста на услугата, анализа на дефекти поради недостаток на стоки
  • поврзување на производи кои се интересни за посетителите

Малопродажба: анализа на информации за клиентите врз основа на кредитни картички, картички за попуст итн.

Типични задачи за малопродажба решени со алатки за рударство на податоци:

  • анализа на количката;
  • создавање на модели за предвидувањеи класификациски модели на купувачи и купени стоки;
  • креирање профили на клиенти;
  • CRM, оценување на лојалноста на клиентите од различни категории, планирање програми за лојалност;
  • истражување на временски сериии временски зависности, идентификување сезонски фактори, проценка на ефективноста промоциина голем опсег на реални податоци.

Телекомуникацискиот сектор отвора неограничени можности за користење на методи за копирање податоци, како и современи технологии за големи податоци:

  • класификација на клиенти врз основа на клучните карактеристики на повиците (фреквенција, времетраење итн.), СМС фреквенција;
  • идентификување на лојалноста на клиентите;
  • откривање измами итн.

Осигурување:

  • анализа на ризик. Со идентификување на комбинации на фактори поврзани со платени штети, осигурениците можат да ги намалат загубите од обврските. Има случај кога една осигурителна компанија открила дека износите исплатени за штети на оженети лица биле двојно повисоки од износите исплатени за штети од самци. Компанијата одговори на ова со ревидирање на политиката за попуст за семејните клиенти.
  • откривање измама. Осигурителните компании можат да ја намалат измамата барајќи одредени обрасци во побарувањата што ги карактеризираат односите меѓу адвокатите, лекарите и барателите.

Практичната примена на ископувањето податоци и решавањето на конкретни проблеми е претставена во нашето следно видео.

Webinar 1. Webinar „Практични задачи на рударството податоци: проблеми и решенија“

JavaScript е оневозможен во вашиот прелистувач

Webinar 2. Webinar „Data Mining and Text Mining: примери за решавање реални проблеми“

JavaScript е оневозможен во вашиот прелистувач


Можете да добиете повеќе продлабочени знаења за методологијата и технологијата за ископување податоци во курсевите на StatSoft.

Што е податочно рударство

Корпоративната база на податоци на кое било современо претпријатие обично содржи збир на табели кои складираат записи за одредени факти или предмети (на пример, за стоки, нивната продажба, клиенти, сметки). Како по правило, секој запис во таква табела опишува одреден предмет или факт. На пример, запис во продажната табела го одразува фактот дека таков и таков производ бил продаден на таков и таков клиент во тоа време од таков и таков менаџер, и во голема мера не содржи ништо друго освен оваа информација. Сепак, збирката на голем број такви записи, акумулирани во текот на неколку години, може да стане извор на дополнителни, многу повредни информации кои не можат да се добијат врз основа на еден специфичен запис, имено, информации за моделите, трендовите или меѓузависноста помеѓу било кој податок. Примери за такви информации се информации за тоа како продажбата на одреден производ зависи од денот во неделата, времето од денот или годишното време, кои категории клиенти најчесто го купуваат овој или оној производ, колкав дел од купувачите на еден конкретен производ купуваат друг специфичен производ, која категорија клиенти најчесто не го враќа навреме дадениот кредит.

Овој вид на информации обично се користи во прогнозирање, стратешко планирање, анализа на ризик, а нивната вредност за претпријатието е многу висока. Очигледно, затоа процесот на негово пребарување беше наречен податочно рударство (рударството на англиски значи „рударство“, а пребарувањето шеми во огромен сет на фактички податоци е навистина слично на ова). Терминот податочно рударство означува не толку специфична технологија колку процес на пребарување на корелации, трендови, врски и обрасци преку различни математички и статистички алгоритми: кластерирање, создавање подпримероци, регресија и анализа на корелација. Целта на ова пребарување е да ги претстави податоците во форма што јасно ги одразува деловните процеси, а исто така и да изгради модел со кој можете да предвидите процеси кои се клучни за деловното планирање (на пример, динамиката на побарувачката за одредени стоки или услуги или зависноста на нивното стекнување од одредени тогашни потрошувачки карактеристики).

Забележете дека традиционалната математичка статистика, која долго време остана главна алатка за анализа на податоци, како и алатките за онлајн аналитичка обработка (OLAP), за кои веќе пишувавме неколку пати (видете ги материјалите на оваа тема на нашето ЦД) . не може секогаш успешно да се користи за решавање на вакви проблеми. Вообичаено, статистичките методи и OLAP се користат за тестирање на претходно формулирани хипотези. Сепак, често е формулирањето на хипотезата што се покажува како најтешка задача при спроведување на деловна анализа за последователно донесување одлуки, бидејќи не се сите обрасци во податоците очигледни на прв поглед.

Основата модерна технологијаРударството на податоци се заснова на концептот на обрасци кои ги рефлектираат шемите својствени за подпримероци на податоци. Пребарувањето за обрасци се врши со помош на методи кои не користат никакви априори претпоставки за овие подпримероци. Додека статистичката анализа или OLAP вообичаено поставува прашања како „Колкав е просечниот број на неплатени фактури меѓу клиентите за оваа услуга?“, Рударството на податоци обично вклучува одговарање на прашања како „Дали има типична категорија на клиенти кои не плаќаат?“ . Во исто време, одговорот на второто прашање често дава понетривијален пристап кон маркетинг политиката и организирање на работата со клиентите.

Важна карактеристика на ископувањето податоци е нестандардната и неочигледна природа на шаблоните што се бараат. Со други зборови, алатките за рударство на податоци се разликуваат од алатките за статистичка обработка на податоци и алатките OLAP по тоа што наместо да ги проверуваат однапред претпоставените меѓузависности од страна на корисниците, тие можат да најдат такви меѓузависности независно врз основа на достапните податоци и да градат хипотези за нивната природа.

Треба да се напомене дека употребата на алатки за податоци за рударство не ја исклучува употребата на статистички алатки и алатки OLAP, бидејќи резултатите од обработката на податоците со користење на второто, по правило, придонесуваат за подобро разбирање на природата на шаблоните што треба да да се бара.

Изворни податоци за податочно рударство

Употребата на Data Mining е оправдана ако има доволно голема количина на податоци, идеално содржани во правилно дизајниран складиште на податоци (всушност, самите складишта на податоци обично се создаваат за да ги решат проблемите со анализа и прогнозирање поврзани со поддршката за одлучување). Исто така, постојано пишувавме за принципите на градење складишта за податоци; релевантни материјали може да се најдат на нашето ЦД, па затоа нема да се задржуваме на ова прашање. Само да потсетиме дека податоците во складиштето се надополнет сет, заеднички за целото претпријатие и овозможуваат да се врати сликата на неговите активности во секој момент од времето. Забележете исто така дека структурата на податоците за складирање е дизајнирана на таков начин што барањата до неа се извршуваат што е можно поефикасно. Сепак, постојат алатки за рударство на податоци кои можат да бараат обрасци, корелации и трендови не само во складишта на податоци, туку и во коцки OLAP, односно во множества на претходно обработени статистички податоци.

Видови обрасци идентификувани со методите за рударство на податоци

Според V.A. Duke, постојат пет стандардни типови на обрасци идентификувани со методите за рударство на податоци:

Асоцијација - голема веројатност настаните да бидат поврзани едни со други (на пример, еден производ често се купува заедно со друг);

Секвенца - голема веројатност за синџир на настани поврзани во времето (на пример, во одреден период по купувањето на еден производ, друг ќе се купи со висок степен на веројатност);

Класификација - постојат знаци кои ја карактеризираат групата на која припаѓа овој или оној настан или објект (обично, врз основа на анализа на веќе класифицирани настани, се формулираат одредени правила);

Кластерирањето е шема слична на класификацијата и се разликува од неа по тоа што самите групи не се специфицирани - тие се идентификуваат автоматски при обработката на податоците;

Временски обрасци - присуство на обрасци во динамиката на однесувањето на одредени податоци (типичен пример се сезонските флуктуации на побарувачката за одредени стоки или услуги) што се користат за прогнозирање.

Методи за рударство на податоци

Денес има доста голем број на различни методи за ископување податоци. Врз основа на горната класификација предложена од V.A. Duke, меѓу нив можеме да разликуваме:

Анализа на регресија, варијанса и корелација (имплементирана во повеќето современи статистички пакети, особено во производите на Институтот SAS, StatSoft итн.);

Методи на анализа во одредена предметна област, базирани на емпириски модели (често се користат, на пример, во евтини алатки за финансиска анализа);

Алгоритми на невронски мрежи, идејата за која се заснова на аналогија со функционирањето на нервното ткиво и лежи во фактот дека почетните параметри се сметаат како сигнали кои се трансформираат во согласност со постоечките врски помеѓу „невроните“ и Одговорот на целата мрежа на почетните се смета како одговор кој произлегува од податоците од анализата. Во овој случај, врските се креираат со помош на таканаречената мрежна обука преку голема големина на примерок што содржи и првични податоци и точни одговори;

Алгоритми - избор на близок аналог на оригиналните податоци од постоечките историски податоци. Исто така наречен метод „најблизок сосед“;

Дрвата на одлуки се хиерархиска структура заснована на збир на прашања кои бараат одговор „Да“ или „Не“; иако овој методобработката на податоците не секогаш совршено ги наоѓа постоечките обрасци; таа доста често се користи во системите за прогнозирање поради јасноста на добиениот одговор;

Моделите на кластери (понекогаш се нарекуваат и модели на сегментација) се користат за групирање слични настани заедно врз основа на слични вредности на неколку полиња во збир на податоци; исто така многу популарен при креирање системи за прогнозирање;

Ограничени алгоритми за пребарување кои пресметуваат фреквенции на комбинации на едноставни логички настани во подгрупи на податоци;

Еволутивно програмирање - пребарување и генерирање на алгоритам кој ја изразува меѓусебната зависност на податоците, врз основа на првично одреден алгоритам, модифициран во текот на процесот на пребарување; понекогаш пребарувањето за меѓузависност се врши меѓу одредени типови функции (на пример, полиноми).

Повеќе информации за овие и други алгоритми за рударење податоци, како и за алатките што ги имплементираат, можете да прочитате во книгата „Data Mining: Training Course“ од V.A. Duke и A.P. Samoilenko, издадена од издавачката куќа Peter во 2001 година. Денес ова е една од ретките книги на руски посветени на овој проблем.

Водечки производители на алатки за рударство податоци

Алатките за ископување податоци, како и повеќето алатки за деловна интелигенција, се традиционално скапи софтверски алатки - некои од нив чинат и до неколку десетици илјади долари. Затоа, до неодамна, главни потрошувачи на оваа технологија беа банките, финансиските и осигурителните компании, големите трговски претпријатија, а главни задачи кои бараат користење на Data Mining се сметаа за проценка на кредитните и осигурителните ризици и развојот на маркетинг политики. , тарифни плановии други принципи на работа со клиенти. Во последниве години, ситуацијата претрпе одредени промени: на пазарот на софтвер се појавија релативно евтини алатки за подигање податоци од неколку производители, што ја направи оваа технологија достапна за малите и средни бизниси кои претходно не размислувале за тоа.

ДО модерни средства Business Intelligence вклучува генератори на извештаи, алатки за аналитичка обработка на податоци, алатки за развој на решенија за БИ (БИ платформи) и т.н. и креирање извештаи, и често вклучуваат интегриран сет на алатки за БИ и алатки за развој на апликации за БИ. Вторите, по правило, содржат алатки за известување, алатки OLAP и често алатки за рударство на податоци.

Според аналитичарите на Gartner Group, лидери на пазарот за алатки за анализа и обработка на податоци во обем на претпријатија се Business Objects, Cognos, Information Builders, а Microsoft и Oracle исто така тврдат дека лидерство (сл. 1). Што се однесува до развојните алатки за решенија за БИ, главните претенденти за лидерство во оваа област се Microsoft и SAS Institute (сл. 2).

Забележете дека алатките за деловна интелигенција на Microsoft се релативно евтини производи достапни за широк опсег на компании. Затоа ќе разгледаме некои практични аспекти на користење на податоци за рударство користејќи го примерот на производите на оваа компанија во следните делови од овој напис.

Литература:

1. Војводата В.А. Податочно рударство - податочно рударство. - http://www.olap.ru/basic/dm2.asp.

2. Војводата В.А., Самоиленко А.П. Рударство на податоци: курс за обука. - Санкт Петербург: Петар, 2001 година.

3. Б. де Вил. Мајкрософт за рударство податоци. Дигитален печат, 2001 година.

Системите OLAP му обезбедуваат на аналитичарот средство за тестирање хипотези при анализата на податоците, односно главната задача на аналитичарот е да генерира хипотези, кои тој ги решава врз основа на своето знаење и искуство.Но, не само што човекот има знаење, туку и акумулираните податоци што се анализираат . Таквото знаење е содржано во огромна количина на информации кои човек не може сам да ги истражува. Поради ова, постои ризик од пропуштање на хипотези кои би можеле да обезбедат значителни придобивки.

За откривање на „скриено“ знаење, се користат специјални методи на автоматска анализа, со помош на кои е неопходно практично да се извлече знаење од „блокирањата“ на информациите. Терминот „копирање податоци“ или „копање податоци“ е доделен на оваа област.

Постојат многу дефиниции за DataMining кои се надополнуваат една со друга. Еве некои од нив.

Рударството на податоци е процес на откривање на нетривијални и практично корисни обрасци во базите на податоци. (BaseGroup)

Податочно рударство е процес на извлекување, истражување и моделирање на големи количини на податоци за откривање на претходно непознати обрасци (шеми) со цел да се постигнат деловни предности (SAS Institute)

Рударството на податоци е процес кој има за цел да открие нови значајни корелации, обрасци и трендови со просејување на големи количини складирани податоци користејќи техники за препознавање шаблони плус примена на статистички и математички техники (GartnerGroup)

Податочно рударство е истражување и откривање од страна на „машина“ (алгоритми, алатки за вештачка интелигенција) на скриено знаење во необработени податоци.беа претходно непознати, нетривијални, практично корисни, достапни за толкување(А. Баргесјан „Технологии за анализа на податоци“)

DataMining е процес на откривање на корисни знаења за бизнисот (Н.М. Абдикеев „КБА“)

Својства на откриеното знаење

Да ги разгледаме својствата на откриеното знаење.

  • Знаењето мора да биде ново, претходно непознато. Напорот потрошен за откривање на знаење кое веќе му е познато на корисникот не се исплати. Затоа, вредно е ново, досега непознато знаење.
  • Знаењето мора да биде нетривијално. Резултатите од анализата треба да одразуваат неочигледни, неочекуваниобрасци во податоците кои го сочинуваат таканареченото скриено знаење. Резултати кои можеа да се добијат повеќе на едноставни начини(на пример, визуелна инспекција) не ја оправдуваат употребата на моќни методи на DataMining.
  • Знаењето мора да биде практично корисно. Пронајденото знаење мора да биде применливо, вклучително и на нови податоци, со доволно висок степен на доверливост. Корисноста лежи во фактот дека ова знаење може да донесе одредени придобивки кога се применува.
  • Знаењето мора да биде достапно за човечкото разбирање. Пронајдените обрасци мора да бидат логички објаснети, инаку постои можност тие да се случајни. Дополнително, откриеното знаење мора да биде претставено во форма која е разбирлива за луѓето.

Во DataMining, моделите се користат за претставување на стекнатото знаење. Видовите модели зависат од методите што се користат за нивно создавање. Најчести се: правила, стебла на одлуки, кластери и математички функции.

DataMining Tasks

Да потсетиме дека технологијата DataMining се заснова на концептот на шаблони, кои се обрасци. Како резултат на откривањето на овие обрасци, скриени од голо око, проблемите со DataMining се решени. Различни типови на обрасци кои можат да се изразат во форма што може да се чита од човек одговараат на специфични задачи на DataMining.

Не постои консензус за тоа кои задачи треба да се класифицираат како DataMining. Повеќето авторитетни извори го наведуваат следново: класификација,

кластерирање, предвидување, асоцијација, визуелизација, анализа и откривање

отстапувања, проценка, анализа на врски, сумирање.

Целта на описот што следи е да се даде општа идеја за проблемите на DataMining, да се споредат некои од нив, а исто така да се презентираат некои методи со кои се решаваат овие проблеми. Најчестите задачи за ископување податоци се класификација, кластерирање, асоцијација, предвидување и визуелизација. Така, задачите се поделени според видот на произведените информации, ова е најопштата класификација на задачите DataMining.

Класификација

Проблемот на делење на збир на предмети или набљудувања на априори одредени групи, наречени класи, во рамките на секоја од кои се претпоставува дека се слични една на друга, имаат приближно исти својства и карактеристики. Во овој случај, решението се добива врз основа наанализа вредности на атрибути (карактеристики).

Класификацијата е една од најважните задачи DataMining . Се користи вомаркетинг при проценка на кредитната способност на кредитокорисниците, утврдувањелојалност на клиентите, препознавање на модели , медицинска дијагностика и многу други апликации. Ако аналитичарот ги знае својствата на објектите од секоја класа, тогаш кога новото набљудување припаѓа на одредена класа, овие својства автоматски се прошируваат на неа.

Ако бројот на часови е ограничен на два, тогашбинарна класификација , на што може да се сведат многу посложени проблеми. На пример, наместо да дефинирате такви степени на кредитен ризик како „Висок“, „Среден“ или „Низок“, можете да користите само два - „Издавање“ или „Одбиј“.

DataMining користи многу различни модели за класификација:невронски мрежи, стебла на одлуки , векторски машини за поддршка, метод k-најблиски соседи, алгоритми за покривање итн., во чија конструкција се користи надгледуваното учење когаизлезна променлива(етикета на класата ) е наведено за секое набљудување. Формално, класификацијата се прави врз основа на партицијатакарактеристики простори во области, во рамките на секоја од нивповеќедимензионални вектори се сметаат за идентични. Со други зборови, ако некој објект падне во простор од простор поврзан со одредена класа, тој му припаѓа.

Кластерирање

Краток опис. Кластерирањето е логично продолжение на идејата

класификации. Ова е покомплексна задача; особеноста на кластерирањето е што класите на објекти не се првично предефинирани. Резултатот од кластерирањето е поделбата на објектите во групи.

Пример за метод за решавање на проблем со кластерирање: „ненадгледувана“ обука на посебен вид невронски мрежи - самоорганизирање на мапи на Кохонен.

Здруженија

Краток опис. Кога се решава проблемот со пребарувањето на правилата за асоцијација, се наоѓаат шеми помеѓу поврзани настани во збир на податоци.

Разликата помеѓу асоцијацијата и двете претходни задачи на DataMining: пребарувањето за обрасци се врши не врз основа на својствата на анализираниот објект, туку помеѓу неколку настани што се случуваат истовремено. Најпознат алгоритам за решавање на проблемот со пронаоѓање правила за асоцијација е алгоритамот Априори.

Секвенца или секвенцијална асоцијација

Краток опис. Секвенцата ви овозможува да најдете временски обрасци помеѓу трансакциите. Задачата за секвенца е слична на асоцијацијата, но нејзината цел е да воспостави шеми не помеѓу настани што се случуваат истовремено, туку помеѓу настани поврзани во времето (т.е., што се случуваат во одреден временски интервал). Со други зборови, низата се одредува со голема веројатност за синџир на настани поврзани во времето. Всушност, асоцијацијата е посебен случај на низа со временско задоцнување од нула. Оваа задача на DataMining се нарекува и секвенцијална задача за пронаоѓање шаблони.

Правило за низа: по настанот X, настанот Y ќе се случи по одредено време.

Пример. По купувањето стан, жителите во 60% од случаите купуваат фрижидер во рок од две недели, а во рок од два месеци во 50% од случаите купуваат телевизор. Решението за овој проблем е широко користено во маркетингот и управувањето, на пример, во управувањето со животниот циклус на клиентите.

Регресија, предвидување (Прогнозирање)

Краток опис. Како резултат на решавање на проблемот со предвидувањето, исчезнатите или идните вредности на целните нумерички индикатори се проценуваат врз основа на карактеристиките на историските податоци.

За решавање на ваквите проблеми, широко се користат методи на математичка статистика, невронски мрежи итн.

Дополнителни задачи

Откривање на отстапување, варијанса или аутлиерна анализа

Краток опис. Целта на решавањето на овој проблем е да се детектираат и анализираат податоците кои се најразлични од општиот сет на податоци, идентификувајќи ги таканаречените некарактеристични обрасци.

Проценка

Задачата за проценка се сведува на предвидување на континуирани вредности на карактеристиката.

Анализа на врски

Задача за наоѓање зависности во збир на податоци.

Визуелизација (GraphMining)

Како резултат на визуелизација, се создава графичка слика на анализираните податоци. За да се реши проблемот со визуелизација, се користат графички методи за да се прикаже присуството на обрасци во податоците.

Пример за техники на визуелизација е прикажување на податоци во 2-D и 3-D димензии.

Сумирање

Задача чија цел е да опише одредени групи на објекти од анализираниот сет на податоци.

Сосема блиску до горната класификација е поделбата на задачите на DataMining на следните: истражување и откривање, предвидување и класификација, објаснување и опис.

Автоматско истражување и откривање (бесплатно пребарување)

Пример задача: откривање на нови пазарни сегменти.

За да се реши оваа класа проблеми, се користат методи за анализа на кластери.

Предвидување и класификација

Пример проблем: предвидување раст на продажбата врз основа на тековните вредности.

Методи: регресија, невронски мрежи, генетски алгоритми, стебла на одлуки.

Задачите за класификација и предвидување сочинуваат група на таканаречено индуктивно моделирање, што резултира со проучување на анализираниот објект или систем. Во процесот на решавање на овие проблеми, се развива општ модел или хипотеза врз основа на збир на податоци.

Објаснување и опис

Пример проблем: карактеризирање клиенти врз основа на демографијата и историјата на купување.

Методи: стебла на одлуки, системи на правила, правила за асоцијација, анализа на поврзување.

Ако приходот на клиентот е повеќе од 50 конвенционални единици и неговата возраст е повеќе од 30 години, тогаш класата на клиентот е прва.

Споредба на кластерирање и класификација

Карактеристично

Класификација

Кластерирање

Контролабилност на обуката

Контролиран

Неконтролирано

Стратегии

Подучена обука

Учење без надзор

Достапност на ознака за класа

Сет за обука

придружени со етикета што укажува

класа на која припаѓа

набљудување

Етикети за часови за тренери

множества се непознати

Основа за класификација

Новите податоци се класифицирани врз основа на комплетот за обука

За таа цел се дадени многу податоци

утврдување на постоењето

класи или кластери на податоци

Области на примена на DataMining

Треба да се напомене дека денес технологијата DataMining најмногу се користи во решавањето на деловните проблеми. Можеби причината е што токму во таа насока повратот од користењето на алатките DataMining може да биде, според некои извори, до 1000% и трошоците за неговата имплементација можат брзо да се исплатат.

Детално ќе разгледаме четири главни области на примена на технологијата DataMining: наука, бизнис, владино истражување и веб.

деловни задачи. Главни области: банкарство, финансии, осигурување, CRM, производство, телекомуникации, е-трговија, маркетинг, берза и други.

    Дали треба да му дадам заем на клиентот?

    Сегментација на пазарот

    Привлекување на нови клиенти

    Измама со кредитни картички

Примена на DataMining за решавање на проблеми на државно ниво. Главни насоки: пребарување за затајувачи на данок; значи во борбата против тероризмот.

Примена на DataMining за научно истражување. Главни области: медицина, биологија, молекуларна генетика и генетски инженеринг, биоинформатика, астрономија, применета хемија, истражувања поврзани со зависност од дрога и други.

Користење на DataMining за решавање Веб задачи. Главни области: пребарувачи, шалтери и други.

Е-трговија

Во областа на е-трговија, DataMining се користи за генерирање

Оваа класификација им овозможува на компаниите да идентификуваат специфични групи на клиенти и да спроведуваат маркетинг политики во согласност со идентификуваните интереси и потреби на клиентите. DataMining технологијата за е-трговија е тесно поврзана со технологијата WebMining.

Главните задачи на DataMining во индустриското производство:

· сеопфатна системска анализа на производните ситуации;

· краткорочна и долгорочна прогноза на развојот на производните ситуации;

· развој на опции за оптимизациски решенија;

· предвидување на квалитетот на производот во зависност од одредени параметри

технолошки процес;

· детекција на скриени трендови и обрасци во развојот на производството

процеси;

· прогнозирање на модели на развој производствени процеси;

· откривање на скриени фактори на влијание;

· откривање и идентификација на претходно непознати врски помеѓу

производни параметри и фактори на влијание;

· анализа на интеракциската средина на производните процеси и прогнозирање

промени во неговите карактеристики;

процеси;

· визуелизација на резултатите од анализата, подготовка на прелиминарни извештаи и проекти

остварливи решенија со проценки на веродостојноста и ефективноста на можните имплементации.

Маркетинг

Во областа на маркетингот, DataMining е широко користен.

Основни маркетинг прашања: „Што се продава?“, „Како се продава?“, „Кој е

потрошувач?"

Предавањето за проблемите со класификација и кластерирање детално ја опишува употребата на анализа на кластери за решавање на проблемите на маркетингот, како што е сегментацијата на потрошувачите.

Друг вообичаен сет на методи за решавање на маркетинг проблеми се методите и алгоритмите за пребарување на правила за асоцијација.

Тука успешно се користи и пребарувањето за временски обрасци.

Малопродажба

Во трговијата на мало, како и во маркетингот, се користат:

· алгоритми за пребарување на правила за асоцијација (за одредување на често појавуваните множества на

стоки што купувачите ги купуваат во исто време). Идентификувањето на таквите правила помага

ставајте стоки на полиците на продавниците, развивајте стратегии за купување стоки

и нивно сместување во магацини и сл.

· употреба на временски секвенци, на пример, за одредување

потребни количини на стоки во складот.

· методи на класификација и кластерирање за да се идентификуваат групи или категории на клиенти,

чие знаење придонесува за успешна промоција на стоките.

Берза

Еве листа на проблеми на берзата што може да се решат со помош на технологијата на податоци

Рударство: · прогнозирање на идните вредности на финансиските инструменти и нивните показатели

минати вредности;

· прогноза за тренд (идна насока на движење - раст, пад, рамна) финансиска

инструментот и неговата сила (силен, умерено силен, итн.);

· идентификација на структурата на кластерот на пазарот, индустријата, секторот според одредена група

карактеристики;

· динамично управување со портфолиото;

· прогноза за нестабилност;

· проценка на ризик;

· предвидување на почетокот на кризата и предвидување на нејзиниот развој;

· избор на средства и сл.

Покрај областите на активност опишани погоре, технологијата DataMining може да се користи во широк спектар на деловни области каде што има потреба од анализа на податоци и се акумулирани одредена количина на ретроспективни информации.

Примена на DataMining во CRM

Една од најперспективните области за користење на DataMining е употребата на оваа технологија во аналитички CRM.

CRM (CustomerRelationshipManagement) - управување со односите со клиентите.

Кога овие технологии се користат заедно, екстракцијата на знаење се комбинира со „вадење пари“ од податоците на клиентите.

Важен аспект во работата на одделенијата за маркетинг и продажба е компилацијатахолистички поглед на клиентите, информации за нивните карактеристики, карактеристики и структурата на базата на клиенти. CRM користи таканаречено профилирањеклиенти, обезбедувајќи целосен преглед на сите потребни информации за клиентите.

Профилирањето на клиентите ги вклучува следните компоненти: сегментација на клиентите, профитабилност на клиентите, задржување на клиентите, анализа на одговорот на клиентите. Секоја од овие компоненти може да се испита со помош на DataMining, а нивна заедничка анализа како компоненти за профилирање на крајот може да обезбеди знаење што е невозможно да се добие од секоја поединечна карактеристика.

WebMining

WebMining може да се преведе како „копање податоци на Интернет“. WebIntelligence или Web.

Разузнавањето е подготвено да „отвори ново поглавје“ во брзиот развој на електронскиот бизнис. Способноста да се одредат интересите и преференциите на секој посетител со набљудување на неговото однесување е сериозна и критична конкурентна предност на пазарот за е-трговија.

WebMining системите можат да одговорат на многу прашања, на пример, кој од посетителите е потенцијален клиент на веб-продавницата, која група клиенти на веб-продавницата носи најмногу приходи, кои се интересите на одреден посетител или група посетители.

Методи

Класификација на методи

Постојат две групи на методи:

  • статистички методи засновани на употреба на просечно акумулирано искуство, што се рефлектира во ретроспективни податоци;
  • кибернетски методи, вклучувајќи многу хетерогени математички пристапи.

Недостаток на оваа класификација е што и статистичките и кибернетичките алгоритми се потпираат на еден или друг начин на споредба на статистичкото искуство со резултатите од следењето на моменталната ситуација.

Предноста на оваа класификација е неговата леснотија на толкување - се користи за опишување на математичките средства на современиот пристап за извлекување на знаење од низи првични набљудувања (оперативни и ретроспективни), т.е. во задачите за рударство на податоци.

Да ги погледнеме подетално групите претставени погоре.

Статистички методи Рударство на податоци

Во овие методите претставуваат четири меѓусебно поврзани делови:

  • прелиминарна анализа на природата на статистичките податоци (тестирање хипотези за стационарност, нормалност, независност, хомогеност, проценка на видот на функцијата на дистрибуција, нејзините параметри итн.);
  • идентификување на врските и обрасци(линеарна и нелинеарна регресивна анализа, корелација и сл.);
  • мултиваријантна статистичка анализа (линеарна и нелинеарна дискриминаторска анализа, кластерска анализа, анализа на компоненти, факторска анализа итн.);
  • динамични модели и прогноза врз основа на временски серии.

Арсеналот на статистички методи за ископување податоци е класифициран во четири групи методи:

  1. Описна анализа и опис на изворните податоци.
  2. Анализа на односи (корелација и регресивна анализа, факторска анализа, анализа на варијанса).
  3. Мултиваријантна статистичка анализа (анализа на компоненти, дискриминантна анализа, мултиваријатна регресивна анализа, канонски корелации итн.).
  4. Анализа на временски серии (динамички модели и прогнозирање).

Кибернетски методи за ископување податоци

Втората насока на ископувањето податоци е разновидни пристапи обединети со идејата за компјутерска математика и употреба на теоријата на вештачка интелигенција.

Оваа група ги вклучува следниве методи:

  • вештачки невронски мрежи (препознавање, кластерирање, прогноза);
  • еволутивно програмирање (вклучувајќи алгоритми за методот на групно сметководство на аргументи);
  • генетски алгоритми (оптимизација);
  • асоцијативна меморија (пребарување аналози, прототипови);
  • нејасна логика;
  • дрва за одлучување;
  • системи за обработка на експертско знаење.

Кластерска анализа

Целта на кластерирањето е да се бараат постоечки структури.

Кластерирањето е дескриптивна постапка, не прави никакви статистички заклучоци, но дава можност да се спроведе истражувачка анализа и да се проучува „структурата на податоците“.

Самиот концепт на „кластер“ е дефиниран двосмислено: секоја студија има свои „кластери“. Концептот на кластер е преведен како „кластер“, „куп“. Кластерот може да се карактеризира како група на објекти кои имаат заеднички својства.

Карактеристиките на кластерот може да се опишат како две:

  • внатрешна хомогеност;
  • надворешна изолација.

Прашање кое аналитичарите го поставуваат кога решаваат многу проблеми е како да се организираат податоците во визуелни структури, т.е. прошири таксономијата.

Кластерирањето првично беше најшироко користено во науките како што се биологијата, антропологијата и психологијата. Кластерирањето долго време малку се користи за решавање на економските проблеми поради специфичната природа на економските податоци и појави.

Кластерите можат да бидат неповрзани или ексклузивни (непреклопувачки, ексклузивни) и преклопувачки.

Треба да се напомене дека како резултат на примена на различни методи на кластерска анализа, може да се добијат кластери со различни форми. На пример, можни се кластери од типот „синџир“, кога кластерите се претставени со долги „синџири“, издолжени кластери итн., а некои методи можат да создадат кластери со произволна форма.

Различни методи може да се стремат да создадат кластери со специфични големини (на пр., мали или големи) или да претпостават дека има кластери со различни големини во множеството податоци. Некои методи за анализа на кластерот се особено чувствителни на бучава или оддалечени, други помалку. Како резултат на користење на различни методи на кластерирање, може да се добијат различни резултати; тоа е нормално и е карактеристика на работата на одреден алгоритам. Овие карактеристики треба да се земат предвид при изборот на метод на кластерирање.

Дозволете ни да дадеме краток опис на пристапите за кластерирање.

Алгоритми засновани на одвојување на податоци (Алгоритми за партиционирање), вкл. итеративен:

  • делење на објекти во k кластери;
  • Итеративна редистрибуција на објекти за да се подобри кластерирањето.
  • Хиерархијалгоритми:
  • агломерација: секој објект првично е кластер, кластери,
  • поврзувајќи се едни со други, формираат поголем кластер и сл.

Методи засновани на густина:

  • врз основа на способноста за поврзување на објекти;
  • игнорирајте ја бучавата и најдете кластери со произволна форма.

Мрежа - методи (методи базирани на мрежа):

  • квантизација на објекти во мрежни структури.

Методи на модел (базирани на модел):

  • користејќи го моделот за наоѓање кластери кои најдобро одговараат на податоците.

Методи за анализа на кластери. Итеративни методи.

Со голем број на набљудувања, хиерархиските методи на кластерска анализа не се соодветни. Во такви случаи се користат нехиерархиски методи засновани на поделба, кои се итеративни методи за фрагментирање на првобитната популација. За време на процесот на поделба, се формираат нови кластери додека не се исполни правилото за запирање.

Таквото нехиерархиско кластерирање се состои од делење на множество податоци на одреден број поединечни кластери. Постојат два пристапи. Првата е да се одредат границите на кластерите како најгусти области во повеќедимензионалниот простор на изворните податоци, т.е. дефинирање на кластер каде што има голема „кондензација на точки“. Вториот пристап е да се минимизира мерката за разлика помеѓу објектите

k-значи алгоритам

Најчестиот нехиерархиски метод е алгоритамот k-means, исто така наречен брза кластерска анализа. Целосен опис на алгоритмот може да се најде во Хартиган и Вонг (1978). За разлика од хиерархиските методи, кои не бараат прелиминарни претпоставки во однос на бројот на кластери, за да може да се користи овој метод, неопходно е да се има хипотеза за најверојатниот број на кластери.

Алгоритмот k-means конструира k кластери лоцирани на најголеми можни растојанија едни од други. Главниот тип на проблеми што ги решава алгоритмот k-means е присуството на претпоставки (хипотези) во однос на бројот на кластери, а тие треба да бидат што е можно поразлични. Изборот на k може да се заснова на претходно истражување, теоретски размислувања или интуиција.

Општата идеја на алгоритмот: даден фиксен број k на кластери за набљудување се споредуваат со кластери така што просеците во кластерот (за сите променливи) се разликуваат меѓу себе колку што е можно повеќе.

Опис на алгоритмот

1. Почетна дистрибуција на објектите во кластери.

  • Се избира бројот k и во првиот чекор овие точки се сметаат за „центри“ на кластерите.
  • Секој кластер одговара на еден центар.

Изборот на почетни центроиди може да се направи на следниов начин:

  • избирање на k-набљудувања за да се максимизира почетното растојание;
  • случаен избор на k-набљудувања;
  • избор на првите k-набљудувања.

Како резултат на тоа, секој објект е доделен на одреден кластер.

2. Повторувачки процес.

Се пресметуваат центрите на кластерите, кои потоа се користат за пресметување на координатните просеци на кластерите. Објектите повторно се распределуваат.

Процесот на пресметување центри и редистрибуција на објекти продолжува додека не се исполни еден од условите:

  • кластер центрите се стабилизираа, т.е. сите набљудувања припаѓаат на кластерот на кој припаѓале пред тековната итерација;
  • бројот на повторувања е еднаков на максималниот број на повторувања.

Сликата покажува пример на алгоритмот k-средно за k еднаков на два.

Пример за алгоритам k-means (k=2)

Изборот на бројот на кластери е сложено прашање. Доколку нема претпоставки во врска со овој број, се препорачува да се создадат 2 кластери, потоа 3, 4, 5 итн., споредувајќи ги добиените резултати.

Проверка на квалитетот на кластерирањето

По добивањето на резултатите од анализата на кластерот k-средства, треба да ја проверите исправноста на кластерирањето (т.е. да процените колку се разликуваат кластерите едни од други).

За да го направите ова, се пресметуваат просечни вредности за секој кластер. Доброто кластерирање треба да произведе многу различни средства за сите мерења, или барем за повеќето од нив.

Предности на алгоритмот k-means:

  • леснотија на користење;
  • брзина на употреба;
  • разбирливост и транспарентност на алгоритмот.

Недостатоци на алгоритмот k-means:

  • алгоритмот е премногу чувствителен на оддалечени кои можат да го нарушат просекот.

Можно решениеОвој проблем е да се користи модификација на алгоритмот - алгоритам k-медијана;

  • алгоритмот може да биде бавен на големи бази на податоци. Можно решение за овој проблем е да се користи примерок од податоци.

Бејзиски мрежи

Во теоријата на веројатност, концептот на зависност од информации се моделира преку условна зависност (или строго: отсуство на условна независност), што опишува како нашата доверба во исходот на некој настан се менува кога ќе стекнеме ново знаење за фактите, под услов веќе да сме знаеле некои други факти.

Удобно и интуитивно е да се претстават зависностите помеѓу елементите преку насочена патека што ги поврзува овие елементи во графикот. Ако врската помеѓу елементите x и y не е директна и се спроведува преку трет елемент z, тогаш логично е да се очекува дека ќе има елемент z на патеката помеѓу x и y. Таквите посреднички јазли ќе ја „отсечат“ зависноста помеѓу x и y, т.е. симулираат ситуација на условна независност меѓу нив со позната вредност на фактори кои директно влијаат.Ваквите јазици за моделирање се бајски мрежи, кои се користат за опишување условни зависности помеѓу концептите на одредена предметна област.

Бејзиските мрежи се графички структурида се претстават веројатни врски помеѓу голем број променливи и да се врши веројатност заклучување врз основа на тие променливи.„Наивна“ (бајзијанска) класификација е прилично транспарентен и разбирлив метод на класификација. „Наивен“ се нарекува затоа што се заснова на претпоставката за взаемнанезависност на знаците.

Карактеристики на класификација:

1. Користење на сите променливи и одредување на сите зависности меѓу нив.

2. Имајќи две претпоставки за променливите:

  • сите променливи се подеднакво важни;
  • сите варијабли се статистички независни, т.е. вредноста на една променлива не кажува ништо за вредноста на друга.

Постојат две главни сценарија за користење на Баезијанските мрежи:

1. Описна анализа. Предметната област е прикажана како график, чиишто јазли претставуваат концепти, а насочените лакови, прикажани со стрелки, ги илустрираат директните зависности помеѓу овие концепти. Врската помеѓу x и y значи: познавањето на вредноста на x ви помага подобро да ја погодите вредноста на y. Отсуството на директна врска помеѓу концептите ја моделира условната независност меѓу нив со познати вредности на одреден сет на „раздвојувачки“ концепти. На пример, големината на чевлите на детето е очигледно поврзана со способноста за читање на детето низ возраста. Така, поголемата големина на чевли дава поголема доверба дека детето веќе чита, но ако веќе ја знаеме возраста, тогаш познавањето на големината на чевлите повеќе нема да ни даде дополнителни информацииза способноста на детето да чита.


Како друг, спротивен пример, земете ги првично неповрзани фактори како што се пушењето и настинките. Но, ако знаеме некој симптом, на пример, дека лицето страда од кашлица наутро, тогаш сознанието дека личноста не пуши ја зголемува нашата доверба дека лицето има настинка.

2. Класификација и прогнозирање. Баезијанската мрежа, овозможувајќи условна независност на голем број концепти, овозможува да се намали бројот на параметри на заедничката дистрибуција, што овозможува да се процени самоуверено на достапните количини на податоци. Значи, со 10 променливи, од кои секоја може да земе 10 вредности, бројот на параметри на заедничката распределба е 10 милијарди - 1. Ако претпоставиме дека само 2 променливи зависат една од друга помеѓу овие променливи, тогаш бројот на параметри станува 8 * (10-1) + (10*10-1) = 171. Имајќи модел на заедничка дистрибуција кој е реален во однос на пресметковните ресурси, можеме да ја предвидиме непознатата вредност на концептот како, на пример, најверојатната вредност на овој концепт со оглед на познатите вредности на другите концепти.

Забележани се следните предности на бајзиските мрежи како метод на DataMining:

Моделот ги дефинира зависностите помеѓу сите променливи, што го олеснувасправување со ситуации во кои вредностите на некои променливи се непознати;

Бејзиските мрежи се прилично лесни за интерпретација и дозволувањеПредвидливото моделирање го олеснува спроведувањето на анализа на сценариото што-ако;

Бајесовиот метод ви овозможува природно да комбинирате обрасци,заклучено од податоци и, на пример, стручно знаење добиено експлицитно;

Користењето на Бејзови мрежи го избегнува проблемот со преоптоварување(overfitting), односно прекумерна компликација на моделот, што е слабостмногу методи (на пример, дрва за одлучување и невронски мрежи).

Пристапот Naive Bayes ги има следните недостатоци:

Точно е да се множат условните веројатности само кога сите се внесуваатпроменливите се навистина статистички независни; иако често овој методпокажува доста добри резултати кога не е исполнет статистичкиот условнезависност, но теоретски со таква ситуација треба да се справуваат посложениметоди засновани на тренирање на бајзиски мрежи;

Директна обработка на континуирани променливи не е можна - тие се потребниконверзија во интервална скала така што атрибутите се дискретни; сепак таквитрансформациите понекогаш може да доведат до губење на значајни обрасци;

Резултатот од класификацијата во пристапот на Наив Бејс е под влијание само напоединечни вредности на влезните променливи, комбинираното влијание на парови илитројки вредности на различни атрибути овде не се земени предвид. Ова може да се подобриквалитетот на класификацискиот модел во однос на неговата предиктивна точност,сепак, би го зголемил бројот на тестирани опции.

Вештачки невронски мрежи

Вештачките невронски мрежи (во натамошниот текст: невронски мрежи) можат да бидат синхрони и асинхрони.Во синхроните невронски мрежи, во секој момент од времето нивната состојба се менува самоеден неврон. Во асинхрони - состојбата веднаш се менува во цела група неврони, како по правило, кај ситеСлој. Постојат два основни архитектури- слоевити и целосно поврзани мрежи.Клучниот концепт во слоевитите мрежи е концептот на слој.Слој е еден или повеќе неврони чии влезови го добиваат истиот заеднички сигнал.Слоевит невронски мрежи се невронски мрежи во кои невроните се поделени во посебни групи (слоеви) така што информациите се обработуваат слој по слој.Во слоевитите мрежи, невроните од i-тиот слој примаат влезни сигнали, ги трансформираат и ги пренесуваат преку точките на разгранување до невроните на слојот (i+1). И така натаму до k-тиот слој, кој произведуваизлезни сигнали за преведувачот и корисникот. Бројот на неврони во секој слој не е поврзан со бројот на неврони во другите слоеви и може да биде произволен.Во еден слој, податоците се обработуваат паралелно, а низ целата мрежа, обработката се врши последователно - од слој до слој. Слоевит невронски мрежи вклучуваат, на пример, повеќеслојни перцептрони, мрежи на радијална основа, когнитрони, некогнитрони, асоцијативни мемориски мрежи.Сепак, сигналот не секогаш се испраќа до сите неврони во слојот. Во когнитронот, на пример, секој неврон од тековниот слој прима сигнали само од невроните блиски до него во претходниот слој.

Слоевните мрежи, пак, можат да бидат еднослојни или повеќеслојни.

Еднослојна мрежа- мрежа која се состои од еден слој.

Повеќеслојна мрежа- мрежа со неколку слоеви.

Во повеќеслојната мрежа, првиот слој се нарекува влезен слој, следните слоеви се нарекуваат внатрешни или скриени, а последниот слој се нарекува излезен слој. Така, средните слоеви се сите слоеви во повеќеслојната невронска мрежа освен влезот и излезот.Влезниот слој на мрежата комуницира со влезните податоци, а излезниот слој со излезот.Така, невроните можат да бидат влезни, излезни и скриени.Влезниот слој е организиран од влезните неврони, кои примаат податоци и ги дистрибуираат до влезовите на невроните во скриениот слој на мрежата.Скриен неврон е неврон кој се наоѓа во скриениот слој на невронската мрежа.Произведуваат излезни неврони, од кои е организиран излезниот слој на мрежатарезултатите од невронската мрежа.

Во мрежести мрежиСекој неврон го пренесува својот излез на други неврони, вклучувајќи го и самиот себе. Излезните сигнали на мрежата можат да бидат сите или некои од излезните сигнали на невроните по неколку циклуси на работа на мрежата.

Сите влезни сигнали се дадени на сите неврони.

Тренинг невронски мрежи

Пред да користите невронска мрежа, таа мора да се обучи.Процесот на обука на невронска мрежа се состои од прилагодување на нејзините внатрешни параметри на одредена задача.Алгоритмот на невронската мрежа е итеративен; неговите чекори се нарекуваат епохи или циклуси.Епохата е едно повторување во процесот на учење, вклучително и презентација на сите примери од сетот за обука и, можеби, проверка на квалитетот на учењето на тест сет.многу. Процесот на учење се спроведува на примерокот за обука.Сетот за обука ги вклучува влезните вредности и нивните соодветни излезни вредности од сетот на податоци. За време на обуката, невронската мрежа наоѓа одредени зависности помеѓу излезните полиња и полињата за влез.Така, се соочуваме со прашањето - кои полиња за внесување (карактеристики) ни се потребни?неопходно за употреба. Првично, изборот се прави хеуристички, тогашбројот на влезови може да се промени.

Проблем што може да се појави е бројот на набљудувања во множеството податоци. И иако постојат одредени правила кои ја опишуваат врската помеѓу потребниот број на набљудувања и големината на мрежата, нивната исправност не е докажана.Бројот на потребните набљудувања зависи од сложеноста на проблемот што се решава. Како што се зголемува бројот на карактеристики, бројот на набљудувања се зголемува нелинеарно; овој проблем се нарекува „проклетство на димензионалноста“. Во случај на недоволна количинаподатоци, се препорачува да се користи линеарен модел.

Аналитичарот мора да го одреди бројот на слоеви во мрежата и бројот на неврони во секој слој.Следно, треба да доделите такви вредности на тежини и поместувања што можатминимизирајте ја грешката во одлуката. Тежините и предрасудите автоматски се прилагодуваат за да се минимизира разликата помеѓу посакуваните и примените излезни сигнали, наречена грешка при обуката.Грешката во обуката за конструираната невронска мрежа се пресметува со споредувањеизлезни и целни (посакувани) вредности. Функцијата за грешка се формира од добиените разлики.

Функцијата за грешка е целна функција која бара минимизирање во процесотнадгледувано учење на невронска мрежа.Користејќи ја функцијата за грешка, можете да го оцените квалитетот на невронската мрежа за време на обуката. На пример, често се користи збирот на квадратни грешки.Квалитетот на обуката на невронската мрежа ја одредува нејзината способност да ги решава зададените задачи.

Преквалификација на невронска мрежа

Кога тренирате невронски мрежи, често се појавува сериозна тешкотија нареченапроблем со преоптоварување.Overfitting, или overfitting - overfittingневронска мрежа до одреден сет на примери за обука, во кои мрежата губиспособност за генерализирање.Претренираноста се јавува кога има премногу тренинзи, а не доволнопримери за обука или прекомплицирана структура на невронска мрежа.Преквалификацијата се должи на фактот дека изборот на комплетот за обукае случаен. Од првите чекори на учење, грешката се намалува. Наследните чекори со цел да се намалат параметрите на грешка (објективна функција).се приспособат на карактеристиките на комплетот за обука. Сепак, ова се случува„Прилагодување“ не на општите обрасци на серијата, туку на карактеристиките на нејзиниот дел -подмножество за обука. Во исто време, точноста на прогнозата се намалува.Една од опциите за борба против мрежно претренирање е да се подели примерокот за обука на двасетови (обука и тестирање).Невронската мрежа се тренира на сет за обука. Конструираниот модел се проверува на тест сет. Овие множества не смеат да се сечат.Со секој чекор, параметрите на моделот се менуваат, но постојаното се намалуваВредноста на целната функција се јавува токму на множеството за обука. Кога ќе го поделиме множеството на два дела, можеме да забележиме промена на грешката во прогнозата на тест множеството паралелно со набљудувањата на сетот за обука. некоибројот на чекори за грешка во прогнозата се намалува во двете сета. Сепак, наНа одреден чекор, грешката на тест-сетот почнува да се зголемува, додека грешката на сетот за обука продолжува да се намалува. Овој момент се смета за почеток на преквалификација

DataMining Tools

И светски познатите лидери и новите компании во развој се вклучени во развојот на секторот DataMining на глобалниот пазар на софтвер. Алатките DataMining може да се претстават или како самостојна апликација или како додатоци на главниот производ.Последната опција е имплементирана од многу лидери на пазарот на софтвер.Така, веќе стана традиција развивачите на универзални статистички пакети, покрај традиционалните методи на статистичка анализа, да вклучуваат во пакетотспецифичен сет на методи на DataMining. Ова се пакети како SPSS (SPSS, Clementine), Statistica (StatSoft), Институтот SAS (SAS Enterprise Miner).Некои даватели на решенија OLAP нудат и сет на методи на DataMining, како што е семејството на производи Cognos. Постојат добавувачи кои вклучуваат решенија за DataMining во функционалноста на DBMS: тоа се Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMINtelligentMinerforData).

Библиографија

  1. Абдикеев Н.М. Данко Т.П. Илдеменов С.В. Киселев А.Д., „Реинженеринг на деловни процеси. МБА курс“, М.: Издавачка куќа Ексмо, 2005. - 592 стр. - (МБА)
  1. Абдикеев Н.М., Киселев А.Д. „Управување со знаење во корпорација и реинженеринг на бизнисот“ - М.: Инфра-М, 2011. - 382 стр. – ISBN 978-5-16-004300-5
  1. Барсегјан А.А., Купријанов М.С., Степаненко В.В., Холод И.И. „Методи и модели на анализа на податоци: OLAP и податоци за рударство“, Санкт Петербург: BHV-Petersburg, 2004, 336 стр., ISBN 5-94157-522-X
  1. Војводата ВО., Самојленко А., „Рударење податоци.Курс за обука" Санкт Петербург: Петар, 2001 година, 386 стр.
  1. Чубукова И.А., Курс за рударство на податоци, http://www.intuit.ru/department/database/datamining/
  1. ИанХ. Витен, Ејбе Франк, Марк А. Хол, Морган Кауфман, Рударство на податоци: практични алатки и техники за учење на машини (трето издание), ISBN 978-0-12-374856-0
  1. Петрушин В.А. , Кан Л., Мултимедијално рударство на податоци и откривање на знаење

Министерство за образование и наука на Руската Федерација

Сојузна државна буџетска образовна институција за високо професионално образование

„НАЦИОНАЛНО ИСТРАЖУВАЧКИ ПОЛИТЕХНИЧКИ УНИВЕРЗИТЕТ ТОМСК“

Институт за кибернетика

Насока информатика и компјутерски науки

Одделение за ВТ

Тест

во дисциплината информатика и компјутерско инженерство

Тема: Методи за ископување податоци

Вовед

Рударство на податоци. Основни поими и дефиниции

1 Чекори во процесот на ископување податоци

2 Компоненти на интелигентни системи за анализа

3 Методи за копирање податоци

Методи за ископување податоци

1 Изведување на правила за здружување

2 Алгоритми на невронски мрежи

3 Методи на најблискиот сосед и k-најблискиот сосед

4 Дрвја на одлучување

5 Алгоритми за кластерирање

6 Генетски алгоритми

Области на примена

Производителите на алатки за рударство на податоци

Критика на методите

Заклучок

Библиографија

Вовед

Резултат на развојот информатички технологиие огромна количина на податоци акумулирани во во електронски формат, расте со брзо темпо. Во исто време, податоците, по правило, имаат хетерогена структура (текстови, слики, аудио, видео, хипертекст документи, релациони бази на податоци). Акумулирано за долгорочноПодатоците може да содржат обрасци, трендови и врски, кои се вредни информации за планирање, предвидување, донесување одлуки и контрола на процесите. Меѓутоа, луѓето физички не се во можност ефективно да ги анализираат таквите количини на хетерогени податоци. Методите на традиционалната математичка статистика долго време тврдат дека се главната алатка за анализа на податоците. Сепак, тие не дозволуваат синтеза на нови хипотези, туку можат да се користат само за да се потврдат претходно формулирани хипотези и „груба“ истражувачка анализа, што ја формира основата на онлајн аналитичката обработка (OLAP). Честопати, формулирањето на хипотезата се покажува како најтешка задача при спроведување на анализа за последователно одлучување, бидејќи не се очигледни сите модели во податоците на прв поглед. Затоа, технологиите за рударење податоци се сметаат за една од најважните и најперспективни теми за истражување и примена во индустријата за информатичка технологија. Рударството на податоци во овој случај се однесува на процес на идентификување на ново, точно и потенцијално корисно знаење врз основа на големи количини на податоци. Така, MIT Technology Review го опиша Data Mining како една од десетте нови технологии кои ќе го променат светот.

1. Рударство на податоци. Основни поими и дефиниции

Рударството на податоци е процес на откривање во „сурови“ податоци претходно непознати, нетривијални, практично корисни и интерпретабилни знаења неопходни за донесување одлуки во различни области на човековата активност.

Суштината и целта на технологијата за ископување податоци може да се формулира на следниов начин: таа е технологија која е дизајнирана да бара големи количини на податоци за неочигледни, објективни и практични обрасци.

Неочигледни обрасци се обрасци кои не можат да се откријат со стандардни методи на обработка на информации или со експертска анализа.

Објективните обрасци треба да се сфатат како обрасци кои целосно одговараат на реалноста, за разлика од експертското мислење кое е секогаш субјективно.

Овој концепт за анализа на податоци претпоставува дека:

§ податоците може да бидат неточни, нецелосни (содржат пропусти), контрадикторни, хетерогени, индиректни и во исто време да имаат гигантски волумени; затоа, разбирањето на податоците во специфични апликации бара значителен интелектуален напор;

§ самите алгоритми за анализа на податоци може да имаат „елементи на интелигенција“, особено способност да учат од преседани, односно да извлечат општи заклучоци врз основа на приватни набљудувања; развојот на таквите алгоритми бара и значителен интелектуален напор;

§ процесите на обработка на необработени податоци во информации и информации во знаење, не можат да се направат рачно и бараат автоматизација.

Технологијата за ископување податоци се заснова на концептот на шаблони кои рефлектираат фрагменти од повеќедимензионални односи во податоците. Овие обрасци претставуваат шаблони својствени за потпримероци на податоци кои можат компактно да се изразат во читлива форма од човекот.

Пребарувањето за обрасци се врши со помош на методи кои не се ограничени со априори претпоставки за структурата на примерокот и видот на распределбата на вредностите на анализираните индикатори.

Важна карактеристика на ископувањето податоци е нестандардната и неочигледна природа на шаблоните што се бараат. Со други зборови, алатките за рударство на податоци се разликуваат од алатките за статистичка обработка на податоци и алатките OLAP по тоа што наместо да ги проверуваат однапред претпоставените меѓузависности од страна на корисниците, тие можат да најдат такви меѓузависности независно врз основа на достапните податоци и да градат хипотези за нивната природа. Постојат пет стандардни типови на обрасци идентификувани со методите за рударство на податоци:

· асоцијација - голема веројатност настаните да бидат поврзани едни со други. Пример за асоцијација се артиклите во продавница кои често се купуваат заедно;

· низа - голема веројатност за синџир на настани поврзани во времето. Пример за низа е ситуација кога, во одреден период по купувањето на еден производ, друг ќе се купи со висок степен на веројатност;

· класификација - постојат знаци кои ја карактеризираат групата на која припаѓа овој или оној настан или предмет;

· кластерирањето е шема слична на класификацијата и се разликува од неа по тоа што самите групи не се специфицирани - тие се идентификуваат автоматски при обработката на податоците;

· временски обрасци - присуство на обрасци во динамиката на однесувањето на одредени податоци. Типичен пример за временска шема се сезонските флуктуации во побарувачката за одредени стоки или услуги.

1.1 Чекори во процесот на ископување податоци

Традиционално, во процесот на ископување податоци се разликуваат следните фази:

1. Проучување на предметната област, како резултат на што се формулираат главните цели на анализата.

2. Собирање податоци.

Претходна обработка на податоци:

а. Чистење податоци - елиминирање на недоследностите и случајниот „шум“ од изворните податоци

б. Интеграција на податоци - комбинирање на податоци од неколку можни извори во едно складиште. Конверзија на податоци. Во оваа фаза податоците се претвораат во форма погодна за анализа. Често се користат агрегација на податоци, земање примероци на атрибути, компресија на податоци и намалување на димензионалноста.

4. Анализа на податоци. Како дел од оваа фаза, алгоритмите за рударство се користат за извлекување на обрасци.

5. Толкување на пронајдените обрасци. Оваа фаза може да вклучува визуелизирање на извлечените обрасци, идентификување на вистински корисни обрасци врз основа на некоја корисна функција.

Користење на ново знаење.

1.2 Компоненти на интелигентни системи за анализа

Вообичаено, системите за ископување податоци ги имаат следните главни компоненти:

1. База на податоци, складиште на податоци или друго складиште на информации. Ова може да биде една или повеќе бази на податоци, складиште на податоци, табели или други видови складишта што може да се исчистат и интегрираат.

2. База на податоци или сервер за складиште на податоци. Наведениот сервер е одговорен за преземање на основните податоци врз основа на барањето на корисникот.

База на знаење. Ова е знаење за доменот кое води како да се пребарува и да се оцени корисноста на добиените обрасци.

Услуга за рударство на знаење. Тој е составен дел од системот за рударство на податоци и содржи збир на функционални модули за задачи како што се карактеризација, пребарување на асоцијации, класификација, анализа на кластери и анализа на варијанса.

Модул за евалуација на моделот. Оваа компонента пресметува мерки на интерес или корисност на шаблоните.

Графички кориснички интерфејс. Овој модул е ​​одговорен за комуникација помеѓу корисникот и системот за ископување податоци, визуелизација на обрасци во различни форми.

1.3 Методи за рударство на податоци

Повеќето од аналитичките методи кои се користат во технологијата на Data Mining се добро познати математички алгоритми и методи. Она што е ново во нивната примена е можноста за нивна употреба при решавање на одредени специфични проблеми, поради новите можности на хардверот и софтверот. Треба да се напомене дека повеќето методи за рударење податоци беа развиени во рамките на теоријата на вештачка интелигенција. Да ги погледнеме најшироко користените методи:

Изведување на правила за здружување.

2. Алгоритми на невронски мрежи, идејата за која се заснова на аналогија со функционирањето на нервното ткиво и лежи во фактот дека почетните параметри се сметаат како сигнали кои се трансформираат во согласност со постоечките врски помеѓу „невроните“. а одговорот на целата мрежа се смета како одговор кој произлегува од анализата на оригиналните податоци.

Избор на близок аналог на оригиналните податоци од постоечките историски податоци. Исто така наречен метод „најблизок сосед“.

Дрвјата на одлуки се хиерархиска структура заснована на збир на прашања кои бараат одговор „Да“ или „Не“.

Кластерските модели се користат за групирање слични настани во групи врз основа на слични вредности на неколку полиња во множество податоци.

Во следното поглавје подетално ќе ги опишеме горенаведените методи.

2. Методи за ископување податоци

2.1 Заклучување на правилата за здружување

Правилата за асоцијација се правила од формата „ако... тогаш...“. Пребарувањето за такви правила во збир на податоци открива скриени врски во навидум неповрзани податоци. Еден од најчесто цитираните примери за пронаоѓање правила за асоцијација е проблемот со наоѓање стабилни врски во количката. Овој проблем е да се одреди кои производи купуваат заедно, така што маркетерите можат соодветно да ги стават овие производи во продавницата за да ја зголемат продажбата.

Правилата за асоцијација се дефинирани како изјави од формата (X1,X2,…,Xn) -> Y, каде што се подразбира дека Y може да биде присутен во трансакцијата под услов X1,X2,…,Xn да се присутни во истата трансакција. Треба да се напомене дека зборот „може“ имплицира дека правилото не е идентитет, туку се задоволува само со некоја веројатност. Покрај тоа, Y може да биде збир на елементи, наместо само еден елемент. Веројатноста да се најде Y во трансакција која содржи елементи X1,X2,...,Xn се нарекува доверба. Процентот на трансакции кои содржат правило од вкупниот број трансакции се нарекува поддршка. Нивото на доверба што мора да ја надмине довербата на некое правило се нарекува интересност.

Постојат различни видови на правила за здружување. Во нивната наједноставна форма, правилата за асоцијација го соопштуваат само присуството или отсуството на здружение. Таквите правила се нарекуваат Булова асоцијација Правила. Пример за такво правило: „клиентите кои купуваат јогурт купуваат и путер со малку маснотии“.

Правилата кои групираат неколку правила за асоцијација заедно се нарекуваат Правила за повеќе нивоа или генерализирани асоцијации. При конструирање на такви правила, елементите обично се групираат според хиерархија, а пребарувањето се спроведува на највисоко концептуално ниво. На пример, „клиентите кои купуваат млеко купуваат и леб“. Во овој пример, млекото и лебот содржат хиерархија на различни видови и брендови, но пребарувањето на дното нема да открие интересни правила.

Покомплексен тип на правила се Правилата за квантитативна асоцијација. Овој тип на правило се пребарува со користење на квантитативни (на пр. цена) или категорични (на пр. пол) атрибути и се дефинира како ( , ,…,} -> . На пример, „купувачите чија возраст е помеѓу 30 и 35 години со приход од повеќе од 75.000 годишно, купуваат автомобили кои чинат повеќе од 20.000“.

Горенаведените типови правила не се однесуваат на фактот дека трансакциите, по својата природа, зависат од времето. На пример, пребарувањето пред производот да биде наведен за продажба или откако ќе исчезне од пазарот, негативно ќе влијае на прагот на поддршка. Земајќи го ова предвид, концептот на траење на атрибутот беше воведен во алгоритмите за пребарување на привремени правила за асоцијација (Temporal Association Rules).

Проблемот со пребарувањето на правилата за асоцијација генерално може да се разложи на два дела: пребарување на често појавувани множества на елементи и генерирање правила врз основа на пронајдените множества кои често се појавуваат. Претходните студии, во најголем дел, ги следеа овие линии и ги проширија во различни насоки.

Од појавата на алгоритмот Априори, овој алгоритам е најчесто користен во првиот чекор. Многу подобрувања, на пример во брзината и приспособливоста, се насочени кон подобрување на алгоритмот Априори, кон корекција на неговата погрешна особина да генерира премногу кандидати за најчесто појавуваните групи на елементи. Apriori генерира множества на елементи користејќи само големи комплети, пронајден во претходниот чекор, без преиспитување на трансакциите. Изменетиот алгоритам AprioriTid се подобрува на Apriori само со користење на базата на податоци при првото поминување. Кога се пресметува во следните чекори, се користат само податоците создадени во првиот премин и кои се многу помали по големина од оригиналната база на податоци. Ова води до огромно зголемување на продуктивноста. Понатамошна подобрена верзија на алгоритмот, наречена AprioriHybrid, може да се добие со користење на Apriori на првите неколку поминувања, а потоа префрлување на AprioriTid на подоцнежните премини, кога kth-те кандидатски множества веќе можат целосно да се лоцираат во компјутерската меморија.

Понатамошните напори за подобрување на алгоритмот Априори се поврзани со паралелизирање на алгоритмот (Разбројување, дистрибуција на податоци, дистрибуција на кандидати итн.), негово скалирање (интелигентна дистрибуција на податоци, хибридна дистрибуција), воведување нови структури на податоци, како што се стеблата на често се појавуваат елементи (FP-раст ).

Вториот чекор главно се карактеризира со автентичност и интересност. Новите модификации ја додаваат димензионалноста, квалитетот и поддршката за тајмингот опишани погоре на традиционалните Булово правила. За пронаоѓање правила често се користи еволутивен алгоритам.

2.2 Алгоритми на невронски мрежи

Вештачките невронски мрежи се појавија како резултат на примената на математички апарат за проучување на функционирањето на човечкиот нервен систем со цел негова репродукција. Имено: способноста на нервниот систем да учи и да ги коригира грешките, што треба да ни овозможи да ја симулираме, иако прилично грубо, работата на човечкиот мозок. Главниот структурен и функционален дел на невронската мрежа е формалниот неврон, прикажан на сл. 1, каде x0, x1,..., xn се компонентите на векторот на влезниот сигнал, w0, w1,..., wn се вредностите на тежините на влезните сигнали на невронот, а y е излезот на невронот сигнал.

Ориз. 1. Формален неврон: синапси (1), собирач (2), конвертор (3).

Официјален неврон се состои од 3 типа на елементи: синапси, собирач и конвертор. Синапсата ја карактеризира силата на врската помеѓу два неврони.

Собирачот ги додава влезните сигнали, претходно помножени со соодветните тежини. Конверторот ја имплементира функцијата на еден аргумент - излезот на собирачот. Оваа функција се нарекува функција за активирање или преносна функција на невронот.

Формалните неврони опишани погоре може да се комбинираат на таков начин што излезните сигнали на некои неврони се влез за други. Добиениот сет на меѓусебно поврзани неврони се нарекува вештачки невронски мрежи. невронски мрежи, ANN) или, накратко, невронски мрежи.

Постојат следниве три општи типа на неврони, во зависност од нивната позиција во невронската мрежа:

Влезни неврони (влезни јазли) до кои се доставуваат влезните сигнали. Таквите неврони обично имаат еден влез со единица тежина, нема пристрасност, а излезната вредност на невронот е еднаква на влезниот сигнал;

Излезни јазли, чии излезни вредности ги претставуваат добиените излезни сигнали на невронската мрежа;

Скриени неврони (скриени јазли) кои немаат директни врски со влезните сигнали, додека вредностите на излезните сигнали на скриените неврони не се излезни сигнали на ANN.

Врз основа на структурата на меѓуневронските врски, се разликуваат две класи на ANN:

Напојни ANN, во кои сигналот се шири само од влезните неврони до излезните неврони.

Рекурентна ANN - ANN со повратни информации. Во таквите ANN, сигналите може да се пренесат помеѓу кои било неврони, без оглед на нивната локација во ANN.

Постојат два општи пристапи за обука на ANN:

Обука со наставник.

Учење без учител.

Надгледуваното учење вклучува употреба на претходно генериран сет на примери за обука. Секој пример содржи вектор на влезни сигнали и соодветен вектор на референтни излезни сигнали, кои зависат од задачата што е прифатена. Овој сетнаречен сет за обука или сет за обука. Обуката за невронска мрежа е насочена кон промена на тежините на ANN врските на таков начин што вредностите на излезните сигнали ANN се разликуваат што е можно помалку од потребните вредности на излезните сигнали за даден вектор на влезни сигнали .

Во учењето без надзор, тежините на врската се прилагодуваат или како резултат на конкуренција помеѓу невроните или земајќи ја предвид корелацијата на излезните сигнали на невроните меѓу кои постои врска. Во случај на учење без надзор, не се користи сет за обука.

Невронските мрежи се користат за решавање на широк опсег на проблеми, како што се планирање на носивост за вселенски шатлови и прогнозирање на девизниот курс. Сепак, тие не се користат често во системите за ископување податоци поради сложеноста на моделот (знаењето евидентирано како тежина на неколку стотици интерневрални врски е целосно надвор од човечката анализа и интерпретација) и долгото време за обука на голем сет за обука. Од друга страна, невронските мрежи имаат такви предности за употреба во задачите за анализа на податоци како отпорност на бучни податоци и висока точност.

2.3 Методи на најблискиот сосед и k-најблискиот сосед

Основата на алгоритам за најблискиот сосед (алгоритам за најблизок сосед) и алгоритам за k-најблизок сосед (KNN) е сличноста на објектите. Алгоритмот на најблискиот сосед го избира, меѓу сите познати објекти, објектот што е што е можно поблиску (со користење на метриката на растојанието помеѓу објектите, на пример, Евклидов) до нов претходно непознат објект. Главниот проблем со методот на најблискиот сосед е неговата чувствителност на оддалечените во податоците за обуката.

Опишаниот проблем може да се избегне со алгоритмот KNN, кој меѓу сите набљудувања ги идентификува k-најблиските соседи кои се слични на новиот објект. Врз основа на класите на најблиските соседи, се донесува одлука за новиот објект. Важна задача на овој алгоритам е да го избере коефициентот k - бројот на записи кои ќе се сметаат за слични. Модификацијата на алгоритмот во која придонесот на соседот е пропорционален на растојанието до новиот објект (метод на k-пондерирани најблиски соседи) овозможува да се постигне поголема точност на класификација. Методот k најблиски соседи исто така ви овозможува да ја оцените точноста на прогнозата. На пример, ако сите k најблиски соседи имаат иста класа, тогаш веројатноста дека предметот што се тестира ќе има иста класа е многу голема.

Меѓу карактеристиките на алгоритмот, вреди да се забележи неговата отпорност на аномални оддалечени, бидејќи веројатноста таков рекорд да биде вклучен во бројот на k-најблиски соседи е мала. Ако тоа се случи, тогаш влијанието врз гласањето (особено пондерираното) (за k>2) исто така најверојатно ќе биде незначително, и, според тоа, влијанието врз резултатот од класификацијата исто така ќе биде мало. Исто така, предностите се едноставноста на имплементацијата, леснотијата на толкување на резултатот од алгоритмот, можноста за модифицирање на алгоритмот со користење на најсоодветните комбинирани функции и метрика, што ви овозможува да го прилагодите алгоритмот на одредена задача. Алгоритмот KNN, исто така, има голем број на недостатоци. Прво, збирот на податоци што се користи за алгоритмот мора да биде репрезентативен. Второ, моделот не може да се одвои од податоците: сите примери мора да се користат за класифицирање на нов пример. Оваа функција во голема мера ја ограничува употребата на алгоритмот.

2.4 Дрвја на одлучување

Терминот „дрвја на одлучување“ се однесува на семејство на алгоритми засновани на претставување на правилата за класификација во хиерархиска, секвенцијална структура. Ова е најпопуларната класа на алгоритми за решавање на проблеми со податочно рударство.

Семејството на алгоритми за конструирање стебла на одлуки овозможува да се предвиди вредноста на параметарот за даден случај врз основа на голема количина на податоци за други слични случаи. Вообичаено, алгоритмите од ова семејство се користат за решавање на проблеми што овозможуваат да се поделат сите првични податоци во неколку дискретни групи.

При примена на алгоритми за конструкција на стебло на одлуки на збир на почетни податоци, резултатот се прикажува како дрво. Ваквите алгоритми овозможуваат имплементација на неколку нивоа на таква поделба, делејќи ги добиените групи (гранки на дрвјата) на помали врз основа на други карактеристики. Поделбата продолжува додека вредностите што треба да се предвидат не станат исти (или, во случај на континуирана вредност на предвидениот параметар, затворање) за сите добиени групи (лисја од дрвото). Токму овие вредности се користат за да се направат предвидувања врз основа на овој модел.

Работата на алгоритмите за конструирање стебла на одлуки се заснова на употреба на методи за регресија и корелација за анализа. Еден од најпопуларните алгоритми на оваа фамилија е CART (Класификација и регресија на дрвја), врз основа на делење на податоците во гранка од дрво на две детски гранки; Покрај тоа, понатамошната поделба на одредена гранка зависи од тоа колку првични податоци опишува оваа гранка. Некои други слични алгоритми ви дозволуваат да поделите гранка на повеќе детски гранки. Во овој случај, поделбата е направена врз основа на највисокиот коефициент на корелација за податоците опишани од гранката помеѓу параметарот според кој се случува поделбата и параметарот што последователно мора да се предвиди.

Популарноста на пристапот е поврзана со јасност и јасност. Но, стеблата на одлуки се фундаментално неспособни да ги најдат „најдобрите“ (најцелосни и најточни) правила во податоците. Тие го спроведуваат наивниот принцип на секвенцијално гледање на карактеристиките и всушност наоѓаат делови од реални обрасци, создавајќи само илузија на логичен заклучок.

2.5 Алгоритми за кластерирање

Кластерирањето е задача да се подели збир на објекти во групи наречени кластери. Главната разлика помеѓу кластерирањето и класификацијата е во тоа што списокот на групи не е јасно дефиниран и се одредува во текот на функционирањето на алгоритмот.

Примената на кластерската анализа генерално се сведува на следните чекори:

· избор на примерок од објекти за групирање;

· дефинирање на множество променливи со кои ќе се оценуваат објектите во примерокот. Доколку е потребно, нормализирајте ги вредностите на променливите;

· пресметување на вредностите на мерката за сличност помеѓу објектите;

· примена на методот за анализа на кластери за креирање групи на слични објекти (кластери);

· презентација на резултатите од анализата.

По добивањето и анализата на резултатите, можно е да се прилагоди избраната метрика и методот на кластерирање додека не се добие оптималниот резултат.

Алгоритмите за кластерирање вклучуваат хиерархиски и рамни групи. Хиерархиските алгоритми (исто така наречени алгоритми за таксономија) градат не само една партиција од примерокот во разделени кластери, туку систем на вгнездени партиции. Така, излезот од алгоритмот е дрво од кластери, чиј корен е целиот примерок, а листовите се најмалите кластери. Рамните алгоритми конструираат една партиција на објекти во кластери кои не се вкрстуваат еден со друг.

Друга класификација на алгоритмите за кластерирање е во јасни и нејасни алгоритми. Јасни (или непреклопувачки) алгоритми на секој примерок објект му доделуваат кластер број, односно секој објект припаѓа само на еден кластер. Нејасните (или вкрстувачките) алгоритми му доделуваат на секој објект збир на реални вредности кои го покажуваат степенот на односот на објектот со кластерите. Така, секој објект припаѓа на секој кластер со одредена веројатност.

Меѓу алгоритмите за хиерархиско кластерирање, постојат два главни типа: алгоритми од долу-нагоре и од горе-надолу. Алгоритмите од врвот надолу работат на принципот од горе-надолу: прво, сите објекти се сместени во еден кластер, кој потоа се дели на помали и помали кластери. Почести се алгоритмите од дното нагоре, кои започнуваат со поставување на секој објект во посебен кластер и потоа комбинирање на кластерите во поголеми и поголеми додека сите објекти во примерокот не се содржат во еден кластер. Така, се конструира систем на вгнездени партиции. Резултатите од ваквите алгоритми обично се претставени во форма на дрво.

Недостаток на хиерархиските алгоритми е системот на целосни партиции, што може да биде непотребно во контекст на проблемот што се решава.

Сега да ги разгледаме рамните алгоритми. Наједноставните меѓу оваа класа се алгоритмите за квадратни грешки. Проблемот со кластерирање за овие алгоритми може да се смета како конструирање на оптимална партиција на објекти во групи. Во овој случај, оптималноста може да се дефинира како услов да се минимизира коренската средна квадратна грешка на партиционирањето:

,

Каде в j - „центар на маса“ на кластерот ј(точка со просечни карактеристики за даден кластер).

Најчестиот алгоритам во оваа категорија е методот k-means. Овој алгоритам гради даден број на кластери лоцирани колку што е можно подалеку еден од друг. Работата на алгоритмот е поделена на неколку фази:

Изберете по случаен избор кточки кои се почетни „центри на маса“ на кластерите.

2. Доделете го секој објект во кластерот со најблискиот „центар на маса“.

Ако критериумот за запирање на алгоритмот не е задоволен, вратете се на чекор 2.

Како критериум за запирање на алгоритмот обично се избира минималната промена на средната квадратна грешка. Исто така, можно е да се запре алгоритмот ако на чекор 2 нема објекти што се преместувале од кластер до кластер. Недостатоците на овој алгоритам ја вклучуваат потребата да се специфицира бројот на кластери за партиционирање.

Најпопуларниот алгоритам за нејасно кластерирање е алгоритамот c-means. Тоа е модификација на методот k-means. Алгоритамски чекори:

1. Изберете ја почетната нејасна партиција nпредмети на ккластери со избирање на матрица за членство Уголемина n x k.

2. Користејќи ја матрицата U, пронајдете ја вредноста на критериумот за нејасна грешка:

,

Каде в k - „центар на маса“ на нејасниот кластер к:

3. Прегрупирајте ги објектите со цел да се намали оваа вредност на критериумот за нејасна грешка.

4. Вратете се на чекор 2 додека матрицата не се промени Унема да стане безначајно.

Овој алгоритам можеби не е соодветен ако бројот на кластери е однапред непознат или ако е неопходно недвосмислено да се додели секој објект на еден кластер.

Следната група на алгоритми се алгоритми засновани на теорија на графикони. Суштината на таквите алгоритми е дека изборот на објекти е претставен во форма на график G=(V, E), чии темиња одговараат на предмети, а чии рабови имаат тежина еднаква на „растојанието“ меѓу предметите. Предностите на алгоритмите за групирање на графикони се јасност, релативна леснотија на имплементација и способност да се воведат различни подобрувања врз основа на геометриски размислувања. Главните алгоритми се алгоритмот за идентификација на поврзаните компоненти, алгоритам за конструирање минимално опфатено дрво и алгоритам за кластерирање слој по слој.

За да изберете параметар РОбично се конструира хистограм на распределби на парови растојанија. Во задачите со добро дефинирана кластерска структура на податоци, хистограмот ќе има два врвови - едниот одговара на растојанија внатре во кластерот, вториот - меѓукластерски растојанија. Параметар Рсе избира од минималната зона помеѓу овие врвови. Во исто време, доста е тешко да се контролира бројот на кластери користејќи праг на растојание.

Алгоритмот за минимално опфатено дрво прво конструира минимално опфатено дрво на графикон, а потоа последователно ги отстранува рабовите со најголема тежина. Алгоритмот за кластерирање слој-по-слој се заснова на идентификување поврзани компоненти на графикот на одредено ниво на растојанија помеѓу објектите (теме). Нивото на растојание е поставено со прагот на растојанието в. На пример, ако растојанието помеѓу предметите е , тогаш .

Алгоритмот за кластерирање слој-по-слој генерира низа од потграфи на графикот Г, кои ги рефлектираат хиерархиските односи помеѓу кластерите:

,

Каде Гт = (В, Ет ) - графикон за нивоа Сот, ,

Со t - t-ти праг на растојание, m - број на нивоа на хиерархија,
Г 0 = (V, o), o е празното множество од рабови на графиконот добиено од т 0 = 1,
Гм = Г, односно график на објекти без ограничувања на растојанието (должината на рабовите на графикот), бидејќи т m = 1.

Со менување на праговите на растојание ( Со 0 , …, Со m), каде што 0 = Со 0 < Со 1 < …< Со m = 1, можно е да се контролира длабочината на хиерархијата на добиените кластери. Така, алгоритмот за кластерирање слој-по-слој е способен да создаде и рамна и хиерархиска партиција на податоците.

Кластерирањето ви овозможува да ги постигнете следните цели:

· го подобрува разбирањето на податоците преку идентификување на структурни групи. Поделбата на примерокот во групи слични објекти овозможува поедноставување на понатамошната обработка на податоците и донесувањето одлуки со примена на различен метод на анализа на секој кластер;

· Ви овозможува компактно складирање на податоци. За да го направите ова, наместо да го складирате целиот примерок, можете да задржите едно типично набљудување од секој кластер;

· откривање на нови нетипични објекти кои не паднале во ниту еден кластер.

Типично, кластерирањето се користи како помошен метод во анализата на податоците.

2.6 Генетски алгоритми

Генетските алгоритми се меѓу универзалните методи за оптимизација кои овозможуваат решавање на проблеми од различни типови (комбинаторни, општи проблеми со и без ограничувања) и различен степен на сложеност. Во исто време, генетските алгоритми се карактеризираат со можност за еднокритериумско и повеќекритериумско пребарување на голем простор, чиј пејзаж не е мазен.

Оваа група методи користи итеративен процес на еволуција на низа генерации модели, вклучувајќи ги операциите на селекција, мутација и вкрстување. На почетокот на алгоритмот, популацијата се формира по случаен избор. За да се процени квалитетот на кодираните решенија, се користи функцијата за фитнес, која е неопходна за пресметување на кондицијата на секој поединец. Врз основа на резултатите од оценувањето на поединците, се избираат најсоодветните од нив за вкрстување. Како резултат на вкрстување на избрани индивидуи преку примена на операторот на генетски вкрстување, се создаваат потомци, чиишто генетски информации се формираат како резултат на размена на хромозомски информации помеѓу родителските индивидуи. Создадените потомци формираат нова популација, а некои од потомците мутираат, што се изразува во случајна промена на нивните генотипови. Фазата, вклучувајќи ја низата „Проценка на населението“ - „Избор“ - „Вкрстување“ - „Мутација“, се нарекува генерација. Еволуцијата на населението се состои од низа од такви генерации.

Се разликуваат следните алгоритми за избор на поединци за вкрстување:

· Панмиксија. Двете лица кои ќе формираат родителски пар се по случаен избор од целата популација. Секој поединец може да стане член на неколку парови. Овој пристап е универзален, но ефикасноста на алгоритмот се намалува со зголемување на големината на населението.

· Избор. Родителите можат да бидат поединци со барем просечна кондиција. Овој пристап обезбедува побрза конвергенција на алгоритмот.

· Вкрстување помеѓу крвни сродници. Методот се заснова на формирање на пар врз основа на блиско сродство. Овде, сродноста се подразбира како растојание помеѓу членовите на популацијата, и во смисла на геометриското растојание на поединците во параметарскиот простор и Хеминг растојанието помеѓу генотиповите. Затоа, се прави разлика помеѓу генотипско и фенотипско оплодување помеѓу крвни сродници. Првиот член од парот што треба да се вкрсти се избира по случаен избор, а вториот е поверојатно дека е поединецот најблиску до него. Инбридирањето може да се карактеризира со својство на концентрирање на пребарувањето во локални јазли, што всушност води до поделба на населението во посебни локални групи околу областите на пределот кои се сомнителни за екстреми.

· Размножување. Формирање на пар врз основа на далечно сродство, за најоддалечените поединци. Outbreeding има за цел да спречи алгоритмот да се приближи кон веќе пронајдените решенија, принудувајќи го алгоритмот да гледа нови, неистражени области.

Алгоритми за формирање нова популација:

· Избор со поместување. Од сите поединци со исти генотипови, предност се дава на оние чија кондиција е поголема. Така, се постигнуваат две цели: не се губат најдобрите пронајдени решенија кои имаат различни хромозомски множества и постојано се одржува доволна генетска разновидност кај популацијата. Поместувањето формира нова популација на далечно лоцирани индивидуи, наместо поединците да се групираат околу сегашното пронајдено решение. Овој метод се користи за мултиекстремални проблеми.

· Елитна селекција. Елитните методи на селекција обезбедуваат дека селекцијата ќе обезбеди опстанок на најдобрите членови на популацијата. Во исто време, некои од најдобрите поединци преминуваат на следната генерација без никакви промени. Брзата конвергенција што ја обезбедува селекцијата на елитата може да се компензира со соодветен метод за избор на родителски парови. Во овој случај, често се користи размножување. Токму оваа комбинација на „одгледување - елитна селекција“ е една од најефективните.

· Избор на турнир. Изборот на турнири спроведува n турнири за избор на n поединци. Секој турнир е изграден на избор на k елементи од популацијата и избирање на најдобриот поединец меѓу нив. Најчест е изборот на турнири со k = 2.

Една од најпопуларните апликации на генетските алгоритми во областа на податочно рударство е барањето за најоптимален модел (пребарување алгоритам кој одговара на спецификите на одредено поле). Генетските алгоритми првенствено се користат за оптимизирање на топологијата на невронските мрежи и тежините. Сепак, тие можат да се користат и како независна алатка.

3. Апликации

Технологијата за рударење податоци има навистина широк опсег на апликации, што е всушност збир на универзални алатки за анализа на податоци од секаков вид.

Маркетинг

Една од првите области каде што беа применети технологиите за ископување податоци беше полето на маркетингот. Задачата со која започна развојот на методите на Data Mining се нарекува анализа на кошничка за купување.

Оваа задача е да се идентификуваат производите што купувачите имаат тенденција да ги купуваат заедно. Познавањето на шопинг кошницата е неопходно за спроведување на рекламни кампањи, формирање на лични препораки до клиентите, развивање стратегија за создавање залихи на стоки и начини за нивно поставување во продажните области.

Исто така во маркетингот се решаваат задачи како што се одредување на целната публика на производот за поуспешна промоција; Истражување на временската шема што им помага на бизнисите да донесуваат одлуки за залихи; создавање на модели за предвидување, што им овозможува на претпријатијата да ја препознаат природата на потребите на различни категории клиенти со одредено однесување; предвидување на лојалноста на клиентите, што ви овозможува однапред да го идентификувате моментот на заминување на клиентот кога го анализирате неговото однесување и, можеби, да спречите губење на вреден клиент.

Индустрија

Една од важните области во оваа област е мониторингот и контролата на квалитетот, каде што, користејќи алатки за анализа, може да се предвиди дефект на опремата, појава на дефекти и да се планираат работи за поправка. Предвидувањето на популарноста на одредени карактеристики и знаењето кои карактеристики обично се нарачуваат заедно помага да се оптимизира производството и да се фокусира на реалните потреби на потрошувачите.

Лек

Во медицината, анализата на податоци исто така се користи доста успешно. Примерите за задачи вклучуваат анализа на резултатите од испитувањето, дијагностика, споредување на ефективноста на методите на лекување и лекови, анализа на болестите и нивното ширење и идентификување на несакани ефекти. Технологиите за ископување податоци, како што се правилата за асоцијација и секвенцијалните обрасци, успешно се користат за да се идентификуваат врските помеѓу лековите и несаканите ефекти.

Молекуларна генетика и генетски инженеринг

Можеби најакутна и во исто време јасна задача за откривање на обрасци во експерименталните податоци е во молекуларна генетикаи генетски инженеринг. Овде тој е формулиран како дефиниција за маркери, кои се сфаќаат како генетски кодови кои контролираат одредени фенотипски карактеристики на жив организам. Таквите кодови може да содржат стотици, илјадници или повеќе поврзани елементи. Резултатот од аналитичката анализа на податоци е и врската откриена од генетските научници помеѓу промените во секвенцата на човечката ДНК и ризикот од развој на разни болести.

Применета хемија

Методите за рударство на податоци се користат и во областа на применетата хемија. Тука често се поставува прашањето за разјаснување на карактеристиките на хемиската структура на одредени соединенија кои ги одредуваат нивните својства. Оваа задача е особено релевантна кога се анализираат сложени хемиски соединенија, чиј опис вклучува стотици и илјадници структурни елементи и нивните врски.

Борба против криминалот

Алатките за рударење податоци се користат релативно неодамна во безбедноста, но веќе се добиени практични резултати кои ја потврдуваат ефективноста на ископувањето податоци во оваа област. Швајцарските научници развија систем за анализа на протестните активности со цел да се предвидат идни инциденти и систем за следење на новите сајбер закани и хакерски акции во светот. Најновиот систем ви овозможува да предвидите сајбер закани и други ризици безбедност на информации. Методите на податочно рударство исто така успешно се користат за откривање измами со кредитни картички. Со анализа на минати трансакции кои подоцна се покажаа дека се лажни, банката идентификува некои модели на таква измама.

Други апликации

· Анализа на ризик. На пример, со идентификување на комбинации на фактори поврзани со платени штети, осигурениците можат да ги намалат загубите од обврските. Познат е случајот во кој една голема осигурителна компанија во Соединетите држави открила дека износите платени за штети на оженетите луѓе биле двојно повисоки од износите што се плаќале за штети од самци. Компанијата одговори на ова ново знаење со ревидирање на својата генерална политика за нудење попусти на семејните клиенти.

· Метеорологија. Предвидување на времето со помош на методи на невронска мрежа, особено се користат самоорганизирани мапи на Кохонен.

· Кадровска политика. Алатките за анализа им помагаат на службите за човечки ресурси да ги изберат најуспешните кандидати врз основа на анализа на податоците од нивните резимеа и да ги моделираат карактеристиките на идеалните вработени за одредена позиција.

4. Производители на алатки за рударење податоци

Алатките за рударење податоци се традиционално скапи софтверски производи. Затоа, до неодамна, главни потрошувачи на оваа технологија беа банките, финансиските и осигурителните компании, големите трговски претпријатија, а главни задачи кои бараат користење на Data Mining се сметаа за проценка на кредитните и осигурителните ризици и развојот на маркетинг политики. , тарифни планови и други принципи на работа со клиенти. Во последниве години, ситуацијата претрпе одредени промени: на пазарот на софтвер се појавија релативно евтини алатки за рударство на податоци, па дури и слободно дистрибуирани системи, што ја направи оваа технологија достапна за малите и средни бизниси.

Меѓу платените алатки и системите за анализа на податоци, лидери се SAS Institute (SAS Enterprise Miner), SPSS (SPSS, Clementine) и StatSoft (STATISTICA Data Miner). Добро познати решенија се од Angoss (Angoss KnowledgeSTUDIO), IBM (IBM SPSS Modeler), Microsoft (Microsoft Analysis Services) и (Oracle) Oracle Data Mining.

Изборот на слободен софтвер е исто така разновиден. Постојат и универзални алатки за анализа, како што се JHepWork, KNIME, Orange, RapidMiner и специјализирани алатки, на пример, Carrot2 - рамка за групирање на текстуални податоци и резултати од пребарувањето, Chemicalize.org - решение во областа на применетата хемија, Алатка за обработка на природен јазик NLTK (Natural Language Toolkit).

5. Критика на методите

Резултатите од ископувањето податоци во голема мера зависат од нивото на подготовка на податоците, а не од „прекрасните способности“ на некој алгоритам или збир на алгоритми. Околу 75% од работата во Data Mining се состои од собирање податоци, што се случува пред да се применат алатките за анализа. Неписмената употреба на алатки ќе доведе до губење на потенцијалот на компанијата, а понекогаш и до милиони долари.

Мислење на Херб Еделштајн, светски познат експерт во областа на ископување податоци, складирање податоци и CRM: „Неодамнешната студија на Two Crows покажа дека рударството на податоци сè уште е во раните фази на развој. Многу организации се заинтересирани за оваа технологија, но само неколку активно спроведуваат вакви проекти. Успеав да дознаам уште еден важна точка: Процесот на имплементација на податочно рударство во пракса се покажува како покомплексен од очекуваното. Се претпоставува дека е доволно да се изврши таква алатка на база на податоци од терабајти и веднаш ќе се појават корисни информации. Всушност, успешен проект за рударење податоци бара разбирање на активноста, познавање на податоците и алатките и процесот на анализа на податоците“. Така, пред да се користи технологијата на Data Mining, потребно е внимателно да се анализираат ограничувањата наметнати од методите и критичните прашања поврзани со неа, како и трезвено да се проценат можностите на технологијата. Критичните прашања го вклучуваат следново:

1. Технологијата не може да даде одговори на прашања кои не се поставени. Не може да го замени аналитичарот, туку само му дава моќна алатка за олеснување и подобрување на неговата работа.

2. Комплексноста на развивање и работење со апликација за рударство податоци.

Затоа што оваа технологијае мултидисциплинарно поле, за да се развие апликација која вклучува податоци за рударство, неопходно е да се вклучат специјалисти од различни области, како и да се обезбеди нивна висококвалитетна интеракција.

3. Квалификации на корисниците.

Различните алатки за рударство на податоци имаат различни степени на кориснички стил на интерфејсот и бараат одредени кориснички квалификации. Затоа софтвермора да одговара на нивото на обука на корисникот. Употребата на Data Mining треба да биде нераскинливо поврзана со подобрување на квалификациите на корисникот. Сепак, во моментов има малку специјалисти за рударство податоци кои се добро упатени во деловните процеси.

4. Извлекувањето корисни информации е невозможно без добро разбирање на суштината на податоците.

Потребен е внимателен избор на моделот и толкување на зависностите или обрасците кои се откриени. Затоа, работата со такви алатки бара блиска соработка помеѓу експерт за домен и специјалист за алатки за податоци за рударство. Постојаните модели мора интелигентно да се интегрираат во деловните процеси за да овозможат моделите да се оценуваат и ажурираат. Неодамна, системите за рударство податоци се испорачуваат како дел од технологијата за складирање податоци.

5. Тешкотии при подготовка на податоци.

Успешната анализа бара висококвалитетна претходна обработка на податоците. Според аналитичарите и корисниците на базата на податоци, процесот на претпроцесирање може да потрае до 80% од целиот процес на ископување податоци.

Така, за технологијата да работи сама за себе, ќе бара многу напор и време, што оди во прелиминарна анализа на податоци, избор на модел и негово прилагодување.

6. Голем процент на лажни, неверодостојни или бескорисни резултати.

Користејќи ги технологиите за ископување податоци, можете да најдете навистина многу вредни информации, кои можат да обезбедат значителна предност во понатамошното планирање, управување и донесување одлуки. Сепак, резултатите добиени со помош на методите на податочно рударство доста често содржат лажни и бесмислени заклучоци. Многу експерти тврдат дека алатките за рударење податоци можат да произведат огромен број статистички несигурни резултати. За да се намали процентот на такви резултати, неопходно е да се провери соодветноста на добиените модели на податоците од тестот. Сепак, невозможно е целосно да се избегнат лажни заклучоци.

7. Висока цена.

Квалитативни софтвере резултат на значителен напор од страна на развивачот. Затоа, софтверот за рударство податоци традиционално е скап софтверски производ.

8. Достапност на доволно репрезентативни податоци.

Алатките за рударење податоци, за разлика од статистичките, теоретски не бараат строго дефинирана количина на историски податоци. Оваа функција може да предизвика откривање на несигурни, лажни модели и, како резултат на тоа, донесување неточни одлуки врз основа на нив. Неопходно е да се следи статистичката значајност на откриеното знаење.

алгоритам на невронска мрежа за кластерирање податоци за рударство

Заклучок

Дана краток опис наобласти на примена и дава критики за технологијата на Data Mining и мислењето на експертите од оваа област.

Списоклитература

1. Хан и Мишелин Камбер. Рударство на податоци: концепти и техники. Второ издание. - Универзитетот во Илиноис во Урбана-Шампејн

Бери, Мајкл Ј.

Сиу Нин Лам. Откривање на правилата на здружението во рударството на податоци. - Оддел за компјутерски науки Универзитетот во Илиноис во Урбана-Шампејн




Врв