Невідомі закономірності у відомих даних. Введення у сучасний Data Mining. Методи найближчого сусіда та k-найближчих сусідів

Засоби Data Mining

В даний час технологія Data Mining представлена ​​цілим рядом комерційних програмних продуктів, що вільно розповсюджуються. Досить повний та регулярно оновлюваний список цих продуктів можна знайти на сайті www. kdnuggets. com, присвяченому Data Mining. Класифікувати програмні продукти Data Mining можна за тими самими принципами, що є основою класифікації самої технології. Однак подібна класифікація не матиме практичної цінності. Внаслідок високої конкуренції на ринку та прагнення до повноти технічних рішень багато продуктів Data Mining охоплюють буквально всі аспекти застосування аналітичних технологій. Тому доцільніше класифікувати продукти Data Mining у тому, як вони реалізовані і, який потенціал для інтеграції вони надають. Очевидно, що це умовність, оскільки такий критерій не дозволяє окреслити чіткі межі між продуктами. Однак у подібній класифікації є одна безперечна перевага. Вона дозволяє швидко ухвалити рішення про вибір того чи іншого готового рішення при ініціалізації проектів у галузі аналізу даних, розробки систем підтримки прийняття рішень, створення сховищ даних тощо.

Отже, продукти Data Mining умовно можна поділити на три великі категорії:

    вхідні, як невід'ємна частина, системи управління базами даних;

    бібліотеки алгоритмів Data Mining із супутньою інфраструктурою;

    коробкові чи настільні рішення ("чорні ящики").

Продукти перших двох категорій надають найбільші можливості для інтеграції та дозволяють реалізувати аналітичний потенціал практично у будь-якому додатку у будь-якій галузі. Коробкові програми, у свою чергу, можуть надавати деякі унікальні досягнення в області Data Mining або бути спеціалізованими для будь-якої конкретної сфери застосування. Однак у більшості випадків їх проблематично інтегрувати у ширші рішення.

Включення аналітичних здібностей до складу комерційних систем управління базами даних є закономірною і має величезний потенціал тенденцією. Дійсно, де, як не в місцях концентрації даних, має найбільше значення розміщувати засоби їх обробки. Виходячи з цього принципу, функціональність Data Mining в теперішній моментреалізована у наступних комерційних базах даних:

    Microsoft SQL Server;

Основні тези

  • Інтелектуальний аналіз даних дозволяє автоматично, ґрунтуючись на велику кількість накопичених даних, генерувати гіпотези, які можуть бути перевірені іншими засобами аналізу (наприклад, OLAP).

    Data Mining - дослідження та виявлення машиною (алгоритмами, засобами штучного інтелекту) у сирих даних прихованих знань, які раніше не були відомі, нетривіальні, практично корисні та доступні для інтерпретації людиною.

    Методами Data Mining вирішуються три основні завдання: задача класифікації та регресії, задача пошуку асоціативних правил та задача кластеризації. За призначенням вони поділяються на описові та передбачувальні. За способами вирішення завдання поділяють на supervised learning (навчання з учителем) і unsupervised learning (навчання без вчителя).

    Завдання класифікації та регресії зводиться до визначення значення залежної змінної об'єкта за його незалежним змінним. Якщо залежна змінна набуває чисельних значень, то говорять про завдання регресії, інакше - про завдання класифікації.

    p align="justify"> При пошуку асоціативних правил метою є знаходження частих залежностей (або асоціацій) між об'єктами або подіями. Знайдені залежності видаються як правил і можна використовувати як кращого розуміння природи аналізованих даних, так передбачення подій.

    Завдання кластеризації полягає в пошуку незалежних груп (кластерів) та їх характеристик у всій кількості аналізованих даних. Вирішення цього завдання допомагає краще зрозуміти дані. Крім того, угруповання однорідних об'єктів дозволяє скоротити їх число, а отже, і полегшити аналіз.

    Методи Data Mining знаходяться на стику різних напрямківінформаційних технологій: статистики, нейронних мереж, нечітких множин, генетичних алгоритмів та ін.

    Інтелектуальний аналіз включає такі етапи: розуміння і формулювання завдання аналізу, підготовка даних для автоматизованого аналізу, застосування методів Data Mining і побудова моделей, перевірка побудованих моделей, інтерпретація моделей людиною.

    Перед застосуванням методів Data Mining вихідні дані мають бути перетворені. Вид перетворень залежить від методів, що застосовуються.

    Методи Data Mining можуть ефективно використовуватися у різних галузях людської діяльності: у бізнесі, медицині, науці, телекомунікаціях тощо.

3. Аналіз текстової інформації – Text Mining

Аналіз структурованої інформації, що зберігається в базах даних, вимагає попередньої обробки: проектування БД, введення інформації за певними правилами, розміщення її у спеціальних структурах (наприклад, реляційних таблицях) тощо. Таким чином, безпосередньо для аналізу цієї інформації та отримання з неї нових знань необхідно витратити на додаткові зусилля. У цьому вони завжди пов'язані з аналізом і обов'язково призводять до бажаного результату. Через це ККД аналізу структурованої інформації знижується. Крім того, не всі види даних можна структурувати без втрати корисної інформації. Наприклад, текстові документи практично неможливо перетворити на табличне уявлення без втрати семантики тексту та відносин між сутностями. Тому такі документи зберігаються в БД без перетворень, як текстові поля (BLOB-поля). Водночас у тексті приховано величезну кількість інформації, але її неструктурованість не дозволяє використовувати алгоритми Data Mining. Вирішенням цієї проблеми займаються методи аналізу неструктурованого тексту. У західній літературі такий аналіз називають Text Mining.

Методи аналізу у неструктурованих текстах лежать з кінця кількох областей: Data Mining, обробка природних мов, пошук інформації, вилучення інформації та управління знаннями.

Визначення Text Mining: Виявлення знань у тексті – це нетривіальний процес виявлення справді нових, потенційно корисних та зрозумілих шаблонів у неструктурованих текстових даних.

Як бачимо, від визначення Data Mining воно відрізняється лише новим поняттям "неструктуровані текстові дані". Під такими знаннями розуміється набір документів, що є логічно об'єднаний текст без будь-яких обмежень з його структуру. Прикладами таких документів є web-сторінки, електронна пошта, нормативні документи іт. п. У загальному випадку такі документи можуть бути складними і великими і включати не лише текст, а й графічну інформацію. Документи, що використовують мову розширюваної розмітки XML (extensible Markup Language), стандартну мову узагальненої розмітки SGML (Standard Generalised Markup Language) та інші подібні угоди щодо структури формування тексту, прийнято називати напівструктурованими документами. Вони можуть бути оброблені методами Text Mining.

Процес аналізу текстових документів можна подати як послідовність кількох кроків

    Пошук інформації. На першому кроці необхідно ідентифікувати, які документи мають бути аналізовані, і забезпечити їх доступність. Як правило, користувачі можуть визначити набір аналізованих документів самостійно – вручну, але за великої кількості документів необхідно використовувати варіанти автоматизованого відбору за заданими критеріями.

    Попередня обробка документів. На цьому кроці виконуються найпростіші, але потрібні перетворення з документами для представлення їх у вигляді, з яким працюють методи Text Mining. Метою таких перетворень є видалення зайвих слів та надання тексту суворішої форми. Докладніше методи попередньої обробки будуть описані в розд.

    Вилучення інформації. Вилучення інформації з обраних документів передбачає виділення у яких ключових понять, з яких надалі виконуватиметься аналіз.

Використання методів Text Mining. На цьому кроці витягуються шаблони та стосунки, які є в текстах. Цей крок є основним у процесі аналізу текстів, і практичні завдання, які вирішуються цьому кроці.

Інтерпретація результатів. Останній крок у процесі виявлення знань передбачає інтерпретацію одержаних результатів. Як правило, інтерпретація полягає або у поданні результатів природною мовою, або їх візуалізації в графічному вигляді.

Візуалізація може бути використана як засіб аналізу тексту. Для цього витягуються ключові поняття, які і подаються у графічному вигляді. Такий підхід допомагає користувачеві швидко ідентифікувати головні теми та поняття, а також визначити їхню важливість.

Попередня обробка тексту

Однією з головних проблем аналізу текстів є багато слів у документі. Якщо кожне з цих слів аналізувати, час пошуку нових знань різко зросте і навряд чи задовольнятиме вимогам користувачів. В той же час очевидно, що не всі слова в тексті мають корисну інформацію. Крім того, через гнучкість природних мов формально різні слова (синоніми тощо) насправді означають однакові поняття. Таким чином, видалення неінформативних слів, а також приведення близьких до змісту слів до єдиної форми значно скорочують час аналізу текстів. Усунення цих проблем виконується на етапі попередньої обробки тексту.

Зазвичай використовують такі прийоми видалення неінформативних слів та підвищення суворості текстів:

    Видалення стоп-слів. Стоп-словами називаються слова, які є допоміжними і мало інформації про зміст документа.

    Стеммінг-морфологічний пошук. Він полягає у перетворенні кожного слова до його нормальної форми.

    Л-грами це альтернатива морфологічному розбору та видалення стоп-слів. Дозволяють зробити текст суворішим, не вирішують проблему зменшення кількості неінформативних слів;

    Приведення регістру. Цей прийом полягає у перетворенні всіх символів до верхнього або нижнього регістру.

Найефективніше спільне застосування перерахованих методів.

Завдання Text Mining

Нині у літературі описано багато прикладних завдань, розв'язуваних з допомогою аналізу текстових документів. Це і класичні завдання Data Mining: класифікація, кластеризація, і характерні лише для текстових документів задачі: автоматичне анотування, вилучення ключових понять та ін.

Класифікація (classification) - стандартне завдання області Data Mining. Її метою є визначення кожного документа однієї чи кількох заздалегідь заданих категорій, яких цей документ належить. Особливістю завдання класифікації є припущення, що безліч класифікованих документів не містить "сміття", тобто кожен із документів відповідає якійсь заданій категорії.

Окремим випадком завдання класифікації є завдання визначення тематики документа.

Метою кластеризації (clustering) документів є автоматичне виявлення груп семантично схожих документів серед заданої фіксованої множини. Зазначимо, що групи формуються лише з основі попарної схожості описів документів, і жодні характеристики цих груп задаються заздалегідь.

Автоматичне анотування (summarization) дозволяє скоротити текст, зберігаючи його зміст. Вирішення цієї задачі зазвичай регулюється користувачем за допомогою визначення кількості запропонованих пропозицій або відсотком тексту, що видобувається по відношенню до всього тексту. Результат включає найбільш значущі пропозиції в тексті.

Первинною метою отримання кчючових понять (feature extraction) є ідентифікація фактів і в тексті. У більшості випадків такими поняттями є іменники та номінальні: імена та прізвища людей, назви організацій та ін. Алгоритми вилучення понять можуть використовувати словники, щоб ідентифікувати деякі терміни та лінгвістичні шаблони для визначення інших.

Навігація за текстом (text-base navigation) дозволяє користувачам переміщатися документами щодо тих значних термінів. Це виконується за рахунок ідентифікації ключових понять та деяких відносин між ними.

Аналіз трендів дозволяє ідентифікувати тренди у наборах документів на певний період. Тренд може бути використаний, наприклад, виявлення змін інтересів компанії від одного сегмента ринку до іншого.

Пошук асоціацій також є одним із основних завдань Data Mining. Для її вирішення у заданому наборі документів ідентифікуються асоціативні відносини між ключовими поняттями.

Існує досить багато різновидів перелічених завдань, і навіть методів їх вирішення. Це вкотре підтверджує важливість аналізу текстів. Далі у цьому розділі розглядаються рішення наступних завдань: вилучення ключових понять, класифікація, кластеризація та автоматичне анотування.

Класифікація текстових документів

Класифікація текстових документів, як і у разі класифікації об'єктів полягає у віднесенні документа до одного із заздалегідь відомих класів. Часто класифікацію стосовно текстових документів називають категоризацією чи рубрикацією. Очевидно, що дані назви походять від задачі систематизації документів за каталогами, категоріями та рубриками. При цьому структура каталогів може бути як однорівневою, так і багаторівневою (ієрархічною).

Формально завдання класифікації текстових документів описують набором множин.

У задачі класифікації потрібно на основі цих даних побудувати процедуру, яка полягає в знаходженні найбільш ймовірної категорії з множини для досліджуваного документа.

Більшість методів класифікації текстів так чи інакше ґрунтуються на припущенні, що документи, що належать до однієї категорії, містять однакові ознаки (слова чи словосполучення), та наявність чи відсутність таких ознак у документі свідчить про його належність чи неприналежність до тієї чи іншої теми.

Така безліч ознак часто називають словником, тому що воно складається з лексем, які включають слова та/або словосполучення, що характеризують категорію.

Слід зазначити, що ці набори ознак є відмінністю класифікації текстових документів від класифікації об'єктів у Data Mining, які характеризуються набором атрибутів.

Рішення про віднесення документа d до категорії с приймається на підставі перетину загальних ознак

Завдання методів класифікації полягає в тому, щоб найкраще вибрати такі ознаки та сформулювати правила, на основі яких прийматиметься рішення про віднесення документа до рубрики.

Засоби аналізу текстової інформації

    Засоби Oracle - Oracle Text2

Починаючи з версії Oracle 7.3.3, засоби текстового аналізу є невід'ємною частиною продуктів Oracle. У Oracle ці кошти розвинулися і отримали нову назву-Oracle Text-програмний комплекс, інтегрований в СУБД, що дозволяє ефективно працювати з запитами, що стосуються неструктурованих текстів. При цьому обробка тексту поєднується з можливостями, наданими користувачеві для роботи з реляційними базами даних. Зокрема, при написанні програм для обробки тексту стало можливим використання SQL.

Основним завданням, на вирішення якого націлені кошти Oracle Text, є завдання пошуку документів за їх змістом - за словами чи фразами, які при потребі комбінуються з використанням булевих операцій. Результати пошуку ранжуються за значимістю, з урахуванням частоти слів запиту в знайдених документах.

    Інструменти IBM - Intelligent Miner for Text1

Продукт фірми IBM Intelligent Miner for Text є набір окремих утиліт, що запускаються з командного рядкаабо зі скриптів незалежно один від одного. Система містить об'єднання деяких утиліт для вирішення завдань аналізу текстової інформації.

IBM Intelligent Miner for Text поєднує потужну сукупність інструментів, що базуються в основному на механізмах пошуку інформації (information retrieval), що є специфікою всього продукту. Система складається з ряду базових компонентів, які мають самостійне значення поза межами технології Text Mining:

    Засоби SAS Institute - Text Miner

Американська компанія SAS Institute випустила систему SAS Text Miner для порівняння певних граматичних та словесних рядів у письмовій мові. Text Miner дуже універсальна, оскільки може працювати з текстовими документами різних форматів – у базах даних, файлових системах і далі у web.

Text Miner забезпечує логічну обробку тексту серед пакету SAS Enterprise Miner. Це дозволяє користувачам збагачувати процес аналізу даних, інтегруючи неструктуровану текстову інформацію з існуючими структурованими даними, такими як вік, дохід та характер купівельного попиту.

Основні тези

    Виявлення знань у тексті - це нетривіальний процес виявлення справді нових, потенційно корисних та зрозумілих шаблонів у неструктурованих текстових даних.

    Процес аналізу текстових документів можна як послідовність кількох кроків: пошук інформації, попереднє опрацювання документів, вилучення інформації, застосування методів Text Mining, інтерпретація результатів.

    Зазвичай використовують такі прийоми видалення неінформативних слів та підвищення суворості текстів: видалення стоп-слів, стемінг, Л-грами, приведення регістру.

    Завданнями аналізу текстової інформації є: класифікація, кластеризація, автоматичне анотування, отримання ключових понять, навігація по тексту, аналіз трендів, пошук асоціацій та ін.

    Вилучення ключових понять із текстів може розглядатися і як окреме прикладне завдання, і як окремий етап аналізу текстів. У разі вилучені з тексту факти застосовуються на вирішення різних завдань аналізу.

    Процес вилучення ключових понять за допомогою шаблонів виконується у дві стадії: на першій із текстових документів витягуються окремі факти за допомогою лексичного аналізу, на другій стадії виконується інтеграція вилучених фактів та/або виведення нових фактів.

    Більшість методів класифікації текстів так чи інакше ґрунтуються на припущенні, що документи, що належать до однієї категорії, містять однакові ознаки (слова чи словосполучення), та наявність чи відсутність таких ознак у документі свідчить про його належність чи неприналежність до тієї чи іншої теми.

    Більшість алгоритмів кластеризації вимагають, щоб дані були представлені у вигляді моделі векторного простору, яка широко застосовується для інформаційного пошуку та використовує метафору для відображення семантичної подоби як просторової близькості.

    Виділяють два основні підходи до автоматичного анотування текстових документів: вилучення (виділення найважливіших фрагментів) та узагальнення (використання попередньо зібраних знань).

Висновок

Інтелектуальний аналіз даних є одним із найбільш актуальних та затребуваних напрямків прикладної математики. Сучасні процеси бізнесу та виробництва породжують величезні масиви даних, і людям стає все важче інтерпретувати та реагувати на велику кількість даних, які динамічно змінюються у часі виконання, не кажучи вже про попередження критичних ситуацій. «Інтелектуальний аналіз даних» отримати максимум корисних знань з багатовимірних, різнорідних, неповних, неточних, суперечливих, непрямих даних. Допомагає зробити це ефективно, якщо обсяг даних вимірюється гігабайтами чи навіть терабайтами. Допомагає будувати алгоритми, здатні навчатися прийняття рішень у різних професійних галузях.

Кошти «Інтелектуального аналізу даних» оберігають людей від інформаційного навантаження, переробляючи оперативні дані на корисну інформацію те щоб потрібні дії було прийнято у потрібні часи.

Прикладні розробки ведуться за такими напрямами: - прогнозування в економічних системах; автоматизація маркетингових досліджень та аналіз клієнтських середовищ для виробничих, торгових, телекомунікаційних та Інтернет-компаній; автоматизація прийняття кредитних рішень та оцінка кредитних ризиків; моніторинг фінансових ринків; автоматичні торговельні системи.

Список літератури

    «Технологія аналізу даних: Data Mining. Visual Mining. Text Mining, OLAP» А. А. Барсегян. M. С. Купріянов, В. В. Стенаненко, І. І. Холод. - 2-ге вид., перераб. та дод.

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - стаття інтернету

    http://www.piter.com/contents/978549807257/978549807257_p.pdf -Технології аналізу даних

    Дипломна робота >> Банківська справа

    Позичальника з використанням кластерного, вербального аналізу, коригувальних коефіцієнтів і т.д., також... кредитоспроможності позичальника на основі інтелектуального аналізуданих Data Mining (з... На початковому етапі аналізупроводиться аналізвласних коштів та...

  1. Аналізта класифікація сучасного ринку інформаційних систем, що реалізують дискреційну,

    Реферат >> Інформатика

    1.3 Рольове розмежування 6 2. Порівняльний аналіз різних типівсистем 7 Операційні системи... системи, що включає: аналізполітик безпеки та їх характеристик, ... додатків або реалізують більше інтелектуальний аналізданих. До того ж...

  2. Інтелектуальніздібності обдарованих дітей у зв'язку зі шкільною успішністю

    Дипломна робота >> Психологія

    Взаємозв'язок успішності та особливостей інтелектуальногорозвитку. На підставі теоретичного аналізупроблеми дослідження була... до інтелекту без аналізуйого психологічної структури. Вирішальною для оцінки інтелектуальнихздібностей є...

Ми вітаємо вас на порталі Data Mining – унікальному порталі, присвяченому сучасним методам Data Mining.

Технології Data Mining є потужним апаратом сучасної бізнес-аналітики та дослідження даних для виявлення прихованих закономірностей та побудова передбачуваних моделей. Data Mining чи видобуток знань грунтується не так на умоглядних міркуваннях, але в реальних даних.

Мал. 1. Схема застосування Data Mining

Problem Definition – Постановка задачі: класифікація даних, сегментація, побудова передбачуваних моделей, прогнозування.
Data Gathering and Preparation – Збір та підготовка даних, чищення, верифікація, видалення повторних записів.
Model Building - Побудова моделі, оцінка точності.
Knowledge Deployment – ​​Застосування моделі для вирішення поставленого завдання.

Data Mining застосовується для реалізації масштабних аналітичних проектів у бізнесі, маркетингу, інтернеті, телекомунікаціях, промисловості, геології, медицині, фармацевтиці та інших галузях.

Data Mining дозволяє запустити процес знаходження значущих кореляцій та зв'язків в результаті просіювання величезного масиву даних з використанням сучасних методів розпізнавання образів та застосування унікальних аналітичних технологій, включаючи дерева прийняття рішень та класифікації, кластеризацію, нейронномережні методи та інші.

Користувач, який вперше відкрив собі технологію видобутку даних, уражається великою кількістю методів і ефективних алгоритмів, що дозволяють знайти підходи до вирішення важких завдань, пов'язаних з аналізом великих обсягів даних.

Загалом Data Mining можна охарактеризувати як технологію, призначену для пошуку у великих обсягах даних неочевидних, об'єктивнихі практично кориснихзакономірностей.

В основі Data Mining лежать ефективні методита алгоритми, розроблені для аналізу неструктурованих даних великого обсягу та розмірності.

Ключовий момент полягає в тому, що дані великого обсягу та великої розмірності видаються позбавленими структури та зв'язків. Мета технології видобутку даних – виявити ці структури та знайти закономірності там, де, на перший погляд, панує хаос та свавілля.

Ось актуальний приклад застосування видобутку даних у фармацевтиці та лікарській індустрії.

Взаємодія лікарських речовин - наростаюча проблема, з якою стикається сучасна охорона здоров'я.

Згодом кількість ліків (безрецептурних і всіляких добавок), що призначаються, зростає, що робить все більш і більш ймовірною взаємодію між ліками, яка може стати причиною серйозних побічних ефектів, про які не підозрюють лікарі та пацієнти.

Ця область належить до постклінічним дослідженням, коли ліки вже випущено ринку і інтенсивно використовується.

Клінічні дослідження відносяться до оцінки ефективності препарату, але слабо враховують взаємодію цих ліків з іншими препаратами, представленими на ринку.

Дослідники зі Стенфордського Університету в Каліфорнії вивчили базу даних FDA (Food and Drug Administration - Управління з контролю за харчовими продуктами та лікарськими препаратами) побічних ефектів ліків і виявили, що два часто використовуються препарати – антидепресант пароксетин та правастатин, що використовується для зниження рівня холестерину ризик розвитку діабету, якщо використовуються разом.

Дослідження щодо проведення подібного аналізу, заснованого на даних FDA виявило 47 раніше невідомих несприятливих взаємодій.

Це чудово, з тим застереженням, що багато негативних ефектів, зазначених пацієнтами, залишаються не виявленими. Саме в такому разі мережевий пошук здатний проявити себе найкращим чином.

Найближчі курси з Data Mining Академії Аналізу Даних StatSoft в 2020 р.

Ми починаємо знайомство з Data Mining, використовуючи чудові відеоролики Академії Аналізу Даних.

Обов'язково подивіться наші ролики і ви зрозумієте, що таке Data Mining!

Відео 1. Що таке Data Mining?


Відео 2. Огляд методів видобутку даних: дерева прийняття рішень, узагальнені передбачувальні моделі, кластеризація та багато іншого

У вашому браузері вимкнено JavaScript


Перш ніж запустити дослідницький проект, ми повинні організувати процес отримання даних з зовнішніх джерелЗараз ми покажемо, як це робиться.

Ролик познайомить вас з унікальною технологією STATISTICA In-place database processing та зв'язком Data Mining з реальними даними.

Відео 3. Порядок взаємодії з базами даних: графічний інтерфейс побудови SQL запитів технологія In-place database processing

У вашому браузері вимкнено JavaScript


Тепер ми ознайомимося з технологіями інтерактивного буріння, які є ефективними при проведенні розвідувального аналізу даних. Сам термін буріння відбиває зв'язок технології Data Mining з геологорозвідкою.

Відео 4. Інтерактивне буріння: Розвідувальні та графічні методи для інтерактивного дослідження даних

У вашому браузері вимкнено JavaScript


Тепер ми познайомимося з аналізом асоціацій (association rules), ці алгоритми дозволяють знаходити зв'язки, що є в реальних даних. Ключовим моментом є ефективність алгоритмів великих обсягах даних.

Результатом алгоритмів аналізу зв'язків, наприклад алгоритму Apriori знаходження правил зв'язків досліджуваних об'єктів із заданою достовірністю, наприклад, 80 %.

У геології ці алгоритми можна застосовувати при розвідувальному аналізі корисних копалин, наприклад, як ознака пов'язаний з ознаками В і С.

Ви можете знайти конкретні прикладитаких рішень за нашими посиланнями:

У роздрібній торгівлі алгоритму Apriori чи його модифікації дозволяють досліджувати зв'язок різних товарів, наприклад, під час продажу парфумерії (духи – лак – туш для вій тощо.) чи товарів різних брендів.

Аналіз найцікавіших розділів на сайті можна також ефективно проводити за допомогою правил асоціацій.

Отже, познайомтеся з наступним роликом.

Відео 5. Правила асоціацій

У вашому браузері вимкнено JavaScript

Наведемо приклади застосування Data Mining у конкретних галузях.

Інтернет-торгівля:

  • аналіз траєкторій покупців від відвідування сайту до покупки товарів
  • оцінка ефективності обслуговування, аналіз відмов у зв'язку з відсутністю товарів
  • зв'язок товарів, які цікаві відвідувачам

Роздрібна торгівля: аналіз інформації про покупців на основі кредитних карток, карток знижок тощо.

Типові завдання роздрібної торгівлі, що вирішуються засобами Data Mining:

  • аналіз купівельного кошика;
  • створення передбачуваних моделейта класифікаційних моделей покупців та товарів, що купуються;
  • створення профілів покупців;
  • CRM; оцінка лояльності покупців різних категорій; планування програм лояльності;
  • дослідження часових рядівта тимчасових залежностей, виділення сезонних факторів, оцінка ефективності рекламних акційна великому діапазоні реальних даних.

Телекомунікаційний сектор відкриває необмежені можливості застосування методів видобутку даних, а також сучасних технологій big data:

  • класифікація клієнтів на основі ключових характеристик дзвінків (частота, тривалість тощо), частоти смс;
  • виявлення лояльності клієнтів;
  • визначення шахрайства та ін.

Страхування:

  • аналіз ризику. Шляхом виявлення поєднань факторів, пов'язаних із сплаченими заявами, страховики можуть зменшити свої втрати за зобов'язаннями. Відомий випадок, коли страхова компанія виявила, що суми, виплачені за заявами одружених людей, удвічі перевищує суми за заявами одиноких людей. Компанія відреагувала на це переглядом політики знижок для сімейних клієнтів.
  • виявлення шахрайства. Страхові компанії можуть знизити рівень шахрайства, відшукуючи певні стереотипи у заявах про виплату страхового відшкодування, що характеризують взаємини між юристами, лікарями та заявниками.

Практичне застосування видобутку даних та вирішення конкретних завдань представлено на наступному відео.

Вебінар 1. Вебінар «Практичні завдання Data Mining: проблеми та рішення»

У вашому браузері вимкнено JavaScript

Вебінар 2. Вебінар "Data Mining та Text Mining: приклади вирішення реальних завдань"

У вашому браузері вимкнено JavaScript


Більш глибокі знання з методології та технології видобутку даних ви можете отримати на курсах StatSoft.

Що таке Data Mining

Орпоративна база даних будь-якого сучасного підприємства зазвичай містить набір таблиць, що зберігають записи про ті чи інші факти або об'єкти (наприклад, про товари, їх продаж, клієнтів, рахунки). Як правило, кожен запис у подібній таблиці описує якийсь конкретний об'єкт чи факт. Наприклад, запис у таблиці продажів відображає той факт, що такий товар проданий такому клієнтові тоді таким менеджером, і за великим рахунком нічого, крім цих відомостей, не містить. Однак сукупність великої кількості таких записів, накопичених за кілька років, може стати джерелом додаткової, набагато більш цінної інформації, яку не можна отримати на основі одного конкретного запису, а саме - відомостей про закономірності, тенденції чи взаємозалежності між будь-якими даними. Прикладами подібної інформації є відомості про те, як залежать продажі певного товару від дня тижня, часу доби або пори року, які категорії покупців найчастіше купують той чи інший товар, яка частина покупців одного конкретного товару купує інший конкретний товар, яка категорія клієнтів найчастіше вчасно не дає наданий кредит.

Подібна інформація зазвичай використовується при прогнозуванні, стратегічному плануванні, аналізі ризиків, і цінність її для підприємства дуже висока. Мабуть, тому процес її пошуку і отримав назву Data Mining (mining англійською означає «видобуток корисних копалин», а пошук закономірностей у величезному наборі фактичних даних справді схожі на це). Термін Data Mining означає не так конкретну технологію, як сам процес пошуку кореляцій, тенденцій, взаємозв'язків та закономірностей за допомогою різних математичних та статистичних алгоритмів: кластеризації, створення субвибірок, регресійного та кореляційного аналізу. Мета цього пошуку - представити дані у вигляді, що чітко відображає бізнес-процеси, а також побудувати модель, за допомогою якої можна прогнозувати процеси, критичні для планування бізнесу (наприклад, динаміку попиту на ті чи інші товари або послуги або залежність їх придбання від яких- то характеристик споживача).

Зазначимо, що традиційна математична статистика, яка тривалий час залишалася основним інструментом аналізу даних, так само як і засоби оперативної аналітичної обробки даних (Online Analytical Processing, OLAP), про які ми вже неодноразово писали (див. матеріали на цю тему на нашому компакт-диску) не завжди можуть успішно застосовуватися для вирішення таких завдань. Зазвичай статистичні методи та OLAP використовуються для перевірки заздалегідь сформульованих гіпотез. Однак нерідко саме формулювання гіпотези виявляється найскладнішим завданням при реалізації бізнес-аналізу для подальшого прийняття рішень, оскільки далеко не всі закономірності даних очевидні з першого погляду.

В основу сучасної технології Data Mining покладено концепцію шаблонів, що відбивають закономірності, властиві підвиборки даних. Пошук шаблонів здійснюється методами, які не використовують жодних апріорних припущень про ці підвиборки. Якщо при статистичному аналізі або при застосуванні OLAP зазвичай формулюються питання типу «Яке середня кількість неоплачених рахунків замовниками даної послуги?», то застосування Data Mining, як правило, передбачає відповіді на запитання типу «Чи існує типова категорія клієнтів, які не оплачують рахунки?». . При цьому саме відповідь на друге питання нерідко забезпечує більш нетривіальний підхід до маркетингової політики та організації роботи з клієнтами.

Важливою особливістю Data Mining є нестандартність і неочевидність шаблонів, що розшукуються. Іншими словами, засоби Data Mining відрізняються від інструментів статистичної обробки даних та засобів OLAP тим, що замість перевірки заздалегідь передбачуваних користувачами взаємозалежностей вони на підставі наявних даних здатні знаходити такі взаємозалежності самостійно та будувати гіпотези про їх характер.

Слід зазначити, що застосування коштів Data Mining не виключає використання статистичних інструментів та OLAP-засобів, оскільки результати обробки даних за допомогою останніх зазвичай сприяють кращому розумінню характеру закономірностей, які слід шукати.

Вихідні дані для Data Mining

Застосування Data Mining виправдане за наявності досить великої кількості даних, в ідеалі - що містяться в коректно спроектованому сховищі даних (власне, самі сховища даних зазвичай створюються для вирішення завдань аналізу та прогнозування, пов'язаних із підтримкою прийняття рішень). Про принципи побудови сховищ даних ми також писали неодноразово; відповідні матеріали можна знайти на нашому компакт-диску, тому на цьому питанні ми зупинятись не будемо. Нагадаємо лише, що дані в сховищі є набір, що поповнюється, єдиний для всього підприємства і що дозволяє відновити картину його діяльності на будь-який момент часу. Зазначимо, що структура даних сховища проектується таким чином, щоб виконання запитів до нього здійснювалося максимально ефективно. Втім, існують засоби Data Mining, здатні виконувати пошук закономірностей, кореляцій та тенденцій не тільки у сховищах даних, а й у OLAP-кубах, тобто у наборах попередньо оброблених статистичних даних.

Типи закономірностей, що виявляються методами Data Mining

згідно В.А.Дюку, виділяють п'ять стандартних типів закономірностей, що виявляються методами Data Mining:

Асоціація - висока ймовірність зв'язку подій одна з одною (наприклад, один товар часто купується разом з іншим);

Послідовність - висока ймовірність ланцюжка пов'язаних у часі подій (наприклад, протягом певного терміну після придбання одного товару буде з високим ступенем ймовірності придбано інший);

Класифікація - є ознаки, що характеризують групу, до якої належить те чи інше подія чи об'єкт (зазвичай у своїй виходячи з аналізу вже класифікованих подій формулюються деякі правила);

Кластеризація - закономірність, подібна до класифікації і відрізняється від неї тим, що самі групи при цьому не задані - вони виявляються автоматично в процесі обробки даних;

Тимчасові закономірності - наявність шаблонів у поступовій динаміці поведінки тих чи інших даних (типовий приклад - сезонні коливання попиту ті чи інші товари чи послуги), що використовуються прогнозування.

Методи дослідження даних у Data Mining

Сьогодні існує досить велика кількість різноманітних методів дослідження даних. Ґрунтуючись на вищевказаній класифікації, запропонованій В.А.Дюком, серед них можна виділити:

Регресійний, дисперсійний та кореляційний аналіз (реалізований у більшості сучасних статистичних пакетів, зокрема у продуктах компаній SAS Institute, StatSoft та ін.);

Методи аналізу в конкретній предметній галузі, що базуються на емпіричних моделях (часто застосовуються, наприклад, у недорогих засобах фінансового аналізу);

Нейромережні алгоритми, ідея яких заснована на аналогії з функціонуванням нервової тканини і полягає в тому, що вихідні параметри розглядаються як сигнали, що перетворюються відповідно до наявних зв'язків між «нейронами», а як відповідь, що є результатом аналізу, розглядається відгук всієї мережі на вихідні дані. Зв'язки у разі створюються з допомогою так званого навчання мережі у вигляді вибірки великого обсягу, що містить як вихідні дані, і правильні відповіді;

Алгоритми - вибір близького аналога вихідних даних із існуючих історичних даних. Називаються також методом "найближчого сусіда";

Дерева рішень - ієрархічна структура, що базується на наборі питань, що мають на увазі відповідь «Так» чи «Ні»; незважаючи на те що даний спосібобробки даних які завжди ідеально знаходить існуючі закономірності, він часто використовується у системах прогнозування з наочності одержуваного відповіді;

Кластерні моделі (іноді також звані моделями сегментації) застосовуються для об'єднання подібних подій групи на підставі подібних значень кількох полів у наборі даних; також дуже популярні під час створення систем прогнозування;

Алгоритми обмеженого перебору, що обчислюють частоти комбінацій найпростіших логічних подій у підгрупах даних;

Еволюційне програмування - пошук та генерація алгоритму, що виражає взаємозалежність даних, на підставі спочатку заданого алгоритму, що модифікується в процесі пошуку; іноді пошук взаємозалежностей здійснюється серед певних видів функцій (наприклад, поліномів).

Докладніше про ці та інші алгоритми Data Mining, а також про засоби, що їх реалізують, можна прочитати в книзі «Data Mining: навчальний курс» В.А.Дюка та А.П.Самойленко, випущеної видавництвом «Пітер» у 2001 році. Сьогодні це одна з небагатьох книг російською мовою, присвячена цій проблемі.

Провідні виробники засобів Data Mining

Засоби Data Mining, як і більшість засобів Business Intelligence, традиційно ставляться до дорогих програмних інструментів - ціна деяких з них сягає кількох десятків тисяч доларів. Тому донедавна основними споживачами цієї технології були банки, фінансові та страхові компанії, великі торгові підприємства, а основними завданнями, що потребують застосування Data Mining, вважалися оцінка кредитних та страхових ризиків та вироблення маркетингової політики, тарифних планівта інших принципів роботи з клієнтами. В останні роки ситуація зазнала певних змін: на ринку програмного забезпечення з'явилися відносно недорогі інструменти Data Mining від декількох виробників, що зробило доступною цю технологію для підприємств малого та середнього бізнесу, які раніше про неї і не думали.

До сучасним засобам Business Intelligence відносяться генератори звітів, засоби аналітичної обробки даних, засоби розробки BI-рішень (BI Platforms) і так звані Enterprise BI Suites - засоби аналізу та обробки даних масштабу підприємства, які дозволяють здійснювати комплекс дій, пов'язаних з аналізом даних та створенням звітів, та нерідко включають інтегрований набір BI-інструментів та засоби розробки BI-додатків. Останні зазвичай містять у своєму складі і засоби побудови звітів, і OLAP-кошти, а нерідко - і Data Mining-кошти.

За даними аналітиків Gartner Group, лідерами на ринку засобів аналізу та обробки даних масштабу підприємства є компанії Business Objects, Cognos, Information Builders, а претендують на лідерство також Microsoft та Oracle (рис. 1). Що стосується засобів розробки BI-рішень, то основними претендентами на лідерство у цій галузі є компанії Microsoft та SAS Institute (рис. 2).

Зазначимо, що кошти Business Intelligence компанії Microsoft відносяться до порівняно недорогих продуктів, доступних широкому колу компаній. Саме тому ми збираємося розглянути деякі практичні аспекти застосування Data Mining на прикладі продуктів цієї компанії в наступних частинах цієї статті.

Література:

1. Дюк В.А. Data Mining – інтелектуальний аналіз даних. - http://www.olap.ru/basic/dm2.asp.

2. Дюк В.А., Самойленко О.П. Data Mining: навчальний курс. - СПб.: Пітер, 2001.

3. B. de Vіlle. Microsoft Data Mining. Digital Press, 2001.

OLAP-системи надають аналітику засоби перевірки гіпотез при аналізі даних, тобто основним завданням аналітика є генерація гіпотез, яку він вирішує її, ґрунтуючись на своїх знаннях та досвіді. . Такі знання містяться у величезному обсязі інформації, яку людина не в змозі досліджувати самостійно. У зв'язку з цим існує можливість пропустити гіпотези, які можуть принести значну вигоду.

Для виявлення «прихованих» знань застосовуються спеціальні методи автоматичного аналізу, з яких доводиться практично здобувати знання з «завалів» інформації. За цим напрямом закріпився термін "видобуток даних (DataMining)" або "інтелектуальний аналіз даних".

Існує безліч визначень DataMining, які доповнюють один одного. Ось деякі з них.

DataMining – це процес виявлення у базах даних нетривіальних та практично корисних закономірностей. (BaseGroup)

DataMining – це процес виділення, дослідження та моделювання великих обсягів даних для виявлення невідомих до цього структур (patters) з метою досягнення переваг у бізнесі (SAS Institute)

DataMining - це процес, мета якого - виявити нові значущі кореляції, зразки тенденції в результаті просіювання великого обсягу даних, що зберігаються з використанням методик розпізнавання зразків плюс застосування статистичних і математичних методів (GartnerGroup)

DataMining – це дослідження та виявлення «машиною» (алгоритмами, засобами штучного інтелекту) у сирих даних прихованих знань, якийЦі раніше не були відомі, нетривіальні, практично корисні, доступні для інтерпретуції людиною. (А. Баргесян «Технології аналізу даних»)

DataMining - це процес виявлення корисних знань про бізнес. (Н.М.Абдікеєв «КБА»)

Властивості знань, що виявляються

Розглянемо властивості знань, що виявляються.

  • Знання мають бути нові, раніше невідомі. Витрачені зусилля відкриття знань, які вже відомі користувачеві, не окупаються. Тому цінність становлять саме нові, раніше невідомі знання.
  • Знання мають бути нетривіальними. Результати аналізу мають відображати неочевидні, несподіванізакономірності в даних, що становлять так звані приховані знання. Результати, які можуть бути отримані більше простими способами(наприклад, візуальним переглядом) не виправдовують залучення потужних методів DataMining.
  • Знання мають бути практично корисними. Знайдені знання повинні бути застосовні, в тому числі і на нових даних, з досить високим рівнем достовірності. Корисність полягає в тому, щоб ці знання могли принести певний зиск при їх застосуванні.
  • Знання мають бути доступними для розуміння людині. Знайдені закономірності мають бути логічно зрозумілі, інакше існує ймовірність, що вони є випадковими. Крім того, виявлені знання повинні бути представлені у зрозумілому для людини вигляді.

У DataMining представлення отриманих знань служать моделі. Види моделей залежить від методів їх створення. Найбільш поширеними є: правила, дерева рішень, кластери та математичні функції.

Завдання DataMining

Нагадаємо, що в основу технології DataMining покладено концепцію шаблонів, що є закономірністю. В результаті виявлення цих прихованих від неозброєного ока закономірностей вирішуються завдання DataMining. Різним типам закономірностей, які можуть бути виражені у формі, зрозумілій людині, відповідають певні задачі DataMining.

Єдиної думки щодо того, які завдання слід відносити до DataMining, немає. Більшість авторитетних джерел перераховують такі: класифікація,

кластеризація, прогнозування, асоціація, візуалізація, аналіз та виявлення

відхилень, оцінювання, аналіз зв'язків, підбиття підсумків.

Мета опису, що слідує нижче, - дати загальне уявлення про завдання DataMining, порівняти деякі з них, а також представити деякі методи, за допомогою яких ці завдання вирішуються. Найбільш поширені завдання DataMining - класифікація, кластеризація, асоціація, прогнозування та візуалізація. Таким чином, завдання поділяються за типами інформації, що виробляється, це найбільш загальна класифікація завдань DataMining.

Класифікація (Classification)

Завдання розбиття безлічі об'єктів або спостережень на апріорно задані групи, Звані класами, всередині кожної з яких вони передбачаються схожими один на одного, мають приблизно однакові властивості та ознаки. При цьому рішення виходить на основіаналізу значень атрибутів (ознак).

Класифікація є одним із найважливіших завдань DataMining . Вона застосовується вмаркетингу при оцінці кредитоспроможності позичальників, визначеннілояльності клієнтів, розпізнавання образів , медичної діагностики та багатьох інших додатках. Якщо аналітику відомі властивості об'єктів кожного класу, коли нове спостереження належить до певного класу, дані властивості автоматично поширюються і нього.

Якщо число класів обмежено двома, має місцебінарна класифікація , До якої можуть бути зведені багато складніших завдань. Наприклад, замість визначення таких ступенів кредитного ризику, як «Високий», «Середній» або «Низький», можна використовувати лише два – «Видати» або «Відмовити».

Для класифікації в DataMining використовується безліч різних моделей:нейронні мережі, дерева рішень , машини опорних векторів, метод k-найближчих сусідів, алгоритми покриття та ін., при побудові яких застосовується навчання з учителем, коливихідна змінна(мітка класу ) Задано для кожного спостереження. Формально класифікація проводиться на основі розбиттяпростору ознак на області, в межах кожної з якихбагатовимірні вектори розглядаються як ідентичні. Іншими словами, якщо об'єкт потрапив у область простору, асоційовану з певним класом, він до нього відноситься.

Кластеризація (Clustering)

Короткий опис. Кластеризація є логічним продовженням ідеї

класифікації. Це завдання складніше, особливість кластеризації у тому, що класи об'єктів спочатку не зумовлені. Результатом кластеризації є розбиття об'єктів на групи.

Приклад методу вирішення завдання кластеризації: навчання "без вчителя" особливого виду нейронних мереж - карт Кохонена, що самоорганізуються.

Асоціація (Associations)

Короткий опис. У результаті рішення завдання пошуку асоціативних правил відшукуються закономірності між пов'язаними подіями в наборі даних.

Відмінність асоціації від двох попередніх завдань DataMining: пошук закономірностей здійснюється не на основі властивостей об'єкта, що аналізується, а між кількома подіями, які відбуваються одночасно. Найбільш відомий алгоритм розв'язання задачі пошуку асоціативних правил – алгоритм Apriori.

Послідовність (Sequence) або послідовна асоціація (sequentialassociation)

Короткий опис. Послідовність дозволяє визначити тимчасові закономірності між транзакціями. Завдання послідовності подібне до асоціації, але її метою є встановлення закономірностей не між подіями, що одночасно наступають, а між подіями, пов'язаними в часі (тобто, що відбуваються з деяким певним інтервалом у часі). Іншими словами, послідовність визначається високою ймовірністю ланцюжка пов'язаних у часі подій. Фактично, асоціація є окремим випадком послідовності з тимчасовим лагом, рівним нулю. Це завдання DataMining називають завданням знаходження послідовних шаблонів (sequentialpattern).

Правило послідовності: після події X за певний час відбудеться подія Y.

приклад. Після купівлі квартири мешканці у 60% випадків протягом двох тижнів купують холодильник, а протягом двох місяців у 50% випадків купується телевізор. Вирішення цієї задачі широко застосовується в маркетингу та менеджменті, наприклад, при керуванні циклом роботи з клієнтом (CustomerLifecycleManagement).

Регресія, прогнозування (Forecasting)

Короткий опис. В результаті вирішення завдання прогнозування на основі особливостей історичних даних оцінюються пропущені або майбутні значення цільових чисельних показників.

Для вирішення таких завдань широко застосовуються методи математичної статистики, нейронні мережі та ін.

Додаткові завдання

Визначення відхилень або викидів (DeviationDetection), аналіз відхилень чи викидів

Короткий опис. Мета розв'язання цієї задачі - виявлення та аналіз даних, що найбільш відрізняються від загальної множини даних, виявлення так званих нехарактерних шаблонів.

Оцінювання (Estimation)

Завдання оцінювання зводиться до передбачення безперервних значень ознаки.

Аналіз зв'язків (LinkAnalysis)

Завдання знаходження залежностей у наборі даних.

Візуалізація (Visualization, GraphMining)

Внаслідок візуалізації створюється графічний образ аналізованих даних. Для вирішення задачі візуалізації використовуються графічні методи, що показують наявність закономірностей даних.

Приклад методів візуалізації - представлення даних у 2-D та 3-D вимірах.

Підбиття підсумків (Summarization)

Завдання, мета якого - опис конкретних груп об'єктів із аналізованого набору даних.

Досить близьким до вищезгаданої класифікації є підрозділ завдань DataMining на такі: дослідження та відкриття, прогнозування та класифікації, пояснення та описи.

Автоматичне дослідження та відкриття (вільний пошук)

Приклад завдання: виявлення нових сегментів ринку.

Для вирішення цього класу завдань використовуються методи кластерного аналізу.

Прогнозування та класифікація

Приклад завдання: передбачення зростання обсягів продажу з урахуванням поточних значень.

Методи: регресія, нейронні мережі, генетичні алгоритми, дерева розв'язків.

Завдання класифікації та прогнозування становлять групу так званого індуктивного моделювання, в результаті якого забезпечується вивчення об'єкта або системи, що аналізується. У процесі вирішення цих завдань з урахуванням набору даних розробляється загальна модель чи гіпотеза.

Пояснення та опис

Приклад завдання: характеристика клієнтів за демографічними даними та історіями покупок.

Методи: дерева рішення, системи правил, правила асоціації, аналіз зв'язків.

Якщо дохід клієнта більше, ніж 50 умовних одиниць, та його вік – понад 30 років, тоді клас клієнта – перший.

Порівняння кластеризації та класифікації

Характеристика

Класифікація

Кластеризація

Контрольованість навчання

Контрольоване

Неконтрольоване

Стратегії

Навчання з учителем

Навчання без вчителя

Наявність мітки класу

Навчальна множина

супроводжується міткою, що вказує

клас, до якого належить

спостереження

Мітки класу навчального

безлічі невідомі

Підстава для класифікації

Нові дані класифікуються на підставі навчальної множини

Дано безліч даних з метою

встановлення існування

класів або кластерів даних

Сфери застосування DataMining

Слід зазначити, що на сьогоднішній день найбільшого поширення технологія DataMining набула при вирішенні бізнес-завдань. Можливо, причина в тому, що саме в цьому напрямку віддача від використання інструментів DataMining може становити за деякими джерелами до 1000% і витрати на її впровадження можуть досить швидко окупитися.

Ми будемо розглядати чотири основні сфери застосування технології DataMining докладно: наука, бізнес, дослідження для уряду та Web-напрямок.

бізнес-завдань. Основні напрями: банківська справа, фінанси, страхування, CRM, виробництво, телекомунікації, електронна комерція, маркетинг, фондовий ринок та інші.

    Чи видавати кредит клієнту

    Сегментація ринку

    Залучення нових клієнтів

    Шахрайство з кредитними картками

Застосування DataMining для вирішення завдань державного рівня. Основні напрямки: пошук осіб, які ухиляються від податків; засоби у боротьбі з тероризмом.

Застосування DataMining для наукових досліджень. Основні напрямки: медицина, біологія, молекулярна генетика та генна інженерія, біоінформатика, астрономія, прикладна хімія, дослідження щодо наркотичної залежності та інші.

Застосування DataMining для вирішення Web-завдань. Основні напрямки: пошукові машини (searchengines), лічильники та інші.

Електронна комерція

У сфері електронної комерції DataMining застосовується для формування

Така класифікація дозволяє компаніям виявляти певні групи клієнтів та проводити маркетингову політику відповідно до виявлених інтересів та потреб клієнтів. Технологія DataMining для електронної комерції тісно пов'язана з WebMining.

Основні завдання DataMining у промисловому виробництві:

· Комплексний системний аналіз виробничих ситуацій;

· короткостроковий та довгостроковий прогноз розвитку виробничих ситуацій;

· Вироблення варіантів оптимізаційних рішень;

· прогнозування якості виробу залежно від деяких параметрів

технологічного процесу;

· Виявлення прихованих тенденцій та закономірностей розвитку виробничих

процесів;

· Прогнозування закономірностей розвитку виробничих процесів;

· Виявлення прихованих факторів впливу;

· Виявлення та ідентифікація раніше невідомих взаємозв'язків між

виробничими параметрами та факторами впливу;

· Аналіз середовища взаємодії виробничих процесів та прогнозування

зміни її характеристик;

процесами;

· Візуалізацію результатів аналізу, підготовку попередніх звітів та проектів

допустимих рішень з оцінками достовірності та ефективності можливих реалізацій.

Маркетинг

У сфері маркетингу DataMining знаходить широке застосування.

Основні питання маркетингу "Що продається?", "Як продається?", "Хто є

споживачем?

У лекції, присвяченій завданням класифікації та кластеризації, докладно описано використання кластерного аналізу для вирішення завдань маркетингу, як, наприклад, сегментація споживачів.

Інший поширений набір методів для вирішення завдань маркетингу – методи та алгоритми пошуку асоціативних правил.

Також успішно тут використовують пошук тимчасових закономірностей.

Роздрібна торгівля

У сфері роздрібної торгівлі, як і в маркетингу, застосовуються:

· алгоритми пошуку асоціативних правил (для визначення найпоширеніших наборів

товарів, які покупці купують одночасно). Виявлення таких правил допомагає

розміщувати товари на прилавках торгових залів, виробляти стратегії закупівлі товарів

та їх розміщення на складах тощо.

· Використання тимчасових послідовностей, наприклад, для визначення

необхідні обсяги запасів товарів на складі.

· методи класифікації та кластеризації для визначення груп або категорій клієнтів,

знання яких сприяє успішному просуванню товарів.

Фондовий ринок

Ось список завдань фондового ринку, які можна вирішувати за допомогою технології Data

Mining: · прогнозування майбутніх значень фінансових інструментів та індикаторів

минулим значенням;

· прогноз тренду (майбутнього напрямку руху - зростання, падіння, флет) фінансового

інструменту та його сили (сильний, помірно сильний і т.д.);

· Виділення кластерної структури ринку, галузі, сектора по деякому набору

характеристик;

· динамічне управління портфелем;

· Прогноз волатильності;

· оцінка ризиків;

· передбачення настання кризи та прогноз її розвитку;

· Вибір активів та ін.

Крім описаних вище сфер діяльності, технологія DataMining може застосовуватися в найрізноманітніших сферах бізнесу, де є необхідність в аналізі даних та накопичений певний обсяг ретроспективної інформації.

Застосування DataMining у CRM

Один з найперспективніших напрямків застосування DataMining – використання цієї технології в аналітичному CRM.

CRM (CustomerRelationshipManagement) – управління відносинами з клієнтами.

При спільному використанні цих технологій видобуток знань поєднується із "видобуванням грошей" із даних про клієнтів.

Важливим аспектом у роботі відділів маркетингу та відділу продажів є складанняцілісного уявлення про клієнтів, інформація про їх особливості, характеристики, структуру клієнтської бази. У CRM використовується так зване профільуванняклієнтів, що дає повне уявлення всієї необхідної інформації про клієнтів.

Профільування клієнтів включає такі компоненти: сегментація клієнтів, прибутковість клієнтів, утримання клієнтів, аналіз реакції клієнтів. Кожен з цих компонентів може досліджуватися за допомогою DataMining, а аналіз їх у сукупності, як компонентів профілювання, може дати ті знання, які з кожної окремої характеристики отримати неможливо.

WebMining

WebMining можна перекласти як "видобуток даних у Web". WebIntelligence або Web.

Інтелект готовий "відкрити новий розділ" у стрімкому розвитку електронного бізнесу. Здатність визначати інтереси та переваги кожного відвідувача, спостерігаючи за його поведінкою, є серйозною та критичною перевагою конкурентної боротьби на ринку електронної комерції.

Системи WebMining можуть відповісти на багато питань, наприклад, хто з відвідувачів є потенційним клієнтом Web-магазину, яка група клієнтів Web-магазину приносить найбільший дохід, які інтереси певного відвідувача чи групи відвідувачів.

Методи

Класифікація методів

Розрізняють дві групи методів:

  • статистичні методи, засновані на використанні усередненого накопиченого досвіду, який відображений у ретроспективних даних;
  • кібернетичні методи, що включають безліч різноманітних математичних підходів.

Недолік такої класифікації: і статистичні, і кібернетичні алгоритми тим чи іншим чином спираються зіставлення статистичного досвіду з результатами моніторингу поточної ситуації.

Перевагою такої класифікації є зручність для інтерпретації - вона використовується при описі математичних засобів сучасного підходу до отримання знань з масивів вихідних спостережень (оперативних і ретроспективних), тобто. у завданнях Data Mining.

Розглянемо докладніше подані вище групи.

Статистичні методи Data mining

В ці методи являють собою чотири взаємопов'язані розділи:

  • попередній аналіз природи статистичних даних (перевірка гіпотез стаціонарності, нормальності, незалежності, однорідності, оцінка виду функції розподілу, її параметрів тощо);
  • виявлення зв'язків та закономірностей(лінійний та нелінійний регресійний аналіз, кореляційний аналіз та ін.);
  • багатовимірний статистичний аналіз (лінійний та нелінійний дискримінантний аналіз, кластерний аналіз, компонентний аналіз, факторний аналіз та ін.);
  • динамічні моделі та прогноз на основі часових рядів.

Арсенал статистичних методів Data Mining класифікований на чотири групи методів:

  1. Дескриптивний аналіз та опис вихідних даних.
  2. Аналіз зв'язків (кореляційний та регресійний аналіз, факторний аналіз, дисперсійний аналіз).
  3. Багатомірний статистичний аналіз (компонентний аналіз, дискримінантний аналіз, багатовимірний регресійний аналіз, канонічні кореляції та ін.).
  4. Аналіз часових рядів (динамічні моделі та прогнозування).

Кібернетичні методи Data Mining

Другий напрямок Data Mining - це безліч підходів, об'єднаних ідеєю комп'ютерної математики та використання теорії штучного інтелекту.

До цієї групи належать такі методи:

  • штучні нейронні мережі (розпізнавання, кластеризація, прогноз);
  • еволюційне програмування (у т.ч. алгоритми методу групового обліку аргументів);
  • генетичні алгоритми (оптимізація);
  • асоціативна пам'ять (пошук аналогів, прототипів);
  • нечітка логіка;
  • дерева рішень;
  • системи опрацювання експертних знань.

Кластерний аналіз

Мета кластеризації – пошук існуючих структур.

Кластеризація є описовою процедурою, вона робить ніяких статистичних висновків, але дає можливість провести розвідувальний аналіз і вивчити " структуру даних " .

Саме поняття “кластер” визначено неоднозначно: у кожному дослідженні свої “кластери”. Перекладається поняття кластер (cluster) як "скупчення", "гроно". Кластер можна охарактеризувати як групу об'єктів, які мають спільні властивості.

Характеристиками кластера можна назвати дві ознаки:

  • внутрішня однорідність;
  • зовнішня ізольованість.

Питання, поставлене аналітиками під час вирішення багатьох завдань, у тому, як організувати дані в наочні структури, тобто. розгорнути таксономії.

Найбільше застосування кластеризація спочатку отримала у науках як біологія, антропологія, психологія. Для вирішення економічних завдань кластеризація тривалий час мало використовувалася через специфіку економічних даних та явищ.

Кластери можуть бути непересічними, або ексклюзивними (non-overlapping, exclusive), і такими, що перетинаються (overlapping).

Слід зазначити, що в результаті застосування різних методів кластерного аналізу можна отримати кластери різної форми. Наприклад, можливі кластери "ланцюгового" типу, коли кластери представлені довгими "ланцюжками", кластери подовженої форми і т.д., а деякі методи можуть створювати кластери довільної форми.

Різні методи можуть прагнути створювати кластери певних розмірів (наприклад, малих чи великих) або припускати в наборі даних наявність кластерів різного розміру. Деякі методи кластерного аналізу особливо чутливі до шумів чи викидів, інші – менш. В результаті застосування різних методів кластеризації можуть бути отримані різні результати, це нормально і є особливістю роботи того чи іншого алгоритму. Дані особливості слід враховувати під час виборів методу кластеризації.

Наведемо коротку характеристику підходів до кластеризації.

Алгоритми, засновані на розподілі даних (Partitioningalgorithms), в т.ч. ітеративні:

  • розподіл об'єктів на k кластерів;
  • ітеративний перерозподіл об'єктів поліпшення кластеризації.
  • Ієрархічні алгоритми (Hierarchyalgorithms):
  • агломерація: кожен об'єкт спочатку є кластером, кластери,
  • з'єднуючись один з одним, формують більший кластер і т.д.

Методи, засновані на концентрації об'єктів (Density-basedmethods):

  • ґрунтуються на можливості з'єднання об'єктів;
  • ігнорують шуми, знаходження кластерів довільної форми.

Грід - методи (Grid-based methods):

  • квантування об'єктів у грід-структури.

Модельні методи (Model-based):

  • використання моделі для знаходження кластерів, що найбільш відповідають даним.

Методи кластерного аналізу. Ітеративні методи.

При велику кількість спостережень ієрархічні методи кластерного аналізу не придатні. У таких випадках використовують неієрархічні методи, засновані на поділі, які є ітеративними методами дроблення вихідної сукупності. У процесі розподілу нові кластери формуються до того часу, доки буде виконано правило зупинки.

Така неієрархічна кластеризація полягає у поділі набору даних на певну кількість окремих кластерів. Існує два підходи. Перший полягає у визначенні меж кластерів як найбільш щільних ділянок у багатовимірному просторі вихідних даних, тобто. визначення кластера там, де є велике "згущення точок". Другий підхід полягає у мінімізації міри відмінності об'єктів

Алгоритм k-середніх (k-means)

Найбільш поширений серед неієрархічних методів алгоритм k-середніх, також званий швидким кластерним аналізом. Повне опис алгоритму можна знайти у роботі Хартігана і Вонга (HartiganandWong, 1978). На відміну від ієрархічних методів, які не вимагають попередніх припущень щодо числа кластерів, для можливості використання цього методу необхідно мати гіпотезу про найбільш ймовірну кількість кластерів.

Алгоритм k-середніх будує кластерів, розташованих на можливо великих відстанях один від одного. Основний тип завдань, які вирішує алгоритм k-середніх, - наявність припущень (гіпотез) щодо числа кластерів, при цьому вони мають бути різними настільки, наскільки це можливо. Вибір числа k може базуватися на результатах попередніх досліджень, теоретичних міркувань чи інтуїції.

Загальна ідея алгоритму: задане фіксоване число k кластерів спостереження зіставляються кластерам отже середні у кластері (для всіх змінних) максимально можливо відрізняються друг від друга.

Опис алгоритму

1. Початковий розподіл об'єктів за кластерами.

  • Вибирається число k, і першому кроці ці точки вважаються " центрами " кластерів.
  • Кожному кластеру відповідає один центр.

Вибір початкових центроїдів може здійснюватися так:

  • вибір k-спостережень для максимізації початкової відстані;
  • випадковий вибір k-спостережень;
  • вибір перших k-спостережень.

Через війну кожен об'єкт призначено певному кластеру.

2. Ітеративний процес.

Обчислюються центри кластерів, якими потім і надалі вважаються покоординатні середні кластери. Об'єкти знову перерозподіляються.

Процес обчислення центрів та перерозподілу об'єктів триває доти, доки не виконано одну з умов:

  • кластерні центри стабілізувалися, тобто. всі спостереження належать кластеру, якому належали до поточної ітерації;
  • число ітерацій дорівнює максимальному числу ітерацій.

На малюнку наведено приклад роботи алгоритму k-середніх для k, що дорівнює двом.

Приклад роботи алгоритму k-середніх (k=2)

Вибір числа кластерів складне питання. Якщо немає припущень щодо цього числа, рекомендують створити два кластери, потім 3, 4, 5 і т.д., порівнюючи отримані результати.

Перевірка якості кластеризації

Після одержання результатів кластерного аналізу методом k-середніх слід перевірити правильність кластеризації (тобто оцінити, наскільки кластери відрізняються один від одного).

І тому розраховуються середні значення кожному кластеру. При хорошій кластеризації повинні бути отримані сильно відрізняються середні для всіх вимірювань або хоча б більшої частини.

Переваги алгоритму k-середніх:

  • простота використання;
  • швидкість використання;
  • зрозумілість та прозорість алгоритму.

Недоліки алгоритму k-середніх:

  • алгоритм занадто чутливий до викидів, які можуть спотворювати середнє.

Можливим рішеннямцією проблемою є використання модифікації алгоритму -алгоритм k-медіани;

  • алгоритм може повільно працювати великих базах даних. Можливим вирішенням цієї проблеми є використання вибірки даних.

Байєсівські мережі

Теоретично ймовірності поняття інформаційної залежності моделюється у вигляді умовної залежності (чи суворо: відсутністю умовної незалежності), яка описує, як наша впевненість у результаті певної події змінюється при отриманні нового знання фактах, за умови, що ми вже відомий деякий набір інших фактів.

Зручно та інтуїтивно зрозуміло представляти залежності між елементами у вигляді спрямованого шляху, що з'єднує ці елементи у графі. Якщо залежність між елементами x та y не є безпосередньою і здійснюється за допомогою третього елемента z, то логічно очікувати, що на шляху між x та y перебуватиме елемент z. Такі вузли-посередники «відсікатимуть» залежність між x та y, тобто. моделювати ситуацію умовної незалежності між ними за відомого значення безпосередніх факторів впливу.Такими мовами моделювання є байєсовські мережі, які служать опису умовних залежностей між поняттями певної предметної області.

Байєсівські мережі - це графічні структуридля подання ймовірнісних відносин між великою кількістю змінних та для здійснення ймовірнісного виведення на основі цих змінних."Наївна" (байєсовська) класифікація - досить прозорий і зрозумілий метод класифікації. "Наївна" вона називається тому, що виходить із припущення про взаємнунезалежності ознак.

Властивості класифікації:

1. Використання всіх змінних та визначення всіх залежностей між ними.

2. Наявність двох припущень щодо змінних:

  • всі змінні є однаково важливими;
  • Усі змінні є статистично незалежними, тобто. значення однієї змінної нічого не говорить про значення іншої.

Розрізняють два основні сценарії застосування байєсівських мереж:

1. Описовий аналіз. Предметна область відображається у вигляді графа, вузли якого репрезентують поняття, а спрямовані дуги, що відображаються стрілками, ілюструють безпосередні залежності між цими поняттями. Зв'язок між поняттями x та y означає: знання значення x допомагає зробити більш обґрунтоване припущення про значення y. Відсутність безпосереднього зв'язку між поняттями моделює умовну незалежність між ними при відомих значеннях деякого набору понять, що «розділяють». Наприклад, розмір взуття дитини, очевидно, пов'язані з умінням дитини читати віком. Так, більший розмір взуття дає більшу впевненість, що дитина вже читає, але якщо нам уже відомий вік, то знання розміру взуття вже не дасть нам додаткової інформаціїпро здатність дитини до читання.


Як інший, протилежний приклад розглянемо такі спочатку незв'язані фактори як куріння і застуда. Але якщо нам відомий симптом, наприклад, що людина страждає вранці кашлем, то знання того, що людина не курить, підвищує нашу впевненість того, що людина застуджена.

2. Класифікація та прогнозування. Байєсовська мережа, допускаючи умовну незалежність низки понять, дозволяє зменшити кількість параметрів спільного розподілу, уможливлюючи їхню довірчу оцінку на наявних обсягах даних. Так, при 10 змінних, кожна з яких може набувати 10 значень, кількість параметрів спільного розподілу – 10 мільярдів - 1. Якщо припустити, що між цими змінними один від одного залежать лише 2 змінні, то число параметрів стає 8*(10-1) + (10*10-1) = 171. Маючи реалістичну за обчислювальними ресурсами модель спільного розподілу, невідоме значення будь-якого поняття ми можемо прогнозувати, як, наприклад, найбільш ймовірне значення цього поняття при відомих значеннях інших понять.

Відзначають такі переваги байєсівських мереж як методу DataMining:

У моделі визначаються залежності між усіма змінними, це дозволяє легкообробляти ситуації, у яких значення деяких змінних невідомі;

Байєсовські мережі досить просто інтерпретуються і дозволяють на етапіпрогностичного моделювання легко проводити аналіз за сценарієм "що, якщо";

Байєсовський метод дозволяє природним чином поєднувати закономірності,виведені з даних, і, наприклад, експертні знання, отримані у явному вигляді;

Використання байєсівських мереж дозволяє уникнути проблеми перенавчання(overfitting), тобто надмірного ускладнення моделі, що є слабкою стороноюбагатьох методів (наприклад, дерев рішень та нейронних мереж).

Наївно-байєсівський підхід має такі недоліки:

Перемножувати умовні можливості коректно тільки тоді, коли всі вхіднізмінні справді статистично незалежні; хоча часто цей методпоказує досить добрі результати при недотриманні умови статистичноїнезалежності, але теоретично така ситуація має оброблятися складнішимиметодами, що ґрунтуються на навчанні байєсівських мереж;

Неможливе безпосереднє оброблення безперервних змінних - потрібно їхперетворення до інтервальної шкали, щоб атрибути були дискретними; однак такіперетворення іноді можуть призводити до втрати значних закономірностей;

На результат класифікації у наївно-байєсівському підході впливають лишеіндивідуальні значення вхідних змінних, комбінований вплив пар аботрійок значень різних атрибутів тут не враховується. Це могло б покращитиякість класифікаційної моделі з точки зору її прогнозуючої точності,однак, збільшила б кількість варіантів, що перевіряються.

Штучні нейронні мережі

Штучні нейронні мережі можуть бути синхронні та асинхронні.У синхронних нейронних мережах у кожний момент часу свій стан змінює лишеодин нейрон. У асинхронних - стан змінюється відразу у цілої групи нейронів, як правило, у всьогошару. Можна виділити дві базові архітектури- шаруваті та пов'язні мережі.Ключовим у шаруватих мережах є поняття шару.Шар - один або кілька нейронів, на входи яких подається той самий загальний сигнал.Шаруваті нейронні мережі - нейронні мережі, у яких нейрони розбиті окремі групи (шари) отже обробка інформації здійснюється пошарово.У шаруватих мережах нейрони i-го шару одержують вхідні сигнали, перетворюють їх і через точки розгалуження передають нейронам (i+1) шару. І так до k-го шару, що видаєвихідні сигнали для інтерпретатора та користувача. Число нейронів у кожному шарі не пов'язане з кількістю нейронів в інших шарах, може бути довільним.У межах одного шару дані обробляються паралельно, а масштабах всієї мережі обробка ведеться послідовно - від шару до шару. До шаруватих нейронних мереж відносяться, наприклад, багатошарові персептрони, мережі радіальних базисних функцій, когнітрон, некогнітрон, мережі асоціативної пам'яті.Однак сигнал не завжди подається на всі нейрони шару. У когнітроні, наприклад, кожен нейрон поточного шару отримує сигнали лише від близьких нейронів попереднього шару.

Шаруваті мережі, у свою чергу, можуть бути одношаровими та багатошаровими.

Одношарова мережа- Мережа, що складається з одного шару.

Багатошарова мережа- Мережа, що має кілька шарів.

У багатошаровій мережі перший шар називається вхідним, наступні – внутрішніми або прихованими, останній шар – вихідним. Таким чином, проміжні шари - це всі шари у багатошаровій нейронній мережі, крім вхідного та вихідного.Вхідний шар мережі реалізує зв'язок із вхідними даними, вихідний - із вихідними.Таким чином, нейрони можуть бути вхідними, вихідними та прихованими.Вхідний шар організований з вхідних нейронів (inputneuron), які отримують дані та поширюють їх на входи нейронів прихованого шару мережі.Прихований нейрон (hiddenneuron) - це нейрон, що знаходиться в прихованому шарі нейронної мережі.Вихідні нейрони (outputneuron), у тому числі організований вихідний шар мережі, видаєрезультати роботи нейронної мережі

У повнозв'язкових мережахкожен нейрон передає свій вихідний сигнал іншим нейронам, включаючи себе. Вихідними сигналами мережі можуть бути всі або деякі вихідні сигнали нейронів після кількох тактів функціонування мережі.

Усі вхідні сигнали подаються всім нейронам.

Навчання нейронних мереж

Перед використанням нейронної мережі її потрібно навчити.Процес навчання нейронної мережі полягає у підстроюванні її внутрішніх параметрів під конкретне завдання.Алгоритм роботи нейронної мережі є ітеративним, його кроки називають епохами чи циклами.Епоха - одна ітерація в процесі навчання, що включає пред'явлення всіх прикладів з навчальної множини і, можливо, перевірку якості навчання на контрольномубезлічі. Процес навчання складає навчальній вибірці.Навчальна вибірка включає вхідні значення та відповідні їм вихідні значення набору даних. У результаті навчання нейронна мережу знаходить певні залежності вихідних полів від вхідних.Таким чином, перед нами порушується питання - які вхідні поля (ознаки) намнеобхідно використовувати. Спочатку вибір здійснюється евристично, далікількість входів може бути змінено.

Складність може викликати питання кількості спостережень у наборі даних. І хоча існують деякі правила, що описують зв'язок між необхідною кількістю спостережень та розміром мережі, їхня вірність не доведена.Кількість необхідних спостережень залежить від складності задачі, що розв'язується. При збільшенні кількості ознак кількість спостережень зростає нелінійно, ця проблема зветься "прокляття розмірності". При недостатній кількостірекомендується використовувати лінійну модель.

Аналітик повинен визначити кількість шарів у мережі та кількість нейронів у кожному шарі.Далі необхідно призначити такі значення ваг та зміщень, які зможутьмінімізувати помилку розв'язання. Ваги та зміщення автоматично налаштовуються таким чином, щоб мінімізувати різницю між бажаним та отриманим на виході сигналами, яка називається помилка навчання.Помилка навчання для побудованої нейронної мережі обчислюється шляхом порівняннявихідних та цільових (бажаних) значень. З одержаних різниць формується функція помилок.

Функція помилок - це цільова функція, яка потребує мінімізації у процесікерованого навчання нейронної мережі.За допомогою функції помилок можна оцінити якість роботи нейронної мережі під час навчання. Наприклад, часто використовується сума квадратів помилок.Від якості навчання нейронної мережі залежить її здатність вирішувати поставлені задачі.

Перенавчання нейронної мережі

При навчанні нейронних мереж часто виникають серйозні труднощі, які називаютьсяпроблемою перенавчання (overfitting).Перенавчання, або надмірно близьке припасування - зайве точна відповідністьнейронної мережі конкретному набору навчальних прикладів, у якому мережа втрачаєздатність до узагальнення.Перенавчання виникає у разі занадто довгого навчання, недостатнього числанавчальних прикладів чи переускладненої структури нейронної мережі.Перенавчання пов'язано з тим, що вибір навчальної (тренувальної) множиниє випадковим. З перших кроків навчання відбувається зменшення помилки. нанаступні кроки з метою зменшення помилки (цільової функції)підлаштовуються під особливості навчальної множини. Однак при цьому відбувається"підстроювання" не під загальні закономірності ряду, а під особливості його частини -навчального підмножини. У цьому точність прогнозу зменшується.Один із варіантів боротьби з перенавчанням мережі - поділ навчальної вибірки на двабезлічі (навчальне та тестове).На навчальній множині відбувається навчання нейронної мережі. На тестовій множині здійснюється перевірка побудованої моделі. Ці множини не повинні перетинатися.З кожним кроком параметри моделі змінюються, проте постійне зменшенняЗначення цільової функції відбувається саме на навчальній множині. При розбитті множини на дві ми можемо спостерігати зміну помилки прогнозу на тестовій множині паралельно зі спостереженнями над навчальною множиною. Якийськількість кроків помилки прогнозу зменшується на обох множинах. Однак напевному кроці помилка на тестовій множині починає зростати, при цьому помилка на навчальній множині продовжує зменшуватися. Цей момент вважається початком перенавчання

Інструменти DataMining

Розробкою в секторі DataMining всесвітнього ринку програмного забезпечення зайняті як всесвітньо відомі лідери, так і нові компанії, що розвиваються. Інструменти DataMining можуть бути представлені або як самостійний додаток, або як доповнення до основного продукту.Останній варіант реалізується багатьма лідерами ринку програмного забезпечення.Так, уже стало традицією, що розробники універсальних статистичних пакетів, на додаток до традиційних методів статистичного аналізу, включають у пакетпевний набір методів DataMining. Це такіпакетикак SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner).Деякі розробники OLAP-рішень також пропонують набір методів DataMining, наприклад, сімейство продуктів Cognos. Є постачальники, що включають DataMining рішення у функціональність СУБД: це Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMIntelligentMinerforData).

Список літератури

  1. Абдікеєв Н.М. Данько Т.П. Ільдеменов С.В. Кисельов А.Д, «Реінжиніринг бізнес-процесів. Курс MBA», М.: Вид-во Ексмо, 2005. – 592 с. - (МВА)
  1. Абдікеєв Н.М., Кисельов А.Д. «Управління знаннями в корпорації та реінжиніринг бізнесу» - М.: Інфра-М, 2011. - 382 с. - ISBN 978-5-16-004300-5
  1. Барсегян А.А., Купріянов М.С., Степаненко В.В., ХолодІ.І. «Методи та моделі аналізу даних: OLAP та Data Mining», Спб: БХВ-Петербург, 2004,336с., ISBN 5-94157-522-Х
  1. Дюк У., Самійленка А., «Data Mining.Навчальний курс » Спб: Пітер, 2001, 386с.
  1. Чубукова І.А., Курс Data Mining, http://www.intuit.ru/department/database/datamining/
  1. IanH. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Data Mining: Практичні машини для розробок інструментів і технологій (Third Edition), ISBN 978-0-12-374856-0
  1. Petrushin V.A. , Khan L. , Multimedia Data Mining and Knowledge Discovery

Міністерство освіти та науки РФ

Федеральна державна бюджетна освітня установа вищої професійної освіти

«НАЦІОНАЛЬНИЙ ДОСЛІДНИЙ ТОМСЬКИЙ ПОЛІТЕХНІЧНИЙ УНІВЕРСИТЕТ»

Інститут Кібернетики

Напрямок Інформатика та обчислювальна техніка

Кафедра ВТ

Контрольна робота

з дисципліни інформатика та обчислювальна техніка

Тема: Методи Data Mining

Вступ

Data Mining. Основні поняття та визначення

1 Етапи у процесі інтелектуального аналізу даних

2 Компоненти систем інтелектуального аналізу

3 Методи дослідження даних у Data Mining

Методи Data Mining

1 Висновок асоціативних правил

2 Нейромережні алгоритми

3 Методи найближчого сусіда та k-найближчих сусідів

4 Дерева рішень

5 Алгоритми кластеризації

6 Генетичні алгоритми

Сфера застосування

Виробники засобів Data Mining

Критика методів

Висновок

Список літератури

Вступ

Результатом розвитку інформаційних технологійє колосальний обсяг даних, накопичених у електронному виглядізростаючий швидкими темпами. При цьому дані, як правило, мають різнорідну структуру (тексти, зображення, аудіо, відео, гіпертекстові документи, реляційні бази даних). Накопичені за довгий терміндані можуть містити в собі закономірності, тенденції та взаємозв'язки, які є цінною інформацією під час планування, прогнозування, прийняття рішень, контролю за процесами. Проте людина фізично неспроможна ефективно аналізувати такі обсяги неоднорідних даних. p align="justify"> Методи традиційної математичної статистики довгий час претендували на роль основного інструменту аналізу даних. Однак вони не дозволяють синтезувати нові гіпотези, а можуть використовуватися лише для підтвердження заздалегідь сформульованих гіпотез та “грубого” розвідувального аналізу, що є основою оперативної аналітичної обробки даних (online analytical processing, OLAP). Нерідко саме формулювання гіпотези виявляється найскладнішим завданням при проведенні аналізу для подальшого прийняття рішень, оскільки далеко не всі закономірності даних очевидні з першого погляду. Тому технології інтелектуального аналізу даних (Data mining) розглядаються як одна з найважливіших та багатообіцяючих тем для досліджень та застосування у галузі інформаційних технологій. Під інтелектуальним аналізом даних у разі розуміється процес визначення нових, коректних і потенційно корисних знань з урахуванням великих масивів даних. Так, MIT Technology Review охарактеризував Data Mining як одну з десяти технологій, що розвиваються, які змінять світ.

1. Data Mining. Основні поняття та визначення

Data Mining - це процес виявлення в «сирих» даних раніше невідомих, нетривіальних, практично корисних і доступних інтерпретації знань, необхідні прийняття рішень у різних сферах людської діяльності.

Суть і ціль технології Data Mining можна сформулювати наступним чином: це технологія, яка призначена для пошуку великих обсягів даних неочевидних, об'єктивних і корисних на практиці закономірностей.

Неочевидні закономірності - це закономірності, які не можна виявити стандартними методами обробки інформації чи експертним шляхом.

Під об'єктивними закономірностями слід розуміти закономірності, що повністю відповідають дійсності, на відміну від експертної думки, яка завжди є суб'єктивною.

Ця концепція аналізу даних передбачає, що:

§ дані можуть бути неточними, неповними (утримувати перепустки), суперечливими, різнорідними, непрямими, і при цьому мати гігантські обсяги; тому розуміння даних у конкретних додатках потребує значних інтелектуальних зусиль;

§ самі алгоритми аналізу даних можуть мати «елементи інтелекту», зокрема, здатність навчатися за прецедентами, тобто робити загальні висновки на основі приватних спостережень; розробка таких алгоритмів також потребує значних інтелектуальних зусиль;

§ процеси переробки сирих даних на інформацію, а інформації на знання неможливо знайти виконані вручну, і вимагають автоматизації.

В основу технології Data Mining покладено концепцію шаблонів (патернів), що відображають фрагменти багатоаспектних взаємин у даних. Ці шаблони є закономірності, властиві підвибіркам даних, які можуть бути компактно виражені у зрозумілій людині формі.

Пошук шаблонів проводиться методами, не обмеженими рамками апріорних припущень про структуру вибірки та вид розподілів значень аналізованих показників.

Важливою особливістю Data Mining є нестандартність і неочевидність шаблонів, що розшукуються. Іншими словами, засоби Data Mining відрізняються від інструментів статистичної обробки даних та засобів OLAP тим, що замість перевірки заздалегідь передбачуваних користувачами взаємозалежностей вони на підставі наявних даних здатні знаходити такі взаємозалежності самостійно та будувати гіпотези про їх характер. Виділяють п'ять стандартних типів закономірностей, що виявляються методами Data Mining:

· Асоціація - висока ймовірність зв'язку подій один з одним. Прикладом асоціації є товари в магазині, які часто купуються разом;

· Послідовність - висока ймовірність ланцюжка пов'язаних у часі подій. Прикладом послідовності є ситуація, коли протягом певного терміну після придбання одного товару буде з високим ступенем ймовірності придбано інший;

· Класифікація - є ознаки, що характеризують групу, до якої належить та чи інша подія або об'єкт;

· Кластеризація - закономірність, подібна до класифікації і відрізняється від неї тим, що самі групи при цьому не задані - вони виявляються автоматично в процесі обробки даних;

· тимчасові закономірності - наявність шаблонів у динаміці поведінки тих чи інших даних. Характерний приклад тимчасової закономірності - сезонні коливання попиту ті чи інші товари чи послуги.

1.1 Етапи у процесі інтелектуального аналізу даних

Традиційно виділяються такі етапи у процесі інтелектуального аналізу даних:

1. Вивчення предметної галузі, у результаті якого формулюються основні мети аналізу.

2. Збір даних.

Попередня обробка даних:

a. Очищення даних - виключення протиріч та випадкових "шумів" з вихідних даних

b. Інтеграція даних - об'єднання даних із кількох можливих джерел у одному сховищі. Перетворення даних. На цьому етапі дані перетворюються до форми, придатної для аналізу. Часто застосовується агрегація даних, дискретизація атрибутів, стиснення даних та скорочення розмірності.

4. Аналіз даних. У рамках цього етапу застосовуються алгоритми інтелектуального аналізу з метою вилучення патернів.

5. Інтерпретація знайдених патернів. Даний етап може включати візуалізацію витягнутих патернів, визначення дійсно корисних патернів на основі деякої функції корисності.

Використання нових знань.

1.2 Компоненти систем інтелектуального аналізу

Зазвичай у системах інтелектуального аналізу даних виділяються такі основні компоненти:

1. База даних, сховище даних чи інший репозиторій інформації. Це може бути одна або кілька баз даних, сховище даних, електронні таблиці, інші види репозиторіїв, над якими можуть бути очищення та інтеграція.

2. Сервер бази даних чи сховища даних. Зазначений сервер відповідає за вилучення істотних даних на підставі запиту користувача.

База знань. Це знання про предметну область, які вказують, як проводити пошук і оцінювати корисність результуючих патернів.

Служба добування знань. Вона є невід'ємною частиною системи інтелектуального аналізу даних та містить набір функціональних модулів для таких завдань, як характеризування, пошук асоціацій, класифікація, кластерний аналіз та аналіз відхилень.

Модуль оцінки патернів. Цей компонент обчислює заходи інтересу чи корисності патернів.

Графічний користувальницький інтерфейс. Цей модуль відповідає за комунікації між користувачем та системою інтелектуального аналізу даних, візуалізацію патернів у різних формах.

1.3 Методи дослідження даних у Data Mining

Більшість аналітичних методів, що використовуються в технології Data Mining – це відомі математичні алгоритми та методи. Новим у їх застосуванні є можливість їх використання при вирішенні тих чи інших конкретних проблем, обумовлена ​​можливостями технічних і програмних засобів, що з'явилися. Слід зазначити, більшість методів Data Mining було розроблено у межах теорії штучного інтелекту. Розглянемо найбільш уживані методи:

Висновок асоціативних правил.

2. Нейромережні алгоритми, ідея яких заснована на аналогії з функціонуванням нервової тканини і полягає в тому, що вихідні параметри розглядаються як сигнали, що перетворюються відповідно до наявних зв'язків між «нейронами», а як відповідь, що є результатом аналізу, розглядається відгук всієї мережі на вихідні дані.

Вибір близького аналога вихідних даних із існуючих історичних даних. Називаються також методом "найближчого сусіда".

Дерева рішень - ієрархічна структура, що базується на наборі питань, що мають на увазі відповідь «Так» чи «Ні».

Кластерні моделі застосовуються для об'єднання подібних подій групи на підставі подібних значень кількох полів у наборі даних.

У наступному розділі докладніше опишемо перераховані вище методи.

2. Методи Data Mining

2.1 Виведення асоціативних правил

Асоціативні правила - це правила виду "якщо ..., то ...". Пошук таких правил у наборі даних виявляє приховані зв'язки, на перший погляд, ніяк не пов'язаних даних. Одним із найчастіше цитованих прикладів пошуку асоціативних правил є проблема пошуку стійких зв'язків у кошику покупця. Ця проблема полягає в тому, щоб визначити, які товари купуються покупцями разом, так, щоб фахівці з маркетингу могли відповідним чином розмістити ці товари в магазині для підвищення обсягу продажів.

Асоціативні правила визначаються як затвердження виду (X1, X2, ..., Xn) -> Y, де мається на увазі, що Y може бути в транзакції за умови, що X1, X2, ..., Xn присутні в цій же транзакції. Слід звернути увагу, що слово "може" має на увазі, що правило не є тотожністю, а виконується лише з певною ймовірністю. Крім того, як Y може виступати набір елементів, а не лише один елемент. Імовірність перебування Y у транзакції, у якій є елементи X1, X2,…, Xn, називається достовірністю (confidence). Відсоток транзакцій, що містять правило, від загальної кількості транзакцій називається підтримкою (support). Рівень достовірності, що має перевищувати достовірність правила, називається цікавістю (interestingness).

Існують різні типи асоціативних правил. У найпростішій формі асоціативні правила повідомляють лише про наявність чи відсутність асоціації. Такі правила називаються булевими асоціативними правилами (Boolean Association Rule). Приклад такого правила: «покупці, які купують йогурт, так само купують олію з низьким рівнем жиру».

Правила, які збирають кілька асоціативних правил разом, називаються мультирівневі чи узагальнені асоціативні правила (Multilevel or Generalized Association Rules). При побудові таких правил елементи зазвичай групуються відповідно до ієрархії, і пошук ведеться на найвищому концептуальному рівні. Наприклад, "покупці, які купують молоко, так само купують хліб". У цьому прикладі молоко і хліб містять ієрархію різних типів і брендів, проте пошук на нижньому рівні не дозволить знайти цікаві правила.

Більш складним типом правил є кількісні асоціативні правила (Quantitative Association Rules). Цей тип правил шукається із застосуванням кількісних (наприклад, ціна) або категоріальних (наприклад, стать) атрибутів, і визначений як ( , ,…,} -> . Наприклад, "покупці, вік яких перебуває між 30 і 35 роками з доходом понад 75000 на рік купують машини вартістю понад 20000".

Перераховані вище типи правил не зачіпають той факт, що транзакції, за своєю природою, залежать від часу. Наприклад, пошук до того, як продукт був виставлений на продаж або після того, як він зник з ринку, несприятливо вплине на граничне значення підтримки. З урахуванням цього, введено концепцію атрибутного часу життя в алгоритмах пошуку тимчасових асоціативних правил (Temporal Association Rules).

Проблема пошуку асоціативних правил може бути в загальному вигляді розкладена на дві частини: пошук найпоширеніших наборів елементів, і генерація правил на основі знайдених найпоширеніших наборів. Попередні дослідження, здебільшого, дотримувалися цих напрямів і розширювали в різних напрямах.

З моменту появи алгоритму Apriori, цей алгоритм є найчастіше застосовуваним першому кроці. Багато поліпшень, наприклад, за швидкістю і масштабованістю, спрямовані на вдосконалення алгоритму Apriori, на виправлення його помилкової властивості генерувати занадто багато кандидатів на набори елементів, що найчастіше зустрічаються. Apriori генерує набори елементів, використовуючи тільки великі наборизнайдені на попередньому кроці, без повторного розгляду транзакцій. Модифікований алгоритм AprioriTid покращує Apriori за рахунок того, що використовує базу даних лише при першому проході. При підрахунках на наступних кроках використовуються лише дані, створені при першому проході і мають набагато менший розмір, ніж база даних. Це призводить до колосального зростання продуктивності. Подальша вдосконалена версія алгоритму, названа AprioriHybrid, може бути отримана, якщо при перших кількох проходах використовувати Apriori, а потім, на пізніших проходах, коли k-і набори-кандидати вже можуть бути повністю розміщені в пам'яті комп'ютера, перемикаються на AprioriTid.

Подальші зусилля щодо поліпшення алгоритму Apriori пов'язані з розпаралелювання алгоритму (Count Distribution, Data Distribution, Candidate Distribution та ін.), його масштабуванням (Intelligent Data Distribution, Hybrid Distribution), введення нових структур даних, таких як дерева часто зустрічаються елементів (FP-growth ).

Другий крок здебільшого характеризується достовірністю та цікавістю. У нових модифікаціях до традиційних булевих правил додаються розмірність, якість і тимчасова підтримка, описані вище. Для пошуку правил найчастіше використовується еволюційний алгоритм.

2.2 Нейромережні алгоритми

Штучні нейронні мережі з'явилися в результаті застосування математичного апарату для дослідження функціонування нервової системи людини з її відтворення. А саме: здатність нервової системи навчатися та виправляти помилки, що має дозволити змоделювати, хоч і досить грубо, роботу людського мозку. Основною структурною та функціональною частиною нейронної мережі є формальний нейрон (formal neuron), представлений на рис. 1 де x0 , x1,..., xn - компоненти вектора вхідних сигналів, w0 ,w1,...,wn - значення ваг вхідних сигналів нейрона, а y - вихідний сигнал нейрона.

Мал. 1. Формальний нейрон: синапс (1), суматор (2), перетворювач (3).

Формальний нейрон складається з елементів 3 типів: синапсів, суматора та перетворювача. Синапс характеризує силу зв'язку між двома нейронами.

Суматор виконує додавання вхідних сигналів, попередньо помножених на відповідні ваги. Перетворювач реалізує функцію одного аргументу – виходу суматора. Ця функція називається функцією активації або функцією передавання нейрона.

Описані вище формальні нейрони можна об'єднувати в такий спосіб, що вихідні сигнали одних нейронів є вхідними інших. Отриману множину зв'язаних між собою нейронів називають штучними нейронними мережами (artificial neural networks, ANN) або, коротко, нейронними мережами.

Розрізняють такі три загальні типи нейронів, залежно від їхнього положення в нейронній мережі:

Вхідні нейрони (input nodes), куди подаються вхідні сигнали. Такі нейрони нейрони мають, як правило, один вхід з одиничною вагою, зсув відсутня, а значення виходу нейрона дорівнює вхідному сигналу;

Вихідні нейрони (output nodes), вихідні значення яких становлять результуючі вихідні сигнали нейронної мережі;

Приховані нейрони (hidden nodes), які мають прямих зв'язків із вхідними сигналами, у своїй значення вихідних сигналів прихованих нейронів є вихідними сигналами ИНС.

За структурою міжнейронних зв'язків розрізняють два класи ІНС:

ІНС прямого поширення, в яких сигнал поширюється лише від вхідних нейронів до вихідних.

Рекурентні ІНС - ІНС з зворотними зв'язками. У таких ІНС сигнали можуть передаватися між будь-якими нейронами, незалежно від їхнього розташування в ІНС.

Існують два загальні підходи до навчання ІНС:

Навчання з учителем.

Навчання без учителя.

Навчання з учителем (supervised learning) передбачає використання заздалегідь сформованого безлічі навчальних прикладів. Кожен приклад містить вектор вхідних сигналів та відповідний вектор еталонних вихідних сигналів, які залежать від поставленого завдання. Це безлічназивають навчальною вибіркою або навчальною множиною. Навчання нейронної мережі спрямоване на таку зміну ваги зв'язків ІНС, при якому значення вихідних сигналів ІНС якнайменше відрізняються від необхідних значень вихідних сигналів для даного вектора вхідних сигналів.

При навчанні без вчителя (unsupervised learning) підстроювання ваги зв'язків здійснюється або в результаті конкуренції між нейронами, або з урахуванням кореляції вихідних сигналів нейронів, між якими існує зв'язок. У разі навчання без вчителя навчальна вибірка не використовується.

Нейронні мережі застосовуються для вирішення широкого спектра завдань, наприклад, таких як планування корисного навантаження для космічних човників та прогнозування валютних курсів. Однак вони не часто використовуються в системах інтелектуального аналізу даних у зв'язку зі складністю моделі (знання, зафіксовані як ваги кількох сотень міжнейронних зв'язків, зовсім не піддаються аналізу та інтерпретації людиною) та тривалим часом навчання на великій навчальній вибірці. З іншого боку, нейронні мережі мають такі переваги для використання в задачах аналізу даних, як стійкість до зашумлених даних і висока точність.

2.3 Методи найближчого сусіда та k-найближчих сусідів

В основі алгоритмів найближчих сусідів (nearest neighbor algorithm) та k-найближчих сусідів (k-nearest neighbor algorithm, KNN) лежить схожість об'єктів. Алгоритм найближчого сусіда виділяє серед усіх відомих об'єктів, максимально близький (використовується метрика відстані між об'єктами, наприклад, евклідова) до нового раніше невідомого об'єкта. Головна проблема методу найближчого сусіда – це його чутливість до викидів у навчальних даних.

Описану проблему дозволяє уникати алгоритму KNN, що виділяє серед усіх спостережень вже найближчих сусідів, схожих на новий об'єкт. На основі класів найближчих сусідів виноситься рішення щодо нового об'єкту. Важливим завданням даного алгоритму є підбір коефіцієнта k - кількість записів, які вважатимуться схожими. Модифікація алгоритму, коли вклад сусіда пропорційний відстані до нового об'єкта (метод k-зважених найближчих сусідів) дозволяє досягти більшої точності класифікації. Метод k найближчих сусідів, як і, дозволяє оцінити точність прогнозу. Наприклад, всі k найближчих сусідів мають один і той же клас, то ймовірність, що об'єкт, що перевіряється, матиме такий же клас, дуже висока.

Серед особливостей алгоритму варто відзначити стійкість до аномальних викидів, оскільки ймовірність попадання такого запису до k-найближчих сусідів мала. Якщо це сталося, то впливом геть голосування (особливо зважене) (при k>2) також, швидше за все, буде незначним, отже, малим буде й на результат класифікації. Також перевагами є проста реалізації, легкість інтерпретації результату роботи алгоритму, можливість модифікації алгоритму, шляхом використання найбільш підходящих функцій поєднання та метрик, що дозволяє підлаштувати алгоритм під конкретне завдання. Алгоритм KNN має й низку недоліків. По-перше, набір даних, що використовується для алгоритму, має бути репрезентативним. По-друге, модель не можна відокремити від даних: для класифікації нового прикладу слід використовувати всі приклади. Ця особливість сильно обмежує використання алгоритму.

2.4 Дерева рішень

Під терміном «дерева рішень» мається на увазі сімейство алгоритмів, що ґрунтуються на представленні класифікаційних правил в ієрархічній, послідовній структурі. Це найпопулярніший клас алгоритмів на вирішення завдань інтелектуального аналізу даних.

Сімейство алгоритмів побудови дерев рішень дозволяє передбачити значення будь-якого параметра для заданого випадку на основі великої кількості даних про інші подібні випадки. Зазвичай алгоритми цього сімейства застосовуються на вирішення завдань, дозволяють розділити всі вихідні дані на кілька дискретних груп.

При застосуванні алгоритмів побудови дерев рішень до набору вихідних даних, результат відображається у вигляді дерева. Подібні алгоритми дозволяють здійснити кілька рівнів такого поділу, розбиваючи отримані групи (гілки дерева) більш дрібні виходячи з інших ознак. Поділ триває до тих пір, поки значення, які передбачається передбачати, не стануть однаковими (або, у разі безперервного значення параметра, що передбачається, близькими) для всіх отриманих груп (листя дерева). Саме ці значення застосовуються для здійснення передбачень на основі даної моделі.

Дія алгоритмів побудови дерев рішень базується на застосуванні методів регресійного та кореляційного аналізу. Один із найпопулярніших алгоритмів цього сімейства - CART (Classification and Regression Trees), заснований на поділі даних у гілки дерева на дві дочірні гілки; при цьому подальший поділ тієї чи іншої гілки залежить від того, чи багато вихідних даних описує ця гілка. Деякі інші подібні алгоритми дозволяють розділити галузь більшу кількість дочірніх гілок. В даному випадку поділ проводиться на основі найбільш високого для описуваних гілкою даних коефіцієнта кореляції між параметром, згідно з яким відбувається поділ, і параметром, який надалі має бути передбачений.

Популярність підходу пов'язана з наочністю та зрозумілістю. Але дерева рішень принципово неспроможні знаходити “найкращі” (найповніші і точні) правила даних. Вони реалізують наївний принцип послідовного перегляду ознак і знаходять фактично частини реальних закономірностей, створюючи лише ілюзію логічного висновку.

2.5 Алгоритми кластеризації

Кластеризація - це завдання розбиття безлічі об'єктів на групи, які називаються кластерами. Головна відмінність кластеризації від класифікації у тому, що перелік груп чітко не заданий й у процесі роботи алгоритму.

Застосування кластерного аналізу у загальному вигляді зводиться до наступних етапів:

· Відбір вибірки об'єктів для кластеризації;

· Визначення безлічі змінних, за якими будуть оцінюватися об'єкти у вибірці. При необхідності – нормалізація значень змінних;

· Обчислення значень міри подібності між об'єктами;

· Застосування методу кластерного аналізу для створення груп подібних об'єктів (кластерів);

· Подання результатів аналізу.

Після отримання та аналізу результатів можливе коригування обраної метрики та методу кластеризації до отримання оптимального результату.

Серед алгоритмів кластеризації виділяють ієрархічні та плоскі групи. Ієрархічні алгоритми (також звані алгоритмами таксономії) будують не одне розбиття вибірки на кластери, що не перетинаються, а систему вкладених розбиття. Таким чином, вихід алгоритму є деревом кластерів, коренем якого є вся вибірка, а листям - найбільш дрібні кластери. Плоскі алгоритми будують одне розбиття об'єктів на кластери, що не перетинаються між собою.

Ще одна класифікація алгоритмів кластеризації – на чіткі та нечіткі алгоритми. Чіткі (або непересічні) алгоритми кожному об'єкту вибірки ставлять у відповідність номер кластера, тобто кожен об'єкт належить лише одному кластеру. Нечіткі (або пересічні) алгоритми кожному об'єкту ставлять у відповідність набір речових значень, що показують ступінь ставлення об'єкта до кластерів. Таким чином, кожен об'єкт відноситься до кожного кластера з певною ймовірністю.

Серед алгоритмів ієрархічної кластеризації виділяються два основні типи: висхідні та низхідні алгоритми. Східні алгоритми працюють за принципом «зверху-вниз»: спочатку всі об'єкти поміщаються в один кластер, який потім розбивається на дедалі дрібніші кластери. Найбільш поширені висхідні алгоритми, які на початку роботи поміщають кожен об'єкт в окремий кластер, а потім об'єднують кластери в дедалі більші, поки всі об'єкти вибірки не будуть утримуватися в одному кластері. Таким чином, будується система вкладених розбиття. Результати таких алгоритмів зазвичай подають у вигляді дерева.

До нестачі ієрархічних алгоритмів можна віднести систему повних розбиття, яка може бути зайвою в контексті задачі, що розв'язується.

Розглянемо тепер пласкі алгоритми. Найпростіші серед цього класу – алгоритми квадратичної помилки. Завдання кластеризації цих алгоритмів можна як побудова оптимального розбиття об'єктів на групи. При цьому оптимальність може бути визначена як вимога мінімізації середньоквадратичної помилки розбиття:

,

де c j – «центр мас» кластера j(Точка із середніми значеннями характеристик для даного кластера).

Найпоширенішим алгоритмом цієї категорії є метод k-середніх. Цей алгоритм будує задану кількість кластерів, розташованих якнайдалі один від одного. Робота алгоритму поділяється на кілька етапів:

Випадково вибрати kточок, які є початковими центрами мас кластерів.

2. Віднести кожен об'єкт до кластера з найближчим центром мас.

Якщо критерій зупинення алгоритму незадоволений, повернутися до п. 2.

Як критерій зупинення роботи алгоритму зазвичай вибирають мінімальну зміну середньоквадратичної помилки. Так само можна зупиняти роботу алгоритму, якщо на кроці 2 не було об'єктів, що перемістилися з кластера до кластера. До недоліків даного алгоритму можна віднести необхідність задавати кількість кластерів для розбиття.

Найбільш популярним алгоритмом нечіткої кластеризації є алгоритм c-середніх (c-means). Він є модифікацією методу k-середніх. Кроки роботи алгоритму:

1. Вибрати початкове нечітке розбиття nоб'єктів на kкластерів шляхом вибору матриці приладдя Uрозміру n x k.

2. Використовуючи матрицю U, визначити значення критерію нечіткої помилки:

,

де c k – «центр мас» нечіткого кластера k:

3. Перегрупувати об'єкти для зменшення цього значення критерію нечіткої помилки.

4. Повертатися до п. 2 доти, доки зміни матриці Uне стануть незначними.

Цей алгоритм може підійти, якщо заздалегідь невідомо число кластерів, чи необхідно однозначно віднести кожен об'єкт до одного кластеру.

Наступна група алгоритмів – алгоритми, засновані на теорії графів. Суть таких алгоритмів у тому, що вибірка об'єктів представляється як графа G = (V, E), вершинам якого відповідають об'єкти, а ребра мають вагу, що дорівнює «відстанню» між об'єктами. Перевагою графових алгоритмів кластеризації є наочність, відносна простота реалізації та можливість внесення різних удосконалень, що ґрунтуються на геометричних міркуваннях. Основними алгоритмами є алгоритм виділення зв'язкових компонентів, алгоритм побудови мінімального покриваючого (остовного) дерева та алгоритм пошарової кластеризації.

Для вибору параметра Rзазвичай будується гістограма розподілів попарних відстаней. У завданнях з добре вираженою кластерною структурою даних на гістограмі буде два піки – один відповідає внутрішньокластерним відстаням, другий – міжкластерним відстані. Параметр Rпідбирається із зони мінімуму між цими піками. У цьому керувати кількістю кластерів з допомогою порога відстані досить складно.

Алгоритм мінімального дерева, що покриває, спочатку будує на графі мінімальне дерево, що покриває, а потім послідовно видаляє ребра з найбільшою вагою. Алгоритм пошарової кластеризації заснований на виділенні зв'язкових компонентів графа на певному рівні відстаней між об'єктами (вершинами). Рівень відстані визначається порогом відстані c. Наприклад, якщо відстань між об'єктами , то .

Алгоритм пошарової кластеризації формує послідовність підграфів графа G, що відображають ієрархічні зв'язки між кластерами:

,

де G t = (V, E t ) - граф на рівні з t, ,

з t - t-ий поріг відстані, m - кількість рівнів ієрархії,
G 0 = (V, o), o - порожня безліч ребер графа, одержуване при t 0 = 1,
G m = G, тобто граф об'єктів без обмежень на відстань (довжину ребер графа), оскільки t m = 1.

За допомогою зміни порогів відстані ( з 0 , …, з m), де 0 = з 0 < з 1 < …< з m = 1, можна контролювати глибину ієрархії одержуваних кластерів. Таким чином, алгоритм пошарової кластеризації здатний створювати як плоске розбиття даних, і ієрархічне.

Кластеризація дозволяє досягти наступних цілей:

· Поліпшує розуміння даних за рахунок виявлення структурних груп. Розбиття вибірки на групи подібних об'єктів дозволяє спростити подальшу обробку даних та прийняття рішень, застосовуючи до кожного кластера свій метод аналізу;

· дозволяє компактно зберігати дані. Для цього замість зберігання всієї вибірки можна залишити по одному типовому спостереженню кожного кластера;

· Виявлення нових нетипових об'єктів, які не потрапили в жодний кластер.

Зазвичай кластеризація використовується як допоміжний метод при аналізі даних.

2.6 Генетичні алгоритми

Генетичні алгоритми належать до універсальних методів оптимізації, що дозволяють вирішувати завдання різних типів (комбінаторні, загальні завдання з обмеженнями і без обмежень) та різного ступеня складності. У цьому генетичні алгоритми характеризуються можливістю як однокритеріального, і багатокритеріального пошуку великому просторі, ландшафт якого є негладким.

Ця група методів використовує ітеративний процес еволюції послідовності поколінь моделей, що включає операції відбору, мутації та схрещування. На початку роботи алгоритму населення формується випадковим чином. Для оцінки якості закодованих рішень використовують функцію пристосованості, яка необхідна обчислення пристосованості кожної особини. За результатами оцінювання особин найбільш пристосовані їх вибираються для схрещування. В результаті схрещування обраних особин за допомогою застосування генетичного оператора кросинговера створюється потомство, генетична інформація якого формується в результаті обміну інформацією хромосомної між батьківськими особинами. Створені нащадки формують нову популяцію, причому частина нащадків мутує, що у випадковому зміні їх генотипів. Етап, що включає послідовність "Оцінювання популяції" - "Селекція" - "Схрещування" - "Мутація", називається поколінням. Еволюція популяції складається із послідовності таких поколінь.

Виділяють такі алгоритми відбору особин для схрещування:

· Панміксія. Обидві особини, які складуть батьківську пару, випадково вибираються з усієї популяції. Будь-яка особина може стати членом кількох пар. Цей підхід універсальний, але ефективність алгоритму знижується зі зростанням чисельності популяції.

· Селекція. Батьками можуть стати особини із пристосованістю не нижче середнього. Такий підхід забезпечує більш швидку збіжність алгоритму.

· Інбридинг. Метод побудований на формуванні пари на основі близької спорідненості. Під кревністю тут розуміється відстань між членами популяції як у сенсі геометричної відстані особин у просторі параметрів так і хемінгову відстань між генотипами. Тому розрізняють генотипний та фенотипний інбридинг. Перший член пари для схрещування вибирається випадково, а другим із більшою ймовірністю буде максимально близька до нього особина. Інбридинг можна охарактеризувати властивістю концентрації пошуку в локальних вузлах, що фактично призводить до розбиття популяції на окремі локальні групи довкола підозрілих на екстремум ділянок ландшафту.

· Аутбридинг. Формування пари на основі дальньої спорідненості для максимально далеких особин. Аутбридинг спрямовано попередження збіжності алгоритму до вже знайденим рішенням, змушуючи алгоритм переглядати нові, недосліджені області.

Алгоритми формування нової популяції:

· Відбір з витісненням. З усіх особин з однаковими генотипами перевага надається тим, чия пристосованість вища. Таким чином, досягаються дві мети: не втрачаються кращі знайдені рішення, що мають різні хромосомні набори, у популяції постійно підтримується достатня генетична різноманітність. Витіснення формує нову популяцію з далеко розташованих особин, замість особин, що групуються біля поточного знайденого рішення. Цей метод застосовують для багатоекстремальних завдань.

· Елітний відбір. Елітні методи відбору гарантують, що з відборі обов'язково виживатимуть кращі члени популяції. При цьому частина найкращих особин без будь-яких змін переходить у наступне покоління. Швидка збіжність, що забезпечується елітним відбором, може бути компенсована відповідним способом вибору батьківських пар. У разі часто використовують аутбридингом. Саме така комбінація «аутбридинг – елітний відбір» є однією з найефективніших.

· Турнірний відбір. Турнірний відбір реалізує n турнірів, щоб вибрати n особин. Кожен турнір побудований на вибірці k елементів із популяції, і вибору найкращої особини серед них. Найбільш поширений турнірний відбір із k = 2.

Одним із найбільш затребуваних додатків генетичних алгоритмів в області Data Mining є пошук найбільш оптимальної моделі (пошук алгоритму, що відповідає специфіці конкретної галузі). Генетичні алгоритми в першу чергу застосовуються для оптимізації топології нейронних мереж та ваг. Однак їх також можна використовувати і як самостійний інструмент.

3. Сфери застосування

Технологія Data Mining має справді широкий спектр застосування, будучи по суті набором універсальних інструментів для аналізу даних будь-якого типу.

Маркетинг

Однією з перших сфер, де було застосовано технології інтелектуального аналізу даних, була сфера маркетингу. Завдання, з якого почався розвиток методів Data Mining, називається аналіз купівельного кошика.

Це завдання полягає у виявленні товарів, які покупці прагнуть купувати разом. Знання купівельного кошика необхідне проведення рекламних компаній, формування персональних рекомендацій покупцям, вироблення стратегії створення запасів товарів хороших і способів їх розкладки у торгових залах.

Також у маркетингу вирішуються такі завдання, як визначення цільової аудиторії того чи іншого продукту для успішнішого його просування; дослідження тимчасових шаблонів, що допомагає підприємствам приймати рішення щодо створення товарних запасів; створення прогнозуючих моделей, що дає можливість підприємствам впізнавати характер потреб різних категорій клієнтів із певною поведінкою; прогнозування лояльності клієнта, що дозволяє завчасно виявити момент відходу клієнта під час аналізу його поведінки і, можливо, запобігти втраті цінного клієнта.

Промисловість

Одним із важливих напрямів у цій сфері є моніторинг та контроль якості, де за допомогою засобів аналізу можливо передбачити вихід обладнання з ладу, появу несправностей, планувати ремонтні роботи. Прогнозування популярності певних характеристик та знання того, які характеристики зазвичай замовляються разом, допомагає оптимізувати виробництво, орієнтувати його на реальні потреби споживачів.

Медицина

У медицині аналіз даних також застосовується досить успішно. Прикладом завдань можуть бути аналіз результатів обстежень, діагностика, порівняння ефективності методів лікування та ліків, аналіз захворювань та його поширення, виявлення побічних ефектів. Такі технології Data Mining, як асоціативні правила та послідовні шаблони, успішно застосовуються при виявленні зв'язків між прийомом препаратів та побічними ефектами.

Молекулярна генетика та генна інженерія

Мабуть, найбільш гостро і водночас чітко завдання виявлення закономірностей в експериментальних даних стоїть у молекулярної генетикита генної інженерії. Тут вона формулюється як визначення маркерів, під якими розуміють генетичні коди, які контролюють ті чи інші ознаки фенотипу живого організму. Такі коди можуть містити сотні, тисячі та більше пов'язаних елементів. Результатом аналітичного аналізу даних також є виявлена ​​вченими-генетиками залежність між змінами у послідовності ДНК людини та ризиком розвитку різних захворювань.

Прикладна хімія

Методи Data Mining знаходять застосування у галузі прикладної хімії. Тут нерідко виникає питання про з'ясування особливостей хімічної будови тих чи інших сполук, що визначають їх властивості. Особливо актуальне таке завдання при аналізі складних хімічних сполук, опис яких включає сотні та тисячі структурних елементів та їх зв'язків.

Боротьба зі злочинністю

У забезпеченні безпеки засоби Data Mining застосовуються порівняно недавно, проте нині вже отримано практичні результати, що підтверджують ефективність інтелектуального аналізу даних у цій галузі. Швейцарськими вченими були розроблені система аналізу протестної активності з метою прогнозування майбутніх інцидентів і система відстеження кіберзагроз, що виникають, і дій хакерів у світі. Остання система дозволяє прогнозувати кіберзагрози та інші ризики інформаційної безпеки. Також методи Data Mining успішно застосовуються виявлення шахрайства з кредитними картками. Шляхом аналізу минулих транзакцій, які згодом виявилися шахрайськими, банк виявляє деякі стереотипи такого шахрайства.

Інші програми

· Аналіз ризику. Наприклад, шляхом виявлення поєднань факторів, пов'язаних із сплаченими заявами, страховики можуть зменшити свої втрати за зобов'язаннями. Відомий випадок, коли у США велика страхова компанія виявила, що суми, виплачені за заявами одружених людей, удвічі перевищує суми за заявами одиноких людей. Компанія відреагувала на це нове знання переглядом загальної політики надання знижок сімейним клієнтам.

· Метеорологія. Передбачення погоди методами нейронних мереж, зокрема використовуються карти Кохонена, що самоорганізуються.

· Кадрова політика. Кошти аналізу допомагають службам з управління персоналом відбирати найбільш вдалих кандидатів на основі аналізу даних їх резюме, моделювати характеристики ідеальних співробітників на тій чи іншій посаді.

4. Виробники засобів Data Mining

Кошти Data Mining зазвичай ставляться до дорогих програмним продуктам. Тому донедавна основними споживачами цієї технології були банки, фінансові та страхові компанії, великі торгові підприємства, а основними завданнями, що потребують застосування Data Mining, вважалися оцінка кредитних та страхових ризиків та вироблення маркетингової політики, тарифних планів та інших принципів роботи з клієнтами. В останні роки ситуація зазнала певних змін: на ринку програмного забезпечення з'явилися відносно недорогі інструменти Data Mining і навіть системи з вільним поширенням, що зробило доступною цю технологію для підприємств малого та середнього бізнесу.

Серед платних інструментів та систем аналіз даних лідерами є SAS Institute (SAS Enterprise Miner), SPSS (SPSS, Clementine) та StatSoft (STATISTICA Data Miner). Досить відомими є рішення від Angoss (Angoss Knowledge STUDIO), IBM (IBM SPSS Modeler), Microsoft (Microsoft Analysis Services) та (Oracle) Oracle Data Mining.

Вибір вільного програмного забезпечення також відрізняється різноманітністю. Існують як універсальні засоби аналізу, такі як JHepWork, KNIME, Orange, RapidMiner, так і спеціалізовані засоби, наприклад Carrot2 – фреймворк для кластеризації текстових даних та результатів пошукових запитів, Chemicalize.org – рішення в галузі прикладної хімії, NLTK (Natural Language Toolkit) інструмент для обробки природної мови (natural language processing).

5. Критика методів

Результати Data Mining великою мірою залежить від рівня підготовки даних, а чи не від «чудових можливостей» деякого алгоритму чи набору алгоритмів. Близько 75% роботи над Data Mining полягає у зборі даних, що відбувається ще до застосування інструментів аналізу. Неписьменне застосування інструментів призведе до безглуздої витрати потенціалу компанії, а іноді й мільйонів доларів.

Думка Херба Едельштайна (Herb Edelstein), відомого у світі експерта в галузі Data Mining, Сховищ даних та CRM: «Недавнє дослідження компанії Two Crows показало, що Data Mining перебуває все ще на ранній стадії розвитку. Багато організацій цікавляться цією технологією, але деякі активно впроваджують такі проекти. Вдалося з'ясувати ще один важливий момент: процес реалізації Data Mining на практиці виявляється складнішим, ніж очікується. Команди захопилися міфом про те, що засоби Data Mining прості у використанні. Передбачається, що достатньо запустити такий інструмент на терабайтній базі даних, і миттєво з'явиться корисна інформація. Насправді успішний Data Mining проект вимагає розуміння суті діяльності, знання даних та інструментів, а також процесу аналізу даних». Таким чином, перш ніж використовувати технологію Data Mining, необхідно ретельно проаналізувати обмеження, що накладаються методами та пов'язані з нею критичні питання, а також тверезо оцінити можливості технології. До критичних питань належать такі:

1. Технологія неспроможна дати відповіді питання, які були задані. Вона не може замінити аналітика, а лише дає йому потужний інструмент для полегшення та покращення його роботи.

2. Складність розробки та експлуатації програми Data Mining.

Оскільки дана технологіяє мультидисциплінарною областю, для розробки програми, що включає Data Mining, необхідно задіяти фахівців з різних областей, а також забезпечити їхню якісну взаємодію.

3. Кваліфікація користувача.

Різні інструменти Data Mining мають різний ступінь «дружелюбності» інтерфейсу та потребують певної кваліфікації користувача. Тому програмне забезпеченнямає відповідати рівню підготовки користувача. Використання Data Mining має бути нерозривно пов'язане із підвищенням кваліфікації користувача. Проте фахівців з Data Mining, які добре розбиралися в бізнес-процесах, нині мало.

4. Вилучення корисних відомостей неможливе без хорошого розуміння суті даних.

Необхідний ретельний вибір моделі та інтерпретація залежностей чи шаблонів, які виявлені. Тому робота з такими засобами потребує тісної співпраці між експертом у предметній галузі та фахівцем із інструментів Data Mining. Постійні моделі мають бути грамотно інтегровані у бізнес-процеси для можливості оцінки та оновлення моделей. Останнім часом системи Data Mining постачаються як частина технології сховищ даних.

5. Складність підготовки даних.

Успішний аналіз потребує якісної передобробки даних. За твердженням аналітиків та користувачів баз даних, процес передобробки може зайняти до 80% всього Data Mining-процесу.

Таким чином, щоб технологія працювала на себе, потрібно багато зусиль і часу, які йдуть на попередній аналіз даних, вибір моделі та її коригування.

6. Великий відсоток помилкових, недостовірних чи марних результатів.

За допомогою технологій Data Mining можна відшукувати дуже цінну інформацію, яка може дати значну перевагу при подальшому плануванні, управлінні, прийнятті рішень. Однак, результати, отримані за допомогою методів Data Mining, досить часто містять помилкові висновки, що не мають сенсу. Багато фахівців стверджують, що Data Mining інструменти можуть видавати величезну кількість статистично недостовірних результатів. Щоб знизити відсоток таких результатів, потрібна перевірка адекватності одержаних моделей на тестових даних. Однак, повністю уникнути помилкових висновків неможливо.

7. Висока вартість.

Якісний програмний продуктє результатом значних трудовитрат із боку розробника. Тому програмне забезпечення Data Mining традиційно ставляться до дорогих програмних продуктів.

8. Наявність достатньої кількості репрезентативних даних.

Інструменти Data Mining, на відміну статистичних, теоретично не вимагають наявності строго певної кількості ретроспективних даних. Ця особливість може стати причиною виявлення недостовірних, хибних моделей і, як наслідок, прийняття на їх основі неправильних рішень. Необхідно здійснювати контроль статистичної значущості виявлених знань.

нейромережевий алгоритм кластеризація дані mining

Висновок

Дана коротка характеристикасфер застосування та наведена критика технології Data Mining та думка експертів у цій галузі.

переліклітератури

1. Han і Micheline Kamber. Data Mining: Concepts and Techniques. Second Edition. - University of Illinois at Urbana-Champaign

Berry, Michael J. A. Data mining techniques: for marketing, sales, and customer relationship management - 2nd ed.

Siu Nin Lam. Discovering Association Rules in Data Mining. - Департамент юриспруденції Інституту психології в Урбані-Champaign




Top