الگوهای ناشناخته در داده های شناخته شده مقدمه ای بر داده کاوی مدرن. روشهای نزدیکترین همسایه و k-نزدیکترین همسایه

ابزارهای داده کاوی

در حال حاضر، فناوری داده کاوی توسط تعدادی از محصولات نرم افزاری تجاری و آزادانه ارائه شده است. لیست نسبتاً کامل و مرتباً به روز شده این محصولات را می توان در وب سایت یافت www. kdnuggets. com, اختصاص داده شده به داده کاوی محصولات نرم افزاری داده کاوی را می توان بر اساس همان اصول طبقه بندی کرد که اساس طبقه بندی خود فناوری را تشکیل می دهد. با این حال، چنین طبقه بندی هیچ ارزش عملی نخواهد داشت. به دلیل رقابت زیاد در بازار و تمایل به کامل بودن راه حل های فنی، بسیاری از محصولات داده کاوی به معنای واقعی کلمه تمام جنبه های کاربرد فناوری های تحلیلی را پوشش می دهند. بنابراین، طبقه بندی محصولات داده کاوی بر اساس نحوه پیاده سازی آنها و بر این اساس، چه پتانسیلی برای یکپارچه سازی ارائه می دهند، منطقی تر است. بدیهی است که این نیز یک قرارداد است، زیرا چنین معیاری به ما اجازه نمی دهد که مرزهای واضحی را بین محصولات مشخص کنیم. با این حال، چنین طبقه بندی یک مزیت بدون شک دارد. این به شما امکان می دهد هنگام شروع پروژه ها در زمینه تجزیه و تحلیل داده ها، توسعه سیستم های پشتیبانی تصمیم، ایجاد انبارهای داده و غیره به سرعت در مورد انتخاب یک یا راه حل آماده دیگر تصمیم بگیرید.

بنابراین، محصولات داده کاوی را می توان به سه دسته بزرگ تقسیم کرد:

    به عنوان بخشی جدایی ناپذیر در سیستم های مدیریت پایگاه داده گنجانده شده است.

    کتابخانه های الگوریتم های داده کاوی با زیرساخت همراه.

    راه حل های جعبه ای یا دسکتاپ ("جعبه های سیاه").

محصولات در دو دسته اول بیشترین فرصت های یکپارچه سازی را فراهم می کنند و به شما امکان می دهند پتانسیل تحلیلی را تقریباً در هر برنامه در هر زمینه ای درک کنید. اپلیکیشن های جعبه ای به نوبه خود می توانند پیشرفت های منحصر به فردی را در زمینه داده کاوی ارائه دهند یا برای یک برنامه خاص تخصصی شوند. با این حال، در بیشتر موارد، ادغام آنها در راه حل های گسترده تر مشکل ساز است.

گنجاندن قابلیت های تحلیلی در سیستم های مدیریت پایگاه داده تجاری یک روند طبیعی با پتانسیل بسیار زیاد است. در واقع، اگر نه در مکان‌هایی که داده‌ها در آن متمرکز شده‌اند، کجا قرار دادن ابزارهای پردازش آن منطقی‌تر است؟ بر اساس این اصل، عملکرد داده کاوی در در حال حاضردر پایگاه داده های تجاری زیر پیاده سازی شده است:

    مایکروسافت SQL Server؛

نکات اصلی

  • داده کاوی به شما این امکان را می دهد که به طور خودکار، بر اساس مقدار زیادی از داده های انباشته شده، فرضیه هایی ایجاد کنید که می توانند توسط سایر ابزارهای تجزیه و تحلیل (به عنوان مثال، OLAP) تأیید شوند.

    داده کاوی تحقیق و کشف توسط یک ماشین (الگوریتم ها، ابزارهای هوش مصنوعی) دانش پنهان در داده های خام است که قبلاً ناشناخته، غیر پیش پا افتاده، عملاً مفید و قابل دسترسی برای تفسیر انسان بود.

    روش های داده کاوی سه مشکل اصلی را حل می کنند: مشکل طبقه بندی و رگرسیون، مشکل جستجوی قوانین تداعی و مشکل خوشه بندی. با توجه به هدف آنها به دو دسته توصیفی و پیش بینی تقسیم می شوند. بر اساس روش های حل مسائل، آنها را به یادگیری نظارت شده (یادگیری با معلم) و یادگیری بدون نظارت (یادگیری بدون معلم) تقسیم می کنند.

    وظیفه طبقه بندی و رگرسیون به تعیین مقدار متغیر وابسته یک شی از متغیرهای مستقل آن خلاصه می شود. اگر متغیر وابسته مقادیر عددی را دریافت کند، ما در مورد یک مشکل رگرسیون صحبت می کنیم، در غیر این صورت - در مورد یک مشکل طبقه بندی.

    هنگام جستجوی قوانین ارتباط، هدف یافتن وابستگی‌ها (یا تداعی‌های) مکرر بین اشیا یا رویدادها است. وابستگی های یافت شده در قالب قوانین ارائه می شوند و می توانند هم برای درک بهتر ماهیت داده های تحلیل شده و هم برای پیش بینی رویدادها استفاده شوند.

    وظیفه خوشه بندی جستجوی گروه های مستقل (خوشه ها) و ویژگی های آنها در کل مجموعه داده های تحلیل شده است. حل این مشکل به درک بهتر داده ها کمک می کند. علاوه بر این، گروه بندی اشیاء همگن باعث کاهش تعداد آنها و در نتیجه تسهیل تجزیه و تحلیل می شود.

    روش های داده کاوی در تقاطع قرار دارند جهت های مختلففناوری اطلاعات: آمار، شبکه های عصبیمجموعه های فازی، الگوریتم های ژنتیک و غیره

    تجزیه و تحلیل هوشمند شامل مراحل زیر است: درک و فرمول بندی مسئله تجزیه و تحلیل، آماده سازی داده ها برای تجزیه و تحلیل خودکار، به کارگیری روش های داده کاوی و ساخت مدل ها، بررسی مدل های ساخته شده و تفسیر مدل ها توسط انسان.

    قبل از اعمال تکنیک های داده کاوی، داده های منبع باید تبدیل شوند. نوع تبدیل بستگی به روش های مورد استفاده دارد.

    روش های داده کاوی را می توان به طور موثر در زمینه های مختلف فعالیت های انسانی مورد استفاده قرار داد: تجارت، پزشکی، علم، مخابرات و غیره.

3. تجزیه و تحلیل اطلاعات متنی - متن کاوی

تجزیه و تحلیل اطلاعات ساختاریافته ذخیره شده در پایگاه‌های اطلاعاتی نیازمند پردازش اولیه است: طراحی پایگاه داده، وارد کردن اطلاعات بر اساس قوانین خاص، قرار دادن آن در ساختارهای خاص (مثلاً جداول رابطه‌ای) نیاز به تلاش اضافی دارد. با این حال، آنها همیشه به تجزیه و تحلیل مرتبط نیستند و لزوماً به نتیجه مطلوب نمی رسند. به همین دلیل، کارایی تجزیه و تحلیل اطلاعات ساختاریافته کاهش می یابد. علاوه بر این، همه انواع داده ها را نمی توان بدون از دست دادن اطلاعات مفید ساختار داد. برای مثال، تبدیل اسناد متنی به یک نمایش جدولی بدون از دست دادن معنای متن و روابط بین موجودیت ها، تقریبا غیرممکن است. به همین دلیل، چنین اسنادی مانند فیلدهای متنی (فیلدهای BLOB) بدون تغییر در پایگاه داده ذخیره می شوند. در عین حال، حجم عظیمی از اطلاعات در متن پنهان است، اما ماهیت بدون ساختار آن اجازه استفاده از الگوریتم های داده کاوی را نمی دهد. روش های تحلیل متن بدون ساختار این مشکل را حل می کند. در ادبیات غرب به چنین تحلیلی، متن کاوی می گویند.

روش های تحلیل در متون بدون ساختار در تقاطع چندین حوزه قرار دارند: داده کاوی، پردازش زبان طبیعی، بازیابی اطلاعات، استخراج اطلاعات و مدیریت دانش.

تعریف متن کاوی: کشف دانش متنی فرآیند غیر پیش پا افتاده کشف الگوهای واقعا جدید، بالقوه مفید و قابل درک در داده های متنی بدون ساختار است.

همانطور که می بینید، تنها در مفهوم جدید "داده های متنی بدون ساختار" با تعریف داده کاوی متفاوت است. چنین دانشی به عنوان مجموعه ای از اسناد درک می شود که یک متن منطقی یکپارچه را بدون هیچ گونه محدودیتی در ساختار آن نشان می دهد. نمونه هایی از این اسناد عبارتند از: صفحات وب، ایمیل، اسناد نظارتی و غیره. به طور کلی، چنین اسنادی می توانند پیچیده و بزرگ باشند و نه تنها متن، بلکه اطلاعات گرافیکی را نیز شامل شوند. اسنادی که از XML (زبان نشانه گذاری توسعه پذیر)، SGML (زبان نشانه گذاری تعمیم یافته استاندارد) و سایر قراردادهای ساختار متن مشابه استفاده می کنند، اسناد نیمه ساختاریافته نامیده می شوند. آنها همچنین می توانند با استفاده از روش های Text Mining پردازش شوند.

فرآیند تحلیل اسناد متنیرا می توان به صورت دنباله ای از چندین مرحله نشان داد

    جستجوی اطلاعات اولین قدم این است که شناسایی کنید کدام اسناد باید تجزیه و تحلیل شوند و از در دسترس بودن آنها اطمینان حاصل کنید. به عنوان یک قاعده، کاربران می توانند مجموعه اسنادی را که قرار است به طور مستقل تجزیه و تحلیل شوند - به صورت دستی تعیین کنند، اما با تعداد زیادی اسناد، لازم است از گزینه های انتخاب خودکار با توجه به معیارهای مشخص شده استفاده شود.

    مقدماتی پردازش سند. در این مرحله، تبدیل‌های ساده اما ضروری بر روی اسناد انجام می‌شود تا آنها را به شکلی نشان دهند که روش‌های متن کاوی با آن کار می‌کنند. هدف از این گونه دگرگونی ها حذف کلمات غیر ضروری و دادن فرم سخت گیرانه تر به متن است. روشهای پیش پردازش با جزئیات بیشتر در بخش توضیح داده خواهد شد.

    استخراج اطلاعات استخراج اطلاعات از اسناد منتخب شامل شناسایی مفاهیم کلیدی در آنها است که در آینده مورد تجزیه و تحلیل قرار خواهد گرفت.

کاربرد روش های متن کاوی. در این مرحله الگوها و روابط موجود در متون استخراج می شوند. این مرحله اصلی ترین مرحله در فرآیند تحلیل متن است و مشکلات عملی در این مرحله حل می شود.

تفسیر نتایج. مرحله نهایی در فرآیند کشف دانش شامل تفسیر یافته ها است. به طور معمول، تفسیر شامل ارائه نتایج به زبان طبیعی یا تجسم آنها به صورت گرافیکی است.

تجسم همچنین می تواند به عنوان یک ابزار تجزیه و تحلیل متن استفاده شود. برای این کار مفاهیم کلیدی استخراج و به صورت گرافیکی ارائه می شوند. این رویکرد به کاربر کمک می کند تا به سرعت موضوعات و مفاهیم اصلی را شناسایی کرده و اهمیت آنها را مشخص کند.

پیش پردازش متن

یکی از مشکلات اصلی تحلیل متن، تعداد زیاد کلمات در یک سند است. اگر هر یک از این کلمات تجزیه و تحلیل شود، زمان جستجو برای دانش جدید به شدت افزایش می یابد و بعید است که نیازهای کاربر را برآورده کند. در عین حال، بدیهی است که همه کلمات در متن حاوی اطلاعات مفیدی نیستند. علاوه بر این، به دلیل انعطاف پذیری زبان های طبیعی، به طور رسمی کلمات مختلف (مترادف و غیره) در واقع به معنای مفاهیم مشابه هستند. بنابراین حذف کلمات غیر اطلاعاتی و همچنین آوردن کلماتی که از نظر معنی نزدیک به یک فرم واحد هستند، زمان تجزیه و تحلیل متن را به میزان قابل توجهی کاهش می دهد. حذف مشکلات توصیف شده در مرحله پیش پردازش متن انجام می شود.

تکنیک های زیر معمولاً برای حذف کلمات غیراطلاعاتی و افزایش سختی متون استفاده می شود:

    حذف کلمات توقف کلمات توقف کلماتی هستند که کمکی هستند و اطلاعات کمی در مورد محتوای سند دارند.

    ساقه یک جستجوی مورفولوژیکی است. این شامل تبدیل هر کلمه به شکل عادی خود است.

    L-gram جایگزینی برای تجزیه مورفولوژیکی و توقف حذف کلمه است. آنها به شما امکان می دهند متن را سخت تر کنید، اما مشکل کاهش تعداد کلمات غیرآموزنده را حل نمی کند.

    تبدیل مورد. این تکنیک شامل تبدیل تمام کاراکترها به حروف بزرگ یا کوچک است.

موثرترین استفاده ترکیبی از این روش ها است.

وظایف متن کاوی

در حال حاضر، بسیاری از مسائل کاربردی در ادبیات شرح داده شده است که با استفاده از تجزیه و تحلیل اسناد متنی قابل حل است. اینها شامل وظایف کلاسیک داده کاوی است: طبقه بندی، خوشه بندی، و وظایف معمولی فقط برای اسناد متنی: حاشیه نویسی خودکار، استخراج مفاهیم کلیدی و غیره.

طبقه بندی یک کار استاندارد در زمینه داده کاوی است. هدف آن تعریف برای هر سند یک یا چند دسته از پیش تعریف شده است که این سند به آن تعلق دارد. یکی از ویژگی‌های مشکل طبقه‌بندی این فرض است که مجموعه اسناد طبقه‌بندی‌شده حاوی «زباله» نیست، یعنی هر یک از اسناد مربوط به یک دسته خاص است.

یک مورد خاص از مشکل طبقه بندی، مشکل تعیین موضوع یک سند است.

هدف از خوشه‌بندی اسناد، شناسایی خودکار گروه‌هایی از اسناد مشابه معنایی در میان یک مجموعه ثابت معین است. توجه داشته باشید که گروه ها فقط بر اساس شباهت زوجی توضیحات اسناد تشکیل می شوند و هیچ ویژگی این گروه ها از قبل مشخص نشده است.

حاشیه نویسی خودکار (خلاصه سازی) به شما امکان می دهد متن را با حفظ معنای آن کوتاه کنید. راه حل این مشکل معمولا توسط کاربر با تعیین تعداد جملاتی که باید استخراج شود یا درصد متن استخراج شده نسبت به کل متن کنترل می شود. نتیجه شامل مهمترین جملات در متن است.

هدف اصلی استخراج ویژگی، شناسایی حقایق و روابط در متن است. در بیشتر موارد، این مفاهیم اسامی و اسامی مشترک هستند: نام و نام خانوادگی افراد، نام سازمان ها و غیره. الگوریتم های استخراج مفهوم می توانند از فرهنگ لغت برای شناسایی برخی اصطلاحات و الگوهای زبانی برای تعریف برخی دیگر استفاده کنند.

پیمایش مبتنی بر متن به کاربران امکان می دهد اسناد را بر اساس موضوعات و اصطلاحات مرتبط پیمایش کنند. این کار با شناسایی مفاهیم کلیدی و برخی روابط بین آنها انجام می شود.

تجزیه و تحلیل روند به شما امکان می دهد روندها را در مجموعه اسناد در یک دوره زمانی مشخص شناسایی کنید. برای مثال می توان از یک روند برای تشخیص تغییرات در منافع یک شرکت از یک بخش بازار به بخش دیگر استفاده کرد.

جستجوی انجمن ها نیز یکی از وظایف اصلی داده کاوی است. برای حل آن، روابط انجمنی بین مفاهیم کلیدی در مجموعه ای از اسناد مشخص می شود.

تعداد بسیار زیادی از انواع مشکلات ذکر شده و همچنین روش هایی برای حل آنها وجود دارد. این یک بار دیگر اهمیت تحلیل متن را تایید می کند. در ادامه این فصل راه حل هایی برای مشکلات زیر مورد بحث قرار می گیرد: استخراج مفهوم کلیدی، طبقه بندی، خوشه بندی، و حاشیه نویسی خودکار.

طبقه بندی اسناد متنی

طبقه‌بندی اسناد متنی، و همچنین در مورد طبقه‌بندی شی، شامل تخصیص یک سند به یکی از کلاس‌های شناخته شده قبلی است. غالباً طبقه‌بندی در رابطه با اسناد متنی را دسته‌بندی یا روبریکاسیون می‌گویند. بدیهی است که این نام‌ها از وظیفه نظام‌بندی اسناد به فهرست، دسته‌ها و سرفصل‌ها می‌آیند. در این حالت، ساختار دایرکتوری می تواند تک سطحی یا چند سطحی (سلسله مراتبی) باشد.

به طور رسمی، وظیفه طبقه بندی اسناد متنی توسط مجموعه ای از مجموعه ها توصیف می شود.

در مسئله طبقه بندی، لازم است رویه ای بر اساس این داده ها ساخته شود که شامل یافتن محتمل ترین دسته از مجموعه C برای سند مورد مطالعه است.

اغلب روش‌های طبقه‌بندی متن، به هر نحوی بر اساس این فرض است که اسناد متعلق به یک دسته، دارای ویژگی‌های یکسانی (کلمات یا عبارات) هستند، و وجود یا عدم وجود چنین ویژگی‌هایی در یک سند نشان‌دهنده تعلق یا عدم تعلق آن به یک سند است. موضوع خاص

چنین مجموعه ای از ویژگی ها را اغلب فرهنگ لغت می نامند، زیرا از واژگانی تشکیل شده است که شامل کلمات و/یا عباراتی است که مشخصه مقوله است.

لازم به ذکر است که این مجموعه از ویژگی ها ویژگی متمایز طبقه بندی اسناد متنی از طبقه بندی اشیاء در داده کاوی هستند که با مجموعه ای از ویژگی ها مشخص می شوند.

تصمیم به اختصاص سند d به دسته c بر اساس تلاقی ویژگی های مشترک گرفته می شود

وظیفه روش‌های طبقه‌بندی این است که چنین ویژگی‌هایی را به بهترین شکل انتخاب کنند و قوانینی را تدوین کنند که بر اساس آن تصمیم‌گیری در مورد تخصیص یک سند به یک دسته‌بندی گرفته شود.

ابزارهایی برای تجزیه و تحلیل اطلاعات متنی

    Oracle Tools - Oracle Text2

با شروع نسخه 7.3.3 اوراکل، ابزارهای تجزیه و تحلیل متن بخشی جدایی ناپذیر از محصولات اوراکل هستند. در اوراکل، این ابزارها توسعه یافته و نام جدیدی دریافت کرده اند - Oracle Text - یک بسته نرم افزاری ادغام شده در یک DBMS که به شما امکان می دهد به طور موثر با پرس و جوهای مربوط به متون بدون ساختار کار کنید. در این حالت، پردازش متن با قابلیت هایی که برای کار با پایگاه های داده رابطه ای در اختیار کاربر قرار می گیرد، ترکیب می شود. به طور خاص، استفاده از SQL هنگام نوشتن برنامه های پردازش متن امکان پذیر شده است.

وظیفه اصلی که ابزار Oracle Text در جهت حل آن است، وظیفه جستجوی اسناد بر اساس محتوای آنها است - با کلمات یا عبارات، که در صورت لزوم با استفاده از عملیات Boolean ترکیب می شوند. نتایج جستجو بر اساس اهمیت، با در نظر گرفتن فراوانی وقوع کلمات پرس و جو در اسناد یافت شده رتبه بندی می شوند.

    ابزارهای IBM - Intelligent Miner for Text1

محصول IBM Intelligent Miner for Text مجموعه‌ای از ابزارهای کاربردی است که از این شرکت راه‌اندازی شده است خط فرمانیا از فیلمنامه ها مستقل از یکدیگر. این سیستم شامل ترکیبی از برخی ابزارها برای حل مشکلات تجزیه و تحلیل اطلاعات متنی است.

IBM Intelligent Miner for Text مجموعه‌ای از ابزارهای قدرتمند را با هم ترکیب می‌کند که اساساً مبتنی بر مکانیسم‌های بازیابی اطلاعات است که ویژگی کل محصول است. این سیستم شامل تعدادی مؤلفه اساسی است که اهمیت مستقلی فراتر از فناوری متن کاوی دارند:

    ابزارهای موسسه SAS - استخراج متن

مؤسسه آمریکایی SAS سیستم SAS Text Miner را برای مقایسه توالی‌های دستوری و کلامی خاص در گفتار نوشتاری منتشر کرده است. Text Miner بسیار متنوع است زیرا می تواند با اسناد متنی با فرمت های مختلف - در پایگاه داده ها، سیستم های فایل و موارد دیگر در وب کار کند.

Text Miner پردازش متن منطقی را در محیط SAS Enterprise Miner فراهم می کند. این به کاربران اجازه می دهد تا فرآیند تجزیه و تحلیل داده ها را با ادغام اطلاعات متنی بدون ساختار با داده های ساختاری موجود مانند سن، درآمد و الگوهای تقاضای مصرف کننده غنی کنند.

نکات اصلی

    کشف دانش متنی فرآیندی غیر پیش پا افتاده برای کشف الگوهای جدید، بالقوه مفید و قابل درک در داده های متنی بدون ساختار است.

    فرآیند تجزیه و تحلیل اسناد متنی را می توان به صورت دنباله ای از چندین مرحله نشان داد: جستجو برای اطلاعات، پیش پردازش اسناد، استخراج اطلاعات، استفاده از روش های Text Mining، تفسیر نتایج.

    تکنیک‌های زیر معمولاً برای حذف کلمات بی‌اطلاع و افزایش سختی متون استفاده می‌شوند: حذف کلمات توقف، ریشه‌یابی، L-gram، کاهش حروف.

    وظایف تجزیه و تحلیل اطلاعات متن عبارتند از: طبقه بندی، خوشه بندی، حاشیه نویسی خودکار، استخراج مفاهیم کلیدی، ناوبری متن، تجزیه و تحلیل روند، جستجوی انجمن ها و غیره.

    استخراج مفاهیم کلیدی از متون را می توان هم به عنوان یک کار کاربردی جداگانه و هم به عنوان مرحله جداگانه ای از تحلیل متن در نظر گرفت. در مورد دوم، از حقایق استخراج شده از متن برای حل مسائل مختلف تحلیل استفاده می شود.

    فرآیند استخراج مفاهیم کلیدی با استفاده از الگوها در دو مرحله انجام می شود: در مرحله اول، حقایق فردی با استفاده از تحلیل واژگانی از اسناد متنی استخراج می شوند، در مرحله دوم، ادغام واقعیت های استخراج شده و/یا استخراج حقایق جدید انجام می شود. انجام شد.

    اغلب روش‌های طبقه‌بندی متن، به هر نحوی بر اساس این فرض است که اسناد متعلق به یک دسته، دارای ویژگی‌های یکسانی (کلمات یا عبارات) هستند، و وجود یا عدم وجود چنین ویژگی‌هایی در یک سند نشان‌دهنده تعلق یا عدم تعلق آن به یک سند است. موضوع خاص

    بیشتر الگوریتم‌های خوشه‌بندی نیاز به نمایش داده‌ها در یک مدل فضای برداری دارند، که به طور گسترده برای بازیابی اطلاعات استفاده می‌شود و از استعاره برای منعکس کردن شباهت معنایی به عنوان مجاورت فضایی استفاده می‌کند.

    دو رویکرد اصلی برای حاشیه نویسی خودکار اسناد متنی وجود دارد: استخراج (انتخاب مهمترین قطعات) و تعمیم (با استفاده از دانش جمع آوری شده قبلی).

نتیجه

داده کاوی یکی از مرتبط ترین و محبوب ترین حوزه های ریاضیات کاربردی است. فرآیندهای تجاری و تولیدی مدرن حجم عظیمی از داده‌ها را تولید می‌کنند و تفسیر و پاسخگویی به مقادیر زیادی از داده‌ها را که به صورت پویا در طول زمان تغییر می‌کنند، برای مردم دشوار می‌کند، چه رسد به جلوگیری از موقعیت‌های بحرانی. "داده کاوی" برای استخراج حداکثر دانش مفید از داده های چند بعدی، ناهمگن، ناقص، نادرست، متناقض، غیر مستقیم. اگر حجم داده ها بر حسب گیگابایت یا حتی ترابایت اندازه گیری شود، به انجام این کار به طور موثر کمک می کند. به ساخت الگوریتم هایی کمک می کند که بتوانند تصمیم گیری در زمینه های مختلف حرفه ای را یاد بگیرند.

ابزارهای داده کاوی با پردازش داده های عملیاتی به اطلاعات قابل اجرا، افراد را در برابر اضافه بار اطلاعات محافظت می کند تا بتوان اقدامات درست را در زمان های مناسب انجام داد.

توسعه های کاربردی در زمینه های زیر انجام می شود: پیش بینی در سیستم های اقتصادی. اتوماسیون تحقیقات بازاریابی و تجزیه و تحلیل محیط های مشتری برای شرکت های تولیدی، تجاری، مخابراتی و اینترنتی؛ اتوماسیون تصمیم گیری اعتباری و ارزیابی ریسک اعتباری؛ نظارت بر بازارهای مالی؛ سیستم های معاملاتی اتوماتیک

کتابشناسی - فهرست کتب

    فن آوری های تجزیه و تحلیل داده ها: داده کاوی. ماینینگ بصری متن کاوی، OLAP" A. A. Barseghyan. M. S. Kupriyanov، V. V. Stenanenko، I. I. Kholod. - ویرایش دوم، تجدید نظر شده. و اضافی

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - مقاله اینترنتی

    http://www.piter.com/contents/978549807257/978549807257_p.pdf -فناوری های تجزیه و تحلیل داده ها

    پایان نامه >> بانکداری

    وام گیرنده با استفاده از خوشه، شفاهی تحلیل و بررسی، عوامل تعدیل و غیره، همچنین ... اعتبار وام گیرنده بر اساس پر فکر تحلیل و بررسیداده کاوی (با ... در مرحله اولیه تحلیل و بررسیبرگزار شد تحلیل و بررسیسرمایه شخصی و ...

  1. تحلیل و بررسیو طبقه بندی بازار مدرن سیستم های اطلاعاتی که اختیاری را پیاده سازی می کنند

    چکیده >> علوم کامپیوتر

    1.3 تمایز نقش 6 2. مقایسه ای تحلیل و بررسی انواع مختلفسیستم 7 سیستم عامل... سیستم ها از جمله: تحلیل و بررسیسیاست های امنیتی و ویژگی های آنها، ... برنامه های کاربردی یا پیاده سازی بیشتر پر فکر تحلیل و بررسیداده ها. بعلاوه...

  2. باهوشتوانایی های کودکان تیزهوش در ارتباط با عملکرد مدرسه

    پایان نامه >> روانشناسی

    رابطه بین عملکرد تحصیلی و ویژگی ها پر فکرتوسعه. بر اساس نظری تحلیل و بررسیمشکل تحقیق... به عقل بدون تحلیل و بررسیساختار روانی آن تعیین کننده برای ارزیابی پر فکرتوانایی هاست...

ورود شما را به پورتال داده کاوی خوش آمد می گوییم - پورتالی منحصر به فرد که به روش های مدرن داده کاوی اختصاص دارد.

فن آوری های داده کاوی ابزار قدرتمندی برای تجزیه و تحلیل کسب و کار مدرن و تحقیقات داده برای شناسایی الگوهای پنهان و ساخت مدل های پیش بینی است. داده کاوی یا استخراج دانش نه بر اساس استدلال گمانه زنی، بلکه بر اساس داده های واقعی است.

برنج. 1. نمودار کاربردی داده کاوی

تعریف مسئله - بیان مسئله: طبقه بندی داده ها، تقسیم بندی، ساخت مدل های پیش بینی، پیش بینی.
جمع آوری و آماده سازی داده ها - جمع آوری و آماده سازی داده ها، تمیز کردن، تأیید، حذف سوابق تکراری.
ساختمان مدل – ساخت مدل، ارزیابی دقت.
گسترش دانش - استفاده از یک مدل برای حل یک مشکل داده شده.

داده کاوی برای اجرای پروژه های تحلیلی در مقیاس بزرگ در تجارت، بازاریابی، اینترنت، مخابرات، صنعت، زمین شناسی، پزشکی، داروسازی و سایر زمینه ها استفاده می شود.

داده کاوی به شما این امکان را می دهد که فرآیند یافتن همبستگی ها و ارتباطات مهم را در نتیجه غربال کردن حجم عظیمی از داده ها با استفاده از روش های تشخیص الگوی مدرن و استفاده از فناوری های تحلیلی منحصر به فرد، از جمله درخت های تصمیم گیری و طبقه بندی، خوشه بندی، روش های شبکه عصبی و دیگران.

کاربری که برای اولین بار فناوری داده کاوی را کشف می کند از فراوانی روش ها و الگوریتم های مؤثری که به او اجازه می دهد رویکردهایی برای حل مسائل دشوار مرتبط با تجزیه و تحلیل حجم زیادی از داده ها پیدا کند شگفت زده می شود.

به طور کلی، داده کاوی را می توان به عنوان یک فناوری طراحی شده برای جستجوی حجم زیادی از داده ها توصیف کرد. غیر آشکار, هدف، واقعگرایانهو عملا مفیدالگوها

داده کاوی بر اساس روش های موثرو الگوریتم های طراحی شده برای تجزیه و تحلیل داده های بدون ساختار با حجم و ابعاد بزرگ.

نکته کلیدی این است که به نظر می رسد داده های با حجم بالا و ابعاد بالا فاقد ساختار و اتصال هستند. هدف فناوری داده کاوی شناسایی این ساختارها و یافتن الگوهایی است که در نگاه اول، هرج و مرج و خودسری حاکم است.

در اینجا یک مثال فعلی از کاربرد داده کاوی در صنعت داروسازی و دارو آورده شده است.

تداخلات دارویی مشکل رو به رشدی است که مراقبت های بهداشتی مدرن با آن مواجه است.

با گذشت زمان، تعداد داروهای تجویز شده (بدون نسخه و انواع مکمل ها) افزایش می یابد و این احتمال را بیشتر می کند که تداخلات دارویی و دارویی وجود داشته باشد که می تواند عوارض جانبی جدی ایجاد کند که پزشکان و بیماران از آن بی اطلاع هستند.

این حوزه به تحقیقات پس از بالینی اشاره دارد، زمانی که دارو قبلاً به بازار عرضه شده است و به شدت مورد استفاده قرار می گیرد.

مطالعات بالینی به ارزیابی اثربخشی یک دارو اشاره دارد، اما تداخلات دارو با سایر داروهای موجود در بازار را در نظر نمی گیرد.

محققان دانشگاه استنفورد در کالیفرنیا پایگاه داده FDA را در مورد عوارض جانبی دارو مورد بررسی قرار دادند و دریافتند که دو داروی رایج - ضد افسردگی پاروکستین و داروی کاهش دهنده کلسترول پراواستاتین - در صورت استفاده با هم خطر ابتلا به دیابت را افزایش می دهند.

یک مطالعه تحلیلی مشابه بر اساس داده های FDA، 47 تداخل نامطلوب ناشناخته قبلی را شناسایی کرد.

این بسیار عالی است، با این هشدار که بسیاری از اثرات منفی که توسط بیماران ذکر شده است، شناسایی نشده باقی می مانند. در این صورت است که جستجوی آنلاین می تواند بهترین عملکرد را داشته باشد.

دوره های آینده داده کاوی در StatSoft Data Analysis Academy در سال 2020

ما مقدمه خود را برای داده کاوی با استفاده از ویدیوهای شگفت انگیز آکادمی علوم داده آغاز می کنیم.

حتما ویدیوهای ما را تماشا کنید و متوجه خواهید شد که داده کاوی چیست!

ویدئو 1. داده کاوی چیست؟


ویدئو 2. بررسی روش های داده کاوی: درخت تصمیم، مدل های پیش بینی تعمیم یافته، خوشه بندی و بسیاری موارد دیگر

جاوا اسکریپت در مرورگر شما غیرفعال است


قبل از شروع یک پروژه تحقیقاتی، باید فرآیندی را برای به دست آوردن داده ها سازماندهی کنیم منابع خارجی، اکنون نشان خواهیم داد که چگونه این کار انجام می شود.

ویدیو شما را با آن آشنا می کند تکنولوژی منحصر به فرد آمارپردازش در محل پایگاه داده و اتصال داده کاوی با داده های واقعی.

ویدئو 3. ترتیب تعامل با پایگاه های داده: رابط گرافیکی برای ساخت پرس و جوهای SQL، فناوری پردازش پایگاه داده در محل

جاوا اسکریپت در مرورگر شما غیرفعال است


اکنون با فناوری های حفاری تعاملی که در انجام تحلیل داده های اکتشافی موثر هستند آشنا می شویم. اصطلاح حفاری خود نشان دهنده ارتباط بین فناوری داده کاوی و اکتشافات زمین شناسی است.

ویدئو 4: حفاری تعاملی: تکنیک های اکتشاف و گرافیکی برای اکتشاف داده های تعاملی

جاوا اسکریپت در مرورگر شما غیرفعال است


اکنون با تجزیه و تحلیل انجمن (قوانین انجمن) آشنا می شویم، این الگوریتم ها به شما امکان می دهند ارتباطاتی را که در داده های واقعی وجود دارند پیدا کنید. نکته کلیدی کارایی الگوریتم ها در حجم زیاد داده است.

نتیجه الگوریتم های تجزیه و تحلیل اتصال، به عنوان مثال، الگوریتم Apriori، یافتن قوانین اتصال برای اشیاء مورد مطالعه با قابلیت اطمینان معین، به عنوان مثال، 80٪ است.

در زمین شناسی، این الگوریتم ها را می توان در تجزیه و تحلیل اکتشافی کانی ها استفاده کرد، به عنوان مثال، چگونگی ارتباط ویژگی A با ویژگی های B و C.

میتونی پیدا کنی نمونه های خاصچنین راه حل هایی با استفاده از پیوندهای ما:

در خرده فروشی، الگوریتم های Apriori یا اصلاحات آنها امکان مطالعه رابطه بین محصولات مختلف را فراهم می کند، به عنوان مثال هنگام فروش عطر (عطر - لاک ناخن - ریمل و ...) یا محصولات مارک های مختلف.

تجزیه و تحلیل جالب ترین بخش ها در سایت نیز می تواند به طور موثر با استفاده از قوانین انجمن انجام شود.

پس ویدیوی بعدی ما را ببینید.

ویدئو 5. قوانین انجمن

جاوا اسکریپت در مرورگر شما غیرفعال است

در اینجا نمونه هایی از استفاده از داده کاوی در زمینه های خاص آورده شده است.

تجارت آنلاین:

  • تجزیه و تحلیل مسیرهای مشتری از بازدید از سایت تا خرید کالا
  • ارزیابی کارایی خدمات، تجزیه و تحلیل خرابی های ناشی از کمبود کالا
  • اتصال محصولاتی که برای بازدیدکنندگان جالب است

خرده فروشی: تجزیه و تحلیل اطلاعات مشتری بر اساس کارت های اعتباری، کارت های تخفیف و غیره.

وظایف خرده فروشی معمولی که با ابزارهای داده کاوی حل می شوند:

  • تجزیه و تحلیل سبد خرید;
  • ایجاد مدل های پیش بینیو مدل های طبقه بندی خریداران و کالاهای خریداری شده؛
  • ایجاد پروفایل های مشتری؛
  • CRM، ارزیابی وفاداری مشتریان دسته های مختلف، برنامه ریزی برنامه های وفاداری؛
  • تحقیق سری زمانیو وابستگی زمانی، شناسایی عوامل فصلی، ارزیابی اثربخشی تبلیغاتدر محدوده وسیعی از داده های واقعی

بخش مخابرات فرصت های نامحدودی را برای استفاده از روش های داده کاوی و همچنین فناوری های مدرن کلان داده باز می کند:

  • طبقه بندی مشتریان بر اساس ویژگی های کلیدی تماس ها (فرکانس، مدت زمان و غیره)، فرکانس پیامک;
  • شناسایی وفاداری مشتری;
  • کشف تقلب و غیره

بیمه:

  • تحلیل ریسک. با شناسایی ترکیبی از عوامل مرتبط با خسارت های پرداخت شده، بیمه گذاران می توانند زیان های بدهی خود را کاهش دهند. موردی وجود دارد که یک شرکت بیمه متوجه شده است که مبالغ پرداختی بابت مطالبات افراد متاهل دو برابر بیشتر از مبالغ پرداختی بابت مطالبات افراد مجرد بوده است. این شرکت با تجدید نظر در سیاست تخفیف خود برای مشتریان خانوادگی به این امر پاسخ داد.
  • تشخیص تقلب. شرکت های بیمه می توانند با جستجوی الگوهای خاصی در دعاوی که مشخصه روابط بین وکلا، پزشکان و مدعیان هستند، تقلب را کاهش دهند.

کاربرد عملی داده کاوی و حل مشکلات خاص در ویدیوی بعدی ما ارائه شده است.

وبینار 1. وبینار "وظایف عملی داده کاوی: مشکلات و راه حل ها"

جاوا اسکریپت در مرورگر شما غیرفعال است

وبینار 2. وبینار "داده کاوی و متن کاوی: نمونه هایی از حل مشکلات واقعی"

جاوا اسکریپت در مرورگر شما غیرفعال است


در دوره های StatSoft می توانید دانش عمیق تری از روش و فناوری داده کاوی کسب کنید.

داده کاوی چیست؟

پایگاه داده شرکتی هر شرکت مدرن معمولاً شامل مجموعه ای از جداول است که سوابق مربوط به حقایق یا اشیاء خاص را ذخیره می کند (مثلاً در مورد کالاها، فروش آنها، مشتریان، حساب ها). به عنوان یک قاعده، هر ورودی در چنین جدولی یک شی یا واقعیت خاص را توصیف می کند. به عنوان مثال، یک ورودی در جدول فروش نشان دهنده این واقعیت است که فلان کالا در آن زمان توسط فلان مدیر به فلان مشتری فروخته شده است و به طور کلی چیزی غیر از این اطلاعات را شامل نمی شود. با این حال، مجموعه تعداد زیادی از چنین رکوردهایی که در طی چندین سال انباشته شده است، می تواند منبع اطلاعات اضافی و بسیار ارزشمندتری باشد که نمی توان بر اساس یک رکورد خاص، یعنی اطلاعاتی در مورد الگوها، روندها یا وابستگی های متقابل بین آنها به دست آورد. هر داده نمونه هایی از چنین اطلاعاتی اطلاعاتی در مورد اینکه چگونه فروش یک محصول خاص به روز هفته، زمان روز یا زمان سال بستگی دارد، کدام دسته از مشتریان اغلب این یا آن محصول را خریداری می کنند، چه نسبتی از خریداران یک محصول خاص را خریداری می کنند. محصول خاص دیگری که کدام دسته از مشتریان اغلب وام ارائه شده را به موقع بازپرداخت نمی کنند.

این نوع اطلاعات معمولاً در پیش بینی، برنامه ریزی استراتژیک، تحلیل ریسک استفاده می شود و ارزش آن برای شرکت بسیار بالاست. ظاهراً به همین دلیل است که فرآیند جستجو برای آن داده کاوی نامیده می شود (کاوش در انگلیسی به معنای "کاوش" است و جستجوی الگوها در مجموعه عظیمی از داده های واقعی واقعاً شبیه به این است). اصطلاح داده کاوی نه چندان به یک فناوری خاص اشاره می کند، بلکه به فرآیند جستجوی همبستگی ها، روندها، روابط و الگوها از طریق الگوریتم های مختلف ریاضی و آماری اشاره می کند: خوشه بندی، ایجاد نمونه های فرعی، تحلیل رگرسیون و همبستگی. هدف از این جستجو ارائه داده ها به شکلی است که به وضوح فرآیندهای کسب و کار را منعکس کند و همچنین ایجاد مدلی است که با آن می توانید فرآیندهایی را که برای برنامه ریزی تجاری حیاتی هستند (به عنوان مثال، پویایی تقاضا برای کالاها یا خدمات خاص) پیش بینی کنید. یا وابستگی کسب آنها به برخی از ویژگی های مصرف کننده).

توجه داشته باشید که آمار ریاضی سنتی، که برای مدت طولانی ابزار اصلی برای تجزیه و تحلیل داده ها باقی مانده است، و همچنین ابزارهایی برای پردازش تحلیلی آنلاین (OLAP)، که قبلاً چندین بار در مورد آن نوشته ایم (مواد مربوط به این موضوع را در سی دی ما ببینید). همیشه نمی توان با موفقیت برای حل چنین مشکلاتی استفاده کرد. به طور معمول، روش های آماری و OLAP برای آزمون فرضیه های از پیش تدوین شده استفاده می شود. با این حال، اغلب در هنگام اجرای تجزیه و تحلیل کسب و کار برای تصمیم گیری های بعدی، این فرمول بندی یک فرضیه دشوارترین کار است، زیرا همه الگوهای موجود در داده ها در نگاه اول واضح نیستند.

مبانی فن آوری پیشرفتهداده کاوی مبتنی بر مفهوم الگوهایی است که الگوهای ذاتی در نمونه های فرعی داده ها را منعکس می کند. جستجوی الگوها با استفاده از روش‌هایی انجام می‌شود که از هیچ فرضیه پیشینی در مورد این نمونه‌های فرعی استفاده نمی‌کنند. در حالی که تجزیه و تحلیل آماری یا OLAP معمولاً سؤالاتی مانند "تعداد متوسط ​​فاکتورهای پرداخت نشده در بین مشتریان برای این سرویس چقدر است؟" ، داده کاوی معمولاً شامل پاسخ دادن به سؤالاتی مانند "آیا یک دسته معمولی از مشتریانی است که پرداخت نمی کنند؟" در عین حال، این پاسخ به سوال دوم است که اغلب رویکرد غیر پیش پا افتاده تری برای سیاست بازاریابی و سازماندهی کار با مشتریان ارائه می دهد.

یکی از ویژگی های مهم داده کاوی، ماهیت غیر استاندارد و غیر آشکار الگوهای مورد جستجو است. به عبارت دیگر، ابزارهای داده کاوی با ابزارهای پردازش داده های آماری و ابزارهای OLAP تفاوت دارند زیرا به جای بررسی وابستگی های متقابل از پیش فرض شده توسط کاربران، قادرند چنین وابستگی های متقابلی را به طور مستقل بر اساس داده های موجود پیدا کنند و فرضیه هایی در مورد ماهیت آنها بسازند.

لازم به ذکر است که استفاده از ابزارهای داده کاوی استفاده از ابزارهای آماری و ابزارهای OLAP را مستثنی نمی کند، زیرا نتایج پردازش داده ها با استفاده از دومی، به عنوان یک قاعده، به درک بهتر ماهیت الگوهایی کمک می کند که باید جستجو شود

منبع داده برای داده کاوی

استفاده از داده کاوی در صورتی توجیه می شود که حجم کافی داده وجود داشته باشد، که به طور ایده آل در یک انبار داده به درستی طراحی شده باشد (در واقع، خود انبارهای داده معمولاً برای حل مشکلات تحلیل و پیش بینی مرتبط با پشتیبانی تصمیم ایجاد می شوند). همچنین بارها در مورد اصول ساخت انبارهای داده نوشته ایم. مطالب مربوطه را می توان در سی دی ما یافت، بنابراین ما به این موضوع نمی پردازیم. فقط به یاد بیاوریم که داده‌های موجود در انبار مجموعه‌ای پر شده است که برای کل شرکت مشترک است و به فرد اجازه می‌دهد تصویری از فعالیت‌های خود را در هر مقطع زمانی بازیابی کند. همچنین توجه داشته باشید که ساختار داده های ذخیره سازی به گونه ای طراحی شده است که پرس و جوهای مربوط به آن تا حد امکان کارآمدتر انجام شود. با این حال، ابزارهای داده کاوی وجود دارند که می توانند الگوها، همبستگی ها و روندها را نه تنها در انبارهای داده، بلکه در مکعب های OLAP، یعنی در مجموعه داده های آماری از پیش پردازش شده، جستجو کنند.

انواع الگوهای شناسایی شده با روش های داده کاوی

با توجه به V.A Duke، پنج نوع استاندارد از الگوهای شناسایی شده توسط روش های داده کاوی وجود دارد:

ارتباط - احتمال زیاد مرتبط شدن رویدادها با یکدیگر (به عنوان مثال، یک محصول اغلب همراه با محصول دیگر خریداری می شود).

توالی - احتمال بالای زنجیره ای از رویدادهای مرتبط با زمان (به عنوان مثال، در یک دوره معین پس از خرید یک محصول، دیگری با درجه احتمال بالایی خریداری می شود).

طبقه بندی - نشانه هایی وجود دارد که گروهی را که این یا آن رویداد یا شی متعلق به آن است مشخص می کند (معمولاً بر اساس تجزیه و تحلیل رویدادهای طبقه بندی شده قبلی ، قوانین خاصی تدوین می شود).

خوشه بندی الگویی شبیه به طبقه بندی است و با آن تفاوت دارد که خود گروه ها مشخص نیستند - آنها به طور خودکار در طول پردازش داده ها شناسایی می شوند.

الگوهای زمانی - وجود الگوهایی در پویایی رفتار داده های خاص (نمونه معمولی نوسانات فصلی تقاضا برای کالاها یا خدمات خاص) است که برای پیش بینی استفاده می شود.

روش های داده کاوی

امروزه تعداد بسیار زیادی روش داده کاوی مختلف وجود دارد. بر اساس طبقه بندی فوق پیشنهاد شده توسط V.A.

تجزیه و تحلیل رگرسیون، واریانس و همبستگی (که در اکثر بسته های آماری مدرن، به ویژه در محصولات موسسه SAS، StatSoft و غیره اجرا می شود).

روش‌های تحلیل در یک حوزه موضوعی خاص، بر اساس مدل‌های تجربی (که اغلب برای مثال در ابزارهای تحلیل مالی ارزان استفاده می‌شوند).

الگوریتم های شبکه عصبی، ایده ای که مبتنی بر قیاس با عملکرد بافت عصبی است و در این واقعیت نهفته است که پارامترهای اولیه به عنوان سیگنال هایی در نظر گرفته می شوند که مطابق با اتصالات موجود بین "نرون ها" و پاسخ کل شبکه به پاسخ های اولیه به عنوان پاسخ حاصل از داده های تجزیه و تحلیل در نظر گرفته می شود. در این مورد، اتصالات با استفاده از به اصطلاح آموزش شبکه از طریق حجم نمونه بزرگ شامل داده های اولیه و پاسخ های صحیح ایجاد می شود.

الگوریتم ها - انتخاب یک آنالوگ نزدیک از داده های اصلی از داده های تاریخی موجود. روش "نزدیکترین همسایه" نیز نامیده می شود.

درختان تصمیم - ساختار سلسله مراتبی، بر اساس مجموعه ای از سوالات که نیاز به پاسخ "بله" یا "خیر" دارند. با اينكه این روشپردازش داده ها همیشه الگوهای موجود را به طور کامل پیدا نمی کند، به دلیل وضوح پاسخ دریافتی، اغلب در سیستم های پیش بینی استفاده می شود.

مدل‌های خوشه‌ای (گاهی اوقات مدل‌های تقسیم‌بندی نیز نامیده می‌شوند) برای گروه‌بندی رویدادهای مشابه بر اساس مقادیر مشابه چندین فیلد در یک مجموعه داده استفاده می‌شوند. همچنین هنگام ایجاد سیستم های پیش بینی بسیار محبوب است.

الگوریتم‌های جستجوی محدود که فرکانس‌های ترکیبی از رویدادهای منطقی ساده را در زیر گروه‌های داده محاسبه می‌کنند.

برنامه نویسی تکاملی - جستجو و تولید الگوریتمی که وابستگی متقابل داده ها را بیان می کند، بر اساس یک الگوریتم مشخص شده اولیه که در طول فرآیند جستجو اصلاح شده است. گاهی اوقات جستجو برای وابستگی های متقابل بین انواع خاصی از توابع (به عنوان مثال، چند جمله ای ها) انجام می شود.

اطلاعات بیشتر در مورد این الگوریتم‌ها و سایر الگوریتم‌های داده کاوی و همچنین ابزارهایی که آنها را پیاده‌سازی می‌کنند، می‌توانید در کتاب «داده کاوی: دوره آموزشی» اثر V.A Duke و A.P. Samoilenko که توسط انتشارات پیتر در سال 2001 منتشر شد، بخوانید. امروزه این یکی از معدود کتاب هایی به زبان روسی است که به این مشکل اختصاص یافته است.

تولید کنندگان پیشرو ابزارهای داده کاوی

ابزارهای داده کاوی، مانند اکثر ابزارهای هوش تجاری، به طور سنتی ابزارهای نرم افزاری گران قیمتی هستند - برخی از آنها تا چند ده هزار دلار قیمت دارند. بنابراین تا همین اواخر مصرف کنندگان اصلی این فناوری بانک ها، شرکت های مالی و بیمه، بنگاه های تجاری بزرگ بودند و عمده ترین وظایفی که نیازمند استفاده از داده کاوی بود، ارزیابی ریسک های اعتباری و بیمه ای و تدوین سیاست های بازاریابی در نظر گرفته می شد. ، طرح های تعرفه ایو سایر اصول کار با مشتریان در سال‌های اخیر، وضعیت دستخوش تغییرات خاصی شده است: ابزارهای داده کاوی نسبتاً ارزان از چندین تولیدکننده در بازار نرم‌افزار ظاهر شده‌اند، که این فناوری را برای مشاغل کوچک و متوسط ​​که قبلاً به آن فکر نکرده بودند، قابل دسترس کرده است.

به وسایل مدرنهوش تجاری شامل تولیدکننده‌های گزارش، ابزارهای پردازش داده‌های تحلیلی، ابزارهای توسعه راه‌حل BI (BI Platforms) و به اصطلاح Enterprise BI Suites - تجزیه و تحلیل داده‌ها در مقیاس سازمانی و ابزارهای پردازش است که به شما امکان می‌دهد مجموعه‌ای از اقدامات مربوط به تجزیه و تحلیل داده‌ها را انجام دهید. و ایجاد گزارش، و اغلب شامل مجموعه ای یکپارچه از ابزارهای BI و ابزارهای توسعه برنامه کاربردی BI است. دومی، به عنوان یک قاعده، شامل ابزارهای گزارش، ابزارهای OLAP و اغلب ابزارهای داده کاوی است.

به گفته تحلیلگران گروه گارتنر، رهبران بازار ابزارهای تجزیه و تحلیل داده در مقیاس سازمانی، Business Objects، Cognos، Information Builders هستند و مایکروسافت و اوراکل نیز مدعی رهبری هستند (شکل 1). در مورد ابزارهای توسعه راه حل های BI، رقبای اصلی برای رهبری در این زمینه مایکروسافت و موسسه SAS هستند (شکل 2).

توجه داشته باشید که ابزارهای هوش تجاری مایکروسافت محصولات نسبتاً ارزانی هستند که در دسترس طیف گسترده ای از شرکت ها هستند. به همین دلیل است که در قسمت‌های بعدی این مقاله قصد داریم برخی از جنبه‌های کاربردی استفاده از داده کاوی را با استفاده از نمونه محصولات این شرکت بررسی کنیم.

ادبیات:

1. Duke V.A. داده کاوی - داده کاوی. - http://www.olap.ru/basic/dm2.asp.

2. Duke V.A., Samoilenko A.P. داده کاوی: دوره آموزشی. - سن پترزبورگ: پیتر، 2001.

3. بی دی ویل. داده کاوی مایکروسافت مطبوعات دیجیتال، 2001.

سیستم های OLAP ابزاری برای آزمایش فرضیه ها در هنگام تجزیه و تحلیل داده ها در اختیار تحلیلگر قرار می دهند، یعنی وظیفه اصلی تحلیلگر ایجاد فرضیه هایی است که بر اساس دانش و تجربه خود آنها را حل می کند داده های انباشته ای که تجزیه و تحلیل می شود. چنین دانشی در حجم عظیمی از اطلاعات موجود است که شخص نمی تواند به تنهایی در مورد آنها تحقیق کند. به همین دلیل، خطر از دست دادن فرضیه هایی وجود دارد که می توانند مزایای قابل توجهی داشته باشند.

برای شناسایی دانش "پنهان" از روش های ویژه ای برای تجزیه و تحلیل خودکار استفاده می شود که با کمک آنها لازم است دانش را از "انسداد" اطلاعات استخراج کنیم. اصطلاح «داده کاوی» یا «داده کاوی» به این حوزه اختصاص داده شده است.

تعاریف زیادی از DataMining وجود دارد که مکمل یکدیگر هستند. در اینجا به برخی از آنها اشاره می کنیم.

داده کاوی فرآیند کشف الگوهای غیر پیش پا افتاده و عملا مفید در پایگاه های داده است. (BaseGroup)

داده کاوی فرآیند استخراج، کاوش و مدل سازی حجم زیادی از داده ها برای کشف الگوهای (الگوهای) ناشناخته قبلی به منظور دستیابی به مزیت های تجاری است (موسسه SAS)

داده کاوی فرآیندی است که هدف آن کشف همبستگی ها، الگوها و روندهای مهم جدید با غربال کردن مقادیر زیادی از داده های ذخیره شده با استفاده از تکنیک های تشخیص الگو به همراه استفاده از تکنیک های آماری و ریاضی (GartnerGroup) است.

داده کاوی تحقیق و کشف دانش پنهان در داده های خام توسط یک «ماشین» (الگوریتم ها، ابزارهای هوش مصنوعی) است.قبلا ناشناخته، غیر پیش پا افتاده، عملا مفید، قابل دسترسی برای تفسیر بودندتوسط انسان (A. Bargesyan "تکنولوژی های تجزیه و تحلیل داده ها")

Data Mining فرآیند کشف دانش مفید در مورد تجارت است (N.M. Abdikeev "KBA")

خواص دانش کشف شده

بیایید ویژگی های دانش کشف شده را در نظر بگیریم.

  • دانش باید جدید، قبلا ناشناخته باشد. تلاش صرف شده برای کشف دانشی که قبلاً برای کاربر شناخته شده است نتیجه نمی دهد. بنابراین، دانش جدید و ناشناخته قبلی است که ارزشمند است.
  • دانش باید بی اهمیت باشد. نتایج تجزیه و تحلیل باید منعکس کننده غیر واضح و غیرمنتظره باشدالگوهایی در داده ها که به اصطلاح دانش پنهان را تشکیل می دهند. نتایجی که می شد بیشتر به دست آورد به روش های ساده(به عنوان مثال، بازرسی بصری) استفاده از روش های قدرتمند DataMining را توجیه نمی کند.
  • دانش باید عملا مفید باشد. دانش یافت شده باید قابل اجرا باشد، از جمله بر روی داده های جدید، با درجه بالایی از قابلیت اطمینان. سودمندی در این واقعیت نهفته است که این دانش در صورت استفاده می تواند مزایای خاصی را به همراه داشته باشد.
  • دانش باید برای فهم بشر قابل دسترس باشد. الگوهای یافت شده باید از نظر منطقی قابل توضیح باشند، در غیر این صورت احتمال تصادفی بودن آنها وجود دارد. علاوه بر این، دانش کشف شده باید به شکلی ارائه شود که برای انسان قابل درک باشد.

در DataMining از مدل ها برای نشان دادن دانش به دست آمده استفاده می شود. انواع مدل ها به روش های مورد استفاده برای ایجاد آنها بستگی دارد. رایج ترین آنها عبارتند از: قوانین، درخت تصمیم، خوشه ها و توابع ریاضی.

وظایف داده کاوی

به یاد بیاوریم که فناوری DataMining بر اساس مفهوم الگوها است که الگو هستند. در نتیجه کشف این الگوها، پنهان از چشم غیر مسلح، مشکلات DataMining حل می شود. انواع مختلفی از الگوها که می توانند به شکلی قابل خواندن توسط انسان بیان شوند، با وظایف خاص DataMining مطابقت دارند.

هیچ اتفاق نظری در مورد اینکه کدام وظایف باید به عنوان DataMining طبقه بندی شوند وجود ندارد. اکثر منابع معتبر موارد زیر را فهرست می کنند: طبقه بندی،

خوشه بندی، پیش بینی، تداعی، تجسم، تجزیه و تحلیل و کشف

انحرافات، ارزیابی، تجزیه و تحلیل ارتباطات، جمع بندی.

هدف از توضیحاتی که در ادامه می‌آید ارائه یک ایده کلی از مشکلات داده‌کاوی، مقایسه برخی از آنها و همچنین ارائه روش‌هایی برای حل این مشکلات است. رایج ترین وظایف داده کاوی طبقه بندی، خوشه بندی، تداعی، پیش بینی و تجسم است. بنابراین، وظایف بر اساس نوع اطلاعات تولید شده تقسیم می شوند، این کلی ترین طبقه بندی وظایف داده کاوی است.

طبقه بندی

مشکل تقسیم مجموعه ای از اشیا یا مشاهدات به پیشینی گروه های مشخص شده، کلاس هایی نامیده می شود که در هر یک از آنها شبیه به یکدیگر فرض می شود که دارای خواص و ویژگی های تقریباً یکسانی هستند. در این صورت راه حل بر اساس به دست می آیدتحلیل و بررسی مقادیر ویژگی ها (ویژگی ها).

طبقه بندی یکی از مهمترین وظایف استداده کاوی . در استفاده می شودبازار یابی هنگام ارزیابی اعتبار وام گیرندگان، تعیینوفاداری مشتری، الگو شناسی ، تشخیص پزشکی و بسیاری از کاربردهای دیگر. اگر تحلیلگر خصوصیات اشیاء هر کلاس را بداند، آنگاه هنگامی که یک مشاهده جدید به یک کلاس خاص تعلق دارد، این ویژگی ها به طور خودکار به آن تعمیم داده می شود.

اگر تعداد کلاس ها به دو کلاس محدود شود، پسطبقه بندی باینری ، که بسیاری از مشکلات پیچیده تر را می توان به آن کاهش داد. به عنوان مثال، به جای تعریف چنین درجاتی از ریسک اعتباری به عنوان "بالا"، "متوسط" یا "کم"، می توانید فقط از دو مورد استفاده کنید - "Issue" یا "Refuse".

DataMining از مدل های مختلفی برای طبقه بندی استفاده می کند:شبکه های عصبی، درخت تصمیم ماشین‌های بردار پشتیبان، روش k-نزدیک‌ترین همسایه، الگوریتم‌های پوششی و غیره که در ساخت آن‌ها از یادگیری نظارت شده استفاده می‌شود.متغیر خروجی(برچسب کلاس ) برای هر مشاهده مشخص شده است. به طور رسمی، طبقه بندی بر اساس پارتیشن انجام می شودفضاهای ویژه به مناطق، در هر یک از آنهابردارهای چند بعدی یکسان در نظر گرفته می شوند. به عبارت دیگر، اگر یک شی به ناحیه ای از فضای مرتبط با کلاس خاصی بیفتد، متعلق به آن است.

خوشه بندی

توضیح کوتاه. خوشه بندی ادامه منطقی این ایده است

طبقه بندی ها این یک کار پیچیده تر است. ویژگی خوشه بندی این است که کلاس های شی در ابتدا از پیش تعریف نشده اند. نتیجه خوشه بندی، تقسیم اشیا به گروه هاست.

نمونه ای از روشی برای حل مشکل خوشه بندی: آموزش "بدون نظارت" نوع خاصی از شبکه های عصبی - نقشه های کوهونن خودسازماندهی.

انجمن ها

توضیح کوتاه. هنگام حل مشکل جستجوی قوانین ارتباط، الگوهایی بین رویدادهای مرتبط در یک مجموعه داده پیدا می شود.

تفاوت بین تداعی و دو وظیفه قبلی DataMining: جستجوی الگوها نه بر اساس ویژگی های شی مورد تجزیه و تحلیل، بلکه بین چندین رویداد که به طور همزمان رخ می دهند انجام می شود. شناخته شده ترین الگوریتم برای حل مسئله یافتن قوانین ارتباط الگوریتم Apriori است.

توالی یا پیوند متوالی

توضیح کوتاه. Sequence به شما امکان می دهد الگوهای زمانی بین تراکنش ها را پیدا کنید. وظیفه توالی شبیه به تداعی است، اما هدف آن ایجاد الگوهایی نه بین رویدادهایی که به طور همزمان رخ می دهند، بلکه بین رویدادهای مرتبط با زمان (یعنی رخ دادن در یک بازه زمانی خاص) است. به عبارت دیگر، یک توالی با احتمال بالای زنجیره ای از رویدادهای مرتبط با زمان تعیین می شود. در واقع یک تداعی یک مورد خاص از یک دنباله با تاخیر زمانی صفر است. به این وظیفه DataMining، کار جستجوی الگوی متوالی نیز گفته می شود.

قانون توالی: پس از رویداد X، رویداد Y پس از زمان معینی رخ خواهد داد.

مثال. ساکنان پس از خرید یک آپارتمان در 60 درصد موارد ظرف دو هفته یخچال و در 50 درصد موارد ظرف دو ماه تلویزیون خریداری می کنند. راه حل این مشکل به طور گسترده در بازاریابی و مدیریت استفاده می شود، به عنوان مثال، در مدیریت چرخه عمر مشتری.

رگرسیون، پیش بینی (پیش بینی)

توضیح کوتاه. در نتیجه حل مشکل پیش‌بینی، مقادیر گمشده یا آتی شاخص‌های عددی هدف بر اساس ویژگی‌های داده‌های تاریخی برآورد می‌شوند.

برای حل چنین مسائلی از روش های آمار ریاضی، شبکه های عصبی و ... استفاده گسترده ای می شود.

وظایف اضافی

تشخیص انحراف، تحلیل واریانس یا پرت

توضیح کوتاه. هدف از حل این مشکل شناسایی و تجزیه و تحلیل داده هایی است که بیشترین تفاوت را با مجموعه کلی داده ها دارند و به اصطلاح الگوهای غیر مشخصه را شناسایی می کنند.

برآورد کردن

کار تخمین به پیش بینی مقادیر پیوسته یک ویژگی خلاصه می شود.

تجزیه و تحلیل لینک

وظیفه یافتن وابستگی ها در یک مجموعه داده.

تجسم (Graph Mining)

در نتیجه تجسم، یک تصویر گرافیکی از داده های تجزیه و تحلیل شده ایجاد می شود. برای حل مشکل تجسم، از روش های گرافیکی برای نشان دادن وجود الگوها در داده ها استفاده می شود.

نمونه ای از تکنیک های تجسم، ارائه داده ها در ابعاد دو بعدی و سه بعدی است.

خلاصه سازی

وظیفه ای که هدف آن توصیف گروه های خاصی از اشیاء از مجموعه داده های تحلیل شده است.

بسیار نزدیک به طبقه بندی فوق، تقسیم وظایف DataMining به موارد زیر است: تحقیق و کشف، پیش بینی و طبقه بندی، توضیح و توصیف.

کاوش و کشف خودکار (جستجوی رایگان)

کار مثال: کشف بخش های جدید بازار.

برای حل این دسته از مسائل از روش های تحلیل خوشه ای استفاده می شود.

پیش بینی و طبقه بندی

مشکل مثال: پیش بینی رشد فروش بر اساس ارزش های جاری.

روش ها: رگرسیون، شبکه های عصبی، الگوریتم ژنتیک، درخت تصمیم.

وظایف طبقه بندی و پیش بینی گروهی از به اصطلاح مدلسازی استقرایی را تشکیل می دهند که منجر به مطالعه شی یا سیستم تجزیه و تحلیل شده می شود. در فرآیند حل این مسائل، یک مدل یا فرضیه کلی بر اساس مجموعه ای از داده ها ایجاد می شود.

توضیح و شرح

مشکل مثال: مشخص کردن مشتریان بر اساس جمعیت شناسی و سابقه خرید.

روش‌ها: درخت‌های تصمیم، سیستم‌های قوانین، قوانین تداعی، تجزیه و تحلیل اتصال.

اگر درآمد مشتری بیش از 50 واحد متعارف و سن او بیش از 30 سال باشد، کلاس مشتری اول است.

مقایسه خوشه بندی و طبقه بندی

مشخصه

طبقه بندی

خوشه بندی

کنترل پذیری آموزش

کنترل شده است

غیر قابل کنترل

استراتژی ها

آموزش تدریس خصوصی

یادگیری بدون نظارت

وجود برچسب کلاس

مجموعه آموزشی

همراه با برچسب نشان دهنده

طبقه ای که به آن تعلق دارد

مشاهده

برچسب های کلاس مربی

مجموعه ها ناشناخته هستند

مبنای طبقه بندی

داده های جدید بر اساس مجموعه آموزشی طبقه بندی می شوند

داده های زیادی برای این منظور داده شده است

برقراری وجود

کلاس ها یا خوشه های داده

زمینه های کاربرد Data Mining

لازم به ذکر است که امروزه فناوری DataMining بیشترین کاربرد را در حل مشکلات تجاری دارد. شاید دلیل آن این باشد که در این راستا است که بازده استفاده از ابزارهای دیتا ماینینگ به گفته برخی منابع می تواند تا 1000 درصد باشد و هزینه های اجرای آن به سرعت قابل پرداخت باشد.

ما به چهار حوزه اصلی کاربرد فناوری DataMining با جزئیات نگاه خواهیم کرد: علم، تجارت، تحقیقات دولتی و وب.

وظایف تجاری. حوزه های اصلی: بانکداری، امور مالی، بیمه، CRM، تولید، مخابرات، تجارت الکترونیک، بازاریابی، بازار سهام و غیره.

    آیا باید به مشتری وام بدهم؟

    تقسیم بندی بازار

    جذب مشتریان جدید

    کلاهبرداری کارت اعتباری

کاربرد Data Mining برای حل مشکلات در سطح کشور. مسیرهای اصلی: جستجو برای فرارهای مالیاتی. به معنای مبارزه با تروریسم است.

کاربرد Data Mining برای تحقیق علمی. حوزه های اصلی: پزشکی، زیست شناسی، ژنتیک مولکولی و مهندسی ژنتیک، بیوانفورماتیک، نجوم، شیمی کاربردی، تحقیقات مربوط به اعتیاد به مواد مخدر و غیره.

استفاده از DataMining برای حل وظایف وب. زمینه های اصلی: موتورهای جستجو، شمارنده ها و دیگران.

تجارت الکترونیک

در زمینه تجارت الکترونیک از DataMining برای تولید استفاده می شود

این طبقه بندی به شرکت ها اجازه می دهد تا گروه های مشتری خاص را شناسایی کرده و سیاست های بازاریابی را مطابق با علایق و نیازهای شناسایی شده مشتریان انجام دهند. فناوری DataMining برای تجارت الکترونیک ارتباط نزدیکی با فناوری WebMining دارد.

وظایف اصلی Data Mining در تولید صنعتی:

· تجزیه و تحلیل سیستم جامع از موقعیت های تولید.

· پیش بینی کوتاه مدت و بلند مدت توسعه موقعیت های تولید.

· توسعه گزینه ها برای راه حل های بهینه سازی.

· پیش بینی کیفیت یک محصول بسته به پارامترهای خاص

فرآیند تکنولوژیکی؛

· تشخیص روندها و الگوهای پنهان توسعه صنعتی

فرآیندها؛

· پیش بینی الگوهای توسعه فرآیندهای تولید;

· تشخیص عوامل نفوذ پنهان.

· تشخیص و شناسایی روابط ناشناخته قبلی بین

پارامترهای تولید و عوامل موثر؛

· تجزیه و تحلیل محیط تعامل فرآیندهای تولید و پیش بینی

تغییرات در ویژگی های آن؛

فرآیندها؛

· تجسم نتایج تجزیه و تحلیل، تهیه گزارش های اولیه و پروژه ها

راه حل های عملی با ارزیابی قابلیت اطمینان و اثربخشی پیاده سازی های ممکن.

بازار یابی

در زمینه بازاریابی از DataMining بسیار استفاده می شود.

سوالات اساسی بازاریابی: "چه چیزی فروخته می شود؟"، "چگونه فروخته می شود؟"، "چه کسی است؟

مصرف كننده؟"

سخنرانی در مورد مسائل طبقه بندی و خوشه بندی به تفصیل استفاده از تجزیه و تحلیل خوشه ای را برای حل مشکلات بازاریابی، مانند تقسیم بندی مصرف کننده، شرح می دهد.

یکی دیگر از روش‌های متداول برای حل مشکلات بازاریابی، روش‌ها و الگوریتم‌های جستجوی قوانین تداعی است.

جستجوی الگوهای زمانی نیز در اینجا با موفقیت استفاده می شود.

خرده فروشی

در تجارت خرده فروشی، مانند بازاریابی، از موارد زیر استفاده می شود:

· الگوریتم‌هایی برای جستجوی قوانین مرتبط (برای تعیین مجموعه‌های متداول از

کالاهایی که خریداران همزمان می خرند). شناسایی چنین قوانینی کمک می کند

قرار دادن کالاها در قفسه های فروشگاه، توسعه استراتژی برای خرید کالا

و قرار دادن آنها در انبارها و غیره.

استفاده از توالی زمانی، به عنوان مثال، برای تعیین

حجم مورد نیاز کالا در انبار.

· روش های طبقه بندی و خوشه بندی برای شناسایی گروه ها یا دسته بندی های مشتریان،

دانشی که به تبلیغ موفق کالا کمک می کند.

بازار سهام

در اینجا لیستی از مشکلات بازار سهام وجود دارد که با استفاده از فناوری داده قابل حل هستند

معدن: · پیش بینی ارزش های آتی ابزارهای مالی و شاخص های آنها

ارزش های گذشته؛

· پیش بینی روند (جهت حرکت آینده - رشد، کاهش، صاف) مالی

ساز و قدرت آن (قوی، نسبتا قوی و غیره)؛

· شناسایی ساختار خوشه ای بازار، صنعت، بخش با توجه به مجموعه خاصی

مشخصات؛

· مدیریت پورتفولیو پویا.

· پیش بینی نوسانات؛

· ارزیابی ریسک؛

· پیش بینی شروع یک بحران و پیش بینی توسعه آن.

· انتخاب دارایی ها و غیره

علاوه بر حوزه‌های فعالیتی که در بالا توضیح داده شد، فناوری DataMining می‌تواند در طیف گسترده‌ای از حوزه‌های تجاری که نیاز به تجزیه و تحلیل داده‌ها وجود دارد و مقدار معینی از اطلاعات گذشته‌نگر انباشته شده است، استفاده شود.

کاربرد Data Mining در CRM

یکی از نویدبخش ترین زمینه ها برای استفاده از DataMining استفاده از این فناوری در CRM تحلیلی است.

CRM (Customer RelationshipManagement) - مدیریت ارتباط با مشتری.

وقتی این فناوری‌ها با هم استفاده می‌شوند، استخراج دانش با «استخراج پول» از داده‌های مشتری ترکیب می‌شود.

یک جنبه مهم در کار بخش بازاریابی و فروش، تدوین استدیدگاهی جامع از مشتریان، اطلاعاتی در مورد ویژگی ها، ویژگی ها و ساختار پایگاه مشتری. CRM از به اصطلاح پروفایل استفاده می کندمشتریان، ارائه یک نمای کامل از تمام اطلاعات لازم در مورد مشتریان.

پروفایل مشتری شامل اجزای زیر است: تقسیم بندی مشتری، سودآوری مشتری، حفظ مشتری، تجزیه و تحلیل پاسخ مشتری. هر یک از این مؤلفه ها را می توان با استفاده از DataMining مورد بررسی قرار داد و تجزیه و تحلیل آنها با هم به عنوان مؤلفه های پروفایل می تواند در نهایت دانشی را ارائه دهد که به دست آوردن آن از هر ویژگی غیرممکن است.

وب ماینینگ

وب ماینینگ را می توان به عنوان «داده کاوی وب» ترجمه کرد. Web Intelligence یا Web.

هوش آماده است تا "فصل جدیدی" را در توسعه سریع تجارت الکترونیک باز کند. توانایی تعیین علایق و ترجیحات هر بازدیدکننده با مشاهده رفتار او یک مزیت رقابتی جدی و حیاتی در بازار تجارت الکترونیک است.

سیستم های وب ماینینگ می توانند به بسیاری از سوالات پاسخ دهند، به عنوان مثال، کدام یک از بازدیدکنندگان مشتری بالقوه فروشگاه وب هستند، کدام گروه از مشتریان فروشگاه وب بیشترین درآمد را به همراه دارند، منافع یک بازدید کننده خاص یا گروهی از بازدیدکنندگان چیست.

مواد و روش ها

طبقه بندی روش ها

دو گروه روش وجود دارد:

  • روش های آماری مبتنی بر استفاده از میانگین تجربه انباشته شده، که در داده های گذشته نگر منعکس می شود.
  • روش های سایبرنتیک، از جمله بسیاری از رویکردهای ریاضی ناهمگن.

نقطه ضعف این طبقه بندی این است که الگوریتم های آماری و سایبرنتیک هر دو به یک روش بر مقایسه تجربیات آماری با نتایج نظارت بر وضعیت فعلی متکی هستند.

مزیت این طبقه بندی سهولت در تفسیر آن است - از آن برای توصیف ابزارهای ریاضی رویکرد مدرن برای استخراج دانش از آرایه های مشاهدات اولیه (عملیاتی و گذشته نگر) استفاده می شود. در وظایف داده کاوی

بیایید نگاهی دقیق تر به گروه های ارائه شده در بالا بیندازیم.

روش های آماری داده کاوی

دراین روش ها چهار بخش مرتبط را نشان می دهند:

  • تجزیه و تحلیل اولیه ماهیت داده های آماری (آزمایش فرضیه های ثابت بودن، نرمال بودن، استقلال، همگنی، ارزیابی نوع تابع توزیع، پارامترهای آن و غیره)؛
  • شناسایی ارتباطات و الگوها(تحلیل رگرسیون خطی و غیرخطی، تحلیل همبستگی و غیره)؛
  • تجزیه و تحلیل آماری چند متغیره (تحلیل متمایز خطی و غیرخطی، تجزیه و تحلیل خوشه ای، تجزیه و تحلیل مؤلفه ها، تجزیه و تحلیل عاملی، و غیره)؛
  • مدل های پویا و پیش بینی بر اساس سری های زمانی

زرادخانه روش های آماری داده کاوی به چهار گروه روش طبقه بندی می شود:

  1. تحلیل توصیفی و توصیف داده های منبع.
  2. تحلیل رابطه (تحلیل همبستگی و رگرسیون، تحلیل عاملی، تحلیل واریانس).
  3. تجزیه و تحلیل آماری چند متغیره (تحلیل مولفه، تجزیه و تحلیل متمایز، تحلیل رگرسیون چند متغیره، همبستگی متعارف و غیره).
  4. تجزیه و تحلیل سری های زمانی (مدل های پویا و پیش بینی).

روش های سایبرنتیک داده کاوی

جهت دوم داده کاوی رویکردهای متنوعی است که با ایده ریاضیات کامپیوتری و استفاده از تئوری هوش مصنوعی متحد شده اند.

این گروه شامل روش های زیر است:

  • شبکه های عصبی مصنوعی (تشخیص، خوشه بندی، پیش بینی)؛
  • برنامه نویسی تکاملی (از جمله الگوریتم هایی برای روش حسابداری گروهی آرگومان ها)؛
  • الگوریتم های ژنتیک (بهینه سازی)؛
  • حافظه انجمنی (جستجوی آنالوگ ها، نمونه های اولیه)؛
  • منطق فازی؛
  • درختان تصمیم
  • سیستم های پردازش دانش خبره

آنالیز خوشه ای

هدف از خوشه بندی جستجوی ساختارهای موجود است.

خوشه‌بندی یک روش توصیفی است، هیچ استنتاج آماری نمی‌کند، اما فرصتی برای انجام تحلیل اکتشافی و مطالعه «ساختار داده‌ها» فراهم می‌کند.

خود مفهوم "خوشه" به طور مبهم تعریف شده است: هر مطالعه "خوشه" خود را دارد. مفهوم خوشه به عنوان "خوشه"، "دسته" ترجمه شده است. یک خوشه را می توان به عنوان گروهی از اشیاء که ویژگی های مشترک دارند مشخص کرد.

ویژگی های یک خوشه را می توان به دو صورت توصیف کرد:

  • همگنی درونی؛
  • انزوای خارجی

سوالی که تحلیلگران هنگام حل بسیاری از مسائل مطرح می کنند این است که چگونه داده ها را در ساختارهای بصری سازماندهی کنیم. گسترش طبقه بندی

خوشه بندی در ابتدا بیشترین کاربرد را در علومی مانند زیست شناسی، انسان شناسی و روانشناسی داشت. خوشه بندی به دلیل ماهیت خاص داده ها و پدیده های اقتصادی برای مدت طولانی برای حل مشکلات اقتصادی استفاده چندانی نداشته است.

خوشه ها می توانند جدا، یا انحصاری (غیر همپوشانی، انحصاری) و همپوشانی باشند.

لازم به ذکر است که در نتیجه به کارگیری روش های مختلف تحلیل خوشه ای می توان خوشه هایی با اشکال مختلف به دست آورد. به عنوان مثال، خوشه های نوع "زنجیره ای" ممکن است، زمانی که خوشه ها با "زنجیره های بلند"، خوشه های دراز و غیره نشان داده شوند، و برخی از روش ها می توانند خوشه هایی با شکل دلخواه ایجاد کنند.

هدف روش‌های مختلف ایجاد خوشه‌هایی با اندازه‌های خاص (مثلاً کوچک یا بزرگ) است یا فرض می‌کند که خوشه‌هایی با اندازه‌های مختلف در مجموعه داده‌ها وجود دارد. برخی از روش های تجزیه و تحلیل خوشه ای به خصوص به نویز یا نقاط پرت حساس هستند، برخی دیگر کمتر. در نتیجه استفاده از روش های مختلف خوشه بندی، نتایج متفاوتی ممکن است به دست آید، این امری طبیعی است و یکی از ویژگی های عملکرد یک الگوریتم خاص است. هنگام انتخاب روش خوشه بندی باید این ویژگی ها را در نظر گرفت.

اجازه دهید توضیح مختصری از رویکردهای خوشه بندی ارائه دهیم.

الگوریتم های مبتنی بر جداسازی داده ها (الگوریتم های پارتیشن بندی)، از جمله. تکراری:

  • تقسیم اشیاء به k خوشه.
  • توزیع مجدد تکراری اشیا برای بهبود خوشه بندی.
  • سلسله مراتب:
  • تراکم: هر شی در ابتدا یک خوشه است، خوشه ها،
  • با اتصال به یکدیگر، آنها یک خوشه بزرگتر و غیره را تشکیل می دهند.

روش های مبتنی بر چگالی:

  • بر اساس توانایی اتصال اشیاء؛
  • نویز را نادیده بگیرید و خوشه هایی با شکل دلخواه پیدا کنید.

توری - روش ها (روش های مبتنی بر شبکه):

  • کمی سازی اشیاء به ساختارهای شبکه ای

روش‌های مدل (مبتنی بر مدل):

  • با استفاده از مدل برای یافتن خوشه هایی که بهترین تناسب با داده ها را دارند.

روش های تحلیل خوشه ای روش های تکراری

با تعداد زیادی مشاهدات، روش های سلسله مراتبی تحلیل خوشه ای مناسب نیستند. در چنین مواردی از روش های غیر سلسله مراتبی مبتنی بر تقسیم استفاده می شود که روش های تکراری برای تکه تکه شدن جمعیت اصلی است. در طول فرآیند تقسیم، خوشه‌های جدیدی تشکیل می‌شوند تا زمانی که قانون توقف برآورده شود.

چنین خوشه بندی غیر سلسله مراتبی شامل تقسیم یک مجموعه داده به تعداد معینی از خوشه های منفرد است. دو رویکرد وجود دارد. اولین مورد تعیین مرزهای خوشه ها به عنوان متراکم ترین مناطق در فضای چند بعدی داده های منبع است، یعنی. تعریف یک خوشه که در آن "تراکم نقاط" زیادی وجود دارد. رویکرد دوم به حداقل رساندن اندازه گیری تفاوت بین اشیا است

الگوریتم k-means

رایج ترین روش غیر سلسله مراتبی، الگوریتم k-means است که به آن نیز گفته می شود تجزیه و تحلیل سریع خوشه ای. شرح کاملی از الگوریتم را می توان در هارتیگان و وانگ (1978) یافت. بر خلاف روش های سلسله مراتبی که نیازی به فرضیات اولیه در مورد تعداد خوشه ها ندارند، برای امکان استفاده از این روش، لازم است فرضیه ای در مورد محتمل ترین تعداد خوشه ها وجود داشته باشد.

الگوریتم k-means k خوشه هایی را می سازد که در بیشترین فاصله ممکن از یکدیگر قرار دارند. نوع اصلی مسائلی که الگوریتم k-means حل می کند وجود فرضیات (فرضیه) در مورد تعداد خوشه ها است و باید تا حد امکان متفاوت باشند. انتخاب k ممکن است بر اساس تحقیقات قبلی، ملاحظات نظری یا شهود باشد.

ایده کلی الگوریتم: یک عدد ثابت k معین از خوشه‌های مشاهده با خوشه‌ها مقایسه می‌شوند تا میانگین‌های موجود در خوشه (برای همه متغیرها) تا حد امکان با یکدیگر متفاوت باشند.

شرح الگوریتم

1. توزیع اولیه اشیاء در خوشه ها.

  • عدد k انتخاب می شود و در مرحله اول این نقاط به عنوان "مراکز" خوشه ها در نظر گرفته می شوند.
  • هر خوشه مربوط به یک مرکز است.

انتخاب سانتروئیدهای اولیه را می توان به صورت زیر انجام داد:

  • انتخاب k-مشاهدات برای به حداکثر رساندن فاصله اولیه.
  • انتخاب تصادفی مشاهدات k
  • انتخاب اولین k-مشاهدات

در نتیجه، هر شی به یک خوشه خاص اختصاص داده می شود.

2. فرآیند تکرار شونده.

مراکز خوشه ها محاسبه می شوند که سپس برای محاسبه میانگین مختصات خوشه ها استفاده می شود. اشیاء دوباره توزیع می شوند.

فرآیند محاسبه مراکز و توزیع مجدد اشیا تا زمانی که یکی از شرایط برآورده شود ادامه می یابد:

  • مراکز خوشه ای تثبیت شده اند، یعنی. همه مشاهدات متعلق به خوشه ای هستند که قبل از تکرار فعلی به آن تعلق داشتند.
  • تعداد تکرارها برابر است با حداکثر تعداد تکرارها.

شکل نمونه ای از الگوریتم k-means را برای k برابر با دو نشان می دهد.

مثالی از الگوریتم k-means (k=2)

انتخاب تعداد خوشه ها یک مسئله پیچیده است. در صورت عدم وجود فرضیات در مورد این تعداد، پیشنهاد می شود با مقایسه نتایج به دست آمده، 2 خوشه و سپس 3، 4، 5 و غیره ایجاد کنید.

بررسی کیفیت خوشه بندی

پس از دریافت نتایج تحلیل خوشه‌ای k-means، باید صحت خوشه‌بندی را بررسی کنید (یعنی ارزیابی کنید که خوشه‌ها چقدر متفاوت از یکدیگر هستند).

برای انجام این کار، مقادیر متوسط ​​برای هر خوشه محاسبه می شود. خوشه بندی خوب باید ابزارهای بسیار متفاوتی را برای همه اندازه گیری ها یا حداقل بیشتر آنها تولید کند.

مزایای الگوریتم k-means:

  • راحتی در استفاده؛
  • سرعت استفاده؛
  • قابل فهم بودن و شفافیت الگوریتم

معایب الگوریتم k-means:

  • الگوریتم بسیار حساس به نقاط پرت است که می تواند میانگین را تحریف کند.

راه حل ممکناین مشکل استفاده از اصلاح الگوریتم - الگوریتم k-median است.

  • الگوریتم ممکن است در پایگاه داده های بزرگ کند باشد. یک راه حل ممکن برای این مشکل استفاده از نمونه گیری داده است.

شبکه های بیزی

در تئوری احتمال، مفهوم وابستگی اطلاعات از طریق وابستگی شرطی (یا به طور دقیق: عدم استقلال شرطی) مدل می‌شود، که توضیح می‌دهد چگونه اعتماد ما به نتیجه برخی رویدادها زمانی که دانش جدیدی در مورد حقایق به دست می‌آوریم تغییر می‌کند، مشروط بر اینکه قبلاً می‌دانستیم. مجموعه ای از حقایق دیگر

نمایش وابستگی بین عناصر از طریق یک مسیر جهت دار که این عناصر را در یک نمودار به هم متصل می کند، راحت و شهودی است. اگر رابطه بین عناصر x و y مستقیم نباشد و از طریق عنصر سوم z انجام شود، منطقی است که انتظار داشته باشیم عنصر z در مسیر بین x و y وجود داشته باشد. چنین گره های واسطه ای وابستگی بین x و y را "قطع" می کنند، یعنی. یک موقعیت استقلال مشروط بین آنها را با مقدار مشخصی از عوامل تأثیرگذار مستقیم شبیه سازی کنید.چنین زبان‌های مدل‌سازی شبکه‌های بیزی هستند که برای توصیف وابستگی‌های شرطی بین مفاهیم یک حوزه موضوعی خاص استفاده می‌شوند.

شبکه‌های بیزی ساختارهای گرافیکی برای نمایش روابط احتمالی بین تعداد زیادی از متغیرها و برای انجام استنتاج احتمالی بر اساس آن متغیرها هستند.طبقه بندی "ساده لوح" (بیزی) یک روش طبقه بندی نسبتاً شفاف و قابل درک است که به این دلیل نامیده می شود که بر اساس فرض متقابل استاستقلال نشانه ها

ویژگی های طبقه بندی:

1. استفاده از همه متغیرها و تعیین تمام وابستگی های بین آنها.

2. داشتن دو فرض در مورد متغیرها:

  • همه متغیرها به یک اندازه مهم هستند.
  • همه متغیرها از نظر آماری مستقل هستند، یعنی. مقدار یک متغیر چیزی در مورد مقدار متغیر دیگر نمی گوید.

دو سناریو اصلی برای استفاده از شبکه های بیزی وجود دارد:

1. تحلیل توصیفی. ناحیه موضوع به صورت نموداری نمایش داده می‌شود که گره‌های آن مفاهیم را نشان می‌دهند و کمان‌های جهت‌دار که با فلش‌ها نشان داده می‌شوند، وابستگی مستقیم بین این مفاهیم را نشان می‌دهند. رابطه بین x و y به این معنی است: دانستن مقدار x به شما کمک می کند تا حدس بهتری در مورد مقدار y داشته باشید. عدم وجود ارتباط مستقیم بین مفاهیم، ​​استقلال مشروط بین آنها را با مقادیر شناخته شده مجموعه خاصی از مفاهیم "جداکننده" مدل می کند. به عنوان مثال، اندازه کفش کودک به وضوح با توانایی خواندن کودک در طول سن مرتبط است. بنابراین، اندازه کفش بزرگتر به کودک اطمینان بیشتری می دهد که در حال مطالعه است، اما اگر سن را از قبل بدانیم، دانستن سایز کفش دیگر به ما نمی دهد. اطلاعات اضافیدر مورد توانایی کودک در خواندن


به عنوان مثال متضاد دیگر، عوامل اولیه نامرتبط مانند سیگار کشیدن و سرماخوردگی را در نظر بگیرید. اما اگر علامتی را بدانیم، مثلاً فردی صبح‌ها از سرفه رنج می‌برد، دانستن اینکه فرد سیگار نمی‌کشد، اطمینان ما را نسبت به سرماخوردگی افزایش می‌دهد.

2. طبقه بندی و پیش بینی. شبکه بیزی که امکان استقلال مشروط تعدادی از مفاهیم را فراهم می کند، امکان کاهش تعداد پارامترهای توزیع مشترک را فراهم می کند و تخمین مطمئن آنها را بر روی حجم داده های موجود امکان پذیر می کند. بنابراین، با 10 متغیر که هر کدام می تواند 10 مقدار داشته باشد، تعداد پارامترهای توزیع مشترک 10 میلیارد - 1 است. اگر فرض کنیم که بین این متغیرها فقط 2 متغیر به یکدیگر وابسته باشند، تعداد پارامترها به 8 می رسد. * (10-1) + (10*10-1) = 171. با داشتن یک مدل توزیع مشترک که از نظر منابع محاسباتی واقع بینانه است، می توانیم مقدار مجهول یک مفهوم را به عنوان مثال، محتمل ترین مقدار پیش بینی کنیم. این مفهوم با توجه به ارزش های شناخته شده مفاهیم دیگر.

مزایای زیر شبکه های بیزی به عنوان یک روش داده کاوی ذکر شده است:

مدل وابستگی بین همه متغیرها را تعریف می کند، این کار را آسان می کندرسیدگی به موقعیت هایی که در آن مقادیر برخی از متغیرها ناشناخته است.

تفسیر و اجازه دادن به شبکه های بیزی بسیار آسان استمدل‌سازی پیش‌بینی، انجام تحلیل سناریوی what-if را آسان می‌کند.

روش بیزی به شما امکان می دهد الگوها را به طور طبیعی ترکیب کنید،استنباط از داده ها، و، برای مثال، دانش تخصصی به صراحت به دست آمده.

استفاده از شبکه های بیزی از مشکل بیش از حد برازش جلوگیری می کند(بیش از حد) یعنی عارضه بیش از حد مدل که یک ضعف استبسیاری از روش ها (به عنوان مثال، درخت تصمیم و شبکه های عصبی).

رویکرد Naive Bayes دارای معایب زیر است:

درست است که احتمالات شرطی را فقط زمانی ضرب کنیم که همه ورودی ها وارد شوندمتغیرها واقعاً از نظر آماری مستقل هستند. اگر چه اغلب این روشزمانی که شرایط آماری برآورده نشده باشد نتایج بسیار خوبی را نشان می دهداستقلال، اما از نظر تئوری چنین وضعیتی باید توسط پیچیده تر اداره شودروش های مبتنی بر آموزش شبکه های بیزی.

پردازش مستقیم متغیرهای پیوسته امکان پذیر نیست - آنها مورد نیاز هستندتبدیل به مقیاس فاصله ای به طوری که ویژگی ها گسسته باشند. با این حال چنین استدگرگونی ها گاهی اوقات می تواند منجر به از دست دادن الگوهای قابل توجه شود.

نتیجه طبقه بندی در رویکرد ساده بیز تنها تحت تأثیر قرار می گیردمقادیر فردی متغیرهای ورودی، تأثیر ترکیبی جفت ها یاسه گانه مقادیر ویژگی های مختلف در اینجا در نظر گرفته نمی شود. این می تواند بهبود یابدکیفیت مدل طبقه بندی از نظر دقت پیش بینی آن،با این حال، تعداد گزینه های آزمایش شده را افزایش می دهد.

شبکه های عصبی مصنوعی

شبکه های عصبی مصنوعی (که از این پس شبکه های عصبی نامیده می شوند) می توانند همزمان و ناهمزمان باشند.در شبکه های عصبی سنکرون در هر لحظه از زمان فقط حالت آن تغییر می کندیک نورون در ناهمزمان - حالت بلافاصله در یک گروه از نورون ها تغییر می کند، به عنوان یک قاعده، در همهلایه. دو تا هستند معماری های پایه- شبکه های لایه ای و کاملا متصلمفهوم کلیدی در شبکه های لایه ای مفهوم لایه است.یک لایه یک یا چند نورون است که ورودی های آن سیگنال مشترک یکسانی را دریافت می کنند.شبکه‌های عصبی لایه‌ای شبکه‌های عصبی هستند که در آنها نورون‌ها به گروه‌های جداگانه (لایه‌ها) تقسیم می‌شوند تا پردازش اطلاعات لایه به لایه انجام شود.در شبکه های لایه ای، نورون های لایه i سیگنال های ورودی را دریافت می کنند، آنها را تبدیل می کنند و از طریق نقاط انشعاب به نورون های لایه (i+1) منتقل می کنند. و به همین ترتیب تا لایه k-ام که تولید می کندسیگنال های خروجی برای مترجم و کاربر تعداد نورون ها در هر لایه ارتباطی با تعداد نورون های لایه های دیگر ندارد و می تواند دلخواه باشد.در یک لایه، داده ها به صورت موازی پردازش می شوند و در سراسر شبکه، پردازش به صورت متوالی انجام می شود - از لایه ای به لایه دیگر. شبکه‌های عصبی لایه‌ای شامل، برای مثال، پرسپترون‌های چندلایه، شبکه‌های تابع پایه شعاعی، کوگنیترون، ناشناخته، شبکه‌های حافظه انجمنی هستند.با این حال، سیگنال همیشه به همه نورون های لایه ارسال نمی شود. برای مثال، در یک cognitron، هر نورون لایه فعلی سیگنال‌ها را فقط از نورون‌های نزدیک به خود در لایه قبلی دریافت می‌کند.

شبکه های لایه ای به نوبه خود می توانند تک لایه یا چند لایه باشند.

شبکه تک لایه- شبکه ای متشکل از یک لایه.

شبکه چند لایه- شبکه ای با چندین لایه.

در یک شبکه چند لایه، لایه اول را لایه ورودی، لایه های بعدی داخلی یا پنهان و آخرین لایه را لایه خروجی می نامند. بنابراین، لایه های میانی همه لایه ها در یک شبکه عصبی چند لایه هستند به جز ورودی و خروجی.لایه ورودی شبکه با داده های ورودی و لایه خروجی با خروجی ارتباط برقرار می کند.بنابراین، نورون ها می توانند ورودی، خروجی و پنهان باشند.لایه ورودی از نورون‌های ورودی سازمان‌دهی می‌شود که داده‌ها را دریافت کرده و به ورودی‌های نورون‌های لایه پنهان شبکه توزیع می‌کنند.نورون پنهان نورونی است که در لایه پنهان شبکه عصبی قرار دارد.نورون های خروجی، که لایه خروجی شبکه از آنها سازماندهی شده است، تولید می کنندنتایج شبکه عصبی

در شبکه های مشهر نورون خروجی خود را به نورون های دیگر از جمله خودش منتقل می کند. سیگنال‌های خروجی شبکه می‌تواند تمام یا برخی از سیگنال‌های خروجی نورون‌ها پس از چندین چرخه عملیات شبکه باشد.

تمام سیگنال های ورودی به همه نورون ها داده می شود.

آموزش شبکه های عصبی

قبل از استفاده از شبکه عصبی، باید آن را آموزش داد.فرآیند آموزش یک شبکه عصبی شامل تنظیم پارامترهای داخلی آن برای یک کار خاص است.الگوریتم شبکه عصبی تکرار شونده است.یک دوره یک تکرار در فرآیند یادگیری است، از جمله ارائه تمام نمونه‌های مجموعه آموزشی و احتمالاً بررسی کیفیت یادگیری در یک مجموعه آزمایشی.زیاد. فرآیند یادگیری بر روی نمونه آموزشی انجام می شود.مجموعه آموزشی شامل مقادیر ورودی و مقادیر خروجی مربوط به مجموعه داده است. در طول آموزش، شبکه عصبی وابستگی های خاصی بین فیلدهای خروجی و فیلدهای ورودی پیدا می کند.بنابراین، ما با این سوال روبرو هستیم - به چه فیلدهای ورودی (ویژگی ها) نیاز داریم؟ضروری برای استفاده در ابتدا، انتخاب به صورت اکتشافی انجام می شود، سپستعداد ورودی ها قابل تغییر است.

مشکلی که ممکن است ایجاد شود تعداد مشاهدات در مجموعه داده است. و اگرچه قوانین خاصی برای توصیف رابطه بین تعداد مورد نیاز مشاهدات و اندازه شبکه وجود دارد، صحت آنها ثابت نشده است.تعداد مشاهدات مورد نیاز بستگی به پیچیدگی مشکل حل شده دارد. با افزایش تعداد ویژگی ها، تعداد مشاهدات به صورت غیرخطی افزایش می یابد. در صورت ناکافی بودن مقدارداده ها، استفاده از مدل خطی توصیه می شود.

تحلیلگر باید تعداد لایه های شبکه و تعداد نورون های هر لایه را تعیین کند.در مرحله بعد، شما باید چنین مقادیری از وزن ها و افست ها را تعیین کنیدخطای تصمیم را به حداقل برسانید وزن ها و بایاس ها به طور خودکار تنظیم می شوند تا تفاوت بین سیگنال های خروجی مورد نظر و دریافتی را به حداقل برسانند که به آن خطای تمرین می گویند.خطای آموزش برای شبکه عصبی ساخته شده با مقایسه محاسبه می شودمقادیر خروجی و هدف (مطلوب). تابع خطا از تفاوت های حاصل تشکیل می شود.

تابع خطا یک تابع هدف است که نیاز به حداقل سازی در فرآیند داردیادگیری تحت نظارت یک شبکه عصبیبا استفاده از تابع خطا می توانید کیفیت شبکه عصبی را در حین آموزش ارزیابی کنید. به عنوان مثال، اغلب از مجموع مربعات خطاها استفاده می شود.کیفیت آموزش یک شبکه عصبی توانایی آن را در حل وظایف محول شده تعیین می کند.

بازآموزی شبکه عصبی

هنگام آموزش شبکه های عصبی، اغلب یک مشکل جدی به نام ایجاد می شودمشکل بیش از حد برازشOverfitting یا overfitting - overfittingشبکه عصبی به مجموعه خاصی از نمونه های آموزشی، که در آن شبکه از دست می دهدتوانایی تعمیمتمرین بیش از حد زمانی اتفاق می افتد که تمرین زیاد باشد، نه کافینمونه های آموزشی یا ساختار شبکه عصبی بیش از حد پیچیده.بازآموزی به این دلیل است که انتخاب مجموعه آموزشیتصادفی است از اولین مراحل یادگیری، خطا کاهش می یابد. برمراحل بعدی به منظور کاهش پارامترهای خطا (عملکرد هدف).سازگاری با ویژگی های مجموعه آموزشی. با این حال، این اتفاق می افتد"تنظیم" نه با الگوهای کلی سریال، بلکه با ویژگی های قسمت آن -زیر مجموعه آموزشی در عین حال، دقت پیش بینی کاهش می یابد.یکی از گزینه های مبارزه با بیش تمرینی شبکه، تقسیم نمونه آموزشی به دو بخش استمجموعه ها (آموزش و تست).شبکه عصبی بر روی مجموعه آموزشی آموزش داده می شود. مدل ساخته شده در مجموعه تست بررسی می شود. این مجموعه ها نباید قطع شوند.با هر مرحله، پارامترهای مدل تغییر می کنند، اما ثابت کاهش می یابدمقدار تابع هدف دقیقاً در مجموعه آموزشی رخ می دهد. وقتی مجموعه را به دو قسمت تقسیم می کنیم، می توانیم به موازات مشاهدات روی مجموعه آموزشی، تغییری در خطای پیش بینی در مجموعه تست مشاهده کنیم. مقداریتعداد مراحل خطای پیش بینی در هر دو مجموعه کاهش می یابد. با این حال، دردر یک مرحله مشخص، خطا در مجموعه تست شروع به افزایش می کند، در حالی که خطا در مجموعه آموزشی کماکان کاهش می یابد. این لحظه آغاز بازآموزی در نظر گرفته می شود

ابزارهای داده کاوی

هم رهبران مشهور جهان و هم شرکت های در حال توسعه جدید در توسعه بخش DataMining بازار جهانی نرم افزار نقش دارند. ابزارهای DataMining می توانند به عنوان یک برنامه کاربردی مستقل و یا به عنوان افزودنی برای محصول اصلی ارائه شوند.گزینه دوم توسط بسیاری از رهبران بازار نرم افزار پیاده سازی شده است.بنابراین، در حال حاضر به یک سنت تبدیل شده است که توسعه دهندگان بسته های آماری جهانی، علاوه بر روش های سنتیتجزیه و تحلیل آماری، موجود در بستهمجموعه ای خاص از روش های Data Mining اینها بسته هایی مانند SPSS (SPSS، Clementine)، Statistica (StatSoft)، موسسه SAS (SAS Enterprise Miner).برخی از ارائه دهندگان راه حل OLAP نیز مجموعه ای از روش های DataMining را ارائه می دهند، مانند خانواده محصولات Cognos. تامین کنندگانی وجود دارند که راه حل های DataMining را در عملکرد DBMS شامل می شوند: اینها مایکروسافت (MicrosoftSQLServer)، اوراکل، IBM (IBMINtelligentMinerforData) هستند.

کتابشناسی - فهرست کتب

  1. Abdikeev N.M. Danko T.P. ایلدمنوف S.V. Kiselev A.D.، "مهندسی مجدد فرآیندهای کسب و کار. دوره MBA، M.: انتشارات Eksmo، 2005. - 592 p. - (MBA)
  1. Abdikeev N.M.، Kiselev A.D. "مدیریت دانش در یک شرکت و مهندسی مجدد کسب و کار" - M.: Infra-M، 2011. - 382 ص. – شابک 978-5-16-004300-5
  1. Barseghyan A.A.، Kupriyanov M.S.، Stepanenko V.V.، Kholod I.I. "روش ها و مدل های تجزیه و تحلیل داده ها: OLAP و داده کاوی"، سنت پترزبورگ: BHV-Petersburg، 2004، 336 pp., ISBN 5-94157-522-X
  1. دوک که در., سامویلنکو آ.، "داده کاوی.دوره آموزشی" سن پترزبورگ: پیتر، 2001، 386 ص.
  1. Chubukova I.A.، دوره داده کاوی، http://www.intuit.ru/department/database/datamining/
  1. IanH. ویتن، ایبه فرانک، مارک ای. هال، مورگان کافمن، داده کاوی: ابزارها و تکنیک های یادگیری ماشین عملی (ویرایش سوم)، ISBN 978-0-12-374856-0
  1. پتروشین V.A. ، خان ال. ، داده کاوی چند رسانه ای و کشف دانش

وزارت آموزش و پرورش و علوم فدراسیون روسیه

موسسه آموزشی بودجه ایالتی فدرال آموزش عالی حرفه ای

"پژوهش ملی دانشگاه پلی تکنیک تامسک"

موسسه سایبرنتیک

گرایش انفورماتیک و علوم کامپیوتر

بخش VT

تست

در رشته انفورماتیک و مهندسی کامپیوتر

موضوع: روش های داده کاوی

معرفی

داده کاوی. مفاهیم و تعاریف اساسی

1 مراحل در فرآیند داده کاوی

2 اجزای سیستم های تحلیل هوشمند

3 روش های داده کاوی

روش های داده کاوی

1 استنباط قوانین انجمن

2 الگوریتم شبکه عصبی

3 روش نزدیکترین همسایه و k-نزدیکترین همسایه

4 درخت تصمیم

5 الگوریتم های خوشه بندی

6 الگوریتم ژنتیک

حوزه های کاربردی

تولید کنندگان ابزارهای داده کاوی

نقد روش ها

نتیجه

کتابشناسی - فهرست کتب

معرفی

نتیجه توسعه فناوری اطلاعاتحجم عظیمی از داده های انباشته شده در آن است در قالب الکترونیکی، با سرعتی سریع در حال رشد است. علاوه بر این، داده ها، به عنوان یک قاعده، دارای ساختار ناهمگن هستند (متون، تصاویر، صدا، ویدئو، اسناد فرامتن، پایگاه داده های رابطه ای). انباشته شده برای بلند مدتداده ها ممکن است حاوی الگوها، روندها و روابط باشند که اطلاعات ارزشمندی برای برنامه ریزی، پیش بینی، تصمیم گیری و کنترل فرآیند هستند. با این حال، انسان ها از نظر فیزیکی قادر به تجزیه و تحلیل موثر چنین حجمی از داده های ناهمگن نیستند. روش‌های آمار ریاضی سنتی مدت‌ها مدعی بوده‌اند که ابزار اصلی برای تجزیه و تحلیل داده‌ها هستند. با این حال، آنها اجازه سنتز فرضیه‌های جدید را نمی‌دهند، اما فقط می‌توانند برای تأیید فرضیه‌های از پیش تنظیم‌شده و تحلیل‌های اکتشافی «تخت»، که اساس پردازش تحلیلی آنلاین (OLAP) را تشکیل می‌دهد، استفاده شوند. اغلب، این فرمول یک فرضیه است که هنگام انجام تجزیه و تحلیل برای تصمیم گیری های بعدی دشوارترین کار است، زیرا همه الگوهای موجود در داده ها در نگاه اول واضح نیستند. از این رو فناوری های داده کاوی به عنوان یکی از موضوعات مهم و امیدوارکننده برای تحقیق و کاربرد در صنعت فناوری اطلاعات محسوب می شوند. داده کاوی در این مورد به فرآیند شناسایی دانش جدید، صحیح و بالقوه مفید بر اساس مقادیر زیاد داده اشاره دارد. بنابراین، MIT Technology Review، داده کاوی را یکی از ده فناوری نوظهوری توصیف کرد که جهان را تغییر خواهد داد.

1. داده کاوی. مفاهیم و تعاریف اساسی

داده کاوی فرآیند کشف در داده های «خام» است که قبلاً ناشناخته، غیر پیش پا افتاده، عملا مفید و دانش لازم برای تصمیم گیری در زمینه های مختلف فعالیت های انسانی است.

ماهیت و هدف فناوری داده کاوی را می توان به صورت زیر فرموله کرد: فناوری است که برای جستجوی حجم زیادی از داده ها برای الگوهای غیر آشکار، عینی و عملی طراحی شده است.

الگوهای غیر آشکار، الگوهایی هستند که با روش های استاندارد پردازش اطلاعات یا با تجزیه و تحلیل کارشناسان قابل شناسایی نیستند.

الگوهای عینی باید به عنوان الگوهایی درک شوند که کاملاً با واقعیت مطابقت دارند، برخلاف نظر متخصصان که همیشه ذهنی هستند.

این مفهوم تحلیل داده ها فرض می کند که:

§ داده ها ممکن است نادرست، ناقص (حاوی حذفیات)، متناقض، ناهمگن، غیرمستقیم و در عین حال دارای حجم عظیمی باشند. بنابراین، درک داده ها در برنامه های کاربردی خاص نیاز به تلاش فکری قابل توجهی دارد.

§ الگوریتم‌های تجزیه و تحلیل داده‌ها ممکن است «عناصر هوشمندی» داشته باشند، به ویژه، توانایی یادگیری از سوابق، یعنی نتیجه‌گیری کلی بر اساس مشاهدات خاص. توسعه چنین الگوریتم هایی نیز نیازمند تلاش فکری قابل توجهی است.

فرآیندهای پردازش داده های خام به اطلاعات، و اطلاعات به دانش، به صورت دستی انجام نمی شود و نیاز به اتوماسیون دارد.

فناوری داده کاوی مبتنی بر مفهوم الگوهایی است که قطعاتی از روابط چند بعدی را در داده ها منعکس می کند. این الگوها الگوهای ذاتی در نمونه‌های فرعی از داده‌ها را نشان می‌دهند که می‌توان آن‌ها را به صورت فشرده در قالبی قابل خواندن برای انسان بیان کرد.

جستجوی الگوها با استفاده از روش هایی انجام می شود که با مفروضات پیشینی در مورد ساختار نمونه و نوع توزیع مقادیر شاخص های تجزیه و تحلیل محدود نمی شوند.

یکی از ویژگی های مهم داده کاوی، ماهیت غیر استاندارد و غیر آشکار الگوهای مورد جستجو است. به عبارت دیگر، ابزارهای داده کاوی با ابزارهای پردازش داده های آماری و ابزارهای OLAP تفاوت دارند زیرا به جای بررسی وابستگی های متقابل از پیش فرض شده توسط کاربران، قادرند چنین وابستگی های متقابلی را به طور مستقل بر اساس داده های موجود پیدا کنند و فرضیه هایی در مورد ماهیت آنها بسازند. پنج نوع استاندارد الگو وجود دارد که با روش های داده کاوی شناسایی می شوند:

· ارتباط - احتمال زیاد رویدادها با یکدیگر مرتبط هستند. نمونه ای از یک انجمن اقلام موجود در یک فروشگاه است که اغلب با هم خریداری می شوند.

· توالی - احتمال بالای زنجیره ای از رویدادهای مرتبط با زمان. یک مثال از یک توالی وضعیتی است که در آن، در مدت معینی پس از خرید یک محصول، محصول دیگری با درجه احتمال بالایی خریداری می شود.

· طبقه بندی - نشانه هایی وجود دارد که مشخص کننده گروهی است که این یا آن رویداد یا شی به آن تعلق دارد.

· خوشه بندی الگویی شبیه به طبقه بندی است و با آن تفاوت دارد که خود گروه ها مشخص نیستند - آنها به طور خودکار در طول پردازش داده ها شناسایی می شوند.

· الگوهای زمانی - وجود الگوها در پویایی رفتار داده های خاص. یک مثال معمولی از الگوی زمانی، نوسانات فصلی تقاضا برای کالاها یا خدمات خاص است.

1.1 مراحل در فرآیند داده کاوی

به طور سنتی، مراحل زیر در فرآیند داده کاوی متمایز می شود:

1. مطالعه حوزه موضوعی که در نتیجه آن اهداف اصلی تحلیل تدوین می شود.

2. جمع آوری داده ها.

پیش پردازش داده ها:

آ. پاکسازی داده ها - حذف ناسازگاری ها و "نویز" تصادفی از داده های منبع

ب. یکپارچه سازی داده ها - ترکیب داده ها از چندین منبع ممکن در یک مخزن. تبدیل داده ها در این مرحله داده ها به فرم مناسب برای تجزیه و تحلیل تبدیل می شوند. اغلب از تجمیع داده ها، نمونه گیری ویژگی، فشرده سازی داده ها و کاهش ابعاد استفاده می شود.

4. تجزیه و تحلیل داده ها. به عنوان بخشی از این مرحله، از الگوریتم های استخراج برای استخراج الگوها استفاده می شود.

5. تفسیر الگوهای یافت شده. این مرحله ممکن است شامل تجسم الگوهای استخراج شده، شناسایی الگوهای واقعا مفید بر اساس برخی از عملکردهای مفید باشد.

استفاده از دانش جدید

1.2 اجزای سیستم های تحلیل هوشمند

به طور معمول، سیستم های داده کاوی دارای اجزای اصلی زیر هستند:

1. پایگاه داده، انبار داده یا دیگر مخزن اطلاعات. این می تواند یک یا چند پایگاه داده، انبار داده، صفحات گسترده یا انواع دیگری از مخازن باشد که می توانند تمیز و یکپارچه شوند.

2. پایگاه داده یا سرور انبار داده. سرور مشخص شده مسئول بازیابی اطلاعات ضروری بر اساس درخواست کاربر است.

دانش محور. این دانش حوزه است که نحوه جستجو و ارزیابی سودمندی الگوهای حاصل را راهنمایی می کند.

خدمات استخراج دانش. این بخشی جدایی ناپذیر از سیستم داده کاوی است و شامل مجموعه ای از ماژول های کاربردی برای کارهایی مانند مشخصه یابی، جستجوی انجمن، طبقه بندی، تجزیه و تحلیل خوشه ای و تجزیه و تحلیل واریانس است.

ماژول ارزیابی الگو این جزء معیارهای علاقه یا مفید بودن الگوها را محاسبه می کند.

گرافیک رابط کاربری. این ماژول وظیفه ارتباط بین کاربر و سیستم داده کاوی، تجسم الگوها در اشکال مختلف را بر عهده دارد.

1.3 روش های داده کاوی

اکثر روش های تحلیلی مورد استفاده در فناوری داده کاوی، الگوریتم ها و روش های ریاضی شناخته شده هستند. آنچه در کاربرد آنها جدید است، امکان استفاده از آنها در حل مشکلات خاص، به دلیل قابلیت های نوظهور سخت افزار و نرم افزار است. لازم به ذکر است که اکثر روش های داده کاوی در چارچوب تئوری هوش مصنوعی توسعه یافته اند. بیایید به پرکاربردترین روش ها نگاه کنیم:

استنباط قوانین انجمن.

2. الگوریتم های شبکه عصبی، ایده ای که مبتنی بر قیاس با عملکرد بافت عصبی است و در این واقعیت نهفته است که پارامترهای اولیه به عنوان سیگنال هایی در نظر گرفته می شوند که مطابق با اتصالات موجود بین "نرون ها" تبدیل می شوند. و پاسخ کل شبکه به عنوان پاسخ حاصل از تجزیه و تحلیل به داده های اصلی در نظر گرفته می شود.

انتخاب یک آنالوگ نزدیک از داده های اصلی از داده های تاریخی موجود. روش "نزدیکترین همسایه" نیز نامیده می شود.

درخت‌های تصمیم ساختاری سلسله مراتبی بر اساس مجموعه‌ای از سؤالات هستند که به پاسخ «بله» یا «خیر» نیاز دارند.

مدل‌های خوشه‌ای برای گروه‌بندی رویدادهای مشابه به گروه‌هایی بر اساس مقادیر مشابه چند فیلد در یک مجموعه داده استفاده می‌شوند.

در فصل بعدی روش های فوق را با جزئیات بیشتری شرح خواهیم داد.

2. روش های داده کاوی

2.1 استنباط قوانین انجمن

قوانین انجمن قوانینی به شکل «اگر... پس...» هستند. جستجوی چنین قوانینی در یک مجموعه داده، ارتباطات پنهان در داده‌های به ظاهر نامرتبط را نشان می‌دهد. یکی از نمونه‌های متداول یافتن قوانین مرتبط، مشکل یافتن اتصالات پایدار در سبد خرید است. این مشکل این است که مشخص شود مشتریان کدام محصولات را با هم خریداری می کنند تا بازاریابان بتوانند به طور مناسب این محصولات را در فروشگاه برای افزایش فروش قرار دهند.

قوانین ارتباط به عنوان عباراتی از فرم (X1,X2,…,Xn) -> Y تعریف می شوند که در آن به طور ضمنی گفته می شود که Y می تواند در یک تراکنش وجود داشته باشد مشروط بر اینکه X1,X2,…,Xn در همان تراکنش وجود داشته باشد. لازم به ذکر است که کلمه «ممکن است» دلالت بر این دارد که قاعده هویتی نیست، بلکه تنها به احتمالی اکتفا می کند. علاوه بر این، Y می تواند مجموعه ای از عناصر باشد، نه فقط یک عنصر. احتمال یافتن Y در تراکنشی که شامل عناصر X1,X2,...,Xn است اطمینان نامیده می شود. درصدی از تراکنش‌هایی که دارای قاعده‌ای از تعداد کل تراکنش‌ها هستند، پشتیبانی نامیده می‌شوند. سطح اطمینانی که باید از اطمینان یک قاعده بیشتر باشد، جالب بودن نامیده می شود.

قوانین انجمن انواع مختلفی دارد. در ساده ترین شکل خود، قوانین انجمن فقط وجود یا عدم وجود یک انجمن را به اشتراک می گذارد. چنین قوانینی قوانین انجمن بولی نامیده می شوند. نمونه ای از چنین قاعده ای: "مشتریانی که ماست می خرند، کره کم چرب نیز خریداری می کنند."

قوانینی که چندین قانون انجمن را در کنار هم قرار می دهند، قوانین انجمن چندسطحی یا تعمیم یافته نامیده می شوند. هنگام ساخت چنین قوانینی، عناصر معمولاً بر اساس یک سلسله مراتب گروه بندی می شوند و جستجو در بالاترین سطح مفهومی انجام می شود. مثلاً «مشتریانی که شیر می خرند نان هم می خرند». در این مثال، شیر و نان دارای سلسله مراتبی از انواع و مارک های مختلف هستند، اما جستجو در سطح پایین قوانین جالبی را نشان نمی دهد.

نوع پیچیده تر از قوانین، قوانین انجمن کمی است. این نوع قانون با استفاده از ویژگی های کمی (به عنوان مثال قیمت) یا طبقه بندی شده (مثلاً جنسیت) جستجو می شود و به صورت (( , ,…,} -> . به عنوان مثال، «خریدارانی که سن آنها بین 30 تا 35 سال با درآمد بیش از 75000 در سال است، خودروهای بیش از 20000 را خریداری می کنند.

انواع قواعد فوق به این واقعیت اشاره نمی کنند که معاملات، طبیعتاً وابسته به زمان هستند. به عنوان مثال، جستجو قبل از فهرست شدن یک محصول برای فروش یا پس از ناپدید شدن آن از بازار، بر آستانه حمایت تأثیر منفی خواهد گذاشت. با در نظر گرفتن این موضوع، مفهوم طول عمر صفت در الگوریتم‌های جستجوی قوانین ارتباط موقت (Temporal Association Rules) معرفی شد.

مشکل جستجوی قوانین تداعی را می توان به طور کلی به دو بخش تقسیم کرد: جستجو برای مجموعه های متداول عناصر، و ایجاد قوانین بر اساس مجموعه های متداول یافت شده. مطالعات قبلی در بیشتر موارد از این خطوط پیروی کرده و آنها را در جهات مختلف گسترش داده اند.

از زمان ظهور الگوریتم Apriori، این الگوریتم بیشترین استفاده را در مرحله اول دارد. بسیاری از پیشرفت‌ها، به عنوان مثال در سرعت و مقیاس‌پذیری، با هدف بهبود الگوریتم Apriori، اصلاح ویژگی اشتباه آن در تولید نامزدهای بیش از حد برای متداول‌ترین مجموعه‌های عناصر صورت می‌گیرد. Apriori مجموعه ای از عناصر را تنها با استفاده از آن تولید می کند مجموعه های بزرگ، بدون بررسی مجدد تراکنش ها در مرحله قبل یافت شد. الگوریتم اصلاح شده AprioriTid در Apriori تنها با استفاده از پایگاه داده در اولین پاس بهبود می یابد. هنگام محاسبه در مراحل بعدی، فقط از داده هایی استفاده می شود که در پاس اول ایجاد شده و اندازه آنها بسیار کوچکتر از پایگاه داده اصلی است. این منجر به افزایش چشمگیر بهره وری می شود. یک نسخه بهبودیافته بیشتر از الگوریتم به نام AprioriHybrid را می‌توان با استفاده از Apriori در چند پاس اول، و سپس تغییر به AprioriTid در پاس‌های بعدی، زمانی که kامین مجموعه‌های کاندید می‌توانند به طور کامل در حافظه کامپیوتر قرار داشته باشند، به دست آورد.

تلاش‌های بیشتر برای بهبود الگوریتم Apriori مربوط به موازی‌سازی الگوریتم (توزیع تعداد، توزیع داده، توزیع نامزد و غیره)، مقیاس‌بندی آن (توزیع داده‌های هوشمند، توزیع ترکیبی)، معرفی ساختارهای داده جدید، مانند درختان عناصر متداول (FP-growth).

مرحله دوم عمدتاً با اصالت و جالب بودن مشخص می شود. تغییرات جدید ابعاد، کیفیت و پشتیبانی زمان بندی که در بالا توضیح داده شد را به قوانین سنتی بولی اضافه می کنند. یک الگوریتم تکاملی اغلب برای یافتن قوانین استفاده می شود.

2.2 الگوریتم های شبکه عصبی

شبکه های عصبی مصنوعی در نتیجه استفاده از دستگاه ریاضی برای مطالعه عملکرد سیستم عصبی انسان با هدف بازتولید آن ظاهر شدند. یعنی: توانایی سیستم عصبی برای یادگیری و تصحیح خطاها، که باید به ما امکان شبیه سازی، هرچند تقریباً تقریباً، کار مغز انسان را بدهد. بخش ساختاری و عملکردی اصلی شبکه عصبی نورون رسمی است که در شکل 1 نشان داده شده است. 1 که x0، x1،...، xn اجزای بردار سیگنال ورودی هستند، w0، w1،...، wn مقادیر وزن سیگنال های ورودی نورون و y خروجی نورون هستند. علامت.

برنج. 1. نورون رسمی: سیناپس ها (1)، جمع کننده (2)، مبدل (3).

یک نورون رسمی از 3 نوع عنصر تشکیل شده است: سیناپس ها، جمع کننده و مبدل. سیناپس قدرت ارتباط بین دو نورون را مشخص می کند.

جمع کننده سیگنال های ورودی را که قبلا در وزن های مربوطه ضرب شده اند، اضافه می کند. مبدل تابع یک آرگومان - خروجی جمع کننده را پیاده سازی می کند. این تابع تابع فعال سازی یا تابع انتقال نورون نامیده می شود.

نورون‌های رسمی که در بالا توضیح داده شد را می‌توان به گونه‌ای ترکیب کرد که سیگنال‌های خروجی برخی از نورون‌ها ورودی به دیگران باشد. مجموعه نورون های به هم پیوسته حاصل را شبکه های عصبی مصنوعی (ANN) یا به طور خلاصه شبکه های عصبی می نامند.

بسته به موقعیت آنها در شبکه عصبی، سه نوع کلی نورون زیر وجود دارد:

نورون های ورودی (گره های ورودی) که سیگنال های ورودی به آنها عرضه می شود. چنین نورون هایی معمولا یک ورودی با وزن واحد دارند، هیچ بایاس وجود ندارد و مقدار خروجی نورون برابر با سیگنال ورودی است.

گره های خروجی که مقادیر خروجی آنها نشان دهنده سیگنال های خروجی حاصل از شبکه عصبی است.

نورون های پنهان (گره های پنهان) که ارتباط مستقیمی با سیگنال های ورودی ندارند، در حالی که مقادیر سیگنال های خروجی نورون های پنهان سیگنال های خروجی ANN نیستند.

بر اساس ساختار اتصالات بین نورونی، دو دسته از ANN ها متمایز می شوند:

ANNهای پیشخور، که در آنها سیگنال فقط از نورون های ورودی به نورون های خروجی منتشر می شود.

ANN مکرر - ANN با بازخورد. در چنین شبکه‌های عصبی مصنوعی، سیگنال‌ها را می‌توان بین هر نورون، بدون توجه به موقعیت آن‌ها در شبکه عصبی مصنوعی، منتقل کرد.

دو رویکرد کلی برای آموزش ANN وجود دارد:

آموزش با معلم.

یادگیری بدون معلم

یادگیری تحت نظارت شامل استفاده از مجموعه ای از نمونه های آموزشی از پیش تولید شده است. هر مثال حاوی یک بردار سیگنال های ورودی و یک بردار متناظر از سیگنال های خروجی مرجع است که به وظیفه در دست انجام بستگی دارد. این مجموعهمجموعه آموزشی یا مجموعه آموزشی نامیده می شود. هدف آموزش شبکه عصبی تغییر وزن اتصالات ANN به گونه ای است که مقادیر سیگنال های خروجی ANN تا حد امکان کمتر از مقادیر مورد نیاز سیگنال های خروجی برای یک بردار مشخص از سیگنال های ورودی متفاوت باشد. .

در یادگیری بدون نظارت، وزن اتصال یا در نتیجه رقابت بین نورون ها، یا با در نظر گرفتن همبستگی سیگنال های خروجی نورون هایی که بین آنها ارتباط وجود دارد، تنظیم می شود. در مورد یادگیری بدون نظارت، از هیچ مجموعه آموزشی استفاده نمی شود.

شبکه های عصبی برای حل طیف وسیعی از مشکلات، مانند برنامه ریزی بار برای شاتل های فضایی و پیش بینی نرخ ارز استفاده می شوند. با این حال، به دلیل پیچیدگی مدل (دانش ثبت شده به عنوان وزن چند صد اتصال بین عصبی کاملاً فراتر از تجزیه و تحلیل و تفسیر انسانی است) و زمان طولانی آموزش در یک مجموعه آموزشی بزرگ، اغلب در سیستم های داده کاوی استفاده نمی شوند. از سوی دیگر، شبکه های عصبی برای استفاده در وظایف تجزیه و تحلیل داده ها دارای مزایایی مانند مقاومت در برابر داده های نویز و دقت بالا هستند.

2.3 روشهای نزدیکترین همسایه و k نزدیکترین همسایه

اساس الگوریتم نزدیکترین همسایه (الگوریتم نزدیکترین همسایه) و الگوریتم k-نزدیکترین همسایه (KNN) شباهت اجسام است. الگوریتم نزدیکترین همسایه، از بین تمام اشیاء شناخته شده، شی ای را انتخاب می کند که تا حد امکان (با استفاده از متریک فاصله بین اشیاء، به عنوان مثال، اقلیدسی) به یک شی ناشناخته جدید جدید باشد. مشکل اصلی روش نزدیکترین همسایه حساسیت آن به نقاط پرت در داده های آموزشی است.

مشکل توصیف شده را می توان با الگوریتم KNN اجتناب کرد، که در بین همه مشاهدات، k نزدیکترین همسایه هایی را که شبیه به شی جدید هستند شناسایی می کند. بر اساس کلاس های نزدیکترین همسایگان، تصمیمی در مورد شی جدید گرفته می شود. وظیفه مهم این الگوریتم انتخاب ضریب k - تعداد رکوردهایی است که مشابه در نظر گرفته می شود. اصلاح الگوریتمی که در آن سهم یک همسایه با فاصله تا شی جدید متناسب است (روش نزدیکترین همسایه‌های وزنی k) به فرد امکان می‌دهد به دقت طبقه‌بندی بیشتری دست یابد. روش k-nearest همسایه ها همچنین به شما امکان می دهد صحت پیش بینی را ارزیابی کنید. به عنوان مثال، اگر همه k نزدیکترین همسایگان دارای کلاس یکسانی باشند، احتمال اینکه شی مورد آزمایش دارای کلاس یکسان باشد بسیار زیاد است.

از جمله ویژگی های الگوریتم، شایان ذکر است که مقاومت آن در برابر پرت های غیرعادی وجود دارد، زیرا احتمال گنجاندن چنین رکوردی در تعداد k نزدیک ترین همسایه ها کم است. اگر این اتفاق بیفتد، تأثیر بر رأی گیری (به ویژه وزن دار) (برای k>2) نیز به احتمال زیاد ناچیز خواهد بود، و بنابراین، تأثیر بر نتیجه طبقه بندی نیز کم خواهد بود. همچنین از مزایا می توان به سادگی اجرا، سهولت در تفسیر نتیجه الگوریتم، امکان اصلاح الگوریتم با استفاده از مناسب ترین توابع ترکیبی و معیارها اشاره کرد که به شما امکان می دهد الگوریتم را برای یک کار خاص تنظیم کنید. الگوریتم KNN همچنین دارای معایبی است. ابتدا مجموعه داده های مورد استفاده برای الگوریتم باید معرف باشد. دوم، مدل را نمی توان از داده ها جدا کرد: همه مثال ها باید برای طبقه بندی یک مثال جدید استفاده شوند. این ویژگی استفاده از الگوریتم را تا حد زیادی محدود می کند.

2.4 درختان تصمیم

اصطلاح "درخت تصمیم" به خانواده ای از الگوریتم ها بر اساس نمایش قوانین طبقه بندی در یک ساختار سلسله مراتبی و ترتیبی اشاره دارد. این محبوب ترین کلاس از الگوریتم ها برای حل مسائل داده کاوی است.

خانواده‌ای از الگوریتم‌ها برای ساخت درخت‌های تصمیم، پیش‌بینی مقدار یک پارامتر برای یک مورد معین را بر اساس حجم زیادی از داده‌ها در مورد سایر موارد مشابه ممکن می‌سازد. به طور معمول، الگوریتم های این خانواده برای حل مسائل استفاده می شود که امکان تقسیم تمام داده های اولیه به چندین گروه گسسته را ممکن می کند.

هنگام اعمال الگوریتم های ساخت درخت تصمیم برای مجموعه ای از داده های اولیه، نتیجه به صورت درختی نمایش داده می شود. چنین الگوریتم‌هایی اجرای چندین سطح از چنین تقسیم‌بندی را امکان‌پذیر می‌سازند و گروه‌های حاصل (شاخه‌های درخت) را بر اساس ویژگی‌های دیگر به گروه‌های کوچک‌تر تقسیم می‌کنند. این تقسیم تا زمانی ادامه می‌یابد که مقادیری که قرار است پیش‌بینی شوند برای همه گروه‌های حاصل (برگ‌های درخت) یکسان شوند (یا در مورد مقدار پیوسته پارامتر پیش‌بینی‌شده، بسته شوند). این مقادیر هستند که برای پیش بینی بر اساس این مدل استفاده می شوند.

عملکرد الگوریتم های ساخت درخت های تصمیم بر اساس استفاده از روش های تحلیل رگرسیون و همبستگی است. یکی از محبوب‌ترین الگوریتم‌های این خانواده، CART (درخت طبقه‌بندی و رگرسیون) است که براساس تقسیم داده‌های یک شاخه درخت به دو شاخه فرزند است. علاوه بر این، تقسیم بیشتر یک شاخه خاص بستگی به این دارد که این شاخه چه مقدار داده اولیه را توصیف می کند. برخی دیگر از الگوریتم های مشابه به شما امکان می دهند یک شاخه را به شاخه های فرزند بیشتری تقسیم کنید. در این مورد، تقسیم بر اساس بالاترین ضریب همبستگی برای داده های توصیف شده توسط شاخه بین پارامتری که طبق آن تقسیم رخ می دهد و پارامتری که باید متعاقباً پیش بینی شود، انجام می شود.

محبوبیت این رویکرد با وضوح و وضوح همراه است. اما درخت های تصمیم اساساً قادر به یافتن "بهترین" (کامل ترین و دقیق ترین) قوانین در داده ها نیستند. آنها اصل ساده لوحانه مشاهده متوالی ویژگی ها را اجرا می کنند و در واقع بخش هایی از الگوهای واقعی را پیدا می کنند و تنها توهم یک نتیجه گیری منطقی را ایجاد می کنند.

2.5 الگوریتم های خوشه بندی

خوشه بندی وظیفه تقسیم مجموعه ای از اشیاء به گروه هایی به نام خوشه است. تفاوت اصلی بین خوشه بندی و طبقه بندی در این است که لیست گروه ها به وضوح تعریف نشده است و در طول عملیات الگوریتم تعیین می شود.

کاربرد تحلیل خوشه ای به طور کلی به مراحل زیر ختم می شود:

· انتخاب نمونه ای از اشیاء برای خوشه بندی.

· تعریف مجموعه ای از متغیرها که توسط آن اشیاء در نمونه ارزیابی می شوند. در صورت لزوم، مقادیر متغیرها را عادی کنید.

· محاسبه مقادیر اندازه گیری شباهت بین اشیاء.

· کاربرد روش تحلیل خوشه ای برای ایجاد گروه هایی از اشیاء مشابه (خوشه ها).

· ارائه نتایج تجزیه و تحلیل.

پس از دریافت و تجزیه و تحلیل نتایج، امکان تنظیم متریک و روش خوشه بندی انتخابی تا حصول نتیجه بهینه وجود دارد.

الگوریتم های خوشه بندی شامل گروه های سلسله مراتبی و مسطح است. الگوریتم های سلسله مراتبی (که الگوریتم های طبقه بندی نیز نامیده می شوند) نه تنها یک پارتیشن از نمونه را به خوشه های ناهمگون، بلکه سیستمی از پارتیشن های تودرتو می سازند. بنابراین خروجی الگوریتم درختی از خوشه‌ها است که ریشه آن کل نمونه و برگ‌ها کوچک‌ترین خوشه‌ها هستند. الگوریتم های مسطح یک پارتیشن از اشیا را به خوشه هایی می سازند که با یکدیگر تلاقی ندارند.

طبقه بندی دیگر الگوریتم های خوشه بندی به الگوریتم های واضح و فازی است. الگوریتم های پاک (یا بدون همپوشانی) به هر شی نمونه یک عدد خوشه اختصاص می دهند، یعنی هر شی فقط به یک خوشه تعلق دارد. الگوریتم‌های فازی (یا متقاطع) به هر شی مجموعه‌ای از مقادیر واقعی اختصاص می‌دهند که درجه ارتباط شی با خوشه‌ها را نشان می‌دهد. بنابراین، هر شی با احتمال مشخصی به هر خوشه تعلق دارد.

در بین الگوریتم های خوشه بندی سلسله مراتبی، دو نوع اصلی وجود دارد: الگوریتم های پایین به بالا و از بالا به پایین. الگوریتم های بالا به پایین بر اساس یک اصل از بالا به پایین کار می کنند: ابتدا همه اشیا در یک خوشه قرار می گیرند که سپس به خوشه های کوچکتر و کوچکتر تقسیم می شود. رایج‌تر الگوریتم‌های پایین به بالا هستند که با قرار دادن هر شی در یک خوشه جداگانه شروع می‌شوند و سپس خوشه‌ها را به خوشه‌های بزرگ‌تر و بزرگ‌تر ترکیب می‌کنند تا زمانی که همه اشیاء در نمونه در یک خوشه واحد قرار گیرند. بنابراین، سیستمی از پارتیشن های تو در تو ساخته می شود. نتایج چنین الگوریتم هایی معمولاً به صورت درختی ارائه می شود.

نقطه ضعف الگوریتم های سلسله مراتبی، سیستم پارتیشن های کامل است که ممکن است در زمینه مشکل در حال حل غیر ضروری باشد.

اجازه دهید اکنون الگوریتم های مسطح را در نظر بگیریم. ساده ترین در میان این کلاس الگوریتم های خطای درجه دوم هستند. مشکل خوشه‌بندی برای این الگوریتم‌ها را می‌توان به‌عنوان ساختن یک پارتیشن بهینه از اشیا به گروه‌ها در نظر گرفت. در این مورد، بهینه بودن را می توان به عنوان شرط به حداقل رساندن ریشه میانگین مربعات خطای پارتیشن بندی تعریف کرد:

,

جایی که ج j - "مرکز جرم" خوشه j(نقطه با مشخصات متوسط ​​برای یک خوشه معین).

رایج ترین الگوریتم در این دسته، روش k-means است. این الگوریتم تعداد معینی از خوشه‌ها را می‌سازد که تا حد امکان از هم فاصله دارند. کار الگوریتم به چند مرحله تقسیم می شود:

به صورت تصادفی انتخاب کنید کنقاطی که "مرکز جرم" اولیه خوشه ها هستند.

2. هر شی را به خوشه ای با نزدیکترین "مرکز جرم" اختصاص دهید.

اگر معیار توقف الگوریتم برآورده نشد، به مرحله 2 بازگردید.

حداقل تغییر در میانگین مربعات خطا معمولاً به عنوان معیار توقف الگوریتم انتخاب می شود. همچنین اگر در مرحله 2 هیچ شیئی وجود نداشته باشد که از خوشه ای به خوشه دیگر حرکت کرده باشد، می توان الگوریتم را متوقف کرد. از معایب این الگوریتم می توان به نیاز به تعیین تعداد خوشه برای پارتیشن بندی اشاره کرد.

محبوب ترین الگوریتم خوشه بندی فازی، الگوریتم c-means است. این اصلاح روش k-means است. مراحل الگوریتم:

1. پارتیشن فازی اولیه را انتخاب کنید nاشیاء روی کخوشه ها با انتخاب ماتریس عضویت Uاندازه n x k.

2. با استفاده از ماتریس U، مقدار معیار خطای فازی را پیدا کنید:

,

جایی که ج k - "مرکز جرم" خوشه فازی ک:

3. اشیاء را مجدداً گروه بندی کنید تا این مقدار معیار خطای فازی کاهش یابد.

4. به مرحله 2 بازگردید تا ماتریس تغییر کند Uبی اهمیت نخواهد شد

این الگوریتم ممکن است مناسب نباشد اگر تعداد خوشه ها از قبل ناشناخته باشد، یا اگر لازم باشد هر شی به طور واضح به یک خوشه اختصاص داده شود.

گروه بعدی الگوریتم ها الگوریتم های مبتنی بر نظریه گراف هستند. ماهیت چنین الگوریتم هایی این است که مجموعه ای از اشیاء به عنوان یک نمودار نمایش داده می شود G=(V، E)که رئوس آن مطابق با اجسام است و وزن لبه های آن برابر با "فاصله" بین اجسام است. از مزایای الگوریتم‌های خوشه‌بندی گراف می‌توان به وضوح، سهولت نسبی پیاده‌سازی و توانایی معرفی پیشرفت‌های مختلف بر اساس ملاحظات هندسی اشاره کرد. الگوریتم های اصلی عبارتند از الگوریتم شناسایی اجزای متصل، الگوریتم ساخت یک درخت پوشا حداقل و الگوریتم خوشه بندی لایه به لایه.

برای انتخاب یک پارامتر آرمعمولاً هیستوگرام توزیع فواصل زوجی ساخته می شود. در وظایف با ساختار خوشه ای مشخص داده ها، هیستوگرام دو قله خواهد داشت - یکی مربوط به فواصل درون خوشه ای، دومی - فواصل بین خوشه ای. پارامتر آراز حداقل منطقه بین این قله ها انتخاب می شود. در عین حال، کنترل تعداد خوشه ها با استفاده از آستانه فاصله بسیار دشوار است.

الگوریتم حداقل درخت پوشا ابتدا یک درخت پوشا حداقل را بر روی یک نمودار می سازد و سپس به ترتیب لبه های دارای بیشترین وزن را حذف می کند. الگوریتم خوشه بندی لایه به لایه بر اساس شناسایی اجزای گراف متصل در سطح مشخصی از فواصل بین اشیا (راس) است. سطح فاصله توسط آستانه فاصله تنظیم می شود ج. به عنوان مثال، اگر فاصله بین اشیاء برابر باشد، سپس .

الگوریتم خوشه‌بندی لایه به لایه، دنباله‌ای از زیرگراف‌های گراف را تولید می‌کند. جی، که روابط سلسله مراتبی بین خوشه ها را منعکس می کند:

,

جایی که جیتی = (V, Eتی ) - نمودار سطح باتی، ,

با t - آستانه فاصله t-ام، m - تعداد سطوح سلسله مراتبی،
جی 0 = (V, O)، o مجموعه خالی از یال های گراف است که توسط تی 0 = 1,
جیمتر = جی، یعنی نموداری از اجسام بدون محدودیت در فاصله (طول لبه های نمودار)، زیرا تی m = 1.

با تغییر آستانه های فاصله ( با 0 ، …، با m)، جایی که 0 = با 0 < با 1 < …< با m = 1، می توان عمق سلسله مراتب خوشه های حاصل را کنترل کرد. بنابراین، الگوریتم خوشه‌بندی لایه به لایه قادر به ایجاد یک پارتیشن مسطح و سلسله مراتبی از داده‌ها است.

خوشه بندی به شما امکان می دهد به اهداف زیر دست یابید:

· درک داده ها را با شناسایی گروه های ساختاری بهبود می بخشد. تقسیم نمونه به گروه‌هایی از اشیاء مشابه، ساده‌سازی پردازش و تصمیم‌گیری بیشتر داده‌ها را با اعمال یک روش تحلیل متفاوت برای هر خوشه ممکن می‌سازد.

· امکان ذخیره سازی فشرده داده ها را فراهم می کند. برای انجام این کار، به جای ذخیره کل نمونه، می توانید یک مشاهده معمولی را از هر خوشه نگه دارید.

· تشخیص اشیاء غیر معمول جدید که در هیچ خوشه ای قرار نگرفته اند.

به طور معمول، خوشه بندی به عنوان یک روش کمکی در تجزیه و تحلیل داده ها استفاده می شود.

2.6 الگوریتم های ژنتیک

الگوریتم‌های ژنتیک از جمله روش‌های بهینه‌سازی جهانی هستند که امکان حل مسائل از انواع مختلف (مشکلات ترکیبی، کلی با و بدون محدودیت) و درجات مختلف پیچیدگی را فراهم می‌کنند. در عین حال، الگوریتم های ژنتیک با امکان جستجوی تک معیاری و چند معیاره در یک فضای بزرگ که چشم انداز آن هموار نیست مشخص می شود.

این گروه از روش‌ها از یک فرآیند تکراری تکامل دنباله‌ای از نسل‌ها از مدل‌ها، از جمله عملیات انتخاب، جهش و تلاقی استفاده می‌کنند. در ابتدای الگوریتم، جمعیت به صورت تصادفی تشکیل می شود. برای ارزیابی کیفیت راه حل های کدگذاری شده، از تابع تناسب استفاده می شود که برای محاسبه تناسب اندام هر فرد ضروری است. بر اساس نتایج ارزیابی افراد، مناسب ترین آنها برای عبور انتخاب می شوند. در نتیجه تلاقی افراد منتخب از طریق اعمال عملگر متقاطع ژنتیکی، فرزندانی ایجاد می شود که اطلاعات ژنتیکی آنها در نتیجه تبادل اطلاعات کروموزومی بین افراد والدین شکل می گیرد. فرزندان ایجاد شده جمعیت جدیدی را تشکیل می دهند و برخی از فرزندان جهش می یابند که به صورت تصادفی در ژنوتیپ آنها بیان می شود. مرحله، از جمله دنباله "ارزیابی جمعیت" - "انتخاب" - "تقاطع" - "جهش" نامیده می شود. تکامل یک جمعیت متشکل از دنباله ای از چنین نسلی است.

الگوریتم های زیر برای انتخاب افراد برای عبور متمایز می شوند:

· پانمیکسیا. هر دو فردی که یک جفت والدین را تشکیل می دهند به طور تصادفی از کل جمعیت انتخاب می شوند. هر فردی می تواند عضو چندین جفت شود. این رویکرد جهانی است، اما کارایی الگوریتم با افزایش اندازه جمعیت کاهش می‌یابد.

· انتخاب. والدین می توانند افرادی با حداقل آمادگی جسمانی متوسط ​​باشند. این رویکرد همگرایی سریع‌تر الگوریتم را تضمین می‌کند.

· همخونی. این روش مبتنی بر تشکیل یک جفت بر اساس خویشاوندی نزدیک است. در اینجا، ارتباط به عنوان فاصله بین اعضای یک جمعیت، هم به معنای فاصله هندسی افراد در فضای پارامتر و هم فاصله همینگ بین ژنوتیپ ها درک می شود. بنابراین بین همخونی ژنوتیپی و فنوتیپی تمایز قائل شد. اولین عضوی از جفت که باید تلاقی شود به طور تصادفی انتخاب می شود و دومین عضو به احتمال زیاد نزدیکترین فرد به آن است. همخونی را می توان با خاصیت تمرکز جستجو در گره های محلی مشخص کرد، که در واقع منجر به تقسیم جمعیت به گروه های محلی جداگانه در اطراف مناطقی از منظره می شود که برای افراط مشکوک هستند.

· زادآوری. تشکیل یک جفت بر اساس خویشاوندی دور، برای دورترین افراد. هدف Outbreeding جلوگیری از همگرایی الگوریتم با راه‌حل‌های از قبل پیدا شده است و الگوریتم را مجبور می‌کند به مناطق جدید و ناشناخته نگاه کند.

الگوریتم های تشکیل جمعیت جدید:

· انتخاب با جابجایی. از بین همه افراد با ژنوتیپ های یکسان، اولویت با افرادی است که آمادگی جسمانی بالاتری دارند. بنابراین، دو هدف به دست می آید: بهترین راه حل های یافت شده، که دارای مجموعه های کروموزوم متفاوتی هستند، از بین نمی روند و تنوع ژنتیکی کافی به طور مداوم در جمعیت حفظ می شود. جابجایی جمعیت جدیدی از افراد دوردست را تشکیل می دهد، به جای اینکه افراد در اطراف راه حل فعلی یافت شده گروه شوند. این روش برای مشکلات چند اکسترمال استفاده می شود.

· انتخاب نخبگان. روش های انتخاب نخبگان تضمین می کند که انتخاب تضمین می کند که بهترین اعضای جمعیت زنده می مانند. در عین حال، برخی از بهترین افراد بدون هیچ تغییری به نسل بعدی منتقل می شوند. همگرایی سریع ارائه شده توسط انتخاب نخبگان را می توان با یک روش مناسب برای انتخاب جفت والدین جبران کرد. در این مورد، اغلب از زادآوری استفاده می شود. این ترکیبی از "بررسی - انتخاب نخبگان" است که یکی از موثرترین آنهاست.

· انتخاب مسابقات. انتخاب مسابقات n تورنمنت را برای انتخاب n نفر اجرا می کند. هر تورنمنت بر اساس انتخاب k عنصر از جمعیت و انتخاب بهترین فرد از بین آنها ساخته شده است. رایج ترین انتخاب مسابقات با k = 2 است.

یکی از محبوب ترین کاربردهای الگوریتم های ژنتیک در زمینه داده کاوی، جستجوی بهینه ترین مدل (جستجوی الگوریتمی مطابق با مشخصات یک زمینه خاص) است. الگوریتم های ژنتیک در درجه اول برای بهینه سازی توپولوژی شبکه های عصبی و وزن ها استفاده می شوند. با این حال، آنها همچنین می توانند به عنوان یک ابزار مستقل استفاده شوند.

3. برنامه های کاربردی

فناوری داده کاوی دارای طیف وسیعی از کاربردها است، که در واقع مجموعه ای از ابزارهای جهانی برای تجزیه و تحلیل داده ها از هر نوع است.

بازار یابی

یکی از اولین حوزه هایی که در آن فناوری های داده کاوی به کار گرفته شد، حوزه بازاریابی بود. وظیفه ای که توسعه روش های داده کاوی با آن آغاز شد، تحلیل سبد خرید نامیده می شود.

این وظیفه شناسایی محصولاتی است که خریداران تمایل دارند با هم خریداری کنند. آگاهی از سبد خرید برای انجام کمپین های تبلیغاتی، ایجاد توصیه های شخصی به مشتریان، تدوین استراتژی برای ایجاد موجودی کالاها و راه های چیدمان آنها در مناطق فروش ضروری است.

همچنین در بازاریابی، وظایفی مانند تعیین مخاطب هدف یک محصول برای تبلیغ موفق تر حل می شود. تحقیق الگوی زمانی که به کسب و کارها در تصمیم گیری در مورد موجودی کمک می کند. ایجاد مدل های پیش بینی، که به شرکت ها اجازه می دهد تا ماهیت نیازهای دسته های مختلف مشتریان را با رفتار خاصی تشخیص دهند. پیش بینی وفاداری مشتری، که به شما امکان می دهد هنگام تجزیه و تحلیل رفتار مشتری، لحظه خروج مشتری را از قبل شناسایی کنید و احتمالاً از از دست دادن یک مشتری ارزشمند جلوگیری کنید.

صنعت

یکی از حوزه های مهم در این حوزه نظارت و کنترل کیفیت است که با استفاده از ابزارهای آنالیز می توان خرابی تجهیزات، بروز خرابی و برنامه ریزی برای تعمیرات را پیش بینی کرد. پیش‌بینی محبوبیت برخی ویژگی‌ها و دانستن اینکه کدام ویژگی‌ها معمولاً با هم سفارش می‌شوند، به بهینه‌سازی تولید و تمرکز آن بر نیازهای واقعی مصرف‌کنندگان کمک می‌کند.

دارو

در پزشکی نیز از تجزیه و تحلیل داده ها با موفقیت استفاده می شود. نمونه هایی از وظایف عبارتند از تجزیه و تحلیل نتایج معاینه، تشخیص، مقایسه اثربخشی روش های درمانی و داروها، تجزیه و تحلیل بیماری ها و گسترش آنها و شناسایی عوارض جانبی. فن آوری های داده کاوی مانند قوانین تداعی و الگوهای متوالی با موفقیت برای شناسایی ارتباط بین داروها و عوارض جانبی مورد استفاده قرار گرفته اند.

ژنتیک مولکولی و مهندسی ژنتیک

شاید حادترین و در عین حال واضح‌ترین کار کشف الگوها در داده‌های آزمایشی باشد ژنتیک مولکولیو مهندسی ژنتیک در اینجا به عنوان تعریفی از نشانگرها فرموله می شود که به عنوان کدهای ژنتیکی درک می شوند که ویژگی های فنوتیپی خاصی از یک موجود زنده را کنترل می کنند. چنین کدهایی می توانند شامل صدها، هزاران یا بیشتر عناصر مرتبط باشند. نتیجه تجزیه و تحلیل داده های تحلیلی نیز ارتباط کشف شده توسط دانشمندان ژنتیک بین تغییرات در توالی DNA انسان و خطر ابتلا به بیماری های مختلف است.

شیمی کاربردی

روش های داده کاوی در زمینه شیمی کاربردی نیز مورد استفاده قرار می گیرد. در اینجا اغلب این سؤال مطرح می شود که ویژگی های ساختار شیمیایی ترکیبات خاصی که خواص آنها را تعیین می کند، روشن شود. این کار به ویژه هنگام تجزیه و تحلیل ترکیبات شیمیایی پیچیده، که شرح آنها شامل صدها و هزاران عنصر ساختاری و اتصالات آنها است، مهم است.

مبارزه با جرم و جنایت

ابزارهای داده کاوی نسبتاً اخیراً در امنیت مورد استفاده قرار گرفته اند، اما نتایج عملی قبلاً به دست آمده است که اثربخشی داده کاوی در این زمینه را تأیید می کند. دانشمندان سوئیسی سیستمی برای تجزیه و تحلیل فعالیت های اعتراضی به منظور پیش بینی حوادث آینده و سیستمی برای ردیابی تهدیدات سایبری نوظهور و اقدامات هکرها در جهان توسعه داده اند. جدیدترین سیستم به شما امکان می دهد تا تهدیدات سایبری و سایر خطرات را پیش بینی کنید امنیت اطلاعات. روش های داده کاوی نیز با موفقیت برای کشف تقلب کارت اعتباری استفاده می شود. بانک با تجزیه و تحلیل تراکنش‌های گذشته که بعداً متقلبانه بوده است، الگوهایی از چنین کلاهبرداری‌هایی را شناسایی می‌کند.

برنامه های کاربردی دیگر

· تحلیل ریسک. به عنوان مثال، با شناسایی ترکیبی از عوامل مرتبط با خسارت های پرداخت شده، بیمه گذاران می توانند زیان های بدهی خود را کاهش دهند. یک مورد شناخته شده وجود دارد که در آن یک شرکت بیمه بزرگ در ایالات متحده متوجه شد که مبالغ پرداختی بابت مطالبات افراد متاهل دو برابر بیشتر از مبالغ پرداختی برای مطالبات افراد مجرد است. این شرکت با تجدید نظر در سیاست کلی خود مبنی بر ارائه تخفیف به مشتریان خانوادگی به این دانش جدید پاسخ داد.

· هواشناسی. پیش‌بینی آب و هوا با استفاده از روش‌های شبکه عصبی، به‌ویژه از نقشه‌های کوهونن خودسازماندهی استفاده می‌شود.

· خط مشی پرسنلی. ابزارهای تجزیه و تحلیل به خدمات منابع انسانی کمک می کند تا موفق ترین نامزدها را بر اساس تجزیه و تحلیل داده های رزومه خود انتخاب کنند و ویژگی های کارمندان ایده آل را برای یک موقعیت خاص مدل کنند.

4. سازندگان ابزارهای داده کاوی

ابزارهای داده کاوی به طور سنتی محصولات نرم افزاری گران قیمتی هستند. بنابراین تا همین اواخر مصرف کنندگان اصلی این فناوری بانک ها، شرکت های مالی و بیمه، بنگاه های تجاری بزرگ بودند و عمده ترین وظایفی که نیازمند استفاده از داده کاوی بود، ارزیابی ریسک های اعتباری و بیمه ای و تدوین سیاست های بازاریابی در نظر گرفته می شد. ، طرح های تعرفه ای و سایر اصول کار با مشتریان. در سال های اخیر، وضعیت دستخوش تغییرات خاصی شده است: ابزارهای داده کاوی نسبتاً ارزان و حتی سیستم های توزیع شده آزادانه در بازار نرم افزار ظاهر شده اند که این فناوری را برای مشاغل کوچک و متوسط ​​قابل دسترس کرده است.

در میان ابزارهای پولی و سیستم های تجزیه و تحلیل داده ها، مؤسسه SAS (SAS Enterprise Miner)، SPSS (SPSS، Clementine) و StatSoft (STATISTICA Data Miner) پیشرو هستند. راه حل های کاملاً شناخته شده از Angoss (Angoss KnowledgeSTUDIO)، IBM (IBM SPSS Modeler)، مایکروسافت (Microsoft Analysis Services) و (Oracle) Oracle Data Mining هستند.

انتخاب نرم افزار رایگان نیز متنوع است. هر دو ابزار تحلیل جهانی مانند JHepWork، KNIME، Orange، RapidMiner و ابزارهای تخصصی وجود دارد، به عنوان مثال، Carrot2 - چارچوبی برای خوشه بندی داده های متنی و نتایج جستجو، Chemicalize.org - راه حلی در زمینه شیمی کاربردی، ابزار پردازش زبان طبیعی NLTK (Natural Language Toolkit).

5. نقد روشها

نتایج داده کاوی تا حد زیادی به سطح آماده سازی داده ها بستگی دارد، نه به "قابلیت های شگفت انگیز" برخی از الگوریتم ها یا مجموعه ای از الگوریتم ها. حدود 75 درصد از کار در داده کاوی شامل جمع آوری داده است که قبل از استفاده از ابزارهای تجزیه و تحلیل اتفاق می افتد. استفاده بی سواد از ابزارها منجر به هدر رفتن پتانسیل شرکت و گاهی میلیون ها دلار می شود.

نظر هرب ادلشتاین، کارشناس مشهور جهان در زمینه داده کاوی، انبار داده و CRM: «مطالعه اخیر توسط Two Crows نشان داد که داده کاوی هنوز در مراحل اولیه توسعه خود است. بسیاری از سازمان ها به این فناوری علاقه مند هستند، اما تنها تعداد کمی از آنها به طور فعال چنین پروژه هایی را اجرا می کنند. موفق به کشف یک مورد دیگر شد نکته مهم: فرآیند اجرای داده کاوی در عمل پیچیده تر از حد انتظار است. فرض بر این است که اجرای چنین ابزاری در یک پایگاه داده ترابایتی کافی است و اطلاعات مفید فوراً ظاهر می شود. در واقع، یک پروژه داده کاوی موفق نیاز به درک فعالیت، دانش داده ها و ابزارها و فرآیند تجزیه و تحلیل داده ها دارد. بنابراین، قبل از استفاده از فناوری داده کاوی، لازم است محدودیت‌های اعمال شده توسط روش‌ها و مسائل حیاتی مرتبط با آن را با دقت مورد تجزیه و تحلیل قرار داده و قابلیت‌های فناوری را با هوشیاری ارزیابی کنیم. مسائل بحرانی شامل موارد زیر است:

1. فناوری نمی تواند به سوالاتی که مطرح نشده اند پاسخ دهد. نمی تواند جایگزین تحلیلگر شود، بلکه تنها ابزاری قدرتمند برای تسهیل و بهبود کارش به او می دهد.

2. پیچیدگی توسعه و اجرای برنامه داده کاوی.

از آنجا که این تکنولوژییک زمینه چند رشته ای است، برای توسعه برنامه ای که شامل داده کاوی می شود، باید متخصصان رشته های مختلف را درگیر کرد و همچنین از تعامل با کیفیت بالا آنها اطمینان حاصل کرد.

3. صلاحیت های کاربر.

ابزارهای مختلف داده کاوی درجات متفاوتی از کاربرپسندی رابط دارند و به شرایط کاربری خاصی نیاز دارند. از همین رو نرم افزارباید با سطح آموزش کاربر مطابقت داشته باشد. استفاده از داده کاوی باید به طور جدایی ناپذیری با بهبود صلاحیت های کاربر مرتبط باشد. با این حال، در حال حاضر تعداد کمی از متخصصان داده کاوی وجود دارند که به خوبی در فرآیندهای تجاری مسلط باشند.

4. استخراج اطلاعات مفید بدون درک خوب از ماهیت داده ها غیر ممکن است.

انتخاب دقیق مدل و تفسیر وابستگی ها یا الگوهای کشف شده مورد نیاز است. بنابراین، کار با چنین ابزارهایی نیاز به همکاری نزدیک بین یک متخصص حوزه و یک متخصص ابزار داده کاوی دارد. مدل های پایدار باید به طور هوشمندانه در فرآیندهای تجاری ادغام شوند تا امکان ارزیابی و به روز رسانی مدل ها فراهم شود. اخیراً سیستم های داده کاوی به عنوان بخشی از فناوری انبار داده عرضه می شوند.

5. مشکل در تهیه داده ها.

تجزیه و تحلیل موفقیت آمیز نیاز به پیش پردازش داده با کیفیت بالا دارد. به گفته تحلیلگران و کاربران پایگاه داده، فرآیند پیش پردازش می تواند تا 80 درصد از کل فرآیند داده کاوی را به خود اختصاص دهد.

بنابراین، برای اینکه این فناوری برای خود کار کند، به تلاش و زمان زیادی نیاز دارد که به تجزیه و تحلیل داده های اولیه، انتخاب مدل و تنظیم آن می پردازد.

6. درصد زیادی از نتایج نادرست، غیر قابل اعتماد یا بی فایده.

با استفاده از فناوری های داده کاوی، می توانید اطلاعات واقعاً بسیار ارزشمندی را بیابید که می تواند مزیت قابل توجهی در برنامه ریزی، مدیریت و تصمیم گیری بیشتر ایجاد کند. با این حال، نتایج به دست آمده با استفاده از روش های داده کاوی اغلب حاوی نتایج نادرست و بی معنی است. بسیاری از کارشناسان استدلال می کنند که ابزارهای داده کاوی می توانند تعداد زیادی از نتایج آماری غیرقابل اعتماد ایجاد کنند. برای کاهش درصد چنین نتایجی، لازم است که کفایت مدل های به دست آمده بر روی داده های آزمایش بررسی شود. با این حال، اجتناب از نتیجه گیری های نادرست به طور کامل غیرممکن است.

7. هزینه بالا.

کیفی نرم افزارنتیجه هزینه های نیروی کار قابل توجه از سوی توسعه دهنده است. بنابراین نرم افزار داده کاوی به طور سنتی یک محصول نرم افزاری گران قیمت است.

8. در دسترس بودن اطلاعات معرف کافی.

ابزارهای داده کاوی، بر خلاف ابزارهای آماری، از نظر تئوری به مقدار دقیقی از داده های تاریخی نیاز ندارند. این ویژگی می تواند باعث تشخیص مدل های غیر قابل اعتماد، نادرست و در نتیجه تصمیم گیری نادرست بر اساس آنها شود. نظارت بر اهمیت آماری دانش کشف شده ضروری است.

الگوریتم شبکه عصبی خوشه بندی داده کاوی

نتیجه

دانا شرح مختصری ازحوزه های کاربردی و نقد فناوری داده کاوی و نظر کارشناسان این حوزه را ارائه می کند.

فهرست کنیدادبیات

1. هان و میشلین کامبر. داده کاوی: مفاهیم و تکنیک ها. ویرایش دوم. - دانشگاه ایلینوی در اوربانا شامپاین

بری، مایکل J. A. تکنیک های داده کاوی: برای بازاریابی، فروش و مدیریت ارتباط با مشتری - ویرایش دوم.

سیو نین لام. کشف قوانین انجمن در داده کاوی. - گروه علوم کامپیوتر دانشگاه ایلینوی در Urbana-Champaign




بالا