أنماط غير معروفة في البيانات المعروفة. مقدمة في استخراج البيانات الحديثة. أساليب الجيران الأقرب وأقرب الجيران

أدوات استخراج البيانات

حاليًا، يتم تمثيل تكنولوجيا استخراج البيانات بعدد من منتجات البرمجيات التجارية والموزعة مجانًا. يمكن العثور على قائمة كاملة إلى حد ما ويتم تحديثها بانتظام بهذه المنتجات على الموقع الإلكتروني شبكة الاتصالات العالمية. kdnuggets. com, مخصصة لاستخراج البيانات. يمكن تصنيف منتجات برمجيات التنقيب عن البيانات وفقًا لنفس المبادئ التي تشكل الأساس لتصنيف التكنولوجيا نفسها. ومع ذلك، فإن مثل هذا التصنيف لن يكون له أي قيمة عملية. نظرًا للمنافسة الشديدة في السوق والرغبة في استكمال الحلول التقنية، فإن العديد من منتجات استخراج البيانات تغطي حرفيًا جميع جوانب تطبيق التقنيات التحليلية. ولذلك، فمن المنطقي تصنيف منتجات استخراج البيانات وفقًا لكيفية تنفيذها، وبالتالي، ما هي إمكانية التكامل التي توفرها. من الواضح أن هذه أيضًا اتفاقية، لأن هذا المعيار لا يسمح لنا بتحديد حدود واضحة بين المنتجات. ومع ذلك، فإن هذا التصنيف له ميزة واحدة لا شك فيها. يتيح لك اتخاذ قرار سريع بشأن اختيار حل أو آخر جاهز عند تهيئة المشاريع في مجال تحليل البيانات، وتطوير أنظمة دعم القرار، وإنشاء مستودعات البيانات، وما إلى ذلك.

لذلك، يمكن تقسيم منتجات استخراج البيانات إلى ثلاث فئات كبيرة:

    إدراجها كجزء لا يتجزأ من أنظمة إدارة قواعد البيانات؛

    مكتبات خوارزميات استخراج البيانات مع البنية التحتية المصاحبة لها؛

    الحلول المعبأة أو المكتبية ("الصناديق السوداء").

توفر المنتجات الموجودة في الفئتين الأوليين أكبر فرص التكامل وتسمح لك بتحقيق الإمكانات التحليلية في أي تطبيق تقريبًا في أي مجال. يمكن للتطبيقات المعبأة بدورها أن توفر بعض التطورات الفريدة في مجال استخراج البيانات أو أن تكون متخصصة في تطبيق معين. ومع ذلك، في معظم الحالات، يكون من الصعب دمجها في حلول أوسع.

يعد إدراج القدرات التحليلية في أنظمة إدارة قواعد البيانات التجارية اتجاهًا طبيعيًا ذو إمكانات هائلة. في الواقع، أين، إن لم يكن في الأماكن التي تتركز فيها البيانات، هل من المنطقي وضع وسائل معالجتها؟ وبناءً على هذا المبدأ، فإن وظيفة التنقيب عن البيانات في حالياًالمطبقة في قواعد البيانات التجارية التالية:

    مايكروسوفت SQL خادم؛

النقاط الرئيسية

  • يسمح لك استخراج البيانات تلقائيًا، بناءً على كمية كبيرة من البيانات المتراكمة، بإنشاء فرضيات يمكن التحقق منها بواسطة أدوات التحليل الأخرى (على سبيل المثال، OLAP).

    التنقيب في البيانات هو البحث والاكتشاف بواسطة آلة (الخوارزميات وأدوات الذكاء الاصطناعي) للمعرفة المخفية في البيانات الأولية التي لم تكن معروفة من قبل، وغير تافهة، ومفيدة عمليًا، ويمكن تفسيرها بواسطة الإنسان.

    تحل طرق التنقيب عن البيانات ثلاث مشاكل رئيسية: مشكلة التصنيف والانحدار، ومشكلة البحث عن قواعد الارتباط، ومشكلة التجميع. وفقا للغرض منها، يتم تقسيمها إلى وصفية وتنبؤية. بناءً على طرق حل المشكلات، يتم تقسيمها إلى التعلم الخاضع للإشراف (التعلم مع المعلم) والتعلم غير الخاضع للإشراف (التعلم بدون معلم).

    تتلخص مهمة التصنيف والانحدار في تحديد قيمة المتغير التابع لكائن ما من متغيراته المستقلة. إذا كان المتغير التابع يأخذ القيم العددية، فإننا نتحدث عن مشكلة الانحدار، وإلا - حول مشكلة التصنيف.

    عند البحث عن قواعد الارتباط، يكون الهدف هو العثور على تبعيات (أو ارتباطات) متكررة بين الكائنات أو الأحداث. يتم تقديم التبعيات التي تم العثور عليها في شكل قواعد ويمكن استخدامها لفهم طبيعة البيانات التي تم تحليلها بشكل أفضل والتنبؤ بالأحداث.

    تتمثل مهمة التجميع في البحث عن مجموعات مستقلة (مجموعات) وخصائصها في مجموعة البيانات التي تم تحليلها بالكامل. يساعدك حل هذه المشكلة على فهم البيانات بشكل أفضل. بالإضافة إلى ذلك، فإن تجميع الكائنات المتجانسة يجعل من الممكن تقليل عددها، وبالتالي تسهيل التحليل.

    طرق استخراج البيانات هي عند التقاطع اتجاهات مختلفةتقنيات المعلومات: الإحصائيات، الشبكات العصبية، المجموعات الغامضة، الخوارزميات الجينية، إلخ.

    ويتضمن التحليل الذكي المراحل التالية: فهم مشكلة التحليل وصياغتها، وإعداد البيانات للتحليل الآلي، وتطبيق أساليب التنقيب في البيانات وبناء النماذج، والتحقق من النماذج المشيدة، وتفسير النماذج من قبل البشر.

    قبل تطبيق تقنيات التنقيب عن البيانات، يجب تحويل البيانات المصدر. يعتمد نوع التحويل على الطرق المستخدمة.

    يمكن استخدام أساليب استخراج البيانات بشكل فعال في مختلف مجالات النشاط البشري: الأعمال والطب والعلوم والاتصالات وما إلى ذلك.

3. تحليل معلومات النص - التنقيب عن النص

يتطلب تحليل المعلومات المنظمة المخزنة في قواعد البيانات معالجة أولية: تصميم قاعدة بيانات، وإدخال المعلومات وفقًا لقواعد معينة، ووضعها في هياكل خاصة (على سبيل المثال، الجداول العلائقية)، وما إلى ذلك. وبالتالي، مباشرة لتحليل هذه المعلومات والحصول منها على معارف جديدة يتطلب جهدا إضافيا. ومع ذلك، فهي لا تتعلق دائمًا بالتحليل ولا تؤدي بالضرورة إلى النتيجة المرجوة. ولهذا السبب، تنخفض كفاءة تحليل المعلومات المنظمة. بالإضافة إلى ذلك، لا يمكن تنظيم جميع أنواع البيانات دون فقدان المعلومات المفيدة. على سبيل المثال، يكاد يكون من المستحيل تحويل المستندات النصية إلى تمثيل جدولي دون فقدان دلالات النص والعلاقات بين الكيانات. لهذا السبب، يتم تخزين هذه المستندات في قاعدة البيانات دون تحويل، مثل الحقول النصية (حقول BLOB). في الوقت نفسه، يتم إخفاء كمية هائلة من المعلومات في النص، لكن طبيعتها غير المنظمة لا تسمح باستخدام خوارزميات استخراج البيانات. تعمل طرق تحليل النص غير المنظم على حل هذه المشكلة. في الأدب الغربي، يسمى هذا التحليل "تنقيب النص".

تكمن طرق التحليل في النصوص غير المنظمة في تقاطع عدة مجالات: استخراج البيانات، ومعالجة اللغات الطبيعية، واسترجاع المعلومات، واستخلاص المعلومات، وإدارة المعرفة.

تعريف التنقيب عن النص: اكتشاف المعرفة النصية هو عملية غير تافهة لاكتشاف أنماط جديدة حقًا، من المحتمل أن تكون مفيدة ومفهومة في البيانات النصية غير المنظمة.

وكما ترى فهو يختلف عن تعريف Data Mining فقط في المفهوم الجديد وهو “البيانات النصية غير المنظمة”. تُفهم هذه المعرفة على أنها مجموعة من الوثائق التي تمثل نصًا موحدًا منطقيًا دون أي قيود على بنيته. ومن أمثلة هذه المستندات: صفحات الويب، والبريد الإلكتروني، والمستندات التنظيمية، وما إلى ذلك. بشكل عام، يمكن أن تكون هذه المستندات معقدة وكبيرة ولا تتضمن نصًا فحسب، بل تتضمن أيضًا معلومات رسومية. تسمى المستندات التي تستخدم XML (لغة التوصيف القابلة للتوسيع) وSGML (لغة التوصيف المعممة القياسية) وغيرها من اصطلاحات بنية النص المشابهة بالمستندات شبه المنظمة. ويمكن أيضًا معالجتها باستخدام طرق التنقيب عن النصوص.

يمكن تمثيل عملية تحليل المستندات النصية كسلسلة من عدة خطوات

    ابحث عن معلومات. الخطوة الأولى هي تحديد الوثائق التي تحتاج إلى تحليل والتأكد من توفرها. كقاعدة عامة، يمكن للمستخدمين تحديد مجموعة المستندات التي سيتم تحليلها بشكل مستقل - يدويًا، ولكن مع وجود عدد كبير من المستندات، من الضروري استخدام خيارات التحديد التلقائي وفقًا لمعايير محددة.

    تمهيدي معالجة الملف. في هذه الخطوة، يتم إجراء تحويلات بسيطة ولكنها ضرورية على المستندات لتمثيلها في النموذج الذي تعمل به طرق التنقيب عن النص. الغرض من هذه التحويلات هو إزالة الكلمات غير الضرورية وإعطاء النص شكلاً أكثر صرامة. سيتم وصف طرق المعالجة المسبقة بمزيد من التفصيل في القسم.

    استخراج المعلومات. يتضمن استخراج المعلومات من المستندات المختارة تحديد المفاهيم الأساسية فيها، والتي سيتم تحليلها في المستقبل.

تطبيق أساليب التعدين النص. في هذه الخطوة يتم استخراج الأنماط والعلاقات الموجودة في النصوص. هذه الخطوة هي الخطوة الأساسية في عملية تحليل النص، ويتم في هذه الخطوة حل المشكلات العملية.

تفسير النتائج. تتضمن الخطوة الأخيرة في عملية اكتشاف المعرفة تفسير النتائج. عادة، يتكون التفسير إما من عرض النتائج باللغة الطبيعية أو تصورها بيانيا.

يمكن أيضًا استخدام التصور كأداة لتحليل النص. للقيام بذلك، يتم استخراج المفاهيم الأساسية وعرضها بيانيا. يساعد هذا الأسلوب المستخدم على التعرف بسرعة على الموضوعات والمفاهيم الرئيسية وتحديد أهميتها.

المعالجة المسبقة للنص

إحدى المشاكل الرئيسية لتحليل النص هي العدد الكبير من الكلمات في المستند. إذا تم تحليل كل كلمة من هذه الكلمات، فإن وقت البحث عن المعرفة الجديدة سيزداد بشكل حاد ومن غير المرجح أن يلبي متطلبات المستخدم. وفي الوقت نفسه، من الواضح أنه ليست كل الكلمات في النص تحمل معلومات مفيدة. بالإضافة إلى ذلك، ونظرًا لمرونة اللغات الطبيعية، فإن الكلمات المختلفة رسميًا (المرادفات، وما إلى ذلك) تعني في الواقع نفس المفاهيم. وبالتالي، فإن إزالة الكلمات غير المفيدة، وكذلك جلب الكلمات المتقاربة في المعنى إلى نموذج واحد، يقلل بشكل كبير من وقت تحليل النص. يتم حل المشكلات الموصوفة في مرحلة المعالجة المسبقة للنص.

تُستخدم عادةً الأساليب التالية لإزالة الكلمات غير المفيدة وزيادة دقة النصوص:

    إزالة كلمات التوقف. كلمات التوقف هي كلمات مساعدة وتحمل القليل من المعلومات حول محتوى المستند.

    الجذعية هو البحث المورفولوجية. وهو يتألف من تحويل كل كلمة إلى شكلها الطبيعي.

    تعد L-grams بديلاً للتحليل المورفولوجي وإيقاف إزالة الكلمات. إنها تسمح لك بجعل النص أكثر صرامة، لكنها لا تحل مشكلة تقليل عدد الكلمات غير المفيدة؛

    تحويل الحالة. تتضمن هذه التقنية تحويل جميع الأحرف إلى أحرف كبيرة أو صغيرة.

الأكثر فعالية هو الاستخدام المشترك لهذه الأساليب.

مهام التعدين النص

حاليًا، يتم وصف العديد من المشكلات التطبيقية في الأدبيات التي يمكن حلها باستخدام تحليل المستندات النصية. يتضمن ذلك مهام التنقيب عن البيانات الكلاسيكية: التصنيف، والتجميع، والمهام النموذجية فقط للمستندات النصية: التعليقات التوضيحية التلقائية، واستخراج المفاهيم الأساسية، وما إلى ذلك.

التصنيف مهمة قياسية في مجال استخراج البيانات. والغرض منه هو تحديد فئة واحدة أو أكثر محددة مسبقًا لكل مستند تنتمي إليها هذه الوثيقة. ومن سمات مشكلة التصنيف الافتراض بأن مجموعة الوثائق السرية لا تحتوي على "قمامة"، أي أن كل وثيقة من الوثائق تتوافق مع فئة معينة.

هناك حالة خاصة لمشكلة التصنيف وهي مشكلة تحديد موضوع الوثيقة.

الغرض من تجميع المستندات هو التعرف تلقائيًا على مجموعات من المستندات المتشابهة لغويًا بين مجموعة ثابتة معينة. لاحظ أن المجموعات يتم تشكيلها فقط على أساس التشابه الزوجي لأوصاف المستندات، ولم يتم تحديد خصائص هذه المجموعات مسبقًا.

يتيح لك التعليق التوضيحي التلقائي (التلخيص) تقصير النص مع الحفاظ على معناه. عادةً ما يتم التحكم في حل هذه المشكلة من قبل المستخدم من خلال تحديد عدد الجمل المراد استخراجها أو نسبة النص المستخرج مقارنة بالنص بأكمله. وتشمل النتيجة أهم الجمل في النص.

الهدف الأساسي من استخراج الميزة هو تحديد الحقائق والعلاقات في النص. في معظم الحالات، تكون هذه المفاهيم عبارة عن أسماء وأسماء شائعة: الأسماء الأولى والأخيرة للأشخاص، وأسماء المنظمات، وما إلى ذلك. يمكن لخوارزميات استخراج المفاهيم استخدام القواميس لتحديد بعض المصطلحات والأنماط اللغوية لتعريف مصطلحات أخرى.

يسمح التنقل القائم على النص للمستخدمين بالتنقل في المستندات بناءً على الموضوعات والمصطلحات ذات الصلة. ويتم ذلك من خلال تحديد المفاهيم الأساسية وبعض العلاقات بينها.

يتيح لك تحليل الاتجاه تحديد الاتجاهات في مجموعات من المستندات خلال فترة زمنية. يمكن استخدام الاتجاه، على سبيل المثال، لاكتشاف التغيرات في اهتمامات الشركة من قطاع سوق إلى آخر.

يعد البحث عن الارتباطات أيضًا أحد المهام الرئيسية لاستخراج البيانات. لحلها، يتم تحديد العلاقات الترابطية بين المفاهيم الأساسية في مجموعة معينة من الوثائق.

هناك عدد كبير جدًا من أنواع المشكلات المدرجة، بالإضافة إلى طرق حلها. وهذا يؤكد مرة أخرى أهمية تحليل النص. يناقش الجزء المتبقي من هذا الفصل حلول المشكلات التالية: استخراج المفهوم الأساسي، والتصنيف، والتجميع، والتعليق التوضيحي التلقائي.

تصنيف المستندات النصية

تصنيف المستندات النصية، وكذلك في حالة تصنيف الكائنات، يتمثل في تعيين مستند إلى إحدى الفئات المعروفة مسبقًا. غالبًا ما يسمى التصنيف فيما يتعلق بالمستندات النصية بالتصنيف أو الكتابة بالحبر. من الواضح أن هذه الأسماء تأتي من مهمة تنظيم المستندات في كتالوجات وفئات وعناوين. في هذه الحالة، يمكن أن تكون بنية الدليل إما ذات مستوى واحد أو متعددة المستويات (هرمية).

رسميا، يتم وصف مهمة تصنيف المستندات النصية من خلال مجموعة من المجموعات.

في مشكلة التصنيف، من الضروري بناء إجراء يعتمد على هذه البيانات، والذي يتكون من إيجاد الفئة الأكثر احتمالا من المجموعة C للوثيقة قيد الدراسة.

تعتمد معظم أساليب تصنيف النصوص بشكل أو بآخر على افتراض أن المستندات التي تنتمي إلى نفس الفئة تحتوي على نفس السمات (كلمات أو عبارات)، كما أن وجود أو عدم وجود مثل هذه السمات في الوثيقة يدل على انتمائها أو عدم انتمائها إلى فئة معينة. موضوع معين.

غالبًا ما تسمى هذه المجموعة من الميزات بالقاموس، لأنها تتكون من مفردات تتضمن كلمات و/أو عبارات تميز الفئة.

وتجدر الإشارة إلى أن هذه المجموعات من الميزات هي سمة مميزة لتصنيف المستندات النصية من تصنيف الكائنات في Data Mining، والتي تتميز بمجموعة من السمات.

يتم اتخاذ قرار تخصيص الوثيقة د للفئة ج بناءً على تقاطع الميزات المشتركة

تتمثل مهمة طرق التصنيف في اختيار هذه الميزات بشكل أفضل وصياغة القواعد التي سيتم على أساسها اتخاذ القرار بشأن تعيين مستند إلى فئة ما.

أدوات لتحليل المعلومات النصية

    أدوات أوراكل - أوراكل Text2

بدءًا من الإصدار 7.3.3 من Oracle، أصبحت أدوات تحليل النص جزءًا لا يتجزأ من منتجات Oracle. في Oracle، تم تطوير هذه الأدوات وحصلت على اسم جديد - Oracle Text - وهي حزمة برامج مدمجة في نظام إدارة قواعد البيانات (DBMS) تتيح لك العمل بشكل فعال مع الاستعلامات المتعلقة بالنصوص غير المنظمة. في هذه الحالة، يتم دمج معالجة النص مع الإمكانيات المتوفرة للمستخدم للعمل مع قواعد البيانات العلائقية. على وجه الخصوص، أصبح استخدام SQL ممكنا عند كتابة تطبيقات معالجة النصوص.

المهمة الرئيسية التي تهدف أدوات Oracle Text إلى حلها هي مهمة البحث في المستندات حسب محتواها - بالكلمات أو العبارات، والتي، إذا لزم الأمر، يتم دمجها باستخدام العمليات المنطقية. يتم ترتيب نتائج البحث حسب الأهمية، مع الأخذ في الاعتبار تكرار ظهور كلمات الاستعلام في المستندات التي تم العثور عليها.

    أدوات من IBM - عامل التعدين الذكي للنص 1

يعد منتج IBM Intelligent Miner for Text عبارة عن مجموعة من الأدوات المساعدة الفردية التي تم إطلاقها من سطر الأوامرأو من النصوص بشكل مستقل عن بعضها البعض. يحتوي النظام على مجموعة من بعض الأدوات المساعدة لحل مشاكل تحليل المعلومات النصية.

يجمع IBM Intelligent Miner for Text بين مجموعة قوية من الأدوات التي تعتمد بشكل أساسي على آليات استرجاع المعلومات، وهي خصوصية المنتج بأكمله. يتكون النظام من عدد من المكونات الأساسية التي لها أهمية مستقلة تتجاوز تقنية التنقيب عن النصوص:

    أدوات معهد SAS - عامل منجم النص

أصدرت الشركة الأمريكية SAS Institute نظام SAS Text Miner لمقارنة بعض التسلسلات النحوية واللفظية في الكلام المكتوب. يعد Text Miner متعدد الاستخدامات لأنه يمكنه العمل مع المستندات النصية بتنسيقات مختلفة - في قواعد البيانات وأنظمة الملفات والمزيد على الويب.

يوفر Text Miner معالجة نصية منطقية داخل بيئة SAS Enterprise Miner. يتيح ذلك للمستخدمين إثراء عملية تحليل البيانات من خلال دمج المعلومات النصية غير المنظمة مع البيانات المنظمة الموجودة مثل العمر والدخل وأنماط طلب المستهلك.

النقاط الرئيسية

    يعد اكتشاف المعرفة النصية عملية غير تافهة لاكتشاف أنماط جديدة حقًا، ومن المحتمل أن تكون مفيدة ومفهومة في البيانات النصية غير المنظمة.

    يمكن تمثيل عملية تحليل المستندات النصية كسلسلة من عدة خطوات: ابحث عن معلوماتالمعالجة المسبقة للوثائق، استخراج المعلومات، تطبيق أساليب التنقيب عن النصوص، تفسير النتائج.

    تُستخدم الأساليب التالية عادةً لإزالة الكلمات غير المفيدة وزيادة دقة النصوص: إزالة الكلمات المتوقفة، والمشتقة، والجرامات L، وتقليل حالة الأحرف.

    مهام تحليل معلومات النص هي: التصنيف، والتجميع، والتعليق التلقائي، واستخراج المفاهيم الأساسية، والتنقل في النص، وتحليل الاتجاهات، والبحث عن الارتباطات، وما إلى ذلك.

    يمكن اعتبار استخراج المفاهيم الأساسية من النصوص بمثابة مهمة تطبيقية منفصلة ومرحلة منفصلة من تحليل النص. وفي الحالة الأخيرة، يتم استخدام الحقائق المستخرجة من النص لحل مشاكل التحليل المختلفة.

    تتم عملية استخلاص المفاهيم الأساسية باستخدام القوالب على مرحلتين: في المرحلة الأولى، يتم استخراج الحقائق الفردية من المستندات النصية باستخدام التحليل المعجمي، وفي المرحلة الثانية، يتم دمج الحقائق المستخرجة و/أو استخلاص حقائق جديدة. تم تنفيذها.

    تعتمد معظم أساليب تصنيف النصوص بشكل أو بآخر على افتراض أن المستندات التي تنتمي إلى نفس الفئة تحتوي على نفس السمات (كلمات أو عبارات)، كما أن وجود أو عدم وجود مثل هذه السمات في الوثيقة يدل على انتمائها أو عدم انتمائها إلى فئة معينة. موضوع معين.

    تتطلب معظم خوارزميات التجميع تمثيل البيانات في نموذج الفضاء المتجه، والذي يستخدم على نطاق واسع لاسترجاع المعلومات ويستخدم استعارة لتعكس التشابه الدلالي مثل القرب المكاني.

    هناك طريقتان رئيسيتان للتعليق تلقائيًا على المستندات النصية: الاستخراج (اختيار الأجزاء الأكثر أهمية) والتعميم (باستخدام المعرفة التي تم جمعها مسبقًا).

خاتمة

يعد استخراج البيانات أحد المجالات الأكثر صلة وشعبية في الرياضيات التطبيقية. تولد عمليات الأعمال والتصنيع الحديثة كميات هائلة من البيانات، مما يجعل من الصعب بشكل متزايد على الأشخاص تفسير كميات كبيرة من البيانات التي تتغير ديناميكيًا خلال وقت التشغيل والاستجابة لها، ناهيك عن منع المواقف الحرجة. "التنقيب في البيانات" لاستخراج الحد الأقصى من المعرفة المفيدة من البيانات متعددة الأبعاد، وغير المتجانسة، وغير الكاملة، وغير الدقيقة، والمتناقضة، وغير المباشرة. من المفيد القيام بذلك بشكل فعال إذا تم قياس حجم البيانات بالجيجابايت أو حتى تيرابايت. يساعد في بناء خوارزميات يمكنها تعلم كيفية اتخاذ القرارات في مختلف المجالات المهنية.

تعمل أدوات استخراج البيانات على حماية الأشخاص من الحمل الزائد للمعلومات عن طريق معالجة البيانات التشغيلية إلى معلومات قابلة للتنفيذ بحيث يمكن اتخاذ الإجراءات الصحيحة في الأوقات المناسبة.

يتم تنفيذ التطورات التطبيقية في المجالات التالية: التنبؤ في النظم الاقتصادية؛ أتمتة أبحاث التسويق وتحليل بيئات العملاء لشركات التصنيع والتجارة والاتصالات والإنترنت؛ أتمتة عملية صنع القرار الائتماني وتقييم مخاطر الائتمان؛ مراقبة الأسواق المالية؛ أنظمة التداول الآلي.

فهرس

    "تقنيات تحليل البيانات: استخراج البيانات. التعدين البصري تعدين النصوص، OLAP" أ. أ. بارسيغيان. M. S. Kupriyanov، V. V. Stenanenko، I. I. خلود. - الطبعة الثانية، المنقحة. وإضافية

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - مقال على الإنترنت

    http://www.piter.com/contents/978549807257/978549807257_p.pdf - تقنيات تحليل البيانات

    الأطروحة >> البنوك

    المقترض باستخدام الكتلة، اللفظي تحليلوعوامل التعديل وما إلى ذلك أيضًا... الجدارة الائتمانية للمقترض بناءً على مفكر تحليلاستخراج البيانات (مع... في المرحلة الأولية تحليلمحتجز تحليلالأموال الخاصة و...

  1. تحليلوتصنيف السوق الحديث لنظم المعلومات التي تنفذ تقديريا، م

    الملخص >> علوم الحاسب

    1.3 تمايز الأدوار 6 2. مقارن تحليل أنواع مختلفةالأنظمة 7 نظام التشغيل... الأنظمة ومنها: تحليلالسياسات الأمنية وخصائصها، ... التطبيقات أو تنفيذ المزيد مفكر تحليلبيانات. بجانب...

  2. ذكيقدرات الأطفال الموهوبين فيما يتعلق بالأداء المدرسي

    الأطروحة >> علم النفس

    العلاقة بين الأداء الأكاديمي وخصائصه مفكرتطوير. على أساس نظري تحليلوكانت مشكلة البحث...العقل دون تحليلبنيتها النفسية . حاسمة للتقييم مفكرالقدرات هي...

نرحب بكم في بوابة التنقيب عن البيانات - بوابة فريدة مخصصة لأساليب التنقيب عن البيانات الحديثة.

تعد تقنيات استخراج البيانات أداة قوية لتحليلات الأعمال الحديثة وأبحاث البيانات لاكتشاف الأنماط المخفية وبناء نماذج تنبؤية. لا يعتمد التنقيب في البيانات أو استخراج المعرفة على التفكير التأملي، بل على بيانات حقيقية.

أرز. 1. مخطط تطبيق استخراج البيانات

تعريف المشكلة - بيان المشكلة: تصنيف البيانات، وتقسيمها، وبناء النماذج التنبؤية، والتنبؤ.
جمع البيانات وإعدادها – جمع وإعداد البيانات، والتنظيف، والتحقق، وإزالة السجلات المكررة.
بناء النماذج – بناء النماذج وتقييم الدقة.
نشر المعرفة – تطبيق نموذج لحل مشكلة معينة.

يتم استخدام استخراج البيانات لتنفيذ مشاريع تحليلية واسعة النطاق في الأعمال التجارية والتسويق والإنترنت والاتصالات والصناعة والجيولوجيا والطب والمستحضرات الصيدلانية وغيرها من المجالات.

يسمح لك التنقيب عن البيانات ببدء عملية العثور على ارتباطات واتصالات مهمة نتيجة غربلة كمية هائلة من البيانات باستخدام أساليب التعرف على الأنماط الحديثة واستخدام التقنيات التحليلية الفريدة، بما في ذلك أشجار القرار والتصنيف والتجميع وطرق الشبكة العصبية و آحرون.

يندهش المستخدم الذي يكتشف تكنولوجيا استخراج البيانات لأول مرة من وفرة الأساليب والخوارزميات الفعالة التي تسمح له بإيجاد طرق لحل المشكلات الصعبة المرتبطة بتحليل كميات كبيرة من البيانات.

بشكل عام، يمكن وصف التنقيب عن البيانات بأنه تقنية مصممة للبحث في كميات كبيرة من البيانات. غير واضح, موضوعيوعمليا مفيدأنماط.

يعتمد التنقيب عن البيانات على طرق فعالةوالخوارزميات المصممة لتحليل البيانات غير المنظمة ذات الحجم والأبعاد الكبيرة.

النقطة الأساسية هي أن البيانات كبيرة الحجم وعالية الأبعاد تبدو وكأنها تفتقر إلى البنية والاتصالات. الهدف من تكنولوجيا استخراج البيانات هو تحديد هذه الهياكل وإيجاد الأنماط التي تسود فيها الفوضى والتعسف للوهلة الأولى.

فيما يلي مثال حالي لتطبيق استخراج البيانات في صناعة الأدوية والأدوية.

التفاعلات الدوائية هي مشكلة متنامية تواجه الرعاية الصحية الحديثة.

مع مرور الوقت، يزداد عدد الأدوية الموصوفة (التي لا تستلزم وصفة طبية وجميع أنواع المكملات الغذائية)، مما يزيد من احتمال حدوث تفاعلات دوائية يمكن أن تسبب آثارًا جانبية خطيرة لا يعرفها الأطباء والمرضى.

يشير هذا المجال إلى أبحاث ما بعد السريرية، عندما يتم طرح الدواء بالفعل في السوق ويتم استخدامه بشكل مكثف.

تشير الدراسات السريرية إلى تقييم فعالية الدواء، ولكنها لا تأخذ في الاعتبار تفاعلات الدواء مع الأدوية الأخرى الموجودة في السوق.

قام الباحثون في جامعة ستانفورد في كاليفورنيا بفحص قاعدة بيانات إدارة الغذاء والدواء الأمريكية للآثار الجانبية للأدوية، ووجدوا أن اثنين من الأدوية شائعة الاستخدام - باروكستين المضاد للاكتئاب ودواء برافاستاتين المخفض للكوليسترول - يزيدان من خطر الإصابة بمرض السكري إذا تم استخدامهما معًا.

حددت دراسة تحليلية مماثلة بناءً على بيانات إدارة الغذاء والدواء (FDA) 47 تفاعلًا سلبيًا لم تكن معروفة سابقًا.

وهذا شيء عظيم، مع التنبيه إلى أن العديد من الآثار السلبية التي لاحظها المرضى تظل غير مكتشفة. وفي هذه الحالة يمكن أن يؤدي البحث عبر الإنترنت أفضل حالاته.

دورات التنقيب عن البيانات القادمة في أكاديمية تحليل البيانات StatSoft لعام 2020

نبدأ مقدمتنا لاستخراج البيانات باستخدام مقاطع الفيديو الرائعة التي تقدمها أكاديمية علوم البيانات.

تأكد من مشاهدة مقاطع الفيديو الخاصة بنا وسوف تفهم ما هو استخراج البيانات!

فيديو 1. ما هو التنقيب عن البيانات؟


فيديو 2. مراجعة طرق استخراج البيانات: أشجار القرار، والنماذج التنبؤية المعممة، والتجميع وأكثر من ذلك بكثير

تم تعطيل جافا سكريبت في المتصفح الخاص بك


قبل البدء بمشروع بحثي، يجب علينا تنظيم عملية الحصول على البيانات منها مصادر خارجيةوالآن سوف نبين كيف يتم ذلك.

الفيديو سوف يعرفك على تكنولوجيا فريدة من نوعها إحصائياتمعالجة قاعدة البيانات في مكانها وربط استخراج البيانات بالبيانات الحقيقية.

الفيديو 3. ترتيب التفاعل مع قواعد البيانات: الواجهة الرسومية لبناء استعلامات SQL، وتكنولوجيا معالجة قواعد البيانات في مكانها

تم تعطيل جافا سكريبت في المتصفح الخاص بك


الآن سوف نتعرف على تقنيات الحفر التفاعلية الفعالة في إجراء تحليل البيانات الاستكشافية. مصطلح الحفر نفسه يعكس العلاقة بين تكنولوجيا استخراج البيانات والاستكشاف الجيولوجي.

الفيديو 4: الحفر التفاعلي: تقنيات الاستكشاف والرسومات لاستكشاف البيانات التفاعلية

تم تعطيل جافا سكريبت في المتصفح الخاص بك


الآن سوف نتعرف على تحليل الارتباط (قواعد الارتباط)، تتيح لك هذه الخوارزميات العثور على الاتصالات الموجودة في البيانات الحقيقية. النقطة الأساسية هي كفاءة الخوارزميات على كميات كبيرة من البيانات.

نتيجة خوارزميات تحليل الاتصال، على سبيل المثال، خوارزمية Apriori، هي إيجاد قواعد الاتصال للكائنات قيد الدراسة مع موثوقية معينة، على سبيل المثال، 80٪.

في الجيولوجيا، يمكن استخدام هذه الخوارزميات في تحليل استكشاف المعادن، على سبيل المثال، كيفية ارتباط الميزة "أ" بالمميزات "ب" و"ج".

باستطاعتك العثور أمثلة محددةهذه الحلول باستخدام روابطنا:

في مجال البيع بالتجزئة، تتيح خوارزميات Apriori أو تعديلاتها دراسة العلاقة بين المنتجات المختلفة، على سبيل المثال، عند بيع العطور (العطور - طلاء الأظافر - الماسكارا وغيرها) أو منتجات من ماركات مختلفة.

يمكن أيضًا إجراء تحليل الأقسام الأكثر إثارة للاهتمام على الموقع بشكل فعال باستخدام قواعد الارتباط.

لذا شاهد الفيديو التالي.

فيديو 5. قواعد الجمعية

تم تعطيل جافا سكريبت في المتصفح الخاص بك

فيما يلي أمثلة لتطبيق التنقيب عن البيانات في مجالات محددة.

التجارة عبر الانترنت:

  • تحليل مسارات العملاء من زيارة الموقع إلى شراء البضائع
  • تقييم كفاءة الخدمة، وتحليل الفشل بسبب نقص السلع
  • ربط المنتجات التي تهم الزوار

البيع بالتجزئة: تحليل معلومات العملاء بناءً على بطاقات الائتمان وبطاقات الخصم وغيرها.

مهام البيع بالتجزئة النموذجية التي يتم حلها بواسطة أدوات استخراج البيانات:

  • تحليل سلة التسوق;
  • إنشاء النماذج التنبؤيةونماذج تصنيف المشترين والسلع المشتراة؛
  • إنشاء ملفات تعريف المشتري؛
  • إدارة علاقات العملاء، وتقييم ولاء العملاء من مختلف الفئات، وتخطيط برامج الولاء؛
  • أبحاث السلاسل الزمنيةوالتبعيات الزمنية، وتحديد العوامل الموسمية، وتقييم الفعالية الترقياتعلى مجموعة كبيرة من البيانات الحقيقية.

يفتح قطاع الاتصالات فرصاً غير محدودة لاستخدام أساليب التنقيب عن البيانات، فضلاً عن تقنيات البيانات الضخمة الحديثة:

  • تصنيف العملاء على أساس الخصائص الرئيسية للمكالمات (التكرار، المدة، وما إلى ذلك)، وتكرار الرسائل القصيرة;
  • تحديد ولاء العملاء;
  • كشف الاحتيال، الخ.

تأمين:

  • تحليل المخاطر. ومن خلال تحديد مجموعات من العوامل المرتبطة بالمطالبات المدفوعة، يمكن لشركات التأمين تقليل خسائر مسؤوليتها. هناك حالة اكتشفت فيها شركة تأمين أن المبالغ المدفوعة على مطالبات المتزوجين كانت ضعف المبالغ المدفوعة على مطالبات الأشخاص غير المتزوجين. استجابت الشركة لذلك من خلال مراجعة سياسة الخصم لعملاء العائلة.
  • الكشف عن الغش. يمكن لشركات التأمين الحد من الاحتيال من خلال البحث عن أنماط معينة في المطالبات التي تميز العلاقات بين المحامين والأطباء والمطالبين.

يتم عرض التطبيق العملي لاستخراج البيانات وحل مشكلات محددة في الفيديو التالي.

ندوة عبر الإنترنت 1. ندوة عبر الإنترنت "المهام العملية للتنقيب عن البيانات: المشاكل والحلول"

تم تعطيل جافا سكريبت في المتصفح الخاص بك

ندوة عبر الإنترنت 2. ندوة عبر الإنترنت "التنقيب عن البيانات والتنقيب عن النصوص: أمثلة على حل المشكلات الحقيقية"

تم تعطيل جافا سكريبت في المتصفح الخاص بك


يمكنك الحصول على مزيد من المعرفة المتعمقة بمنهجية وتقنية استخراج البيانات في دورات StatSoft.

ما هو استخراج البيانات

تحتوي قاعدة بيانات الشركة لأي مؤسسة حديثة عادة على مجموعة من الجداول التي تخزن سجلات حول حقائق أو أشياء معينة (على سبيل المثال، حول البضائع ومبيعاتها وعملائها وحساباتها). كقاعدة عامة، يصف كل إدخال في هذا الجدول كائنًا أو حقيقة معينة. على سبيل المثال، يعكس الإدخال في جدول المبيعات حقيقة أنه تم بيع منتج كذا وكذا لعميل كذا وكذا في ذلك الوقت بواسطة مدير كذا وكذا، وبشكل عام لا يحتوي على أي شيء آخر غير هذه المعلومات. ومع ذلك، فإن جمع عدد كبير من هذه السجلات، المتراكمة على مدى عدة سنوات، يمكن أن يصبح مصدرا لمعلومات إضافية أكثر قيمة بكثير والتي لا يمكن الحصول عليها على أساس سجل واحد محدد، أي المعلومات حول الأنماط أو الاتجاهات أو الترابط بين أي بيانات. ومن أمثلة هذه المعلومات معلومات حول كيفية اعتماد مبيعات منتج معين على يوم الأسبوع أو الوقت من اليوم أو الوقت من السنة، وفئات العملاء التي تشتري هذا المنتج أو ذاك في أغلب الأحيان، وما هي نسبة المشترين الذين يشترون منتجًا محددًا منتج محدد آخر، أي فئة من العملاء لا تقوم في أغلب الأحيان بسداد القرض المقدم في الوقت المحدد.

يُستخدم هذا النوع من المعلومات عادةً في التنبؤ والتخطيط الاستراتيجي وتحليل المخاطر، وقيمته بالنسبة للمؤسسة عالية جدًا. على ما يبدو، هذا هو السبب وراء تسمية عملية البحث عنها "بالتنقيب عن البيانات" (التعدين باللغة الإنجليزية يعني "التعدين"، والبحث عن أنماط في مجموعة ضخمة من البيانات الواقعية يشبه هذا في الواقع). لا يشير مصطلح "استخراج البيانات" إلى تقنية محددة بقدر ما يشير إلى عملية البحث عن الارتباطات والاتجاهات والعلاقات والأنماط من خلال خوارزميات رياضية وإحصائية مختلفة: التجميع وإنشاء العينات الفرعية وتحليل الانحدار والارتباط. الغرض من هذا البحث هو تقديم البيانات في شكل يعكس العمليات التجارية بوضوح، وأيضًا بناء نموذج يمكنك من خلاله التنبؤ بالعمليات المهمة لتخطيط الأعمال (على سبيل المثال، ديناميكيات الطلب على سلع أو خدمات معينة) أو اعتماد اكتسابها على خصائص معينة للمستهلك).

لاحظ أن الإحصائيات الرياضية التقليدية، التي ظلت لفترة طويلة الأداة الرئيسية لتحليل البيانات، وكذلك أدوات المعالجة التحليلية عبر الإنترنت (OLAP)، والتي كتبنا عنها بالفعل عدة مرات (انظر المواد المتعلقة بهذا الموضوع على القرص المضغوط الخاص بنا)، لا يمكن دائمًا استخدامها بنجاح لحل مثل هذه المشكلات. عادة، يتم استخدام الأساليب الإحصائية وOLAP لاختبار الفرضيات المعدة مسبقًا. ومع ذلك، غالبًا ما تكون صياغة الفرضية هي المهمة الأكثر صعوبة عند تنفيذ تحليل الأعمال لاتخاذ القرارات اللاحقة، نظرًا لأنه ليست كل الأنماط في البيانات واضحة للوهلة الأولى.

الاساسيات التقنية الحديثةيعتمد التنقيب في البيانات على مفهوم الأنماط التي تعكس الأنماط المتأصلة في العينات الفرعية من البيانات. يتم البحث عن الأنماط باستخدام طرق لا تستخدم أي افتراضات مسبقة حول هذه العينات الفرعية. في حين أن التحليل الإحصائي أو OLAP يطرح عادةً أسئلة مثل "ما هو متوسط ​​عدد الفواتير غير المدفوعة بين العملاء لهذه الخدمة؟"، فإن التنقيب في البيانات يتضمن عادةً الإجابة على أسئلة مثل "هل هناك فئة نموذجية من العملاء الذين لا يدفعون؟". وفي الوقت نفسه، فإن الإجابة على السؤال الثاني هي التي توفر غالبًا نهجًا غير تافه لسياسة التسويق وتنظيم العمل مع العملاء.

إحدى السمات المهمة لاستخراج البيانات هي الطبيعة غير القياسية وغير الواضحة للأنماط المطلوبة. بمعنى آخر، تختلف أدوات التنقيب عن البيانات عن أدوات معالجة البيانات الإحصائية وأدوات OLAP في أنه بدلاً من التحقق من الترابطات المتبادلة المفترضة مسبقًا من قبل المستخدمين، فإنهم قادرون على العثور على مثل هذه الترابطات بشكل مستقل بناءً على البيانات المتاحة وبناء فرضيات حول طبيعتها.

تجدر الإشارة إلى أن استخدام أدوات التنقيب في البيانات لا يستبعد استخدام الأدوات الإحصائية وأدوات OLAP، حيث أن نتائج معالجة البيانات باستخدام الأخيرة، كقاعدة عامة، تساهم في فهم أفضل لطبيعة الأنماط التي ينبغي يتم البحث عنه.

بيانات المصدر لاستخراج البيانات

يكون استخدام استخراج البيانات مبررًا إذا كانت هناك كمية كبيرة بما فيه الكفاية من البيانات، والتي يتم احتواؤها بشكل مثالي في مستودع بيانات مصمم بشكل صحيح (في الواقع، عادةً ما يتم إنشاء مستودعات البيانات نفسها لحل مشكلات التحليل والتنبؤ المرتبطة بدعم القرار). لقد كتبنا أيضًا مرارًا وتكرارًا عن مبادئ بناء مستودعات البيانات؛ يمكن العثور على المواد ذات الصلة على القرص المضغوط الخاص بنا، لذلك لن نتناول هذه المسألة بشكل مطول. دعونا نتذكر فقط أن البيانات الموجودة في المستودع هي مجموعة متجددة، مشتركة بين المؤسسة بأكملها وتسمح للمرء باستعادة صورة لأنشطته في أي وقت. لاحظ أيضًا أن بنية بيانات التخزين مصممة بحيث يتم تنفيذ الاستعلامات عنها بأكبر قدر ممكن من الكفاءة. ومع ذلك، هناك أدوات استخراج البيانات التي يمكنها البحث عن الأنماط والارتباطات والاتجاهات ليس فقط في مستودعات البيانات، ولكن أيضًا في مكعبات OLAP، أي في مجموعات من البيانات الإحصائية المعالجة مسبقًا.

أنواع الأنماط التي تم تحديدها بواسطة طرق التنقيب في البيانات

وفقًا لـ V. A. Duke، هناك خمسة أنواع قياسية من الأنماط التي تم تحديدها بواسطة طرق التنقيب عن البيانات:

الارتباط - احتمال كبير لربط الأحداث ببعضها البعض (على سبيل المثال، غالبًا ما يتم شراء منتج واحد مع منتج آخر)؛

تسلسل - احتمال كبير لسلسلة من الأحداث المرتبطة بالوقت (على سبيل المثال، خلال فترة معينة بعد شراء منتج واحد، سيتم شراء منتج آخر بدرجة عالية من الاحتمال)؛

التصنيف - هناك علامات تميز المجموعة التي ينتمي إليها هذا الحدث أو الكائن (عادة، بناء على تحليل الأحداث المصنفة بالفعل، يتم صياغة قواعد معينة)؛

التجميع هو نمط مشابه للتصنيف ويختلف عنه في أن المجموعات نفسها غير محددة - بل يتم تحديدها تلقائيًا أثناء معالجة البيانات؛

الأنماط الزمنية - وجود أنماط في ديناميكيات سلوك بيانات معينة (مثال نموذجي هو التقلبات الموسمية في الطلب على سلع أو خدمات معينة) المستخدمة للتنبؤ.

طرق استخراج البيانات

يوجد اليوم عدد كبير جدًا من طرق استخراج البيانات المختلفة. بناءً على التصنيف أعلاه الذي اقترحه V. A. Duke، من بينها يمكننا التمييز بين:

تحليل الانحدار والتباين والارتباط (يتم تنفيذه في معظم الحزم الإحصائية الحديثة، ولا سيما في منتجات SAS Institute وStatSoft وما إلى ذلك)؛

طرق التحليل في مجال موضوعي محدد، بناءً على النماذج التجريبية (غالبًا ما تستخدم، على سبيل المثال، في أدوات التحليل المالي غير المكلفة)؛

خوارزميات الشبكة العصبية، والتي تقوم فكرتها على التشبيه مع عمل الأنسجة العصبية وتكمن في أن المعلمات الأولية تعتبر بمثابة إشارات تتحول وفقا للاتصالات القائمة بين “الخلايا العصبية”، و تعتبر استجابة الشبكة بأكملها للاستجابة الأولية هي الاستجابة الناتجة عن بيانات التحليل. وفي هذه الحالة يتم إنشاء الاتصالات باستخدام ما يسمى بالتدريب الشبكي من خلال عينة كبيرة الحجم تحتوي على كل من البيانات الأولية والإجابات الصحيحة؛

الخوارزميات - اختيار تماثل وثيق للبيانات الأصلية من البيانات التاريخية الموجودة. وتسمى أيضًا طريقة "أقرب جار"؛

أشجار القرار عبارة عن هيكل هرمي يعتمد على مجموعة من الأسئلة التي تتطلب الإجابة بـ "نعم" أو "لا"؛ بالرغم من هذه الطريقةمعالجة البيانات لا تجد دائمًا الأنماط الحالية بشكل مثالي، وغالبًا ما يتم استخدامها في أنظمة التنبؤ نظرًا لوضوح الاستجابة المستلمة؛

تُستخدم النماذج العنقودية (التي تسمى أحيانًا نماذج التجزئة) لتجميع الأحداث المتشابهة معًا بناءً على قيم متشابهة لعدة حقول في مجموعة بيانات؛ كما أنها تحظى بشعبية كبيرة عند إنشاء أنظمة التنبؤ؛

خوارزميات البحث المقيدة التي تحسب ترددات مجموعات من الأحداث المنطقية البسيطة في مجموعات فرعية من البيانات؛

البرمجة التطورية - البحث وإنشاء خوارزمية تعبر عن ترابط البيانات، بناءً على خوارزمية محددة في البداية، يتم تعديلها أثناء عملية البحث؛ في بعض الأحيان يتم البحث عن الترابط بين أنواع معينة من الوظائف (على سبيل المثال، متعددو الحدود).

يمكن قراءة المزيد من المعلومات حول هذه الخوارزميات وغيرها من خوارزميات استخراج البيانات، وكذلك حول الأدوات التي تنفذها، في كتاب "التنقيب في البيانات: دورة تدريبية" من تأليف V. A. Duke و A. P. Samoilenko، الذي نشرته دار نشر Peter في عام 2001. يعد هذا اليوم أحد الكتب القليلة باللغة الروسية المخصصة لهذه المشكلة.

الشركات الرائدة في مجال أدوات استخراج البيانات

أدوات التنقيب عن البيانات، مثل معظم أدوات ذكاء الأعمال، هي أدوات برمجية باهظة الثمن تقليديًا - بعضها يكلف ما يصل إلى عشرات الآلاف من الدولارات. ولذلك، حتى وقت قريب، كان المستهلكون الرئيسيون لهذه التكنولوجيا هم البنوك وشركات التمويل والتأمين والمؤسسات التجارية الكبيرة، وكانت المهام الرئيسية التي تتطلب استخدام التنقيب في البيانات تعتبر تقييم مخاطر الائتمان والتأمين وتطوير السياسات التسويقية. , خطط التعريفةوغيرها من مبادئ العمل مع العملاء. في السنوات الأخيرة، شهد الوضع بعض التغييرات: ظهرت أدوات استخراج البيانات غير المكلفة نسبيًا من العديد من الشركات المصنعة في سوق البرمجيات، مما جعل هذه التكنولوجيا في متناول الشركات الصغيرة والمتوسطة الحجم التي لم تفكر فيها من قبل.

ل الوسائل الحديثةيتضمن ذكاء الأعمال مولدات التقارير وأدوات معالجة البيانات التحليلية وأدوات تطوير حلول ذكاء الأعمال (منصات BI) وما يسمى بـ Enterprise BI Suites - أدوات تحليل البيانات ومعالجتها على مستوى المؤسسة والتي تتيح لك تنفيذ مجموعة من الإجراءات المتعلقة بتحليل البيانات وإنشاء التقارير، وغالبًا ما تتضمن مجموعة متكاملة من أدوات ذكاء الأعمال وأدوات تطوير تطبيقات ذكاء الأعمال. تحتوي الأخيرة، كقاعدة عامة، على أدوات إعداد التقارير وأدوات OLAP وغالبًا أدوات استخراج البيانات.

وفقًا لمحللي مجموعة Gartner، فإن الشركات الرائدة في سوق أدوات تحليل البيانات ومعالجتها على مستوى المؤسسات هي Business Objects وCognos وInformation Builders، كما تدعي Microsoft وOracle أيضًا الريادة (الشكل 1). أما بالنسبة لأدوات تطوير حلول ذكاء الأعمال، فإن المتنافسين الرئيسيين على الريادة في هذا المجال هم Microsoft وSAS Institute (الشكل 2).

لاحظ أن أدوات ذكاء الأعمال من Microsoft هي منتجات غير مكلفة نسبيًا ومتاحة لمجموعة واسعة من الشركات. ولهذا السبب سنلقي نظرة على بعض الجوانب العملية لاستخدام التنقيب في البيانات باستخدام مثال منتجات هذه الشركة في الأجزاء اللاحقة من هذه المقالة.

الأدب:

1. دوق ف.أ. استخراج البيانات - استخراج البيانات. - http://www.olap.ru/basic/dm2.asp.

2. ديوك ف.أ.، سامويلينكو أ.ب. التنقيب في البيانات: دورة تدريبية. - سانت بطرسبورغ: بيتر، 2001.

3. ب. دي فيل. مايكروسوفت البيانات التنقيب. الصحافة الرقمية، 2001.

توفر أنظمة OLAP للمحلل وسيلة لاختبار الفرضيات عند تحليل البيانات، أي أن المهمة الأساسية للمحلل هي توليد الفرضيات، والتي يقوم بحلها بناءً على معرفته وخبرته، ومع ذلك، ليس الشخص فقط لديه المعرفة، ولكن أيضًا البيانات المتراكمة التي يتم تحليلها. هذه المعرفة موجودة في كمية هائلة من المعلومات التي لا يستطيع الشخص البحث عنها بمفرده. ولهذا السبب، هناك خطر فقدان الفرضيات التي يمكن أن توفر فوائد كبيرة.

للكشف عن المعرفة "المخفية"، يتم استخدام طرق خاصة للتحليل التلقائي، والتي من الضروري استخراج المعرفة عمليا من "عوائق" المعلومات. تم تخصيص مصطلح "استخراج البيانات" أو "استخراج البيانات" إلى هذا المجال.

هناك العديد من التعريفات لـ DataMining التي تكمل بعضها البعض. وهنا بعض منهم.

التنقيب في البيانات هو عملية اكتشاف أنماط غير تافهة ومفيدة عمليًا في قواعد البيانات. (المجموعة الأساسية)

التنقيب في البيانات هو عملية استخراج واستكشاف ونمذجة كميات كبيرة من البيانات لاكتشاف أنماط (أنماط) غير معروفة سابقًا من أجل تحقيق مزايا تجارية (معهد SAS)

التنقيب في البيانات هو عملية تهدف إلى اكتشاف ارتباطات وأنماط واتجاهات مهمة جديدة من خلال غربلة كميات كبيرة من البيانات المخزنة باستخدام تقنيات التعرف على الأنماط بالإضافة إلى تطبيق التقنيات الإحصائية والرياضية (GartnerGroup).

التنقيب في البيانات هو البحث والاكتشاف بواسطة "آلة" (الخوارزميات وأدوات الذكاء الاصطناعي) للمعرفة المخفية في البيانات الأولية.لم تكن معروفة من قبل، وغير تافهة، ومفيدة عمليًا، ومتاحة للتفسير(أ. بارجيسيان، "تقنيات تحليل البيانات")

تعدين البيانات هي عملية اكتشاف المعرفة المفيدة حول الأعمال (N.M. Abdikeev "KBA")

خصائص المعرفة المكتشفة

دعونا ننظر في خصائص المعرفة المكتشفة.

  • يجب أن تكون المعرفة جديدة، ولم تكن معروفة من قبل. إن الجهد المبذول في اكتشاف المعرفة المعروفة بالفعل للمستخدم لا يؤتي ثماره. ولذلك، فإن المعرفة الجديدة التي لم تكن معروفة من قبل هي ذات قيمة.
  • يجب أن تكون المعرفة غير تافهة. يجب أن تعكس نتائج التحليل نتائج غير واضحة وغير متوقعةالأنماط في البيانات التي تشكل ما يسمى بالمعرفة الخفية. النتائج التي كان من الممكن الحصول عليها أكثر بطرق بسيطة(على سبيل المثال، الفحص البصري) لا يبرر استخدام أساليب DataMining القوية.
  • يجب أن تكون المعرفة مفيدة عمليا. ويجب أن تكون المعرفة المكتشفة قابلة للتطبيق، بما في ذلك البيانات الجديدة، بدرجة عالية بما فيه الكفاية من الموثوقية. تكمن الفائدة في حقيقة أن هذه المعرفة يمكن أن تحقق فوائد معينة عند تطبيقها.
  • يجب أن تكون المعرفة في متناول الفهم البشري. يجب أن تكون الأنماط التي تم العثور عليها قابلة للتفسير منطقيا، وإلا فهناك احتمال أن تكون عشوائية. بالإضافة إلى ذلك، يجب تقديم المعرفة المكتشفة في شكل مفهوم للإنسان.

في DataMining، يتم استخدام النماذج لتمثيل المعرفة المكتسبة. تعتمد أنواع النماذج على الطرق المستخدمة في إنشائها. الأكثر شيوعًا هي: القواعد، وأشجار القرار، والمجموعات، والدوال الرياضية.

مهام التنقيب عن البيانات

ولنتذكر أن تقنية DataMining تعتمد على مفهوم القوالب وهي عبارة عن أنماط. ونتيجة لاكتشاف هذه الأنماط المخفية عن العين المجردة، تم حل مشاكل DataMining. تتوافق الأنواع المختلفة من الأنماط التي يمكن التعبير عنها في نموذج يمكن قراءته بواسطة الإنسان مع مهام معينة في DataMining.

لا يوجد إجماع حول المهام التي يجب تصنيفها على أنها DataMining. تسرد معظم المصادر الموثوقة ما يلي: التصنيف،

التجميع والتنبؤ والارتباط والتصور والتحليل والاكتشاف

الانحرافات والتقييم وتحليل الاتصالات والتلخيص.

الغرض من الشرح التالي هو إعطاء فكرة عامة عن مشاكل DataMining ومقارنة بعضها وأيضا عرض بعض الطرق التي يتم من خلالها حل هذه المشاكل. أكثر مهام التنقيب عن البيانات شيوعًا هي التصنيف والتجميع والارتباط والتنبؤ والتصور. وبالتالي، يتم تقسيم المهام وفقًا لنوع المعلومات المنتجة، وهذا هو التصنيف الأكثر عمومية لمهام DataMining.

تصنيف

مشكلة تقسيم مجموعة من الأشياء أو الملاحظات إلى بداهة مجموعات محددة، تسمى الطبقات، والتي من المفترض أن تكون متشابهة مع بعضها البعض، ولها نفس الخصائص والخصائص تقريبًا. في هذه الحالة، يتم الحصول على الحل على أساستحليل قيم السمات (الميزات).

التصنيف هو واحد من أهم المهامبيانات التعدين . يتم استخدامه فيتسويق عند تقييم الجدارة الائتمانية للمقترضين، تحديدولاء العميل، التعرف على الأنماط والتشخيص الطبي والعديد من التطبيقات الأخرى. إذا كان المحلل يعرف خصائص كائنات كل فئة، فعندما تنتمي ملاحظة جديدة إلى فئة معينة، فإن هذه الخصائص تمتد إليها تلقائيًا.

إذا كان عدد الفصول يقتصر على اثنين، ثمالتصنيف الثنائي ، والتي يمكن اختزال العديد من المشاكل المعقدة فيها. على سبيل المثال، بدلاً من تعريف درجات مخاطر الائتمان هذه بأنها "عالية" أو "متوسطة" أو "منخفضة"، يمكنك استخدام درجتين فقط - "المشكلة" أو "الرفض".

يستخدم DataMining العديد من النماذج المختلفة للتصنيف:الشبكات العصبية، أشجار القرار ، دعم آلات المتجهات، وطريقة الجيران الأقرب، وخوارزميات التغطية، وما إلى ذلك، والتي يتم في بنائها استخدام التعلم الخاضع للإشراف عندمامتغير الإخراج(تسمية الطبقة ) محدد لكل ملاحظة. رسميا، يتم التصنيف على أساس القسممساحات مميزة إلى مناطق، داخل كل منهاناقلات متعددة الأبعاد تعتبر متطابقة. بمعنى آخر، إذا وقع جسم ما في منطقة من الفضاء مرتبطة بفئة معينة، فإنه ينتمي إليها.

تجمع

وصف قصير. التجميع هو استمرار منطقي للفكرة

التصنيفات. هذه مهمة أكثر تعقيدًا؛ خصوصية التجميع هي أن فئات الكائنات ليست محددة مسبقًا في البداية. نتيجة التجميع هي تقسيم الكائنات إلى مجموعات.

مثال على طريقة حل مشكلة التجميع: التدريب "غير الخاضع للرقابة" لنوع خاص من الشبكات العصبية - خرائط كوهونين ذاتية التنظيم.

ذات الصلة

وصف قصير. عند حل مشكلة البحث عن قواعد الارتباط، يتم العثور على أنماط بين الأحداث المرتبطة في مجموعة البيانات.

الفرق بين الارتباط ومهمتي DataMining السابقتين: لا يتم البحث عن الأنماط على أساس خصائص الكائن الذي تم تحليله، ولكن بين عدة أحداث تحدث في وقت واحد. الخوارزمية الأكثر شهرة لحل مشكلة العثور على قواعد الارتباط هي خوارزمية Apriori.

التسلسل أو الارتباط المتسلسل

وصف قصير. يتيح لك التسلسل العثور على أنماط زمنية بين المعاملات. مهمة التسلسل مشابهة للارتباط، ولكن هدفها هو إنشاء أنماط ليس بين الأحداث التي تحدث في وقت واحد، ولكن بين الأحداث المرتبطة في الوقت المناسب (أي، التي تحدث في فترة زمنية محددة). بمعنى آخر، يتم تحديد التسلسل من خلال احتمالية عالية لسلسلة من الأحداث المرتبطة بالزمن. في الواقع، الارتباط هو حالة خاصة من التسلسل بفارق زمني قدره صفر. تُسمى مهمة DataMining هذه أيضًا بمهمة البحث عن النمط المتسلسل.

قاعدة التسلسل: بعد الحدث X، سيحدث الحدث Y بعد وقت معين.

مثال. بعد شراء شقة، يقوم السكان في 60٪ من الحالات بشراء ثلاجة في غضون أسبوعين، وفي غضون شهرين في 50٪ من الحالات يقومون بشراء جهاز تلفزيون. يتم استخدام حل هذه المشكلة على نطاق واسع في التسويق والإدارة، على سبيل المثال، في إدارة دورة حياة العملاء.

الانحدار والتنبؤ (التنبؤ)

وصف قصير. ونتيجة لحل مشكلة التنبؤ، يتم تقدير القيم المفقودة أو المستقبلية للمؤشرات الرقمية المستهدفة بناءً على خصائص البيانات التاريخية.

لحل مثل هذه المشاكل، يتم استخدام أساليب الإحصاء الرياضي والشبكات العصبية وما إلى ذلك على نطاق واسع.

مهام إضافية

كشف الانحراف، التباين أو التحليل المتطرف

وصف قصير. الهدف من حل هذه المشكلة هو اكتشاف وتحليل البيانات الأكثر اختلافًا عن مجموعة البيانات العامة، وتحديد ما يسمى بالأنماط غير المعهودة.

تقدير

تتمثل مهمة التقدير في التنبؤ بالقيم المستمرة للميزة.

تحليل الارتباط

مهمة العثور على التبعيات في مجموعة البيانات.

التصور (GraphMining)

نتيجة للتصور، يتم إنشاء صورة بيانية للبيانات التي تم تحليلها. لحل مشكلة التصور، يتم استخدام الأساليب الرسومية لإظهار وجود أنماط في البيانات.

من أمثلة تقنيات التصور تقديم البيانات بأبعاد ثنائية وثلاثية الأبعاد.

تلخيص

مهمة هدفها وصف مجموعات محددة من الكائنات من مجموعة البيانات التي تم تحليلها.

قريب جدًا من التصنيف أعلاه هو تقسيم مهام DataMining إلى ما يلي: البحث والاكتشاف، والتنبؤ والتصنيف، والشرح والوصف.

الاستكشاف والاكتشاف التلقائي (بحث مجاني)

مهمة مثال: اكتشاف قطاعات السوق الجديدة.

لحل هذه الفئة من المشاكل، يتم استخدام أساليب التحليل العنقودي.

التنبؤ والتصنيف

مشكلة مثال: التنبؤ بنمو المبيعات بناءً على القيم الحالية.

الطرق: الانحدار، الشبكات العصبية، الخوارزميات الجينية، أشجار القرار.

تشكل مهام التصنيف والتنبؤ مجموعة مما يسمى بالنمذجة الاستقرائية، والتي ينتج عنها دراسة الكائن أو النظام الذي تم تحليله. وفي عملية حل هذه المشكلات يتم تطوير نموذج أو فرضية عامة بناءً على مجموعة من البيانات.

الشرح والوصف

مثال على المشكلة: تمييز العملاء بناءً على التركيبة السكانية وتاريخ الشراء.

الأساليب: أشجار القرار، أنظمة القواعد، قواعد الارتباط، تحليل الاتصال.

إذا كان دخل العميل أكثر من 50 وحدة تقليدية وعمره أكثر من 30 سنة، فإن فئة العميل هي الأولى.

مقارنة التجميع والتصنيف

صفة مميزة

تصنيف

تجمع

إمكانية التحكم في التدريب

خاضع للسيطرة

لا يمكن السيطرة عليها

الاستراتيجيات

التدريب المدروس

تعليم غير مشرف عليه

توافر تسمية الفئة

عدة التدريبات

مصحوبة بعلامة تشير

الفئة التي ينتمي إليها

ملاحظة

تسميات فئة المدرب

مجموعات غير معروفة

أساس التصنيف

يتم تصنيف البيانات الجديدة بناءً على مجموعة التدريب

يتم تقديم الكثير من البيانات لهذا الغرض

تأسيس الوجود

فئات أو مجموعات البيانات

مجالات تطبيق DataMining

تجدر الإشارة إلى أن تقنية DataMining تستخدم اليوم على نطاق واسع في حل مشاكل الأعمال. ربما يكون السبب هو أنه في هذا الاتجاه يمكن أن يصل العائد على استخدام أدوات DataMining، وفقًا لبعض المصادر، إلى 1000٪ ويمكن أن تؤتي تكاليف تنفيذها ثمارها بسرعة.

سننظر بالتفصيل في أربعة مجالات رئيسية لتطبيق تقنية DataMining: العلوم والأعمال والأبحاث الحكومية والويب.

المهام التجارية. المجالات الرئيسية: الخدمات المصرفية والمالية والتأمين وإدارة علاقات العملاء والتصنيع والاتصالات والتجارة الإلكترونية والتسويق وسوق الأوراق المالية وغيرها.

    هل يجب علي إصدار قرض للعميل؟

    تجزئة السوق

    جذب عملاء جدد

    الاحتيال بواسطة بطاقات الائتمان

تطبيق DataMining ل حل المشاكل على مستوى الدولة. الاتجاهات الرئيسية: البحث عن المتهربين من الضرائب؛ يعني في الحرب ضد الإرهاب.

تطبيق DataMining ل بحث علمي. المجالات الرئيسية: الطب، وعلم الأحياء، وعلم الوراثة الجزيئية والهندسة الوراثية، والمعلوماتية الحيوية، وعلم الفلك، والكيمياء التطبيقية، والأبحاث المتعلقة بإدمان المخدرات، وغيرها.

باستخدام DataMining لحل مهام الويب. المجالات الرئيسية: محركات البحث والعدادات وغيرها.

التجارة الإلكترونية

في مجال التجارة الإلكترونية، يتم استخدام DataMining لإنشاء

يسمح هذا التصنيف للشركات بتحديد مجموعات محددة من العملاء وتنفيذ سياسات التسويق وفقًا لاهتمامات واحتياجات العملاء المحددة. ترتبط تقنية DataMining للتجارة الإلكترونية ارتباطًا وثيقًا بتقنية WebMining.

المهام الرئيسية لـ DataMining في الإنتاج الصناعي:

· تحليل النظام الشامل لحالات الإنتاج.

· التنبؤ على المدى القصير والطويل لتطور أوضاع الإنتاج.

· تطوير خيارات حلول التحسين.

· التنبؤ بجودة المنتج اعتماداً على معايير معينة

العملية التكنولوجية؛

· الكشف عن الاتجاهات والأنماط الخفية في تطور الإنتاج

العمليات؛

· التنبؤ بأنماط التنمية عمليات الانتاج;

· الكشف عن عوامل التأثير الخفية.

· الكشف والتعرف على العلاقات غير المعروفة سابقاً بينها

معلمات الإنتاج والعوامل المؤثرة؛

· تحليل بيئة التفاعل لعمليات الإنتاج والتنبؤ بها

التغييرات في خصائصه.

العمليات؛

· تصور نتائج التحليل وإعداد التقارير الأولية والمشاريع

الحلول الممكنة مع تقييمات موثوقية وفعالية التطبيقات الممكنة.

تسويق

في مجال التسويق، يتم استخدام DataMining على نطاق واسع.

أسئلة التسويق الأساسية: "ما الذي يتم بيعه؟"، "كيف يتم بيعه؟"، "من هو".

مستهلك؟"

تصف المحاضرة الخاصة بمشكلات التصنيف والتجميع بالتفصيل استخدام التحليل العنقودي لحل المشكلات التسويقية، مثل تجزئة المستهلكين.

مجموعة أخرى شائعة من الأساليب لحل مشكلات التسويق هي أساليب وخوارزميات البحث عن قواعد الارتباط.

تم أيضًا استخدام البحث عن الأنماط الزمنية بنجاح هنا.

بيع بالتجزئة

في تجارة التجزئة كما في التسويق يتم استخدام ما يلي:

· خوارزميات للبحث عن قواعد الارتباط (لتحديد مجموعات متكررة من

البضائع التي يشتريها المشترون في نفس الوقت). تحديد مثل هذه القواعد يساعد

وضع البضائع على أرفف المتاجر، ووضع استراتيجيات لشراء السلع

ووضعها في المستودعات وغيرها.

· استخدام التسلسلات الزمنية مثلاً للتحديد

الكميات المطلوبة من البضائع في المستودع.

· أساليب التصنيف والتجميع لتحديد مجموعات أو فئات العملاء،

المعرفة التي تساهم في الترويج الناجح للسلع.

سوق الأوراق المالية

فيما يلي قائمة بمشاكل سوق الأوراق المالية التي يمكن حلها باستخدام تكنولوجيا البيانات

التعدين: · التنبؤ بالقيم المستقبلية للأدوات المالية ومؤشراتها

القيم الماضية؛

· توقعات الاتجاه (اتجاه الحركة المستقبلي – نمو، تراجع، استقرار) مالي

الأداة وقوتها (قوية، قوية إلى حد ما، وما إلى ذلك)؛

· تحديد البنية العنقودية للسوق والصناعة والقطاع وفق مجموعة معينة

صفات؛

· إدارة المحافظ الديناميكية.

· توقعات التقلبات.

· تقييم المخاطر؛

· التنبؤ ببداية الأزمة والتنبؤ بتطوراتها.

· اختيار الأصول، الخ.

بالإضافة إلى مجالات النشاط الموضحة أعلاه، يمكن استخدام تقنية DataMining في مجموعة واسعة من مجالات الأعمال حيث تكون هناك حاجة لتحليل البيانات وتم تجميع قدر معين من المعلومات بأثر رجعي.

تطبيق DataMining في CRM

أحد المجالات الواعدة لاستخدام DataMining هو استخدام هذه التكنولوجيا في إدارة علاقات العملاء التحليلية.

CRM (إدارة علاقات العملاء) - إدارة علاقات العملاء.

وعندما يتم استخدام هذه التقنيات معًا، يتم الجمع بين استخلاص المعرفة و"استخراج الأموال" من بيانات العملاء.

يعد التجميع أحد الجوانب المهمة في عمل أقسام التسويق والمبيعاتنظرة شاملة للعملاء ومعلومات حول خصائصهم وخصائصهم وهيكل قاعدة العملاء. يستخدم CRM ما يسمى بالتوصيفالعملاء، وتوفير عرض كامل لجميع المعلومات اللازمة عن العملاء.

يتضمن ملف تعريف العملاء المكونات التالية: تجزئة العملاء، وربحية العملاء، والاحتفاظ بالعملاء، وتحليل استجابة العملاء. يمكن فحص كل من هذه المكونات باستخدام DataMining، وتحليلها معًا كمكونات ملفات تعريف يمكن أن يوفر في النهاية المعرفة التي من المستحيل الحصول عليها من كل خاصية فردية.

تعدين الويب

يمكن ترجمة WebMining على أنه "استخراج البيانات على الويب". WebIntelligence أو الويب.

الذكاء جاهز "لفتح فصل جديد" في التطور السريع للأعمال الإلكترونية. تعد القدرة على تحديد اهتمامات وتفضيلات كل زائر من خلال ملاحظة سلوكه ميزة تنافسية جدية وحاسمة في سوق التجارة الإلكترونية.

يمكن لأنظمة WebMining الإجابة على العديد من الأسئلة، على سبيل المثال، أي من الزوار هو عميل محتمل لمتجر الويب، وأي مجموعة من عملاء متجر الويب تجلب أكبر قدر من الدخل، وما هي اهتمامات زائر معين أو مجموعة من الزوار.

طُرق

تصنيف الأساليب

هناك مجموعتان من الأساليب:

  • الأساليب الإحصائية التي تعتمد على استخدام متوسط ​​الخبرة المتراكمة، والتي تنعكس في البيانات الاسترجاعية؛
  • الأساليب السيبرانية، بما في ذلك العديد من الأساليب الرياضية غير المتجانسة.

وعيب هذا التصنيف هو أن كلا من الخوارزميات الإحصائية والسيبرانية تعتمد بشكل أو بآخر على مقارنة الخبرة الإحصائية مع نتائج مراقبة الوضع الحالي.

ميزة هذا التصنيف هو سهولة تفسيره - فهو يستخدم لوصف الوسائل الرياضية للنهج الحديث لاستخلاص المعرفة من مصفوفات الملاحظات الأولية (المنطوقة بأثر رجعي)، أي. في مهام التنقيب عن البيانات.

دعونا نلقي نظرة فاحصة على المجموعات المذكورة أعلاه.

الأساليب الإحصائية استخراج البيانات

في هذه تمثل الطرق أربعة أقسام مترابطة:

  • التحليل الأولي لطبيعة البيانات الإحصائية (اختبار فرضيات الاستقرار، والحياة الطبيعية، والاستقلال، والتجانس، وتقييم نوع وظيفة التوزيع، ومعلماتها، وما إلى ذلك)؛
  • تحديد الاتصالات و أنماط(تحليل الانحدار الخطي وغير الخطي، وتحليل الارتباط، وما إلى ذلك)؛
  • التحليل الإحصائي متعدد المتغيرات (التحليل التمييزي الخطي وغير الخطي، التحليل العنقودي، التحليل المكون، التحليل العاملي، وما إلى ذلك)؛
  • النماذج الديناميكية والتنبؤات على أساس السلاسل الزمنية.

يتم تصنيف ترسانة الأساليب الإحصائية لاستخراج البيانات إلى أربع مجموعات من الأساليب:

  1. التحليل الوصفي ووصف البيانات المصدر.
  2. تحليل العلاقات (تحليل الارتباط والانحدار، التحليل العاملي، تحليل التباين).
  3. التحليل الإحصائي متعدد المتغيرات (تحليل المكونات، التحليل التمييزي، تحليل الانحدار متعدد المتغيرات، الارتباطات الأساسية، وما إلى ذلك).
  4. تحليل السلاسل الزمنية (النماذج الديناميكية والتنبؤ).

طرق التنقيب عن البيانات السيبرانية

الاتجاه الثاني للتنقيب عن البيانات هو مجموعة متنوعة من المناهج التي توحدها فكرة الرياضيات الحاسوبية واستخدام نظرية الذكاء الاصطناعي.

تتضمن هذه المجموعة الطرق التالية:

  • الشبكات العصبية الاصطناعية (الاعتراف، التجميع، التنبؤ)؛
  • البرمجة التطورية (بما في ذلك خوارزميات طريقة المحاسبة الجماعية للحجج)؛
  • الخوارزميات الجينية (التحسين)؛
  • الذاكرة الترابطية (البحث عن نظائرها ونماذجها الأولية)؛
  • المنطق الضبابي؛
  • أشجار القرار؛
  • أنظمة معالجة المعرفة المتخصصة.

التحليل العنقودي

الغرض من التجميع هو البحث عن الهياكل الموجودة.

التجميع هو إجراء وصفي، ولا يقدم أي استنتاجات إحصائية، ولكنه يوفر فرصة لإجراء تحليل استكشافي ودراسة "بنية البيانات".

يتم تعريف مفهوم "الكتلة" بشكل غامض: كل دراسة لها "مجموعاتها" الخاصة بها. تتم ترجمة مفهوم الكتلة إلى "الكتلة"، "حفنة". يمكن وصف الكتلة بأنها مجموعة من الكائنات التي لها خصائص مشتركة.

ويمكن وصف خصائص الكتلة بأنها اثنين:

  • التجانس الداخلي
  • العزلة الخارجية.

السؤال الذي يطرحه المحللون عند حل العديد من المشكلات هو كيفية تنظيم البيانات في هياكل مرئية، أي: توسيع التصنيفات.

تم استخدام التجميع في البداية على نطاق واسع في علوم مثل علم الأحياء والأنثروبولوجيا وعلم النفس. لم يتم استخدام التجميع كثيرًا لحل المشكلات الاقتصادية لفترة طويلة بسبب الطبيعة المحددة للبيانات والظواهر الاقتصادية.

يمكن أن تكون المجموعات منفصلة، ​​أو حصرية (غير متداخلة، حصرية)، ومتداخلة.

تجدر الإشارة إلى أنه نتيجة لتطبيق طرق مختلفة للتحليل العنقودي، يمكن الحصول على مجموعات ذات أشكال مختلفة. على سبيل المثال، تكون المجموعات من النوع "السلسلة" ممكنة، عندما يتم تمثيل المجموعات بواسطة "سلاسل" طويلة، ومجموعات ممدودة، وما إلى ذلك، ويمكن لبعض الطرق إنشاء مجموعات ذات شكل عشوائي.

قد تهدف الطرق المختلفة إلى إنشاء مجموعات ذات أحجام محددة (على سبيل المثال، صغيرة أو كبيرة) أو تفترض وجود مجموعات ذات أحجام مختلفة في مجموعة البيانات. بعض طرق التحليل العنقودي حساسة بشكل خاص للضوضاء أو القيم المتطرفة، والبعض الآخر أقل حساسية. نتيجة لاستخدام طرق تجميع مختلفة، قد يتم الحصول على نتائج مختلفة، وهذا أمر طبيعي وهو سمة من سمات تشغيل خوارزمية معينة. يجب أن تؤخذ هذه الميزات في الاعتبار عند اختيار طريقة التجميع.

دعونا نعطي وصفا موجزا لأساليب التجميع.

الخوارزميات القائمة على فصل البيانات (خوارزميات التقسيم)، بما في ذلك. ترابطي:

  • تقسيم الكائنات إلى مجموعات k؛
  • إعادة التوزيع التكراري للكائنات لتحسين التجميع.
  • الخوارزميات الهرمية:
  • التكتل: كل كائن هو في البداية كتلة، مجموعات،
  • وتتواصل مع بعضها البعض، وتشكل كتلة أكبر، وما إلى ذلك.

الطرق المعتمدة على الكثافة:

  • بناء على القدرة على ربط الأشياء؛
  • تجاهل الضوضاء والعثور على مجموعات من الشكل التعسفي.

شبكة - الأساليب (الأساليب القائمة على الشبكة):

  • تكميم الكائنات في هياكل الشبكة.

الطرق النموذجية (المبنية على النموذج):

  • باستخدام النموذج للعثور على المجموعات التي تناسب البيانات بشكل أفضل.

طرق التحليل العنقودي. الأساليب التكرارية.

مع وجود عدد كبير من الملاحظات، فإن الأساليب الهرمية للتحليل العنقودي ليست مناسبة. في مثل هذه الحالات، يتم استخدام أساليب غير هرمية تعتمد على التقسيم، وهي طرق تكرارية لتجزئة المجتمع الأصلي. أثناء عملية التقسيم، يتم تشكيل مجموعات جديدة حتى يتم استيفاء قاعدة الإيقاف.

يتكون هذا التجميع غير الهرمي من تقسيم مجموعة البيانات إلى عدد معين من المجموعات الفردية. هناك نهجان. الأول هو تحديد حدود التجمعات باعتبارها المناطق الأكثر كثافة في الفضاء متعدد الأبعاد للبيانات المصدر، أي. تحديد كتلة حيث يوجد "تكثيف النقاط" كبير. النهج الثاني هو تقليل قياس الفرق بين الكائنات

ك-يعني خوارزمية

الطريقة غير الهرمية الأكثر شيوعًا هي خوارزمية k-means، والتي تسمى أيضًا تحليل الكتلة سريع. يمكن العثور على وصف كامل للخوارزمية في Hartigan and Wong (1978). على عكس الطرق الهرمية، التي لا تتطلب افتراضات أولية فيما يتعلق بعدد المجموعات، لتتمكن من استخدام هذه الطريقة، من الضروري أن يكون لديك فرضية حول العدد الأكثر احتمالا للمجموعات.

تقوم خوارزمية k-means بإنشاء مجموعات k تقع على أكبر مسافات ممكنة من بعضها البعض. النوع الرئيسي من المشاكل التي تحلها خوارزمية k-means هو وجود افتراضات (فرضيات) فيما يتعلق بعدد المجموعات، ويجب أن تكون مختلفة قدر الإمكان. قد يعتمد اختيار k على الأبحاث السابقة أو الاعتبارات النظرية أو الحدس.

الفكرة العامة للخوارزمية: تتم مقارنة عدد ثابت k من مجموعات المراقبة بالعناقيد بحيث تختلف المتوسطات في المجموعة (لجميع المتغيرات) عن بعضها البعض قدر الإمكان.

وصف الخوارزمية

1. التوزيع الأولي للأشياء إلى مجموعات.

  • يتم اختيار الرقم k، وفي الخطوة الأولى تعتبر هذه النقاط "مراكز" العناقيد.
  • كل مجموعة تتوافق مع مركز واحد.

يمكن اختيار النقط الوسطى الأولية على النحو التالي:

  • اختيار ملاحظات k لتعظيم المسافة الأولية؛
  • الاختيار العشوائي لملاحظات k؛
  • اختيار الملاحظات k الأولى.

ونتيجة لذلك، يتم تعيين كل كائن إلى مجموعة محددة.

2. عملية تكرارية.

يتم حساب مراكز المجموعات، والتي يتم استخدامها بعد ذلك لحساب المتوسطات الإحداثية للمجموعات. يتم إعادة توزيع الكائنات مرة أخرى.

وتستمر عملية حساب المراكز وإعادة توزيع الكائنات حتى يتم استيفاء أحد الشروط:

  • استقرت مراكز الكتلة، أي. جميع الملاحظات تنتمي إلى المجموعة التي كانت تنتمي إليها قبل التكرار الحالي؛
  • عدد التكرارات يساوي الحد الأقصى لعدد التكرارات.

يوضح الشكل مثالاً لخوارزمية k-means لـ k يساوي اثنين.

مثال على خوارزمية k-means (k=2)

يعد اختيار عدد المجموعات مسألة معقدة. إذا لم تكن هناك افتراضات بخصوص هذا الرقم، فمن المستحسن إنشاء مجموعتين، ثم 3، 4، 5، وما إلى ذلك، مقارنة النتائج التي تم الحصول عليها.

التحقق من جودة التجميع

بعد تلقي نتائج تحليل مجموعة k-means، يجب عليك التحقق من صحة التجميع (أي تقييم مدى اختلاف المجموعات عن بعضها البعض).

للقيام بذلك، يتم حساب متوسط ​​القيم لكل مجموعة. يجب أن ينتج عن التجميع الجيد وسائل مختلفة تمامًا لجميع القياسات، أو على الأقل معظمها.

مزايا خوارزمية k-means:

  • سهولة الاستعمال؛
  • سرعة الاستخدام
  • سهولة الفهم والشفافية للخوارزمية.

عيوب خوارزمية k-means:

  • الخوارزمية حساسة جدًا للقيم المتطرفة التي يمكن أن تشوه المتوسط.

حل ممكنهذه المشكلة هي استخدام تعديل الخوارزمية - خوارزمية k-median؛

  • قد تكون الخوارزمية بطيئة في قواعد البيانات الكبيرة. الحل المحتمل لهذه المشكلة هو استخدام أخذ عينات البيانات.

الشبكات البايزية

في نظرية الاحتمالات، يتم صياغة مفهوم الاعتماد على المعلومات من خلال الاعتماد المشروط (أو بشكل صارم: غياب الاستقلال المشروط)، والذي يصف كيف تتغير ثقتنا في نتيجة بعض الأحداث عندما نكتسب معرفة جديدة حول الحقائق، بشرط أن نكون على علم بالفعل مجموعة من الحقائق الأخرى.

من السهل والبديهي تمثيل التبعيات بين العناصر من خلال مسار موجه يربط هذه العناصر في الرسم البياني. إذا كانت العلاقة بين العنصرين x وy ليست مباشرة وتتم من خلال عنصر ثالث z، فمن المنطقي أن نتوقع وجود عنصر z على المسار بين x وy. مثل هذه العقد الوسيطة سوف "تقطع" الاعتماد بين x و y، أي. محاكاة حالة من الاستقلال المشروط بينهما مع معرفة قيمة عوامل التأثير المباشر.لغات النمذجة هذه هي شبكات بايزي، والتي تستخدم لوصف التبعيات الشرطية بين مفاهيم مجال موضوع معين.

الشبكات البايزية هي الهياكل الرسوميةلتمثيل العلاقات الاحتمالية بين عدد كبير من المتغيرات وإجراء الاستدلال الاحتمالي على أساس تلك المتغيرات.يعتبر التصنيف "الساذج" (بايزي) طريقة تصنيف شفافة ومفهومة إلى حد ما، ويسمى "ساذج" لأنه يعتمد على افتراض وجود علاقة متبادلةاستقلال العلامات.

خصائص التصنيف:

1. استخدام كافة المتغيرات وتحديد كافة التبعيات فيما بينها.

2. وجود افتراضين حول المتغيرات:

  • جميع المتغيرات متساوية في الأهمية؛
  • جميع المتغيرات مستقلة إحصائيا، أي. قيمة أحد المتغيرات لا تقول شيئًا عن قيمة متغير آخر.

هناك سيناريوهان رئيسيان لاستخدام الشبكات الافتراضية:

1. التحليل الوصفي. يتم عرض مجال الموضوع كرسم بياني، تمثل العقد فيه المفاهيم، وتوضح الأقواس الموجهة، المعروضة بواسطة الأسهم، التبعيات المباشرة بين هذه المفاهيم. العلاقة بين x و y تعني أن معرفة قيمة x تساعدك على تخمين قيمة y بشكل أفضل. إن غياب الارتباط المباشر بين المفاهيم يمثل الاستقلال المشروط بينها مع القيم المعروفة لمجموعة معينة من المفاهيم "المنفصلة". على سبيل المثال، من الواضح أن حجم حذاء الطفل يرتبط بقدرة الطفل على القراءة عبر العمر. وبالتالي، فإن حجم الحذاء الأكبر يعطي ثقة أكبر بأن الطفل يقرأ بالفعل، ولكن إذا كنا نعرف العمر بالفعل، فإن معرفة حجم الحذاء لن تمنحنا بعد الآن معلومات إضافيةعن قدرة الطفل على القراءة.


وكمثال آخر معاكس، ضع في اعتبارك عوامل غير ذات صلة في البداية مثل التدخين ونزلات البرد. لكن إذا عرفنا أحد الأعراض مثلاً أن الشخص يعاني من السعال في الصباح، فإن معرفة أن الشخص لا يدخن يزيد من ثقتنا في أن الشخص مصاب بالزكام.

2. التصنيف والتنبؤ. تتيح شبكة بايزي، التي تسمح بالاستقلال المشروط لعدد من المفاهيم، تقليل عدد معلمات التوزيع المشترك، مما يجعل من الممكن تقديرها بثقة على كميات البيانات المتاحة. لذلك، مع 10 متغيرات، كل منها يمكن أن يأخذ 10 قيم، فإن عدد معلمات التوزيع المشترك هو 10 مليار - 1. وإذا افترضنا أن متغيرين فقط يعتمدان على بعضهما البعض بين هذه المتغيرات، فإن عدد المعلمات يصبح 8 * (10-1) + (10*10-1) = 171. بوجود نموذج توزيع مشترك واقعي من حيث الموارد الحسابية، يمكننا التنبؤ بالقيمة غير المعروفة لمفهوم ما، على سبيل المثال، القيمة الأكثر احتمالية لـ هذا المفهوم نظرا للقيم المعروفة للمفاهيم الأخرى.

تمت الإشارة إلى المزايا التالية لشبكات بايزي كطريقة لتعدين البيانات:

يحدد النموذج التبعيات بين جميع المتغيرات، وهذا يجعل الأمر سهلاالتعامل مع المواقف التي تكون فيها قيم بعض المتغيرات غير معروفة؛

من السهل جدًا تفسير الشبكات الافتراضية والسماح بهاتسهل النمذجة التنبؤية إجراء تحليل سيناريو ماذا لو؛

تتيح لك الطريقة البايزية الجمع بين الأنماط بشكل طبيعي،المستنتجة من البيانات، وعلى سبيل المثال، المعرفة المتخصصة التي تم الحصول عليها بشكل صريح؛

يؤدي استخدام الشبكات الافتراضية إلى تجنب مشكلة التجهيز الزائد(التركيب الزائد)، أي التعقيد المفرط للنموذج، وهو ضعفالعديد من الطرق (على سبيل المثال، أشجار القرار والشبكات العصبية).

نهج Naive Bayes له العيوب التالية:

من الصحيح مضاعفة الاحتمالات الشرطية فقط عند كل المدخلاتالمتغيرات مستقلة إحصائيا حقا. على الرغم من أن هذه الطريقة غالبًا ما تكونيُظهر نتائج جيدة جدًا عندما لا يتم استيفاء الشرط الإحصائيالاستقلال، ولكن من الناحية النظرية ينبغي التعامل مع مثل هذا الوضع من خلال أكثر تعقيداالأساليب القائمة على تدريب الشبكات الافتراضية؛

المعالجة المباشرة للمتغيرات المستمرة غير ممكنة - فهي مطلوبةالتحويل إلى مقياس فاصل بحيث تكون السمات منفصلة؛ ولكن هذايمكن أن تؤدي التحولات في بعض الأحيان إلى فقدان أنماط مهمة؛

تتأثر نتيجة التصنيف في نهج Naive Bayes فقط بـالقيم الفردية لمتغيرات الإدخال، والتأثير المشترك للأزواج أولا يتم أخذ ثلاثة توائم من قيم السمات المختلفة في الاعتبار هنا. هذا يمكن أن يتحسنجودة نموذج التصنيف من حيث دقته التنبؤية،ومع ذلك، فإنه من شأنه أن يزيد من عدد الخيارات التي تم اختبارها.

الشبكات العصبية الاصطناعية

يمكن أن تكون الشبكات العصبية الاصطناعية (المشار إليها فيما بعد بالشبكات العصبية) متزامنة وغير متزامنة.في الشبكات العصبية المتزامنة، في كل لحظة تتغير حالتها فقطخلية عصبية واحدة. في غير متزامن - تتغير الحالة على الفور في مجموعة كاملة من الخلايا العصبية، كقاعدة عامة، في الكلطبقة. هناك اثنان البنى الأساسية- شبكات ذات طبقات ومتصلة بالكامل.المفهوم الأساسي في الشبكات ذات الطبقات هو مفهوم الطبقة.الطبقة عبارة عن خلية عصبية واحدة أو أكثر تتلقى مدخلاتها نفس الإشارة المشتركة.الشبكات العصبية ذات الطبقات هي شبكات عصبية تنقسم فيها الخلايا العصبية إلى مجموعات منفصلة (طبقات) بحيث تتم معالجة المعلومات طبقة بعد طبقة.في الشبكات ذات الطبقات، تتلقى الخلايا العصبية في الطبقة i إشارات الإدخال وتحولها وتنقلها عبر نقاط متفرعة إلى الخلايا العصبية في الطبقة (i+1). وهكذا حتى الطبقة k التي تنتجإشارات الإخراج للمترجم والمستخدم. لا يرتبط عدد الخلايا العصبية في كل طبقة بعدد الخلايا العصبية في الطبقات الأخرى ويمكن أن يكون عشوائيًا.داخل طبقة واحدة، تتم معالجة البيانات بالتوازي، وعبر الشبكة بأكملها، تتم المعالجة بالتتابع - من طبقة إلى طبقة. تشمل الشبكات العصبية ذات الطبقات، على سبيل المثال، الإدراك الحسي متعدد الطبقات، وشبكات الوظائف ذات الأساس الشعاعي، وشبكات كوجنيترون، وغير كوجنيترون، وشبكات الذاكرة الترابطية.ومع ذلك، لا يتم إرسال الإشارة دائمًا إلى جميع الخلايا العصبية في الطبقة. في الكوجنيترون، على سبيل المثال، تتلقى كل خلية عصبية في الطبقة الحالية إشارات فقط من الخلايا العصبية القريبة منها في الطبقة السابقة.

يمكن أن تكون الشبكات ذات الطبقات بدورها أحادية الطبقة أو متعددة الطبقات.

شبكة طبقة واحدة- شبكة مكونة من طبقة واحدة .

شبكة متعددة الطبقات- شبكة ذات عدة طبقات.

في شبكة متعددة الطبقات، تسمى الطبقة الأولى طبقة الإدخال، وتسمى الطبقات اللاحقة داخلية أو مخفية، وتسمى الطبقة الأخيرة طبقة الإخراج. وبالتالي، فإن الطبقات المتوسطة هي جميع الطبقات في شبكة عصبية متعددة الطبقات باستثناء المدخلات والمخرجات.تتواصل طبقة الإدخال في الشبكة مع بيانات الإدخال، وتتواصل طبقة الإخراج مع الإخراج.وهكذا يمكن للخلايا العصبية أن تكون مدخلة ومخرجة ومخفية.يتم تنظيم طبقة الإدخال من الخلايا العصبية المدخلة، التي تتلقى البيانات وتوزعها على مدخلات الخلايا العصبية في الطبقة المخفية من الشبكة.الخلية العصبية المخفية هي خلية عصبية تقع في الطبقة المخفية من الشبكة العصبية.تنتج الخلايا العصبية الناتجة، والتي يتم من خلالها تنظيم طبقة الإخراج للشبكةنتائج الشبكة العصبية.

في شبكات شبكيةتنقل كل خلية عصبية مخرجاتها إلى الخلايا العصبية الأخرى، بما في ذلك نفسها. يمكن أن تكون إشارات الخرج للشبكة كلها أو بعض إشارات الخرج للخلايا العصبية بعد عدة دورات من تشغيل الشبكة.

يتم إعطاء جميع إشارات الإدخال لجميع الخلايا العصبية.

تدريب الشبكات العصبية

قبل استخدام الشبكة العصبية، يجب تدريبها.تتكون عملية تدريب الشبكة العصبية من تعديل معلماتها الداخلية لمهمة محددة.خوارزمية الشبكة العصبية تكرارية، وتسمى خطواتها بالعصور أو الدورات.العصر هو تكرار واحد في عملية التعلم، بما في ذلك عرض جميع الأمثلة من مجموعة التدريب، وربما التحقق من جودة التعلم في مجموعة اختبار.كثير. وتتم عملية التعلم على العينة التدريبية.تتضمن مجموعة التدريب قيم الإدخال وقيم الإخراج المقابلة لها في مجموعة البيانات. أثناء التدريب، تجد الشبكة العصبية تبعيات معينة بين حقول الإخراج وحقول الإدخال.وهكذا نواجه السؤال - ما هي حقول الإدخال (الميزات) التي نحتاجها؟ضروري للاستخدام. في البداية، يتم الاختيار بشكل إرشادييمكن تغيير عدد المدخلات.

المشكلة التي قد تنشأ هي عدد الملاحظات في مجموعة البيانات. وعلى الرغم من وجود قواعد معينة تصف العلاقة بين العدد المطلوب من الملاحظات وحجم الشبكة، إلا أنه لم يتم إثبات صحتها.يعتمد عدد الملاحظات المطلوبة على مدى تعقيد المشكلة التي يتم حلها. ومع زيادة عدد الميزات، يزداد عدد الملاحظات بشكل غير خطي؛ وتسمى هذه المشكلة "لعنة الأبعاد". في حالة عدم كفاية الكميةالبيانات، فمن المستحسن استخدام نموذج خطي.

يجب على المحلل تحديد عدد الطبقات في الشبكة وعدد الخلايا العصبية في كل طبقة.بعد ذلك، تحتاج إلى تعيين قيم الأوزان والإزاحات التي يمكن ذلكالتقليل من خطأ القرار. يتم ضبط الأوزان والتحيزات تلقائيًا لتقليل الفرق بين إشارات الإخراج المطلوبة والمستقبلة، وهو ما يسمى خطأ التدريب.يتم حساب خطأ التدريب للشبكة العصبية المبنية عن طريق المقارنةالمخرجات والقيم المستهدفة (المرغوبة). يتم تشكيل وظيفة الخطأ من الاختلافات الناتجة.

وظيفة الخطأ هي وظيفة موضوعية تتطلب التقليل في العمليةالتعلم الخاضع للإشراف للشبكة العصبية.باستخدام وظيفة الخطأ، يمكنك تقييم جودة الشبكة العصبية أثناء التدريب. على سبيل المثال، غالبًا ما يتم استخدام مجموع الأخطاء المربعة.تحدد جودة تدريب الشبكة العصبية قدرتها على حل المهام المعينة.

إعادة تدريب الشبكة العصبية

عند تدريب الشبكات العصبية، غالبا ما تنشأ صعوبة خطيرة تسمىمشكلة التجهيز الزائد.الإفراط في التجهيز، أو التجهيز الزائد - التجهيز الزائدالشبكة العصبية لمجموعة محددة من الأمثلة التدريبية التي تخسر فيها الشبكةالقدرة على التعميم.يحدث الإفراط في التدريب عندما يكون هناك الكثير من التدريب، وليس ما يكفيأمثلة تدريبية أو بنية شبكة عصبية معقدة للغاية.إعادة التدريب يرجع إلى حقيقة اختيار مجموعة التدريبعشوائي. من خطوات التعلم الأولى، يقل الخطأ. علىالخطوات اللاحقة من أجل تقليل معلمات الخطأ (الوظيفة الموضوعية).التكيف مع خصائص مجموعة التدريب. ومع ذلك، يحدث هذا"التكيف" ليس مع الأنماط العامة للمسلسل، بل مع خصائص أجزائه -مجموعة فرعية للتدريب وفي الوقت نفسه، تقل دقة التوقعات.أحد الخيارات لمكافحة التدريب الزائد على الشبكة هو تقسيم عينة التدريب إلى قسمينمجموعات (التدريب والاختبار).يتم تدريب الشبكة العصبية على مجموعة التدريب. يتم فحص النموذج الذي تم إنشاؤه في مجموعة الاختبار. يجب ألا تتقاطع هذه المجموعات.مع كل خطوة، تتغير معلمات النموذج، ولكن في انخفاض مستمرتحدث قيمة الوظيفة الموضوعية على وجه التحديد في مجموعة التدريب. عندما نقسم المجموعة إلى قسمين، يمكننا أن نلاحظ تغيرًا في خطأ التنبؤ في مجموعة الاختبار بالتوازي مع الملاحظات في مجموعة التدريب. بعضيتناقص عدد خطوات خطأ التنبؤ في كلتا المجموعتين. ومع ذلك، علىفي خطوة معينة، يبدأ الخطأ في مجموعة الاختبار في الزيادة، بينما يستمر الخطأ في مجموعة التدريب في الانخفاض. تعتبر هذه اللحظة بداية إعادة التدريب

أدوات التنقيب عن البيانات

يشارك كل من القادة المشهورين عالميًا والشركات النامية الجديدة في تطوير قطاع DataMining في سوق البرمجيات العالمية. يمكن تقديم أدوات DataMining إما كتطبيق مستقل أو كوظائف إضافية للمنتج الرئيسي.يتم تنفيذ الخيار الأخير من قبل العديد من رواد سوق البرمجيات.وهكذا، فقد أصبح بالفعل تقليدًا أن يقوم مطورو الحزم الإحصائية العالمية، بالإضافة إلى الأساليب التقليدية للتحليل الإحصائي، بتضمينها في الحزمةمجموعة محددة من أساليب DataMining. هذه هي الحزم مثل SPSS (SPSS، كليمنتين)، Statistica (StatSoft)، معهد SAS (SAS Enterprise Miner).يقدم بعض موفري حلول OLAP أيضًا مجموعة من أساليب DataMining، مثل مجموعة منتجات Cognos. هناك موردون يقومون بتضمين حلول DataMining في وظيفة نظام إدارة قواعد البيانات: وهم Microsoft (MicrosoftSQLServer)، وOracle، وIBM (IBMIntelligentMinerforData).

فهرس

  1. عبديكيف ن.م. دانكو تي.بي. إلديمينوف إس. كيسيليف إيه دي، "إعادة هندسة العمليات التجارية. دورة ماجستير إدارة الأعمال"، م: دار نشر إكسمو، 2005. - 592 ص. - (ماجستير في إدارة الأعمال)
  1. عبد الكيف ن.م.، كيسيليف أ.د. "إدارة المعرفة في الشركة وإعادة هندسة الأعمال" - م: Infra-M، 2011. - 382 ص. – ردمك 978-5-16-004300-5
  1. بارسيغيان أ.، كوبريانوف إم إس، ستيبانينكو في. "أساليب ونماذج تحليل البيانات: OLAP واستخراج البيانات"، سانت بطرسبرغ: BHV-Petersburg، 2004، 336 صفحة، ISBN 5-94157-522-X
  1. دوق في., سامويلينكو أ.، "بيانات التعدين.دورة تدريبية" سانت بطرسبرغ: بيتر، 2001، 386 ص.
  1. تشوبوكوفا آي إيه، دورة التنقيب عن البيانات، http://www.intuit.ru/department/database/datamining/
  1. إيان ه. ويتن، إيبي فرانك، مارك أ. هول، مورجان كوفمان، استخراج البيانات: أدوات وتقنيات التعلم الآلي العملية (الطبعة الثالثة)، ISBN 978-0-12-374856-0
  1. بتروشين ف. ، خان ل.، التنقيب عن بيانات الوسائط المتعددة واكتشاف المعرفة

وزارة التعليم والعلوم في الاتحاد الروسي

المؤسسة التعليمية لميزانية الدولة الفيدرالية للتعليم المهني العالي

"جامعة تومسك للفنون التطبيقية الوطنية للأبحاث"

معهد علم التحكم الآلي

اتجاه المعلوماتية وعلوم الكمبيوتر

قسم VT

امتحان

في تخصص المعلوماتية وهندسة الكمبيوتر

الموضوع: طرق التنقيب عن البيانات

مقدمة

بيانات التعدين. المفاهيم والتعاريف الأساسية

1 خطوات عملية استخراج البيانات

2 مكونات أنظمة التحليل الذكية

3 طرق استخراج البيانات

طرق استخراج البيانات

1 اشتقاق قواعد الارتباط

2 خوارزميات الشبكة العصبية

3 أساليب الجيران الأقرب وأقرب الجيران

4 أشجار القرار

5 خوارزميات التجميع

6 الخوارزميات الجينية

مجالات التطبيق

الشركات المصنعة لأدوات استخراج البيانات

نقد الأساليب

خاتمة

فهرس

مقدمة

نتيجة التطور تقنيات المعلوماتهو الكم الهائل من البيانات المتراكمة فيه في شكل إلكتروني، وينمو بوتيرة سريعة. في الوقت نفسه، تكون البيانات، كقاعدة عامة، بنية غير متجانسة (النصوص والصور والصوت والفيديو ومستندات النص التشعبي وقواعد البيانات العلائقية). تراكمت ل طويل الأمدقد تحتوي البيانات على أنماط واتجاهات وعلاقات، وهي معلومات قيمة للتخطيط والتنبؤ واتخاذ القرار ومراقبة العمليات. ومع ذلك، فإن البشر غير قادرين جسديًا على تحليل مثل هذه الكميات من البيانات غير المتجانسة بشكل فعال. لطالما ادعت طرق الإحصاء الرياضي التقليدي أنها الأداة الرئيسية لتحليل البيانات. ومع ذلك، فهي لا تسمح بتركيب فرضيات جديدة، ولكن يمكن استخدامها فقط لتأكيد الفرضيات المعدة مسبقًا والتحليل الاستكشافي "التقريبي"، الذي يشكل أساس المعالجة التحليلية عبر الإنترنت (OLAP). في كثير من الأحيان، تكون صياغة الفرضية هي المهمة الأكثر صعوبة عند إجراء التحليل لاتخاذ القرارات اللاحقة، حيث ليست كل الأنماط في البيانات واضحة للوهلة الأولى. ولذلك تعتبر تقنيات استخراج البيانات من أهم المواضيع الواعدة للبحث والتطبيق في صناعة تكنولوجيا المعلومات. يشير استخراج البيانات في هذه الحالة إلى عملية تحديد المعرفة الجديدة والصحيحة والمفيدة بناءً على كميات كبيرة من البيانات. وهكذا، وصفت مجلة MIT Technology Review التنقيب عن البيانات بأنها واحدة من التقنيات العشر الناشئة التي ستغير العالم.

1. استخراج البيانات. المفاهيم والتعاريف الأساسية

التنقيب في البيانات هو عملية اكتشاف المعرفة "الخام" غير المعروفة سابقًا وغير التافهة والمفيدة عمليًا والقابلة للتفسير والضرورية لاتخاذ القرار في مختلف مجالات النشاط البشري.

يمكن صياغة جوهر وهدف تقنية التنقيب عن البيانات على النحو التالي: إنها تقنية مصممة للبحث في كميات كبيرة من البيانات عن أنماط غير واضحة وموضوعية وعملية.

الأنماط غير الواضحة هي أنماط لا يمكن اكتشافها بالطرق القياسية لمعالجة المعلومات أو عن طريق تحليل الخبراء.

ينبغي فهم الأنماط الموضوعية على أنها أنماط تتوافق تمامًا مع الواقع، على عكس رأي الخبراء، الذي يكون دائمًا ذاتيًا.

يفترض مفهوم تحليل البيانات ما يلي:

§ قد تكون البيانات غير دقيقة، وغير مكتملة (تحتوي على حذف)، ومتناقضة، وغير متجانسة، وغير مباشرة، وفي نفس الوقت تحتوي على أحجام ضخمة؛ ولذلك، فإن فهم البيانات في تطبيقات محددة يتطلب جهدًا فكريًا كبيرًا؛

§ قد تحتوي خوارزميات تحليل البيانات نفسها على "عناصر الذكاء"، على وجه الخصوص، القدرة على التعلم من السوابق، أي استخلاص استنتاجات عامة بناءً على ملاحظات خاصة؛ ويتطلب تطوير مثل هذه الخوارزميات أيضًا جهدًا فكريًا كبيرًا؛

§ لا يمكن إجراء عمليات تحويل البيانات الأولية إلى معلومات، والمعلومات إلى معرفة، يدويًا وتتطلب التشغيل الآلي.

تعتمد تقنية استخراج البيانات على مفهوم القوالب التي تعكس أجزاء من العلاقات متعددة الأبعاد في البيانات. تمثل هذه الأنماط الأنماط المتأصلة في العينات الفرعية من البيانات التي يمكن التعبير عنها بشكل مضغوط في شكل يمكن قراءته بواسطة الإنسان.

يتم البحث عن الأنماط باستخدام طرق لا تقتصر على افتراضات مسبقة حول بنية العينة ونوع توزيعات قيم المؤشرات التي تم تحليلها.

إحدى السمات المهمة لاستخراج البيانات هي الطبيعة غير القياسية وغير الواضحة للأنماط المطلوبة. بمعنى آخر، تختلف أدوات التنقيب عن البيانات عن أدوات معالجة البيانات الإحصائية وأدوات OLAP في أنه بدلاً من التحقق من الترابطات المتبادلة المفترضة مسبقًا من قبل المستخدمين، فإنهم قادرون على العثور على مثل هذه الترابطات بشكل مستقل بناءً على البيانات المتاحة وبناء فرضيات حول طبيعتها. هناك خمسة أنواع قياسية من الأنماط التي تم تحديدها بواسطة طرق التنقيب في البيانات:

· الارتباط - احتمال كبير لترابط الأحداث مع بعضها البعض. مثال على الارتباط هو العناصر الموجودة في المتجر والتي غالبًا ما يتم شراؤها معًا؛

· التسلسل - احتمال كبير لسلسلة من الأحداث المرتبطة في الوقت المناسب. مثال على التسلسل هو الموقف الذي، خلال فترة معينة بعد شراء منتج واحد، سيتم شراء منتج آخر بدرجة عالية من الاحتمال؛

· التصنيف - هناك علامات تميز المجموعة التي ينتمي إليها هذا الحدث أو الكائن أو ذاك؛

· التجميع هو نمط مشابه للتصنيف ويختلف عنه حيث أن المجموعات نفسها غير محددة - بل يتم تحديدها تلقائياً أثناء معالجة البيانات؛

· الأنماط الزمنية – وجود أنماط في ديناميكيات سلوك بيانات معينة. ومن الأمثلة النموذجية لنمط زمني التقلبات الموسمية في الطلب على سلع أو خدمات معينة.

1.1 خطوات عملية استخراج البيانات

تقليديا، يتم تمييز المراحل التالية في عملية استخراج البيانات:

1. دراسة مجال الموضوع ونتيجة لذلك يتم صياغة الأهداف الرئيسية للتحليل.

2. جمع البيانات.

المعالجة المسبقة للبيانات:

أ. تنظيف البيانات - إزالة التناقضات و"الضجيج" العشوائي من البيانات المصدر

ب. تكامل البيانات - دمج البيانات من عدة مصادر محتملة في مستودع واحد. تحويل البيانات. في هذه المرحلة يتم تحويل البيانات إلى نموذج مناسب للتحليل. غالبًا ما يتم استخدام تجميع البيانات وأخذ عينات السمات وضغط البيانات وتقليل الأبعاد.

4. تحليل البيانات. وكجزء من هذه المرحلة، يتم استخدام خوارزميات التعدين لاستخراج الأنماط.

5. تفسير الأنماط الموجودة. قد تتضمن هذه المرحلة تصور الأنماط المستخرجة، وتحديد الأنماط المفيدة حقًا بناءً على بعض الوظائف المساعدة.

استخدام المعرفة الجديدة.

1.2 مكونات أنظمة التحليل الذكية

عادة، تحتوي أنظمة استخراج البيانات على المكونات الرئيسية التالية:

1. قاعدة بيانات، أو مستودع بيانات، أو أي مستودع آخر للمعلومات. يمكن أن يكون هذا قاعدة بيانات واحدة أو أكثر، أو مستودع بيانات، أو جداول بيانات، أو أنواع أخرى من المستودعات التي يمكن تنظيفها وتكاملها.

2. خادم قاعدة البيانات أو مستودع البيانات. الخادم المحدد مسؤول عن استرداد البيانات الأساسية بناءً على طلب المستخدم.

قاعدة المعرفة. هذه هي المعرفة بالمجال التي توجه كيفية البحث وتقييم مدى فائدة الأنماط الناتجة.

خدمة استخراج المعرفة. إنه جزء لا يتجزأ من نظام استخراج البيانات ويحتوي على مجموعة من الوحدات الوظيفية لمهام مثل التوصيف والبحث عن الارتباط والتصنيف والتحليل العنقودي وتحليل التباين.

وحدة تقييم الأنماط. يحسب هذا المكون مقاييس الاهتمام أو فائدة الأنماط.

رسم بياني واجهة المستخدم. هذه الوحدة مسؤولة عن التواصل بين المستخدم ونظام استخراج البيانات، وتصور الأنماط بأشكال مختلفة.

1.3 طرق استخراج البيانات

معظم الأساليب التحليلية المستخدمة في تكنولوجيا استخراج البيانات هي خوارزميات وأساليب رياضية معروفة. والجديد في تطبيقها هو إمكانية استخدامها في حل بعض المشكلات المحددة، وذلك بسبب القدرات الناشئة للأجهزة والبرامج. وتجدر الإشارة إلى أن معظم أساليب التنقيب في البيانات تم تطويرها في إطار نظرية الذكاء الاصطناعي. دعونا نلقي نظرة على الطرق الأكثر استخدامًا:

اشتقاق قواعد الارتباط.

2. خوارزميات الشبكة العصبية، والتي تقوم فكرتها على التشبيه مع عمل الأنسجة العصبية وتكمن في أن المعلمات الأولية تعتبر بمثابة إشارات تتحول وفقا للاتصالات الموجودة بين “الخلايا العصبية”، وتعتبر استجابة الشبكة بأكملها هي الاستجابة الناتجة عن التحليل للبيانات الأصلية.

اختيار تماثل وثيق للبيانات الأصلية من البيانات التاريخية الموجودة. وتسمى أيضًا طريقة "أقرب جار".

أشجار القرار عبارة عن هيكل هرمي يعتمد على مجموعة من الأسئلة التي تتطلب الإجابة بـ "نعم" أو "لا".

تُستخدم النماذج العنقودية لتجميع الأحداث المتشابهة في مجموعات بناءً على قيم متشابهة لعدة حقول في مجموعة بيانات.

في الفصل التالي سنصف الطرق المذكورة أعلاه بمزيد من التفصيل.

2. طرق التنقيب عن البيانات

2.1 استنتاج قواعد الارتباط

قواعد الارتباط هي قواعد على شكل "إذا... إذن...". إن البحث عن مثل هذه القواعد في مجموعة بيانات يكشف عن اتصالات مخفية في بيانات تبدو غير ذات صلة. أحد الأمثلة الأكثر شيوعًا لإيجاد قواعد الارتباط هي مشكلة العثور على اتصالات مستقرة في عربة التسوق. تكمن هذه المشكلة في تحديد المنتجات التي يتم شراؤها من قبل العملاء معًا، حتى يتمكن المسوقون من وضع هذه المنتجات بشكل مناسب في المتجر لزيادة المبيعات.

يتم تعريف قواعد الاقتران كبيانات من النموذج (X1،X2،...،Xn) -> Y، حيث يعني ضمنيًا أن Y يمكن أن يكون موجودًا في معاملة بشرط وجود X1،X2،...،Xn في نفس المعاملة. وتجدر الإشارة إلى أن كلمة "يجوز" تعني أن القاعدة ليست هوية، بل تكتفي ببعض الاحتمال. بالإضافة إلى ذلك، يمكن أن يكون Y عبارة عن مجموعة من العناصر، وليس عنصرًا واحدًا فقط. إن احتمال العثور على Y في معاملة تحتوي على العناصر X1,X2,...,Xn يسمى الثقة. تسمى النسبة المئوية للمعاملات التي تحتوي على قاعدة من إجمالي عدد المعاملات بالدعم. يُطلق على مستوى الثقة الذي يجب أن يتجاوز ثقة القاعدة اسم الاهتمام.

هناك أنواع مختلفة من قواعد الارتباط. في أبسط أشكالها، تشير قواعد الارتباط فقط إلى وجود أو عدم وجود ارتباط. تسمى هذه القواعد قواعد الارتباط المنطقية. مثال على هذه القاعدة: "العملاء الذين يشترون الزبادي يشترون أيضًا الزبدة قليلة الدسم".

تسمى القواعد التي تجمع عدة قواعد اقتران معًا قواعد الاقتران متعددة المستويات أو المعممة. عند إنشاء مثل هذه القواعد، يتم عادةً تجميع العناصر وفقًا لتسلسل هرمي، ويتم إجراء البحث على أعلى مستوى مفاهيمي. على سبيل المثال، "العملاء الذين يشترون الحليب يشترون الخبز أيضًا". في هذا المثال، يحتوي الحليب والخبز على تسلسل هرمي لأنواع وعلامات تجارية مختلفة، لكن البحث في المستوى السفلي لن يكشف عن قواعد مثيرة للاهتمام.

هناك نوع أكثر تعقيدًا من القواعد وهو قواعد الارتباط الكمي. يتم البحث عن هذا النوع من القواعد باستخدام السمات الكمية (مثل السعر) أو السمات الفئوية (مثل الجنس)، ويتم تعريفها على أنها ( , ,…,} -> . على سبيل المثال، "المشترون الذين تتراوح أعمارهم بين 30 و35 سنة ويبلغ دخلهم أكثر من 75 ألف سنويا يشترون سيارات تكلفتها أكثر من 20 ألف".

لا تعالج أنواع القواعد المذكورة أعلاه حقيقة أن المعاملات، بطبيعتها، تعتمد على الوقت. على سبيل المثال، البحث قبل عرض المنتج للبيع أو بعد اختفائه من السوق سيؤثر سلبًا على عتبة الدعم. مع أخذ ذلك في الاعتبار، تم تقديم مفهوم عمر السمة في خوارزميات البحث عن قواعد الارتباط المؤقتة (قواعد الارتباط المؤقتة).

يمكن تقسيم مشكلة البحث عن قواعد الارتباط بشكل عام إلى قسمين: البحث عن مجموعات من العناصر متكررة التكرار، وإنشاء قواعد بناءً على المجموعات التي يتم العثور عليها بشكل متكرر. لقد اتبعت الدراسات السابقة، في معظمها، هذه الخطوط ووسعتها في اتجاهات مختلفة.

منذ ظهور خوارزمية Apriori، أصبحت هذه الخوارزمية هي الأكثر استخدامًا في الخطوة الأولى. تهدف العديد من التحسينات، على سبيل المثال في السرعة وقابلية التوسع، إلى تحسين خوارزمية Apriori، وتصحيح خاصيتها الخاطئة المتمثلة في توليد عدد كبير جدًا من المرشحين لمجموعات العناصر الأكثر تكرارًا. يقوم Apriori بإنشاء مجموعات من العناصر باستخدام فقط مجموعات كبيرةالموجودة في الخطوة السابقة دون إعادة فحص المعاملات. تعمل خوارزمية AprioriTid المعدلة على تحسين Apriori من خلال استخدام قاعدة البيانات في التمريرة الأولى فقط. عند الحساب في الخطوات اللاحقة، يتم استخدام البيانات التي تم إنشاؤها في المسار الأول فقط والتي تكون أصغر حجمًا بكثير من قاعدة البيانات الأصلية. وهذا يؤدي إلى زيادة كبيرة في الإنتاجية. يمكن الحصول على نسخة محسنة أخرى من الخوارزمية، تسمى AprioriHybrid، باستخدام Apriori في التمريرات القليلة الأولى، ثم التبديل إلى AprioriTid في التمريرات اللاحقة، عندما تكون المجموعات المرشحة k موجودة بالفعل بالكامل في ذاكرة الكمبيوتر.

ترتبط الجهود الإضافية لتحسين خوارزمية Apriori بموازاة الخوارزمية (توزيع العدد، توزيع البيانات، توزيع المرشحين، وما إلى ذلك)، وتوسيع نطاقها (التوزيع الذكي للبيانات، التوزيع الهجين)، وإدخال هياكل بيانات جديدة، مثل أشجار العناصر التي تحدث بشكل متكرر (نمو FP).

تتميز الخطوة الثانية بشكل أساسي بالأصالة والإثارة. تضيف التعديلات الجديدة دعم الأبعاد والجودة والتوقيت الموضح أعلاه إلى قواعد القاعدة المنطقية التقليدية. غالبًا ما تُستخدم الخوارزمية التطورية للعثور على القواعد.

2.2 خوارزميات الشبكة العصبية

ظهرت الشبكات العصبية الاصطناعية نتيجة لتطبيق الأجهزة الرياضية على دراسة عمل الجهاز العصبي البشري بهدف تكاثره. وهي: قدرة الجهاز العصبي على التعلم وتصحيح الأخطاء، مما يسمح لنا بمحاكاة عمل الدماغ البشري، ولو بشكل تقريبي. الجزء الهيكلي والوظيفي الرئيسي للشبكة العصبية هو الخلية العصبية الرسمية، كما هو موضح في الشكل. 1، حيث x0، x1،...، xn هي مكونات ناقل إشارة الإدخال، w0،w1،...،wn هي قيم أوزان إشارات دخل الخلية العصبية، وy هي مخرجات الخلية العصبية الإشارة.

أرز. 1. الخلايا العصبية الرسمية: المشابك العصبية (1)، الأفعى (2)، المحول (3).

تتكون الخلية العصبية الرسمية من ثلاثة أنواع من العناصر: المشابك العصبية والجامع والمحول. يحدد المشبك قوة الاتصال بين خليتين عصبيتين.

يضيف المُجمِع إشارات الإدخال، مضروبة مسبقًا في الأوزان المقابلة. يقوم المحول بتنفيذ وظيفة وسيطة واحدة - إخراج المُجمِع. تسمى هذه الوظيفة وظيفة التنشيط أو وظيفة النقل للخلية العصبية.

يمكن دمج الخلايا العصبية الرسمية الموصوفة أعلاه بطريقة تجعل إشارات الإخراج لبعض الخلايا العصبية هي مدخلات للآخرين. تسمى المجموعة الناتجة من الخلايا العصبية المترابطة بالشبكات العصبية الاصطناعية. الشبكات العصبية، ANN) أو باختصار، الشبكات العصبية.

هناك الأنواع الثلاثة العامة التالية من الخلايا العصبية، اعتمادًا على موقعها في الشبكة العصبية:

الخلايا العصبية المدخلة (عقد الإدخال) التي يتم توفير إشارات الإدخال لها. عادة ما يكون لهذه الخلايا العصبية مدخل واحد بوزن الوحدة، ولا يوجد تحيز، وقيمة إخراج الخلايا العصبية تساوي إشارة الإدخال؛

عقد الإخراج، التي تمثل قيم إخراجها إشارات الإخراج الناتجة للشبكة العصبية؛

الخلايا العصبية المخفية (العقد المخفية) التي ليس لها اتصالات مباشرة مع إشارات الإدخال، في حين أن قيم إشارات الإخراج للخلايا العصبية المخفية ليست إشارات الإخراج للشبكة العصبية الاصطناعية.

استنادًا إلى بنية الاتصالات العصبية الداخلية، يتم التمييز بين فئتين من الشبكات العصبية الاصطناعية:

الشبكات العصبية الاصطناعية المغذية، حيث تنتشر الإشارة فقط من الخلايا العصبية المدخلة إلى الخلايا العصبية الناتجة.

ANN المتكررة - ANN مع تعليق. في مثل هذه الشبكات العصبية الاصطناعية، يمكن نقل الإشارات بين أي خلايا عصبية، بغض النظر عن موقعها في الشبكة العصبية الاصطناعية.

هناك طريقتان عامتان لتدريب ANN:

التدريب مع المعلم.

التعلم بدون معلم .

يتضمن التعلم الخاضع للإشراف استخدام مجموعة من الأمثلة التدريبية التي تم إنشاؤها مسبقًا. يحتوي كل مثال على متجه لإشارات الإدخال ومتجه مناظر لإشارات الخرج المرجعية، والتي تعتمد على المهمة التي بين أيدينا. هذه المجموعةتسمى مجموعة التدريب أو مجموعة التدريب. يهدف تدريب الشبكة العصبية إلى تغيير أوزان اتصالات ANN بحيث تختلف قيم إشارات خرج ANN بأقل قدر ممكن عن القيم المطلوبة لإشارات الخرج لمتجه معين من إشارات الإدخال .

في التعلم غير الخاضع للرقابة، يتم ضبط أوزان الاتصال إما نتيجة للمنافسة بين الخلايا العصبية، أو مع الأخذ في الاعتبار ارتباط إشارات الخرج للخلايا العصبية التي يوجد اتصال بينها. في حالة التعلم غير الخاضع للرقابة، لا يتم استخدام أي مجموعة تدريب.

تُستخدم الشبكات العصبية لحل مجموعة واسعة من المشكلات، مثل تخطيط الحمولة النافعة للمكوكات الفضائية والتنبؤ بأسعار الصرف. ومع ذلك، لا يتم استخدامها غالبًا في أنظمة استخراج البيانات بسبب تعقيد النموذج (المعرفة المسجلة كأوزان لعدة مئات من الوصلات العصبية تتجاوز تمامًا التحليل والتفسير البشري) ووقت التدريب الطويل على مجموعة تدريب كبيرة. من ناحية أخرى، تتمتع الشبكات العصبية بمزايا لاستخدامها في مهام تحليل البيانات مثل مقاومة البيانات الصاخبة والدقة العالية.

2.3 أساليب الجيران الأقرب وأقرب الجيران

أساس خوارزمية أقرب جار (خوارزمية جار أقرب) وخوارزمية جار أقرب (KNN) هو تشابه الكائنات. تختار خوارزمية أقرب جار، من بين جميع الكائنات المعروفة، الكائن الأقرب قدر الإمكان (باستخدام مقياس المسافة بين الكائنات، على سبيل المثال، الإقليدية) إلى كائن جديد غير معروف سابقًا. المشكلة الرئيسية في طريقة الجار الأقرب هي حساسيتها للقيم المتطرفة في بيانات التدريب.

يمكن تجنب المشكلة الموصوفة من خلال خوارزمية KNN، التي تحدد من بين جميع الملاحظات أقرب جيران k المشابهين للكائن الجديد. بناءً على فئات أقرب الجيران، يتم اتخاذ القرار بشأن الكائن الجديد. إحدى المهام المهمة لهذه الخوارزمية هي تحديد المعامل k - عدد السجلات التي سيتم اعتبارها متشابهة. إن تعديل الخوارزمية التي تتناسب فيها مساهمة الجار مع المسافة إلى الكائن الجديد (طريقة أقرب جيران مرجحة k) يسمح للمرء بتحقيق دقة تصنيف أكبر. تتيح لك طريقة k الأقرب للجيران أيضًا تقييم دقة التوقعات. على سبيل المثال، إذا كان جميع الجيران الأقرب لـ k لديهم نفس الفئة، فإن احتمال أن يكون للكائن الذي يتم اختباره نفس الفئة مرتفع جدًا.

من بين ميزات الخوارزمية، تجدر الإشارة إلى مقاومتها للقيم المتطرفة الشاذة، نظرًا لأن احتمال إدراج مثل هذا السجل في عدد أقرب الجيران k منخفض. إذا حدث هذا، فمن المرجح أن يكون التأثير على التصويت (خاصة الموزون) (لـ k> 2) غير مهم، وبالتالي، سيكون التأثير على نتيجة التصنيف صغيرًا أيضًا. وتتمثل المزايا أيضًا في بساطة التنفيذ، وسهولة تفسير نتيجة الخوارزمية، والقدرة على تعديل الخوارزمية باستخدام الوظائف والمقاييس المجمعة الأكثر ملاءمة، مما يسمح لك بضبط الخوارزمية على مهمة محددة. تحتوي خوارزمية KNN أيضًا على عدد من العيوب. أولاً، يجب أن تكون مجموعة البيانات المستخدمة للخوارزمية ممثلة. ثانيًا، لا يمكن فصل النموذج عن البيانات: يجب استخدام جميع الأمثلة لتصنيف مثال جديد. هذه الميزة تحد بشكل كبير من استخدام الخوارزمية.

2.4 أشجار القرار

يشير مصطلح "أشجار القرار" إلى مجموعة من الخوارزميات القائمة على تمثيل قواعد التصنيف في هيكل هرمي متسلسل. هذه هي فئة الخوارزميات الأكثر شيوعًا لحل مشكلات استخراج البيانات.

تتيح مجموعة الخوارزميات الخاصة ببناء أشجار القرار إمكانية التنبؤ بقيمة المعلمة لحالة معينة بناءً على كمية كبيرة من البيانات حول حالات أخرى مماثلة. عادةً ما يتم استخدام خوارزميات هذه العائلة لحل المشكلات التي تجعل من الممكن تقسيم جميع البيانات الأولية إلى عدة مجموعات منفصلة.

عند تطبيق خوارزميات بناء شجرة القرار على مجموعة من البيانات الأولية، يتم عرض النتيجة كشجرة. تتيح مثل هذه الخوارزميات تنفيذ عدة مستويات من هذا التقسيم، وتقسيم المجموعات الناتجة (فروع الأشجار) إلى مجموعات أصغر بناءً على خصائص أخرى. يستمر التقسيم حتى تصبح القيم التي من المفترض التنبؤ بها هي نفسها (أو، في حالة القيمة المستمرة للمعلمة المتوقعة، قريبة) لجميع المجموعات الناتجة (أوراق الشجرة). يتم استخدام هذه القيم لإجراء تنبؤات بناءً على هذا النموذج.

يعتمد تشغيل الخوارزميات لبناء أشجار القرار على استخدام طرق تحليل الانحدار والارتباط. إحدى الخوارزميات الأكثر شيوعًا لهذه العائلة هي CART (أشجار التصنيف والانحدار)، والتي تعتمد على تقسيم البيانات في فرع الشجرة إلى فرعين فرعيين؛ علاوة على ذلك، فإن التقسيم الإضافي لفرع معين يعتمد على مقدار البيانات الأولية التي يصفها هذا الفرع. تسمح لك بعض الخوارزميات الأخرى المشابهة بتقسيم الفرع إلى المزيد من الفروع الفرعية. وفي هذه الحالة يتم إجراء القسمة على أساس أعلى معامل ارتباط للبيانات الموصوفة بواسطة الفرع بين المعلمة التي يحدث بموجبها القسمة والمعلمة التي يجب التنبؤ بها لاحقًا.

ترتبط شعبية هذا النهج بالوضوح والوضوح. لكن أشجار القرار غير قادرة بشكل أساسي على العثور على القواعد "الأفضل" (الأكثر اكتمالا ودقة) في البيانات. إنهم ينفذون المبدأ الساذج المتمثل في العرض المتسلسل للميزات ويجدون فعليًا أجزاء من الأنماط الحقيقية، مما يخلق فقط وهم الاستنتاج المنطقي.

2.5 خوارزميات التجميع

التجميع هو مهمة تقسيم مجموعة من الكائنات إلى مجموعات تسمى مجموعات. الفرق الرئيسي بين التجميع والتصنيف هو أن قائمة المجموعات غير محددة بوضوح ويتم تحديدها أثناء تشغيل الخوارزمية.

ويتلخص تطبيق التحليل العنقودي بشكل عام في الخطوات التالية:

· اختيار عينة من الكائنات للتجميع.

· تحديد مجموعة من المتغيرات التي سيتم من خلالها تقييم عناصر العينة. إذا لزم الأمر، تطبيع قيم المتغيرات.

· حساب قيم قياس التشابه بين الكائنات.

· تطبيق أسلوب التحليل العنقودي لإنشاء مجموعات من الكائنات المتشابهة (العناقيد).

· عرض نتائج التحليل.

بعد تلقي النتائج وتحليلها، من الممكن ضبط طريقة القياس والتجميع المختارة حتى يتم الحصول على النتيجة المثلى.

تتضمن خوارزميات التجميع مجموعات هرمية ومسطحة. الخوارزميات الهرمية (وتسمى أيضًا خوارزميات التصنيف) لا تبني قسمًا واحدًا فقط من العينة إلى مجموعات منفصلة، ​​بل نظامًا من الأقسام المتداخلة. وبالتالي، فإن إخراج الخوارزمية عبارة عن شجرة من المجموعات، جذرها هو العينة بأكملها، والأوراق هي أصغر المجموعات. تقوم الخوارزميات المسطحة ببناء قسم واحد من الكائنات في مجموعات لا تتقاطع مع بعضها البعض.

تصنيف آخر لخوارزميات التجميع هو خوارزميات واضحة وغامضة. تقوم الخوارزميات الواضحة (أو غير المتداخلة) بتعيين رقم مجموعة لكل كائن عينة، أي أن كل كائن ينتمي إلى مجموعة واحدة فقط. تقوم الخوارزميات الغامضة (أو المتقاطعة) بتعيين كل كائن مجموعة من القيم الحقيقية التي توضح درجة علاقة الكائن بالمجموعات. وبالتالي، فإن كل كائن ينتمي إلى كل مجموعة مع احتمال معين.

من بين خوارزميات التجميع الهرمية، هناك نوعان رئيسيان: خوارزميات من أسفل إلى أعلى ومن أعلى إلى أسفل. تعمل الخوارزميات من أعلى إلى أسفل على مبدأ من أعلى إلى أسفل: أولاً، يتم وضع جميع الكائنات في مجموعة واحدة، والتي يتم بعد ذلك تقسيمها إلى مجموعات أصغر وأصغر. الأكثر شيوعًا هي الخوارزميات من أسفل إلى أعلى، والتي تبدأ بوضع كل كائن في مجموعة منفصلة ثم دمج المجموعات في مجموعات أكبر وأكبر حتى يتم احتواء جميع الكائنات الموجودة في العينة في مجموعة واحدة. وهكذا، يتم إنشاء نظام من الأقسام المتداخلة. عادةً ما يتم عرض نتائج هذه الخوارزميات على شكل شجرة.

من عيوب الخوارزميات الهرمية هو نظام الأقسام الكاملة، والذي قد يكون غير ضروري في سياق المشكلة التي يتم حلها.

دعونا الآن نفكر في الخوارزميات المسطحة. أبسط هذه الفئة هي خوارزميات الخطأ التربيعية. يمكن اعتبار مشكلة التجميع لهذه الخوارزميات بمثابة إنشاء قسم مثالي للكائنات إلى مجموعات. في هذه الحالة، يمكن تعريف الأمثلية على أنها شرط تقليل جذر متوسط ​​مربع خطأ التقسيم:

,

أين جي - "مركز الكتلة" للكتلة ي(نقطة ذات خصائص متوسطة لمجموعة معينة).

الخوارزمية الأكثر شيوعًا في هذه الفئة هي طريقة k-means. تقوم هذه الخوارزمية ببناء عدد معين من المجموعات المتباعدة قدر الإمكان. ينقسم عمل الخوارزمية إلى عدة مراحل:

اختر عشوائيا كالنقاط التي تمثل "مراكز الكتلة" الأولية للمجموعات.

2. قم بتعيين كل كائن إلى المجموعة ذات "مركز الكتلة" الأقرب.

إذا لم يتم استيفاء معيار إيقاف الخوارزمية، فارجع إلى الخطوة 2.

عادةً ما يتم اختيار الحد الأدنى للتغيير في متوسط ​​مربع الخطأ كمعيار لإيقاف الخوارزمية. من الممكن أيضًا إيقاف الخوارزمية إذا لم تكن هناك كائنات تنتقل من مجموعة إلى أخرى في الخطوة 2. تشمل عيوب هذه الخوارزمية الحاجة إلى تحديد عدد المجموعات للتقسيم.

خوارزمية التجميع الغامضة الأكثر شيوعًا هي خوارزمية c-means. إنه تعديل لطريقة k-means. خطوات الخوارزمية:

1. حدد القسم الغامض الأولي نالكائنات على كالمجموعات عن طريق اختيار مصفوفة العضوية شمقاس ن س ك.

2. باستخدام المصفوفة U، أوجد قيمة معيار الخطأ الغامض:

,

أين جك - "مركز الكتلة" للكتلة الغامضة ك:

3. أعد تجميع الكائنات لتقليل قيمة معيار الخطأ الغامض.

4. ارجع إلى الخطوة 2 حتى تتغير المصفوفة شلن تصبح ضئيلة.

قد لا تكون هذه الخوارزمية مناسبة إذا كان عدد المجموعات غير معروف مسبقًا، أو إذا كان من الضروري تعيين كل كائن بشكل لا لبس فيه لمجموعة واحدة.

المجموعة التالية من الخوارزميات هي خوارزميات تعتمد على نظرية الرسم البياني. جوهر هذه الخوارزميات هو أن يتم تمثيل مجموعة مختارة من الكائنات في شكل رسم بياني ز=(الخامس، ه)، التي تتوافق رؤوسها مع الأشياء، والتي يكون لحوافها وزن يساوي "المسافة" بين الأشياء. تتمثل مزايا خوارزميات تجميع الرسوم البيانية في الوضوح والسهولة النسبية في التنفيذ والقدرة على إدخال تحسينات متنوعة بناءً على الاعتبارات الهندسية. الخوارزميات الرئيسية هي خوارزمية تحديد المكونات المتصلة، وخوارزمية إنشاء الحد الأدنى من الشجرة الممتدة، وخوارزمية التجميع طبقة تلو الأخرى.

لتحديد المعلمة رعادة ما يتم إنشاء رسم بياني لتوزيعات المسافات الزوجية. في المهام التي تحتوي على بنية عنقودية محددة جيدًا للبيانات، سيكون للرسم البياني ذروتان - إحداهما تتوافق مع المسافات داخل المجموعة، والثانية - المسافات بين المجموعات. معامل ريتم اختياره من المنطقة الدنيا بين هذه القمم. وفي الوقت نفسه، من الصعب جدًا التحكم في عدد المجموعات باستخدام عتبة المسافة.

تقوم خوارزمية الحد الأدنى من الشجرة الممتدة أولاً بإنشاء الحد الأدنى من الشجرة الممتدة على الرسم البياني ثم تقوم بإزالة الحواف ذات الوزن الأكبر بالتتابع. تعتمد خوارزمية التجميع طبقة تلو الأخرى على تحديد مكونات الرسم البياني المتصلة عند مستوى معين من المسافات بين الكائنات (القمم). يتم تحديد مستوى المسافة بواسطة عتبة المسافة ج. على سبيل المثال، إذا كانت المسافة بين الكائنات هي .

تقوم خوارزمية التجميع طبقة تلو الأخرى بإنشاء سلسلة من الرسوم البيانية الفرعية للرسم البياني ز، والتي تعكس العلاقات الهرمية بين المجموعات:

,

أين زر = (V، Eر ) - الرسم البياني المستوى معر، ,

مع t - عتبة المسافة t، m - عدد مستويات التسلسل الهرمي،
ز 0 = (الخامس، س)، o هي المجموعة الفارغة من حواف الرسم البياني التي تم الحصول عليها ر 0 = 1,
زم = ج، أي رسم بياني للكائنات دون قيود على المسافة (طول حواف الرسم البياني)، منذ ذلك الحين رم = 1.

عن طريق تغيير عتبات المسافة ( مع 0 ، …، معم)، حيث 0 = مع 0 < مع 1 < …< معم = 1، فمن الممكن التحكم في عمق التسلسل الهرمي للمجموعات الناتجة. وبالتالي، فإن خوارزمية التجميع طبقة تلو الأخرى قادرة على إنشاء قسم مسطح وهرمي للبيانات.

يتيح لك التجميع تحقيق الأهداف التالية:

· يحسن فهم البيانات من خلال تحديد المجموعات الهيكلية. إن تقسيم العينة إلى مجموعات من الأشياء المتشابهة يجعل من الممكن تبسيط معالجة البيانات واتخاذ القرار بشكل أكبر من خلال تطبيق طريقة تحليل مختلفة على كل مجموعة؛

· يسمح لك بتخزين البيانات بشكل مضغوط. للقيام بذلك، بدلاً من تخزين العينة بأكملها، يمكنك الاحتفاظ بملاحظة نموذجية واحدة من كل مجموعة؛

· الكشف عن الأجسام غير النمطية الجديدة التي لم تندرج ضمن أي مجموعة.

عادة، يتم استخدام التجميع كوسيلة مساعدة في تحليل البيانات.

2.6 الخوارزميات الجينية

تعد الخوارزميات الجينية من بين طرق التحسين العالمية التي تسمح بحل المشكلات بمختلف أنواعها (المشكلات التوافقية والعامة مع أو بدون قيود) وبدرجات متفاوتة من التعقيد. وفي الوقت نفسه، تتميز الخوارزميات الجينية بإمكانية البحث بمعايير فردية ومتعددة المعايير في مساحة كبيرة، حيث لا يكون مشهدها سلسًا.

تستخدم هذه المجموعة من الأساليب عملية تكرارية لتطور سلسلة من أجيال النماذج، بما في ذلك عمليات الاختيار والطفرة والتهجين. في بداية الخوارزمية، يتم تشكيل السكان بشكل عشوائي. لتقييم جودة الحلول المشفرة، يتم استخدام دالة اللياقة البدنية، وهي ضرورية لحساب اللياقة البدنية لكل فرد. وبناء على نتائج تقييم الأفراد يتم اختيار الأكثر ملائمة منهم للعبور. نتيجة تهجين أفراد مختارين من خلال تطبيق عامل التقاطع الجيني، يتم إنشاء ذرية، تتشكل المعلومات الوراثية الخاصة بها نتيجة لتبادل المعلومات الكروموسومية بين الأفراد الأصليين. يشكل المتحدرون الذين تم إنشاؤهم مجموعة سكانية جديدة، ويتحور بعض المتحدرين، وهو ما يتم التعبير عنه في تغيير عشوائي في أنماطهم الجينية. المرحلة، بما في ذلك تسلسل "التقييم السكاني" - "الاختيار" - "العبور" - "الطفرة"، تسمى "الجيل". يتكون تطور السكان من سلسلة من هذه الأجيال.

تتميز الخوارزميات التالية لاختيار الأفراد للعبور:

· بانميكسيا. يتم اختيار كلا الأفراد الذين سيشكلون زوجًا من الوالدين بشكل عشوائي من جميع السكان. يمكن لأي فرد أن يصبح عضوا في عدة أزواج. هذا النهج عالمي، لكن كفاءة الخوارزمية تتناقص مع زيادة حجم السكان.

· الاختيار. يمكن للوالدين أن يكونوا أفرادًا يتمتعون بلياقة بدنية متوسطة على الأقل. يضمن هذا النهج تقاربًا أسرع للخوارزمية.

· زواج الأقارب. تعتمد الطريقة على تكوين زوج على أساس القرابة الوثيقة. هنا، يُفهم الارتباط على أنه المسافة بين أفراد المجتمع، سواء بمعنى المسافة الهندسية للأفراد في مساحة المعلمة أو مسافة هيمنج بين الأنماط الجينية. ولذلك، يتم التمييز بين زواج الأقارب الوراثي والمظهري. يتم اختيار العضو الأول من الزوج الذي سيتم تهجينه بشكل عشوائي، ومن المرجح أن يكون الثاني هو الفرد الأقرب إليه. يمكن أن يتميز زواج الأقارب بخاصية تركيز البحث في العقد المحلية، الأمر الذي يؤدي في الواقع إلى تقسيم السكان إلى مجموعات محلية منفصلة حول مناطق المناظر الطبيعية المشبوهة للتطرف.

· التكاثر. تكوين زوج على أساس القرابة البعيدة للأفراد الأكثر بعدا. يهدف التهجين إلى منع الخوارزمية من التقارب مع الحلول التي تم العثور عليها بالفعل، مما يجبر الخوارزمية على النظر إلى مناطق جديدة غير مستكشفة.

خوارزميات تشكيل مجتمع جديد:

· الاختيار مع النزوح. من بين جميع الأفراد الذين لديهم نفس الأنماط الجينية، تعطى الأفضلية لأولئك الذين لديهم لياقة أعلى. وبالتالي، يتم تحقيق هدفين: عدم فقدان أفضل الحلول التي تم العثور عليها، والتي تحتوي على مجموعات كروموسوم مختلفة، والحفاظ باستمرار على التنوع الجيني الكافي بين السكان. يشكل النزوح مجموعة سكانية جديدة من الأفراد الموجودين في أماكن بعيدة، بدلاً من تجمع الأفراد حول الحل الحالي الموجود. يتم استخدام هذه الطريقة للمشاكل متعددة الأطراف.

· اختيار النخبة. تضمن أساليب اختيار النخبة أن الاختيار سيضمن بقاء أفضل أفراد السكان على قيد الحياة. وفي الوقت نفسه، ينتقل بعض أفضل الأفراد إلى الجيل التالي دون أي تغييرات. يمكن تعويض التقارب السريع الذي يوفره اختيار النخبة بطريقة مناسبة لاختيار أزواج الوالدين. في هذه الحالة، غالبا ما يتم استخدام التهجين. يعد هذا المزيج من "التهجين - اختيار النخبة" واحدًا من أكثر التركيبات فعالية.

· اختيار البطولة. يقوم اختيار البطولة بتنفيذ دورات n لاختيار n من الأفراد. تعتمد كل بطولة على اختيار عناصر k من السكان واختيار أفضل فرد بينهم. الأكثر شيوعًا هو اختيار البطولة مع k = 2.

أحد أشهر تطبيقات الخوارزميات الجينية في مجال التنقيب عن البيانات هو البحث عن النموذج الأمثل (البحث عن خوارزمية تتوافق مع تفاصيل مجال معين). تُستخدم الخوارزميات الجينية في المقام الأول لتحسين طوبولوجيا الشبكات العصبية والأوزان. ومع ذلك، يمكن أيضًا استخدامها كأداة مستقلة.

3. التطبيقات

تتمتع تقنية استخراج البيانات بمجموعة واسعة حقًا من التطبيقات، وهي في الواقع مجموعة من الأدوات العالمية لتحليل البيانات من أي نوع.

تسويق

كان مجال التسويق من أولى المجالات التي تم فيها تطبيق تقنيات استخراج البيانات. المهمة التي بدأ بها تطوير أساليب استخراج البيانات تسمى تحليل سلة التسوق.

تتمثل هذه المهمة في تحديد المنتجات التي يميل المشترون إلى شرائها معًا. تعد معرفة سلة التسوق ضرورية لإجراء الحملات الإعلانية، وتكوين توصيات شخصية للعملاء، وتطوير استراتيجية لإنشاء مخزون من السلع وطرق وضعها في مناطق المبيعات.

أيضًا في التسويق، يتم حل مهام مثل تحديد الجمهور المستهدف للمنتج من أجل ترويج أكثر نجاحًا؛ أبحاث النمط الزمني التي تساعد الشركات على اتخاذ قرارات المخزون؛ إنشاء نماذج تنبؤية تسمح للمؤسسات بالتعرف على طبيعة احتياجات فئات مختلفة من العملاء ذوي سلوك معين؛ التنبؤ ولاء العملاء، والذي يسمح لك بتحديد لحظة مغادرة العميل مسبقًا عند تحليل سلوكه وربما منع فقدان عميل قيم.

صناعة

ومن المجالات المهمة في هذا المجال هي المراقبة ومراقبة الجودة، حيث يمكن باستخدام أدوات التحليل التنبؤ بفشل المعدات، وحدوث الأعطال، والتخطيط لأعمال الإصلاح. يساعد التنبؤ بشعبية بعض الميزات ومعرفة الميزات التي يتم ترتيبها معًا عادةً على تحسين الإنتاج وتركيزه على الاحتياجات الحقيقية للمستهلكين.

الدواء

في الطب، يتم أيضًا استخدام تحليل البيانات بنجاح كبير. تشمل أمثلة المهام تحليل نتائج الفحص والتشخيص ومقارنة فعالية طرق العلاج والأدوية وتحليل الأمراض وانتشارها وتحديد الآثار الجانبية. تم استخدام تقنيات استخراج البيانات مثل قواعد الارتباط والأنماط التسلسلية بنجاح لتحديد الروابط بين الأدوية والآثار الجانبية.

الوراثة الجزيئية والهندسة الوراثية

ربما تكون المهمة الأكثر حدة ووضوحًا في نفس الوقت هي اكتشاف الأنماط في البيانات التجريبية علم الوراثة الجزيئيةوالهندسة الوراثية. تمت صياغته هنا كتعريف للعلامات، والتي تُفهم على أنها رموز وراثية تتحكم في بعض الخصائص المظهرية للكائن الحي. يمكن أن تحتوي هذه الرموز على مئات أو آلاف أو أكثر من العناصر ذات الصلة. ونتيجة تحليل البيانات التحليلية هي أيضًا العلاقة التي اكتشفها علماء الوراثة بين التغيرات في تسلسل الحمض النووي البشري وخطر الإصابة بأمراض مختلفة.

الكيمياء التطبيقية

تُستخدم طرق استخراج البيانات أيضًا في مجال الكيمياء التطبيقية. وهنا يطرح غالبا السؤال حول توضيح خصائص التركيب الكيميائي لمركبات معينة والتي تحدد خواصها. هذه المهمة ذات أهمية خاصة عند تحليل المركبات الكيميائية المعقدة، والتي يتضمن وصفها مئات وآلاف العناصر الهيكلية وارتباطاتها.

مكافحة الجريمة

لقد تم استخدام أدوات التنقيب عن البيانات في الآونة الأخيرة نسبياً في مجال الأمن، ولكن تم بالفعل الحصول على نتائج عملية تؤكد فعالية التنقيب عن البيانات في هذا المجال. طور علماء سويسريون نظامًا لتحليل النشاط الاحتجاجي من أجل التنبؤ بالحوادث المستقبلية ونظامًا لتتبع التهديدات السيبرانية الناشئة وأعمال القراصنة في العالم. يتيح لك أحدث نظام التنبؤ بالتهديدات السيبرانية والمخاطر الأخرى أمن المعلومات. يتم أيضًا استخدام أساليب استخراج البيانات بنجاح للكشف عن الاحتيال في بطاقات الائتمان. ومن خلال تحليل المعاملات السابقة التي تبين فيما بعد أنها احتيالية، يحدد البنك بعض أنماط هذا الاحتيال.

تطبيقات أخرى

· تحليل المخاطر. على سبيل المثال، من خلال تحديد مجموعات من العوامل المرتبطة بالمطالبات المدفوعة، يمكن لشركات التأمين تقليل خسائر التزاماتها. هناك حالة معروفة اكتشفت فيها شركة تأمين كبيرة في الولايات المتحدة أن المبالغ المدفوعة على مطالبات المتزوجين كانت ضعف المبالغ المدفوعة على مطالبات العزاب. استجابت الشركة لهذه المعرفة الجديدة من خلال مراجعة سياستها العامة المتمثلة في تقديم خصومات للعملاء العائليين.

· علم الارصاد الجوية. التنبؤ بالطقس باستخدام أساليب الشبكة العصبية، على وجه الخصوص، يتم استخدام خرائط كوهونن ذاتية التنظيم.

· سياسة شؤون الموظفين. تساعد أدوات التحليل خدمات الموارد البشرية على اختيار المرشحين الأكثر نجاحًا بناءً على تحليل بيانات سيرتهم الذاتية، ووضع نموذج لخصائص الموظفين المثاليين لمنصب معين.

4. الشركات المصنعة لأدوات التنقيب عن البيانات

أدوات التنقيب عن البيانات هي منتجات برمجية باهظة الثمن تقليديًا. ولذلك، حتى وقت قريب، كان المستهلكون الرئيسيون لهذه التكنولوجيا هم البنوك وشركات التمويل والتأمين والمؤسسات التجارية الكبيرة، وكانت المهام الرئيسية التي تتطلب استخدام التنقيب في البيانات تعتبر تقييم مخاطر الائتمان والتأمين وتطوير السياسات التسويقية. وخطط التعريفة ومبادئ العمل الأخرى مع العملاء. في السنوات الأخيرة، شهد الوضع بعض التغييرات: ظهرت أدوات استخراج البيانات غير المكلفة نسبيًا وحتى الأنظمة الموزعة مجانًا في سوق البرمجيات، مما جعل هذه التكنولوجيا في متناول الشركات الصغيرة والمتوسطة الحجم.

ومن بين الأدوات المدفوعة وأنظمة تحليل البيانات، فإن القادة هم SAS Institute (SAS Enterprise Miner)، وSPSS (SPSS، Clementine) وStatSoft (STATISTICA Data Miner). الحلول المعروفة هي من Angoss (Angoss KnowledgeSTUDIO)، وIBM (IBM SPSS Modeler)، وMicrosoft (Microsoft Analysis Services)، و(Oracle) Oracle Data Mining.

يتنوع أيضًا اختيار البرامج المجانية. هناك أدوات تحليل عالمية، مثل JHepWork، وKNIME، وOrange، وRapidMiner، وأدوات متخصصة، على سبيل المثال، Carrot2 - إطار لتجميع البيانات النصية ونتائج استعلام البحث، Chemicalize.org - حل في مجال الكيمياء التطبيقية، NLTK (مجموعة أدوات اللغة الطبيعية) أداة معالجة اللغة الطبيعية.

5. نقد الأساليب

تعتمد نتائج التنقيب عن البيانات إلى حد كبير على مستوى إعداد البيانات، وليس على “الإمكانيات الرائعة” لبعض الخوارزميات أو مجموعة من الخوارزميات. يتكون حوالي 75% من العمل في مجال التنقيب عن البيانات من جمع البيانات، والذي يحدث قبل تطبيق أدوات التحليل. الاستخدام الأمي للأدوات سيؤدي إلى هدر إمكانيات الشركة، وأحياناً ملايين الدولارات.

رأي هيرب إدلشتاين، الخبير العالمي المشهور في مجال استخراج البيانات وتخزين البيانات وإدارة علاقات العملاء: “أظهرت دراسة حديثة أجرتها شركة Two Crows أن تعدين البيانات لا يزال في مراحله الأولى من التطوير. تهتم العديد من المنظمات بهذه التكنولوجيا، ولكن القليل منها فقط هو الذي ينفذ مثل هذه المشاريع بنشاط. تمكنت من معرفة واحد آخر نقطة مهمة: تبين أن عملية تنفيذ التنقيب عن البيانات في الممارسة العملية أكثر تعقيدًا مما كان متوقعًا، حيث تنجرف الفرق وراء الأسطورة القائلة بأن أدوات التنقيب عن البيانات سهلة الاستخدام. من المفترض أنه يكفي تشغيل مثل هذه الأداة على قاعدة بيانات تيرابايت، وسوف تظهر المعلومات المفيدة على الفور. في الواقع، يتطلب مشروع التنقيب في البيانات الناجح فهمًا للنشاط ومعرفة البيانات والأدوات وعملية تحليل البيانات. وبالتالي، قبل استخدام تكنولوجيا استخراج البيانات، من الضروري إجراء تحليل دقيق للقيود التي تفرضها الأساليب والقضايا الحاسمة المرتبطة بها، وكذلك تقييم قدرات التكنولوجيا برصانة. تشمل القضايا الحرجة ما يلي:

1. لا يمكن للتكنولوجيا تقديم إجابات لأسئلة لم يتم طرحها. فهو لا يمكن أن يحل محل المحلل، بل يمنحه أداة قوية لتسهيل عمله وتحسينه.

2. مدى تعقيد تطوير وتشغيل تطبيق التنقيب عن البيانات.

بسبب ال هذه التكنولوجياهو مجال متعدد التخصصات، لتطوير تطبيق يتضمن التنقيب في البيانات، من الضروري إشراك متخصصين من مختلف المجالات، وكذلك ضمان تفاعلهم عالي الجودة.

3. مؤهلات المستخدم.

تتميز أدوات استخراج البيانات المختلفة بدرجات متفاوتة من سهولة استخدام الواجهة وتتطلب مؤهلات مستخدم معينة. لهذا برمجةيجب أن تتوافق مع مستوى التدريب للمستخدم. يجب أن يرتبط استخدام استخراج البيانات ارتباطًا وثيقًا بتحسين مؤهلات المستخدم. ومع ذلك، يوجد حاليًا عدد قليل من المتخصصين في مجال استخراج البيانات الذين لديهم خبرة جيدة في العمليات التجارية.

4. إن استخراج المعلومات المفيدة أمر مستحيل دون الفهم الجيد لجوهر البيانات.

مطلوب الاختيار الدقيق للنموذج وتفسير التبعيات أو الأنماط التي تم اكتشافها. لذلك، يتطلب العمل باستخدام مثل هذه الأدوات تعاونًا وثيقًا بين خبير المجال ومتخصص في أدوات استخراج البيانات. يجب دمج النماذج المستمرة بذكاء في العمليات التجارية للسماح بتقييم النماذج وتحديثها. في الآونة الأخيرة، يتم توفير أنظمة استخراج البيانات كجزء من تكنولوجيا تخزين البيانات.

5. صعوبة إعداد البيانات.

يتطلب التحليل الناجح معالجة مسبقة عالية الجودة للبيانات. وفقًا للمحللين ومستخدمي قواعد البيانات، يمكن أن تستغرق عملية المعالجة المسبقة ما يصل إلى 80% من عملية التنقيب عن البيانات بأكملها.

وبالتالي، لكي تعمل التكنولوجيا بنفسها، فإنها تتطلب الكثير من الجهد والوقت، والذي يذهب إلى التحليل الأولي للبيانات واختيار النموذج وتعديله.

6. نسبة كبيرة من النتائج الكاذبة أو غير الموثوقة أو عديمة الفائدة.

باستخدام تقنيات استخراج البيانات، يمكنك العثور على معلومات قيمة للغاية، والتي يمكن أن توفر ميزة كبيرة في مزيد من التخطيط والإدارة وصنع القرار. ومع ذلك، فإن النتائج التي تم الحصول عليها باستخدام أساليب استخراج البيانات غالبا ما تحتوي على استنتاجات خاطئة ولا معنى لها. يرى العديد من الخبراء أن أدوات التنقيب في البيانات يمكن أن تنتج عددًا كبيرًا من النتائج غير الموثوقة إحصائيًا. ولتقليل النسبة المئوية لهذه النتائج، من الضروري التحقق من مدى كفاية النماذج التي تم الحصول عليها على بيانات الاختبار. ومع ذلك، فمن المستحيل تجنب الاستنتاجات الخاطئة تماما.

7. التكلفة العالية.

نوعي برمجةهو نتيجة لجهد كبير من جانب المطور. لذلك، يعد برنامج Data Mining تقليديًا منتجًا برمجيًا باهظ الثمن.

8. توافر البيانات التمثيلية الكافية.

أدوات استخراج البيانات، على عكس الأدوات الإحصائية، لا تتطلب من الناحية النظرية كمية محددة بدقة من البيانات التاريخية. يمكن أن تتسبب هذه الميزة في اكتشاف نماذج زائفة وغير موثوقة، ونتيجة لذلك، اتخاذ قرارات غير صحيحة بناءً عليها. من الضروري مراقبة الأهمية الإحصائية للمعرفة المكتشفة.

خوارزمية الشبكة العصبية تجميع البيانات

خاتمة

دانا وصف موجز لمجالات التطبيق ويقدم انتقادات لتقنية Data Mining ورأي الخبراء في هذا المجال.

قائمةالأدب

1. هان وميشلين كامبر. استخراج البيانات: المفاهيم والتقنيات. الطبعة الثانية. - جامعة إلينوي في أوربانا شامبين

بيري، مايكل ج. أ. تقنيات التنقيب عن البيانات: للتسويق والمبيعات وإدارة علاقات العملاء – الطبعة الثانية.

سيو نين لام. اكتشاف قواعد الارتباط في استخراج البيانات. - قسم علوم الحاسب الآلي جامعة إلينوي في أوربانا شامبين




قمة