آموزش های داده کاوی طیف متنوعی از محتوا را در بر دارند. یک دوره موفق آموزش داده کاوی بایستی تنوع خوبی از مهم ترین ابزارها و رویکردهای مطرح در داده کاوی را به مخاطب منتقل نماید. به صورت کلی می توان مطالب آموزشی مربوط به داده کاوی را در ۳ گروه موضوعات آموزش مرتبط با جنبه های کسب و کار در داده کاوی، مسائل آموزشی مرتبط با جنبههای فنی داده کاوی و آموزش متدولوژی داده کاوی، تقسیم بندی نمود.
بر این اساس سرفصل ها و رئوس مطالب مهم مورد نظر در آموزش داده کاوی به صورت زیر می باشد:
آموزش مرتبط با جنبه های کسب و کار در داده کاوی
در ارتباط با جنبه کسب و کار به موضوعاتی از قبیل موارد زیر پرداخته می شود:
- شناسایی نیازهای اساسی کسب و کار
- اولویت بندی نیازهای شناسایی شده در کسب و کار مورد مطالعه
- تحلیل توانمندی داده کاوی برای پاسخ به نیاز های دارای اولویت ( در این محور مشخص می شود که آیا داده کاوی میتواند به نیاز مورد نظر پاسخ بدهد یا اینکه نیاز شناسایی شده خارج از حیطه و دامنه علم داده کاوی می باشد)
- شناسایی و استخراج شاخص های کلیدی کسب و کار
- تبدیل اهداف و نیازهای کسب و کار به مسائل داده کاوی
- شناسایی شاخص های داده کاوی مرتبط
- برنامه ریزی برای پیشبرد فعالیت ها و پروژه داده کاوی
- چگونگی مدیریت یک پروژه داده کاوی به صورت اثربخش و کارا
آموزش مرتبط با جنبه های فنی در داده کاوی
در ارتباط با جنبه های فنی آموزش های داده کاوی محورهای زیر مورد توجه می باشند:
مقدمه ای بر داده کاوی
- داده کاوی چیست؟
- فناوری های مرتبط: یادگیری ماشین ، DBMS ، OLAP ، آمار
- اهداف داده کاوی
- مراحل فرآیند داده کاوی
- تکنیک های داده کاوی
- روشهای نمایش دانش
- کاربردهای داده کاوی در حوزه های مختلف
انبار داده و OLAP
- انبار داده و DBMS
- مدل داده های چند بعدی
- عملیات OLAP
پیش پردازش داده ها
- تمیز کردن داده ها
- تبدیل داده ها
- کاهش داده ها
- نصب نرم افزار و ابزار داده کاوی
- شروع کار با ابزار داده کاوی به منظور پیش پردازش و آماده سازی داده ها
نمایش و ارائه دانش حاصل از داده کاوی
- شناسایی داده های مرتبط
- دانش زمینه ای
- معیارها و شاخص های مورد توجه
- نمایش داده های ورودی و دانش خروجی حاصل از عملیات داده کاوی
- تکنیک های تصویرسازی (مصورسازی داده ها)
- تصویرسازی به کمک ابزار و نرم افزار داده کاوی
تجزیه و تحلیل ویژگی ها
- تعمیم ویژگی
- میزان مرتبط بودن ویژگی ها
- مقایسه کلاس ها
- شاخص های آماری
- استفاده از فیلترها و آماره ها در ابزار داده کاوی
الگوریتم های داده کاوی: کشف قواعد باهم آیی (Association rules)
- مفاهیم و اصطلاحات مربوط به قواعد
- ایده اصلی: مجموعه های آیتمی
- تولید مجموعه های آیتمی استخراج قواعد به صورت اثربخش
- شاخص های مربوط به قواعد مانند درجه اطمینان پشتیبانی و لیفت
- تجزیه و تحلیل همبستگی
- کار با نرم افزار داده کاوی به منظور استخراج قواعد باهم آیی
الگوریتم های داده کاوی: کلاس بندی
- مفاهیم پایه مربوط به کلاس بندی
- آنتروپی در کلاس بندی
- شاخص بهره اطلاعاتی در کلاس بندی
- استخراج قواعد در کلاس بندی
- درخت های تصمیم
- کار با ابزار داده کاوی به منظور به دست آوردن درخت های تصمیم و استخراج قواعد مرتبط
الگوریتم های داده کاوی: پیش بینی
- تشریح پیش بینی به به عنوان یکی از از وظایف پایه داده کاوی
- طبقه بندی آماری (بیزین)
- شبکه های بیزی
- روشهای مبتنی بر نمونه (نزدیکترین همسایگی)
- مدل های خطی
- کار با ابزارها و نرم افزارهای داده کاوی به منظور پیشبینی بر روی دیتاست
ارزیابی یافته ها و الگوهای حاصله
- چالش های اساسی
- تفکیک آموزش و تست بر روی داده ها
- برآورد دقت مدل های کلاس بندی
- ترکیب چندین مدل
- پارتیشن بندی داده ها در ابزارهای داده کاوی به دو گروه داده های آموزشی و داده های تست
مطالعه موردی و داده کاوی بر روی داده های واقعی
- پیش پردازش داده ها از یک حوزه واقعی
- استفاده از تکنیک های مختلف داده کاوی برای ایجاد یک مدل جامع و دقیق تحلیلی
خوشه بندی
- مفاهیم اساسی در خوشه بندی
- معیارهای شباهت و نزدیکی در خوشه بندی
- الگوریتم های خوشه بندی مانند k-means
- روش های سلسله مراتبی در خوشه بندی
- خوشه بندی مفهومی
- کار با ابزارهای داده کاوی به منظور خوشه بندی
تکنیک های پیشرفته
- متن کاوی: استخراج ویژگی ها (کلمات کلیدی)، رویکردهای ساخت یافته
- رویکرد بیزین برای طبقه بندی متن
- وب کاوی: کلاس بندی صفحات وب ، استخراج دانش از وب
- نرم افزار و برنامه های داده کاوی برای متن کاوی و وب کاوی
آموزش مرتبط با متدولوژی داده کاوی
در ارتباط با متدولوژی داده کاوی محورهای زیر مورد توجه می باشند:
- چرایی و ضرورت کاربرد داده کاوی
- الگوریتم ها و متدولوژی های اجرای پروژه های داده کاوی- خصوصا الگوریتم CRISP-DM که یکی از رویکردهای کاربردی و مفید در سیستماتیک نمودن روند اجرای پروژه های تحلیل داده و داده کاوی می باشد که در ادامه مراحل این الگوریتم بیان می شود:
- درک و فهم مساله کسب و کار (business understanding)
- درک داده (data understanding)
- آماده سازی و پیش پردازش داده ها (data preparation)
- مدل سازی (modeling)
- ارزیابی (evaluation)
- اجرا و به کارگیری نتایج (deployment)