روش های داده کاوی

ش

داده کاوی چیست؟

در داده کاوی به دنبال کشف الگوها از بانک‌های اطلاعاتی بزرگ هستیم. در نتیجه انجام این فرایند الگوهای مفید  از داده ها استخراج شده که می تواند مبنای مستحکمی را برای تصمیم گیری بر اساس داده ها و اتخاذ تدابیر سیاست‌های اثربخش فراهم نماید. همچنین در طی فرایند داده کاوی معمولاً اطلاعات جدیدی نیز کشف شده و منجر به غنی سازی مخازن دانشی سازمان می گردد. روش های اصلی داده کاوی شامل کشف و ردیابی الگوها، کلاس بندی همان دسته بندی، وابستگی یا همان باهم آیی، آشکارسازی داده های پرت و نویزی، خوشه بندی، رگرسیون و پیش بینی می باشند. معمولاً در هنگامی که تغییرات ناگهانی در داده‌های در دست رخ دهد، شناسایی و کشف الگوها سهل و آسان می باشد. جمع آوری و طبقه بندی داده ها در بخش ها و گروه های مختلف به گونه ای انجام می شود که داده ها می تواند بر پایه تقسیم بندی های صورت گرفته مورد واکاوی و تجزیه و تحلیل قرار گیرند. بر این اساس گروه های تشکیل شده ناشی از خوشه بندی  بر پایه شباهت‌های بین داده ها به وجود آمده و آشکار می شوند. داده کاوی فرایند استخراج اطلاعات و دانش مفید از حجم عظیمی از دیتاها یا همان کلان داده یا بیگ دیتا می باشد. شکاف و فاصله بین داده و اطلاعات به وسیله به‌کارگیری ابزارهای مختلف داده کاوی پر شده و تحلیلگر رفته رفته با به کارگیری مجموعه از تکنیک ها و الگوریتم ها و روش های متنوع به اطلاعات نزدیک میشود. این فرایند معمولاً کشف دانش نیز نامیده می شود. این رویه می‌تواند بر روی انواع مختلف بانک های اطلاعاتی و مخازن اطلاعات نظیر بانک های اطلاعاتی رابطه ای، انباره های داده، بانک های اطلاعاتی مبتنی بر تراکنش و جریان های داده یا همان دیتا استریم شکل گیرد. 

۱

مروری بر روش های داده کاوی

روش های داده کاوی متنوعی مورد استفاده قرار می‌گیرند. اما باید توجه نمود که گام اصلی در ابتدای فرایند داده کاوی انتخاب روش مناسب با نوع مسئله و داده ها و فضای کسب و کار مورد نظر می باشد. در صورت انتخاب روش مناسب عمر پیش بینی آینده و اتخاذ تصمیمات با اثربخشی بالاتری انجام می گیرد که این موضوع معمولا منجر به تحلیل های دقیق از روند تغییرات بازار و تکنولوژی شده که می تواند زمینه ساز افزایش درآمد شرکت گردد. تعدادی از روشهای داده کاوی اصلی و پروژه پر کاربرد به شرح زیر می باشند:

  • با هم آیی یا وابستگی (Association)
  •  کلاس بندی یا دسته بندی (Classification)
  •  خوشه بندی (Clustering Analysis)
  •  پیش بینی (Prediction)
  •  الگوهای دنباله آیا ردیابی الگو (Sequential Patterns or Pattern Tracking)
  •  درخت های تصمیم (Decision Trees)
  •  تحلیل داده های پرت (Outlier Analysis or Anomaly Analysis)
  •  شبکه های عصبی (Neural Network)

در ادامه هر کدام از موارد فوق به تفکیک مورد بحث و بررسی قرار خواهد گرفت.

با هم آیی یا وابستگی

۲

در این گروه از روش ها به دنبال شناسایی و پیدا نمودن یک همبستگی بین دو یا چند گروه از آیتم ها هستیم. این کار به وسیله شناسایی الگو های پنهانی در مجموعه داده ها صورت گرفته و به ان تحلیل رابطه نیز گفته می شود، چرا که در این نوع تحلیل به دنبال شناسایی روابط بین آیتم ها و گروه های مختلف هستیم. این نوع از روش ها در تحلیل سبد خرید مشتریان و پیش بینی رفتار آتی مشتری کاربرد زیادی پیدا نموده است. فرض کنید که شما تحلیلگر داده در یک فروشگاه زنجیر های بزرگ هستید و مدیر بازاریابی فروشگاه از شما خواسته است که مشخص نمایید کدام دسته از محصولات به دفعات مکرر توسط مشتریان با هم خریداری شده و در واقع در یک سبد خرید مشتری با هم جای گرفتند. به عنوان مثال یک نمونه از این گونه قواعد و تحلیل ها را می توان به صورت زیر بیان نمود:

 اگر مشتری  نوشابه را خریداری نماید آنگاه چیپس را نیز می خرد. فرض کنید که میزان ساپورت یا همان پشتیبانی از این قاعده برابر با ۱ درصد و درجه اطمینان ۵۰ درصد باشد. می خواهیم ببینیم تفسیر و برداشت ما از این قاعده و میزان پشتیبانی و اطمینان بیان شده مربوط به آن چیست:

  • اولین برداشتی که به ذهن ما متبادر می شود این است که یک رابطه مشخص بین خرید نوشابه و خرید چیپس وجود دارد.
  • دومین یافته ما این است که اگر یک مشتری نوشابه را خریداری نماید با احتمال ۵۰ درصد وی چیپس را نیز خریداری می نماید این برداشت ناشی از بیان درجه اطمینان قاعده مذکور بوده است.
  • همچنین میزان ساپورت و پشتیبانی یک درصد به این معناست که از کل تراکنشهای در دست که مورد تجزیه و تحلیل قرار گرفتند یک درصد آن ها شامل دو کالای نوشابه و چیپس پس به صورت توامان و در کنار هم بودند

مشابه موارد فوق مثال های متعدد دیگری می توان بیان نمود. عنوان بسیاری دیگر می توان  به رابطه بین خرید نان و کره و یا رابطه بین خرید هدفون و خرید موس در کنار یکدیگر اشاره نمود.

به صورت کلی دو نوع از قواعد همبستگی قابل کشف و ارائه می باشند:

  • قواعد همبستگی تک بعدی که در این دسته از قواعد یک ویژگی  مورد تجزیه و تحلیل قرار می‌گیرد. 
  • قواعد همبستگی چند بعدی که در این دسته از قواعد چند ویژگی مورد واکاوی و تحلیل قرار خواهند گرفت. 

کلاس بندی یا دسته بندی

روش های کلاس بندی یا دسته بندی برای تمیز دادن به رکورد های موجود در مجموعه داده و جایگذاری آنها در کلاس های گروه های مختلف مورد استفاده قرار می‌گیرند. این موضوع به تحلیلگران و تصمیم گیران کمک نموده که رفتار موجودیت های داخلی در هر گروه مشخص شده را بتوانند با دقت  بالاتری پیش‌بینی نمایند. به بیان ساده تر در این گروه از روش ها به دنبال کاهش  میزان عدم قطعیت مربوط به رفتار مشتریان یا  هر موضوع مورد تحلیل دیگر در آینده هستیم تا با افزایش قابلیت پیش بینی، امکان برنامه ریزی بهتر و کسب منافع بیشتر در چارچوب کسب و کار ما فراهم گردد. این گروه از روش ها در یک فرآیند دو مرحله ای موضوعیت پیدا می‌نمایند: 

  • مرحله اول: فاز اول به آموزش و یادگیری  اختصاص پیدا می‌کند. در این مرحله یک الگوریتم کلاس بندی مورد استفاده قرار گرفته و در نتیجه به کارگیری آن بر روی مجموعه داده های آموزشی دسته بند یا کلاس بند (classifier) ساخته می شود.  
  • مرحله دوم: فاز کلاس بندی می باشد  که در آن  مدل کلاس ساخته شده مورد استفاده قرار گرفته تا میزان دقت آن و قواعد دسته بندی  حاصله برای  تحلیلگران و صاحبان کسب و کار مشخص گردد.  در صورتی که دقت بر روی مجموعه داده های آموزشی و تست از حد مورد انتظار بالاتر بوده فاصله چندان زیادی بین دقت بر روی دو گروه داده های آموزشی و تست نباشد، می توان با اطمینان مناسبی نسبت به یافته های حاصل از مدل دل بست  و آنها را در عمل به کار گرفت.

این گروه از روش ها در کسب و کارهای مختلف دارای کاربرد بسیار زیادی می باشند. به عنوان مثال بانک ها، موسسات مالی و اعتباری، شرکت های کارگزاری بورس، شرکت های بیمه برای رتبه بندی اعتباری و سنجش میزان اعتبار مشتریان از این گروه از روش ها استفاده زیادی می نمایند. چرا که این موسسات مایل هستند تا مشتریان خود را از نظر اعتباری در گروه های مختلف تقسیم بندی نمایند. به عنوان مثال بانک ها متقاضیان دریافت تسهیلات  را در کلاس های اعتباری مختلف سه گانه شامل اعتبار کم، اعتبار در حد متوسط و اعتبار زیاد تقسیم بندی می نمایند. هرچه که اعتبار مشتری بالاتر باشد، ارائه تسهیلات به وی  با ریسک کمتری برای بانک همراه بوده و احتمال عدم بازپرداخت اقساط وام دریافت شده یا بروز تاخیر در پرداخت اقساط  کمتر می باشد. به صورت مشابه تحلیلگران داده های پزشکی، داده های مربوط به سرطان را مورد تجزیه و تحلیل قرار میدهند تا پیش‌بینی نمایند که کدام نوع دارو و شیوه درمانی می تواند با احتمال بیشتری منجر به مداوای بیمار و کاهش میزان شدت بیماری او شود.

۳

خوشه بندی

خوشه بندی بسیار شبیه به کلاس بندی بوده با این تفاوت که در خوشه بندی اشیا و آیتم ها بر اساس میزان شباهت و نزدیکی در یک خوشه قرار می‌گیرند. خوشه های مختلف نیز دارای رکورد ها و اشیا غیر مرتبط و ناتشابه باهم می باشند.  به خوشه بندی بخش‌بندی داده ها نیز گفته می شود چرا که بر اساس آن و با به کارگیری الگوریتم های خوشه بندی می توان مجموعه های داده های بزرگ را  براساس شباهت بین رکوردها به خوشه‌هایی تقسیم نمود. 

برای خوشه بندی مجموعه ای از روش ها و الگوریتم های مختلف قابل استفاده است که مهمترین و پرکاربردترین آنها عبارتند از:

  •  روش های خوشه بندی سلسله مراتبی
  • روش های خوشه بندی مبتنی بر شبکه
  •  روش های خوشه بندی پارتیشنی
  •  روش های خوشه بندی مدل مبنا
  •  روش های خوشه بندی  برمبنای چگالی

مشابه مسئله کلاس بندی متقاضیان دریافت تسهیلات که پیش از این  مورد بحث و بررسی قرار گرفت را در اینجا نیز می‌توانیم داشته باشیم، اما رویکرد خوشه بندی به این مسئله متفاوت بوده که در شکل زیر این تفاوت نشان داده شده است: 

۴

پیش بینی

روش های پیش بینی برای پیش بینی آینده بر اساس روند های فعلی و همچنین روندهای گذشته شناسایی شده یا بر اساس مجموعه داده های در دسترس  مورد استفاده قرار می‌گیرند. پیش بینی معمولاً به صورت ترکیبی با سایر روش های داده کاوی مانند کلاس بندی، انطباق الگوها، تحلیل روند و برقراری ارتباط بین روندها مورد استفاده قرار می گیرد. به عنوان مثال ممکن است مدیر فروش یک فروشگاه زنجیره ای مایل باشد تا میزان درآمد حاصله از هر یک از اقلام محصولات مختلف را بر اساس اطلاعات فروش آنها در گذشته، پیش بینی نمایند. این موضوع به وسیله مدل سازی و به دست آوردن یک تابع پیوسته منجر به پیش بینی آینده، صورت می گیرد. تجزیه و تحلیل رگرسیون یکی از روش های پرکاربرد و مناسب برای اجرای رویکرد های پیش بینی می باشد. در رگرسیون می‌توانیم به برقراری ارتباط بین مجموعه ای از متغیرهای مستقل و متغیرهای وابسته اقدام نماییم. 

۵

الگوهای دنباله ای یا ردیابی الگو

این گروه از روش ها برای شناسایی الگوهایی که در یک دوره زمانی مشخص تکرار می‌شوند، مورد استفاده قرار می‌گیرند. به عنوان مثال مدیر فروش یک کمپانی تولید لباس متوجه می شود که فروش ژاکت  پیش از فصل زمستان افزایش چشمگیری داشته است. به عنوان مثال دیگر می‌توان افزایش در میزان فروش شیرینی و آجیل قبل از تعطیلات عید و سال جدید را در نظر گرفت. این ها الگوهایی هستند که در دوره‌های زمانی مشخصی مشاهده و تکرار می شوند و به عنوان نمونه می توانید شکل زیر را نیز مورد بررسی و واکاوی قرار دهید: 

۶

درخت های تصمیم

یک درخت تصمیم یک ساختار سلسله مراتبی درخت وار می باشد که دربردارنده ویژگی های زیر است:

  • نود داخلی که بر روی یک ویژگی عمل می‌نماید و مقادیر مربوط به آن ویژگی را به دو یا چند حالت تقسیم می نماید. در واقع هر نوع داخلی مانند یک تقاطع بین جاده ای عمل نموده که خودرویی باید در آن نود تصمیم خود را بگیرد و مسیر بعدی خود را انتخاب نماید.
  •  شاخه ها نمایان گر نتیجه تصمیم گیری در هر نود می باشند و  به بیان ساده تر شاخه ها همان جاده های منشعب از هر تقاطع هستند.
  •  نودهای پایانی یا اصطلاحاً نودهای ترمینال مقصد نهایی را نشان داده و بر اساس آن ها کلاس های مختلف مورد لیبل دهی یا همان برچسب‌گذاری قرار می گیرند. 
  • بالاترین نود در واقع نود ریشه ای بوده  که با یک سوال ساده شروع شده که می‌تواند دو یا چند پاسخ داشته باشد. منظور از پاسخ حالت های  محتمل برای ویژگی ای بوده که در در بالاترین نود مورد نظر قرار می گیرد. 

بر اساس مشخصات و ویژگی های فوق یک ساختار درختی پدید می آید که نمونه آن در شکل زیر نشان داده شده است:

۷

در شکل فوق درختی به تصویر کشیده شده است که شهروندان دارای سن بیشتر و کمتر از ۱۸ سال را تقسیم بندی می نماید. درخت را می‌توان به این منظور استفاده نمود که آیا باید گواهینامه صادر شود یا خیر؟ 

تحلیل داده های پرت

تحلیل داده های پرت به منظور شناسایی اقلام داده ای استفاده می شود که با الگو یا رفتار مورد انتظار کل داده ها مطابقت ندارند. این داده های غیر قابل انتظار و غیر معمول  به عنوان داده های پرت یا همان داده های نویزی در نظر گرفته می شوند. این روش در حوزه‌های کسب و کار مختلف مورد کاربرد می باشد. به عنوان مثال از شناسایی و کشف تقلب در رابطه با کارت های اعتباری، ورودها و لاگین های غیرمجاز در شبکه های کامپیوتری و کشف خرابی های مربوط به تجهیزات به عنوان نمونه هایی از کاربردهای روشهای شناسایی داده های پرت نام برده می شود. این گروه از روش ها به عنوان « منزوی کاوی یا پرت کاوی» نیز نامیده می شوند. به عنوان مثال شکل زیر را را در نظر بگیرید:

۸

در این شکل برای داده های یک دیتاست بهترین خط ممکن برآورده شده است. همانطور که در شکل نشان داده شده است، نقاط نزدیک به خط بر اساس برآورد مورد انتظار رفتار نموده اند، در حالیکه نقاط دور از خط به عنوان یک مورد غیر عادی یا همان داده پرت شناسایی می شوند. طبیعی است که هرچه فاصله نسبت به خط برازش شده بیشتر باشد، میزان عجیب بودن و غیر عادی بودن  این موضوع بیشتر می‌شود. این گروه از روش ها  به صاحبان کسب و کار و ذینفعان حوزه‌های مختلف کاری و علمی کمک می نمایند تا موارد غیر عادی را بتوانند هر چه سریعتر و در زمان مناسب شناسایی نموده و  و حسب موضوع اقدامات لازم و مقتضی را در رابطه با آنها به عمل آورند.

شبکه های عصبی

۹

 این گروه از روش ها برمبنای شبکه های عصبی بیولوژیکی شکل  گرفته اند.  در ساختار شبکه های عصبی مجموعه ای از نرون ها به عنوان واحد های پردازشگر در نظر گرفته شده اند که بین آن ها اتصالاتی وجود دارد. در شبکه های عصبی هر یک از این اتصالات دارای وزن و اهمیت مختص به خود می باشد.  از این روشها به منظور برقراری ارتباط بین مجموعه ای از ورودی ها و مجموعه ای از خروجی ها استفاده می شود. از شبکه های عصبی می توان برای  مقاصد مختلفی از جمله کلاس بندی، تحلیل رگرسیون و پردازش داده استفاده نمود. این تکنیک بر پایه سه رکن زیر شکل گرفته است: 

  • مدل
  • الگوریتم یادگیری که می تواند به شکل با نظارت و بدون نظارت باشد. 
  • تابع فعال سازی

الگوریتم های داده کاوی

تکنیک ها و الگوریتم های داده کاوی به طور گسترده ای در هوش مصنوعی و یادگیری ماشین مورد استفاده قرار می گیرند. الگوریتم های زیادی وجود دارد، اما در اینجا چند مورد برتر از الگوریتم های داده کاوی بررسی می شوند.

الگوریتم C4.5 

C4.5 یکی از برترین الگوریتم های داده کاوی بوده و توسط Ross Quinlan توسعه داده شده است. C4.5 برای  ایجاد یک کلاس بند به شکل درخت تصمیم از مجموعه داده هایی که قبلاً طبقه بندی ( کلاس بندی) شده اند، استفاده می شود. منظور از کلاس بند (Classifier) یک ابزار  داده کاوی بوده که داده هایی را که نیاز به کلاس بندی آنها داریم را دریافت می نماید و تلاش می نماید تا  کلاس (طبقه) داده های جدید را پیش بینی کند. مانند حالتی که یک مشتری جدید برای دریافت تسهیلات به بانک مراجعه نموده و بانک مایل است با استفاده از مدل کلاس بندی توسعه داده شده، بتواند رتبه اعتباری او را پیش بینی نماید. هر رکورد از داده ها ویژگی های خاص خود را دارد. درخت تصمیم ایجاد شده توسط C4.5 سوالی در مورد مقدار یک ویژگی ایجاد می کند و بسته به مقادیر مربوط به ویژگی مورد نظر، داده های جدید طبقه بندی می شوند. مجموعه داده های آموزشی بر اساس کلاس های مشخص شده برچسب گذاری می‌شوند. در نتیجه الگوریتم C4.5 یک الگوریتم یادگیری تحت نظارت (supervised) می باشد. درختان تصمیم  ایجاد شده در نتیجه این الگوریتم به راحتی قابل تشریح و تفسیر می باشند. سرعت این الگوریتم نیز در حد قابل قبول بوده و مجموع این موارد موجب شده است که این الگوریتم جزء تکنیک های پرکاربرد در فضای داده کاوی شناخته شود.

الگوریتم K-mean

یکی از متداول ترین الگوریتم های خوشه بندی، k-mean بوده که بر اساس تعداد k گروه از مجموعه اشیا با توجه به شباهت بین آنها، شکل گرفته است. البته تضمینی وجود ندارد که در هر یک از خوشه ها و گروه های حاصله، اشیا کاملا شبیه یکدیگر باشند. اما عموماً این موضوع رخ می دهد که شباهت بین اعضای یک خوشه با یکدیگر  بیشتر از شباهت با اعضای سایر خوشه ها باشد. این الگوریتم جزء الگوریتم های بدون نظارت می باشد، چون عملیات یادگیری و تشخیص خوشه ها بدون کمک گرفتن از اطلاعات بیرونی انجام می شود. در واقع در اینجا به مانند کلاس بندی از قبل هیچ گونه اطلاعات و برچسبی در مورد اشیا نداریم. برای فهم بهتر فضای بانک را به عنوان یک کسب و کار در نظر بگیرید. هنگام به‌کارگیری الگوریتم کلاس بندی بر روی مجموعه داده های آموزشی، رتبه و گروه اعتباری مشتریان مشخص بود. اما در هنگام به کارگیری خوشه‌بندی چنین اطلاعاتی را در دست نداریم و صرفاً باید بر اساس ویژگی های مشتریان آنها را در خوشه هایی جای دهیم.

الگوریتم  Support Vector Machines

شیوه عمل الگوریتم ماشین بردار پشتیبان (SVM) مشابه الگوریتم C4.5 می  باشد با این تفاوت که SVM اصلاً از درخت تصمیم استفاده نمی کند. SVM مجموعه داده ها را برای یادگیری مورد استفاده قرار داده و یک ابرصفحه برای طبقه بندی داده ها در دو کلاس تعریف می کند. ابرصفحه به شکل یک معادله برای خط  نوشته شده که  ساختاری شبیه “y = mx + b” دارد. SVM به دنبال بهترین ابرصفحه برای جداسازی داده ها به دو کلاس می باشد.

الگوریتم Apriori

الگوریتم Apriori بر اساس یادگیری و کشف قواعد باهم آیی عمل می نماید. قوانین باهم آیی یک تکنیک داده کاوی است که برای شناسایی ارتباطات و همبستگی بین متغیرهای یک پایگاه داده استفاده می شود. معمولاً در عمل پس از یادگیری مجموعه ای از قواعد باهم آیی، آنها بر روی یک پایگاه داده حاوی تعداد زیادی تراکنش اعمال می شوند. منظور از تراکنش در اینجا فعل و انفعالات ناشی از ناشی از رفتار موجودیت‌های مورد نظر می باشد. به عنوان مثال تراکنش می تواند سبد خرید مشتریان در یک فروشگاه یا صفحات بازدید شده توسط یک کاربر در یک نوبت بازدید از یک وب سایت باشد. از الگوریتم Apriori برای کشف الگوهای جالب و روابط متقابل استفاده شده و از این رو به عنوان یک روش یادگیری بدون نظارت شناخته می شود. با وجودی که این الگوریتم به صورت کارا طراحی شده، اما در عمل مخصوصاً برای دیتاست های بزرگ به حافظه و توان پردازش زیادی در حین اجرا نیاز داشته و معمولاً اجرای آن زمان زیادی را به خود اختصاص می‌دهد.

الگوریتم Expectation-Maximization 

Expectation-Maximization (EM) به عنوان یک الگوریتم خوشه بندی و دقیقاً مانند الگوریتم k-means برای کشف دانش استفاده می شود. در الگوریتم EM تکرارهای متوالی پشت سر هم اجرا شده تا در نهایت بهترین خروجی را به شکل بهینه ارائه دهد. از آنجایی که در حین عملیات این الگوریتم، داده های برچسب گذاری شده و کلاس بندی شده مورد استفاده قرار نمی‌گیرد، پس این الگوریتم هم یک روش یادگیری بدون نظارت می باشد.

الگوریتم PageRank 

PageRank معمولاً توسط موتورهای جستجو مانند Google استفاده می شود. این الگوریتم در واقع یک روش تجزیه و تحلیل لینک است که اهمیت نسبی  یک موجودیت را  بر اساس شبکه از موجودیت های مرتبط با آن ارزیابی می نماید. تحلیل لینک یکی از انواع روشهای تحلیل شبکه بوده که در آن ارتباطات و همبستگی های بین اشیا یا همان موجودیت ها مورد آنالیز دقیق و فنی قرار می‌گیرد. موتور جستجوی گوگل سالهاست که از این روش برای درک بهتر بک لینک های صفحات وب به صورت اثربخش استفاده می نمایند. به بیان دقیق تر این الگوریتم یکی از روش های مورد استفاده توسط گوگل برای تعیین اهمیت نسبی صفحات وب و رتبه بندی آنها در نتایج جستجوی کاربران می باشد. در واقع بایستی گوگل را در امر استفاده و توسعه این الگوریتم در دنیا پیشتاز دانست. پتنت این الگوریتم مربوط به  دانشگاه استنفورد بوده و  لایسنس تجاری آن تحت مالکیت شرکت گوگل می باشد. الگوریتم PageRank به عنوان یک روش یادگیری بدون نظارت در نظر گرفته می شود، چراکه اهمیت نسبی موجودیت ها صرفا بر اساس لینک های بین آنها مورد تجزیه و تحلیل قرار گرفته و هیچگونه داده ورودی دیگری مورد استفاده قرار نمی گیرد.

الگوریتم Adaboost 

این الگوریتم یک روش بوستینگ بوده که برای ایجاد کلاس بند یا همان دسته بند (classifier) مورد استفاده قرار می گیرد. اگر تا اینجای مقاله با ما بوده باشید حتما متوجه شدید که کلاس بند یک ابزار داده کاوی بوده که کلاس یا دسته مربوط به موجودیت ها را بر پایه داده های ورودی پیش بینی می نماید. الگوریتم‌های بوستینگ یک رویکرد یادگیری از نوع ensemble بوده که به جهت افزایش دقت در آن، مجموعه ای از چندین الگوریتم اجرا شده و نتایج آن ها با هم ترکیب می شود. الگوریتم‌های بوستینگ مجموعه از یاد گیرنده های ضعیف را با هم ترکیب کرده و در اثر این ترکیب یک یادگیرنده قدرتمند را تشکیل می دهند. لازم به ذکر است که منظور از یادگیرنده ضعیف یادگیرنده ای است که عملیات دسته بندی را با دقت پایینی انجام می دهد. به عنوان مثال از الگوریتم decision stump به عنوان یک یادگیرنده ضعیف نام برده شده که در واقع یک درخت تصمیم یک مرحله ای می باشد. الگوریتم Adaboost کاملا مبتنی بر منطق یادگیری با نظارت عمل نموده به صورتی که در هر تکرار این الگوریتم، یادگیرنده های ضعیف تر بر اساس یک دیتاست برچسب گذاری شده مورد آموزش قرار می‌ گیرند. در این الگوریتم تعداد تکرار ها توسط کاربر مشخص شده و پس از هر تکرار بهترین یادگیرنده ها مجدداً به روز رسانی می شوند. این موضوع سبب می‌شود که الگوریتم Adaboost یک روش بسیار قدرتمند و متمایز را برای ایجاد کلاس بند مورد استفاده قرار دهد. این الگوریتم دارای انعطاف پذیری بسیار بالا بوده و می تواند بر روی داده های متنوع از حوزه های مختلف با قابلیت تطبیق پذیری بالا، نتایج اثر بخشی را ارائه دهد.

الگوریتم kNN 

الگوریتم kNN یک الگوریتم یادگیری تنبل از نوع روش های کلاس بندی یا همان دسته بندی یا همان طبقه بندی می باشد. منظور از یادگیرنده تنبل یادگیرنده ه ای است که در حین فرایند آموزش هیچ نوع عملیاتی به جز ذخیره سازی داده های آموزشی را انجام نمی دهد. یادگیرنده های تنبل عملیات آموزش را تنها در زمانی آغاز می نمایند که داده های جدید برچسب گذاری نشده به عنوان ورودی به آنها ارائه شود. در برابر یادگیرنده های تنبل یادگیرنده های حریص مانند الگوریتم‌های C4.5, SVM, Adaboost قرار دارند که عملیات ساخت مدل دسته بندی را در حین فرایند آموزش آغاز می نمایند. الگوریتم kNN  یک روش یادگیری با نظارت می باشد چراکه در این الگوریتم  یک دیتاست آموزشی برچسب گذاری شده ارائه می شود. 

الگوریتم Naive Bayes

الگوریتم Naive Bayes  یک الگوریتم منفرد نبوده، بلکه دربردارنده مجموعه‌ای از الگوریتم های دسته بندی می باشد. مجموعه الگوریتمهای مورد نظر در این روش بر پایه یک فرض مبنایی  مورد استفاده قرار می‌گیرند. این  فرض بیان می دارد که هر ویژگی دیتاست کلاس بندی شده مستقل از سایر ویژگی ها می باشد. این الگوریتم از یک دیتاست آموزشی برچسب گذاری شده برای ایجاد جداول استفاده می نماید. پس حتماً متوجه شدید که این الگوریتم نیز جزو دسته روش های یادگیری با نظارت طبقه بندی شده است.

الگوریتم CART

واژه CART  مخفف classification and regression trees به معنای درخت های رگرسیون و کلاس بندی می باشد. این الگوریتم یک روش یادگیری مبتنی بر درخت تصمیم بوده که درخت های کلاس بندی یا رگرسیونی را به عنوان خروجی ارائه می دهد. در الگوریتم CART نودهای درخت تصمیم دقیقاً به دو شاخه تقسیم می شوند. حتما تا الان متوجه شدید که الگوریتم CART نیز مانند C4.5 یک  کلاس بند می باشد. مدل CART بر پایه استفاده از دیتاست آموزشی برچسب گذاری شده که توسط کاربر ارائه شده، ساخته می شود. بنابراین این الگوریتم نیز یک رویکرد یادگیری با نظارت را ارائه داده است. 

رای دادن به این post

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.