داده کاوی چیست؟

ش

مقدمه و آشنایی با داده کاوی – داده کاوی چیست؟

داده کاوی علم استخراج دانش از داده می باشد. داده کاوی مانند یک ماشین بوده که ورودی آن داده های خام و خروجی آن اطلاعات با ارزش می باشد. در داخل این ماشین مجموعه روش ها، تکنیک ها و الگوریتم های تحلیل داده به کار گرفته می شوند تا با پردازش داده ها اطلاعات ارزشمند برای صاحبان کسب و کار ایجاد نمایند. در قرن بیستم سازمان ها روی به جمع‌آوری داده نمودند و بانک‌های اطلاعاتی ایجاد شد. بانک‌های اطلاعاتی این امکان را به سازمان  ها داد که در رابطه با موضوعات مختلف شروع به جمع آوری اعداد نمایند.  

بانک های اطلاعاتی یک  دریچه جدید را به  روی  سازمان ها باز نمودند و یک امکان جدید را در اختیار آنها قرار دادند.  ازتا قبل از به وجود آمدن بانک های اطلاعاتی سازمان‌ها نسبت به مشتریان خود و کسب و کارشان  دید خاصی نداشته و صرفاً  بر اساس قدرت تجزیه و تحلیل مدیران و تصورات آنها به صورت کیفی عمل می  نمودند. با ایجاد بانک های اطلاعاتی این امکان فراهم شد که سازمان ها به صورت دقیق  ومشخص بتوانند  روندهای مرتبط با کسب و کار خود را زیر نظر  داشته و  به  سوالات زیر پاسخ دهند:

  • افزایش یا کاهش در تعداد مشتریان به چه صورت می باشد؟
  • چه محصولاتی بیشترین طرفدار را دارد؟
  • چه محصولاتی با بیشترین افزایش کاهش در فروش مواجه بودند؟ و سوالاتی از این قبیل

 اکنون سازمان ها  مجهز به تکنولوژی جمع آوری داده شده‌اند و روز به روز بر حجم داده هایی که در اختیار آنها قرار می گیرد افزوده می شود. پس از این یک چالش شیرین جدید برای سازمان ها ایجاد شد. سازمان هایی که تا پیش از این  صرفاً به فکر جمع‌آوری داده بودند، اکنون به این صرافت افتادند که از داده های جمع آوری شده چه استفاده ای می‌توانند بنمایند و چطور می‌توانند پلی بین نیازها و تصمیمات کلیدی کسب و کار و داده های در دست پیدا نمایند. از این جا بود که جرقه و منشاء ایجاد علم  داده کاوی کافی شکل گرفت تا بتواند به سازمانها کمک می نماید که  داده های خود را مورد پردازش و تجزیه و تحلیل قرار داده و از نتایج حاصل از این تحلیل ها در راستای پاسخ به نیازهای کسب و کار خود بهره بگیرد.

انواع داده ها در داده کاوی

انواع داده هایی که می توانند  در عملیات داده کاوی مورد نظر قرار گیرند، به شرح ذیل می باشند:

  1. داده های ذخیره شده در بانک های اطلاعاتی (Data stored in the database)

به یک بانک اطلاعاتی سیستم مدیریت پایگاه داده یا DBMS نیز گفته می شود. هر بانک های اطلاعاتی داده هایی را که به طریقی  و بر اساس یک منطق مشترک با یکدیگر مرتبط هستند را ذخیره می کند.  در کنار بانک‌های اطلاعاتی بایستی مجموعه ای از برنامه های نرم افزاری است که برای مدیریت داده ها و دسترسی آسان به آنها استفاده می شود، را نیز در نظر گرفت.  این برنامه های نرم افزاری اهداف زیادی از جمله تعریف ساختار برای پایگاه داده ، اطمینان از  ذخیره سازی داده ها به شکل امن و سازگار و مدیریت انواع دسترسی به داده ها از جمله رویکردهای به اشتراک گذاری و توزیع داده را در بر دارد.

یک پایگاه داده رابطه ای دارای مجموعه ای از جداول است که دارای نام و ویژگی های مختلفی  در قالب رکوردهای یا همان سطر ها مجموعه داده های بزرگ را ذخیره کند.  به عنوان مثال مشتریان یک شرکت را در نظر بگیرید که هر کدام از آنها یک ست را به خود اختصاص می‌دهند.  این مشتریان ویژگی های مختلفی از قبیل نام، سن، جنسیت و میزان خرید از شرکت را دارا هستند که این ویژگی ها در قالب ستون ها در جدول نشان داده می شوند. هر رکورد ذخیره شده در یک جدول دارای  دارای فیلد کلیدی منحصر به فرد  مانند کد ملی مشتریان است. مدل  برقراری ارتباط بین موجودیت ها برای ارائه نمایشی از یک پایگاه داده رابطه ای ایجاد می شود که ویژگی های موجودات ها و روابط  بین موجودیت ها را ارائه می نماید. مثلا مشتریان، کالاها و نمایندگی های فروش موجودیت های جداگانه هستند که بایستی نحوه ارتباط بین آنها در یک بانک اطلاعاتی رابطه ای مربوط به شرکت مشخص شود .

  1. انبار داده (Data warehouse)

انبار داده یک مکان ذخیره سازی داده است که داده ها را از چندین منبع جمع آوری می کند و سپس آنها را در قالب یک ساختار واحد ذخیره می کند. وقتی داده ها در انبار داده ذخیره می شوند، عملیات پاکسازی، یکپارچه سازی، بارگذاری و نوسازی بر روی آنها انجام می گیرد. 

داده های ذخیره شده در یک انبار داده در چندین قسمت  جای می‌گیرند. اگر می خواهید  به اطلاعاتی  که ۶ یا ۱۲ ماه قبل ذخیره  شده است دسترسی داشته باشید،  می توانید بخش مربوطه را پیدا نموده و به سرعت اطلاعات مورد نیاز را بازیابی نمایید.

  1. داده های تراکنشی (Transactional data)

پایگاه داده (بانک اطلاعاتی) تراکنشی رکوردهایی را که به عنوان  تراکنش ثبت می شوند، ذخیره می کند. این این تراکنش ها بسیار متنوع می باشند مانند: رزرو‌بلیط یک پرواز خرید مشتری یا کلیک بر روی یک لینک تبلیغاتی در یک وب سایت.  سوابق مربوط به هر تراکنش دارای شناسه منحصر به فرد است. همچنین لیست تمام مواردی که یک تراکنش را شکل داده‌اند نیز در سوابق مربوط به هر تراکنش ذخیره و نگهداری می شوند.

  1. انواع دیگر داده ها

انواع مختلفی از داده ها نیز داریم که به دلیل ساختار و کاربرد آنها برای داده کاوی مورد توجه قرار گرفته‌اند. برخی از این انواع داده شامل داده های جریانی، داده های طراحی مهندسی، داده های متوالی، داده های  حاصل از گراف ها، داده های  مکانی و داده های چندرسانه ای مانند فایل های صوتی و ویدیویی می باشند.

اهداف داده کاوی

اهداف اصلی داده کاوی را می‌توان به صورت زیر برشمرد:

  • کشف الگو
  • ارائه بینش و نگرش در مورد مسائلی که از دید تصمیم گیران و ذینفعان کسب و کار مغفول مانده است (مانند شناسایی یک روند جدید در تغییر ذائقه مشتریان)
  • تجزیه و تحلیل  موارد پرتکرار
  • تجزیه و تحلیل موارد نادر
  • کشف قواعد به صورت خودکار
  • کشف گروه هایی از اشیا  و موجودیت های مشابه 
  • حذف داده های ناخواسته 
  • شناسایی داده های پرت
رای دادن به این post

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.