برای انجام یک پروژه داده کاوی و رسیدن به خروجی های مورد انتظار بایستی به صورت سیستماتیک و مشخص عمل نمود. از این رو متدولوژی های مختلفی برای تبیین مراحل یک پروژه داده کاوی به وجود آمده است که بین این روشها و متالورژی ها اشتراکات زیادی وجود دارد. در این مقاله به بیان و تشریح متدولوژی کریسپ دی ام که یکی از متدولوژی های موفق و پر کاربرد برای تعیین و اجرای مراحل داده کاوی می باشد، پرداخته می شود. بر اساس این متدولوژی مراحل داده کاوی را در شش فاز می توان پیگیری نمود.
فاز اول به درک و فهم و کسب و کار اختصاص دارد در این مرحله نیازهای کلیدی کسب و کار و موضوع مورد تجزیه و تحلیل و بررسی مشخص می شود به بیان ساده تر در فاز اول تحلیلگر و کسی که متولی انجام پروژه داده کاوی میباشد به دنبال تعریف مسئله جامع و کامل بوده تا ببیند از منظر تصمیم گیران و کسانی که ذینفعان پروژه داده کاوی می باشند چه موضوعاتی دارای اهمیت و اولویت بالاتری بوده در نهایت پروژه داده کاوی بایستی به کدام سوالات پاسخ بدهد تا ذینفعان اصلی پروژه و موضوع تعریف شده از آن راضی باشند.
در فاز دوم خود داده ها مورد دقت نظر قرار میگیرند. در این مرحله بایستی یک شناخت کلی از مجموعه داده های در دست (که بایستی بر روی آنها داده کاوی انجام شود) کسب گردد. شناخت متغیرهای کلیدی، تبیین ابعاد حاکم بر مطالعه و جمع آوری داده از فعالیت های کلیدی و مهم این مرحله می باشد.
در مرحله سوم آماده سازی داده ها صورت می گیرد. بسیاری از اوقات تحلیلگران وقتی که میخواهند کار تجزیه و تحلیل بر روی داده ها را آغاز نمایند با مشکلات و چالش های متعددی مواجه می شوند. مثلاً خیلی از دادههای در دست به فرمت و شکل استاندارد نبوده یا اینکه با مشکل دادههای نویزی مواجه می شوند. تمامی این موضوعات در این فاز مورد تجزیه و تحلیل قرار گرفته تا در نهایت دادههای خام به صورت مرتب و استاندارد آماده شوند.
در مرحله چهارم فعالیت های تحلیلی و الگوریتمی مربوط به یک پروژه داده کاوی انجام می شود. در این مرحله تکنیک ها و الگوریتم ها به کار گرفته می شوند تا بر روی داده های خام پیش پردازش شده، عملیات داده کاوی انجام گردد و نتایج و خروجی های مورد نظر حاصل شود.
در مرحله پنجم ارزیابی بر روی نتایج حاصله صورت می گیرد تا مشخص شود که آیا نتایج حاصل پاسخگوی نیازهای ذینفعان و صاحبان کسب و کار می باشند؟ آیا نتایج حاصل توانستند پاسخگوی سوالاتی باشند که در ابتدای پروژه داده کاوی آنها را تعریف کردیم؟ اینها مسائلی هستند که بایستی در فاز ۵ مورد تجزیه و تحلیل و بررسی قرار گیرند.
در نهایت در فاز ششم نتایج حاصله به کار گرفته شده تا ذینفعان کسب و کار به صورت واقعی و ملموس بتوانند از نتایج دادهکاوی در کارکرد های کلیدی کسب و کار خود استفاده نموده و منافع حاصل از آن را به دست آورند.