فاز دوم الگوریتم داده کاوی کریسپ دی ام: شناخت داده (Data Understanding)

وارد فاز ۲ یعنی Data Understanding(DU) شناخت داده می شویم. در این فاز مباحث تکنیکی (از قبیل:طبقه بندی داده ها- دقت داده ها- ویژگی ها- روندها- روابط داده ها) بیشتر خودش را نشان می دهد. اولین موضوع، ساختار (Structure) داده است. ساختار داده ها در بانک اطلاعاتی رابطه ای (Relational Database) 2 بعدی هستند:

ستون ها یا همان Fields
سطرها یا همان records

نکته: فیلدها (ستون ها) خیلی مهم اند و ویژگی ها( Features) هستند.

سوال: یک Data Sheet داریم و فیلدها را می بینید، به چه چیزی باید اول توجه کنید تا بتوانید تشخیص دهید که آیا این فیلد مناسب هست یا خیر؟

پاسخ: اگر فاز ۱ الگوریتم کریسپ دی ام (یعنی درک و شناخت کسب و کار) به خوبی انجام شود، فیلد مناسب شناسایی می شود و راهنمای تمام فعالیت های پروژه است. باید بین فاز ۱ و ۲ ارتباط منطقی ایجاد شود. بعضی جاها هم ارتباط برگشتی هست و باید از فاز ۲ به فاز۱ برگردیم. برای شفاف تر شدن موضوع، با یک مثال مساله را پیگیری می کنیم.

مثال: فرض کنید می خواهیم به بررسی عوامل موثر بر رضایت مشتری و شناسایی مهمترین عامل موثر بر آن بپردازیم. پس در اینجا اولین فیلدی که قطعا باهاش کار داریم «میزان رضایت مشتری» است. سپس باید بیاییم فیلدها یا همان ویژگی های دیگری که به عوامل محتمل موثر (عواملی که ممکن است روی رضایت مشتری تاثیر بگذارند) می پردازند توجه کنیم. خود عوامل محتمل را می توان به دو دسته مستقیم و غیرمستقیم تقسیم بندی نمود. عوامل مستقیم آنهایی هستند که به نظر میرسد به صورت مستقیم رضایت مشتری را تحت تاثیر خود قرار دهند. برخی از این عوامل عبارتند از:

گروه یا نوع مشتری
نوع خدمات
نوع محصول خریداری شده
کانال توزیع
Promotion
سابقه مشتری (که خود می تواند شامل فیلدهای مختلفی باشد مانند مبلغ آخرین خرید، مجموع خریدهای انجام شده، متوسط فاصله بین خریدها و …)

عوامل غیرمستقیم آنهایی هستند که به نظر میرسد مرتبط با رضایت مشتری باشند ولی لزوما به صورت مستقیم و شفاف شاید رضایت را تحت تاثیر قرار ندهند. برخی از این عوامل عبارتند از:

سن یا تاریخ تولد
درآمد
محل زندگی
جنسیت
تحصیلات

در رابطه با هر موضوع مورد تحلیل و داده کاوی بایستی ابعاد( Dimensions) یا همان جنبه (Aspect) را مورد واکاوی و کنکاش قرار داد. در این مثال باید جنبه های مختلف راجع به مشتری را پوشش دهیم. نباید فقط راجع به یک بخش از تعامل مشتری، دیتا جمع کرده باشیم و خود را محدود به یک جنبه از مشتری (مثلا فقط خدمات و محصولاتی که از ما گرفته است) بنماییم. درصورتیکه جنبه های دیگر مثل: ارتباط با مشتری، پشتیبانی، پاسخگویی به سوالات، در فیلدهای اطلاعاتی قابل کاربرد و مطالعه و بررسی می باشند. این تنوع فیلدهای مورد بررسی کمک می کند تا جنبه ها و رویه های مختلف مرتبط با مشتری را بتوانیم در حین تحلیل و بررسی و داده کاوی مورد نظر داشته باشیم مثلا فیلدهای مربوط به شکایت مشتری، یا یک استثناء که مثلاً محصول را مرجوع می کند. (آیا مشتری به راحتی می تواند کالا را مرجوع کند؟) بهترین حالت این است که در این مثال داده های مورد جمع آوری کل چرخه عمر مشتری (Life Cycle) را پوشش دهد.

موضوع دیگر، زمان (Time) است. داده هایی که جمع می کنیم مربوط به یک زمان می شوند یعنی بر اساس داده های موجود در سازمان در حال حاضر نسبت به جمع آوری داده ها اقدام می شود. این موضوع تشکیل دهنده دیتای اولیه برای شروع کار پروژه داده کاوی می شود. اما فرد تحلیلگر باید توصیه هایی( Recommendations) برای آینده نیز داشته باشد و لزوما خود را محدود به داده های موجود در زمان حاضر ننماید. یعنی مشخص نماید که سازمان برای افزایش غنای تحلیل های کاربردی و یافته های حاصل از بکارگیری تکنیک های یادگیری ماشین و داده کاوی، تهیه زیرساخت، جمع آوری و انبارش چه نوع داده های دیگری را باید در دستور کار خود قرار دهد. این امر موجب می شود تا در زمان Data Gathering درآینده، دیتاهای جدیدی را داشته باشید تا بتوانید تحلیل های قوی تری را ارایه دهید. بهترین حالت این است که در این فاز یک رویه برای جمع آوری داده (Data Collection Procedure) در اختیار سازمان قرار گیرد.

همچنین بایستی موضوعاتی است که به Domain آن مسئله یا موضوع ربط دارد را نیز در جمع آوری داده مد نظر داشته باشیم. مثلاً در مورد تحلیل داده مشتری در محیط CRM، سه گروه داریم که می توانیم در فیلدها بیاوریم:

گروه ۱- ویژگی های دموگرافیک مشتری (علایق مشتریان، روحیات آنها و سبک زندگی مشتریان)

گروه ۲- ویژگی های رفتاری مشتریان

گروه ۳- ویژگی های تعاملی مشتریان

موضوع بعد، زمینه (Context) است که مشتری در آن محیط قراردارد و باید اطلاعات مربوط به زمینه را نیز مد نظر داشته باشیم.

مثال: اگر راجع به نگهداری و تعمیرات دیتا جمع می کنیم (خرابی ماشین آلات) چه حالاتی و چه گروههایی را باید پوشش دهیم؟

پاسخ: چند نوع نت داریم:

پیشگیرانه PM
پیشگویانه
نت اضطراری EM
نت اصلاحی
تعمیرات اساسی

پس گروههای فوق را باید مد نظر قرار داده و یکد کار تیمی انجام شود تا به دانش فنی متناسب با موضوع برسیم و ویژگی هایی (Features) را داشته باشیم که از جنبه های محتلف، Context موضوع مورد بررسی در پروژه داده کاوی را پوشش دهد.

تا اینجا در رابطه با کیفیت ویژگی ها (Features)، صحبت شد. در رابطه با کمیت ویژگی ها (Features)، چه باید گفت؟ آیا هرچه دیتای بیشتری جمع کنیم بهتراست یا نه؟ مثلاً در شناسایی عوامل موثر بر رضایت مشتری آیا دیتای بیشتری جمع کنیم بهتر است یا خیر؟ چون پروژه خیلی باز است و محدودیت ندارد پس هرچه عوامل بیشتری را در فیلدهای جدول داشته باشیم، مناسب است. البته باید دیتاها مرتبط باشند و چیزهایی که حدس می زنیم روی رضایت مشتری تاثیر دارند را در فرآیند جمع آوری و پردازش داده وارد نماییم.

یکی از اهداف پروژه های داده کاوی، شناسایی آن چیزهایی هست که در مرحله اول شاید به نظر نیایند. چیزهایی که نمی دانیم بر روی رضایت مشتری تاثیر دارند یا اینکه نسبت به کم و کیف و چگونگی و شدت و ضعف تاثیرگذاری آن بر روی فیلد هدف مورد بررسی (که در این مثال فیلد هدف رضایت مشتری می باشد) اطلاعات و دانش کافی نداریم. در این مواقع نیاز داریم تا به طور کمی یا تفسیری برای سوالات خود پاسخ های مناسبی پیدا نماییم. چرا که بعضی وقت ها می دانیم تاثیر می گذارد ولی مشتریان سازمانی از شما انتظار دارند تا بگویید که چطور تاثیر می گذارد؟ و شیوه این ارتباط و تاثیرگذاری را بیان نمایید. این چیزی است که در تحقیقات آکادمیک و دانشگاهی هم ظهور و بروز خاصی دارد. مثلا در فصل های ۴ و ۵ رساله یا پایان نامه ها اعلام لیست موارد موثر معمولا کافی نیست و باید شیوه و اینکه چگونه تاثیر می گذارد نیز شفاف شود. سپس بایستی در یک چارچوب سیستماتیک راهکار مشخص شده و ابعاد مختلف و چگونگی بهره گیری از تحلیل های بدست آمده در عمل نشان داده شود.

دقت شود که برخی اوقات خروجی های پروژه داده کاوی شامل موضوعاتی می شود که از قبل به ذهن می رسیدند و در رابطه با آنها اطلاعاتی داشتیم. در این مواقع نقش خروجی های پروژه تاییدی بر یافته ها و تصورات و بینش و دانش قبلی خبرگان موضوع می باشد. اما این موضوع کافی نبوده و بایستی در تحلیل های مبتنی بر یادگیری ماشین و داده کاوی تلاش شود تا دانش قبلی تعمیق شده و ابعاد جدیدی برای مشتریان تحقیق آشکار گردد. چرا که پروژه را انجام می دهیم که خیلی چیزهایی را که نمی دانیم مشخص شوند. مثلا اینکه چطوری تاثیر در کارها رخ می دهد؟ این عامل روی آن عامل چطوری تاثیر می گذارد؟ اگر فقط مسائلی که استفاده کنندگان از نتیجه تحقیق می دانند بازگو شوند وجهه جالبی نداشته و علاوه بر هدر رفت منابع سازمان موجب می شود تا تصور غلطی در رابطه با میزان اثربخشی بهره گیری از تکنیک های هوشمند تحلیل داده در سازمان هدف صورت گیرد. این امر موجب می شود تا سازمان به ناحق از منافع آتی بهره گیری از تحلیل های داده ای هدفمند و هوشمند محروم شود. مشتریان و خبرگان مخاطب شما مایلند تا شما به آنها راهکارهایی دهید که از قبل برای آنها ابعاد و زوایای آن مشخص نبوده است.

متاسفانه خیلی از اوقات مشاهده می شود که در پروژه های داده کاوی چیزهای کلی گفته می شود که خود سازمان هم می دانسته است. مثلاً میگویند:

مشخص شد که این سازمان باید در رابطه با رضایت مشتری، از این به بعد داده ها را جمع آوری و بصورت سیستماتیک سازماندهی کند،
ما پیشنهاد می دهیم که این سازمان هر ۵ سال یک بار پروژه داده کاوی رضایت مشتریان را تکرار کند.

موارد فوق نمونه ای از چیزهای خیلی کلی بوده است که خود آن سازمان هم آنها را می دانسته است.

به عنوان مثال به طور قطع می دانیم که کیفیت پاسخگویی پرسنل مرکز تماس بر روی رضایت مشتری تاثیر می گذارد، پس صرفا به این اکتفا نکنید که این موضوع بدیهی را در گزارش پروژه بیاوریم چرا که همه آن را می دانند. در صورتیکه باید همین مطلب واضح را آورده ولی در ادامه به تفسیر آن بپردازید و بگویید که چطوری تاثیر دارد و چه میزان تاثیر دارد؟ (آن را کمی کنید). برای تاثیرگذاری، راهکار مشخص بدهید. مثلاً بگویید: برای پرسنل امور مرکز تماس آموزش بگذاریم، این موارد را آموزش دهیم، این موضوع ها را که مشکل داشته اند در ارزیابی عملکردشان وارد کنیم و عملکرد آنها را پایش کنیم. در این صورت پرسنل هم حساس می شوند و بهتر فعالیت می کنند. پس در گزارش خود وقتی در رابطه با موارد بدیهی هم می خواهید صحبت کنید ارزش افزوده پروژه را در رابطه با آنها شفاف نمایید. مثلاً بگویید قبلاً فلان مورد بوده است اما در این پروژه، کار جدیدی انجام داده ایم و این تحلیل ها و یافته ها به آن اضافه شده اند.

یکی از موضوعاتی که در این رابطه می تواند کمک کننده باشد تعیین شاخص های کلیدی عملکرد است. مثلا در یک سازمان ایرانی میزان انتظار مشتری تا برداشتن گوشی توسط پرسنل مرکز تماس را جزو عوامل موثر بر رضایت مشتری شناسایی شده بود و پس از آن پرسنل مرکز تماس در رابطه با این شاخص توجیه شدند که تلاش نمایند تا قبل از سه بار زنگ خوردن تلفن را بردارند و این شاخص به عنوان یکی از معیارهای مورد نظر در ارزیابی عملکرد (Performance Assessment) آنان دخالت داده شد.

یکی از چالش های مطرح در فاز درک داده ها در پروژه داده کاوی این است که مشخص نماییم که بر روی جزییات تا چه حد تمرکز کنیم و تا چه میزان لازم است که در رابطه با جزییات داده جمع آوری نماییم. مثلا در رابطه با اپراتورهای مرکز تماس و پاسخگویی آنها به مشتریان این سوالات مطرح می شود که بایستی در فاز دوم الگوریتم کریسپ دی ام یعنی درک داده ها بتوانیم پاسخ مناسب و مستدلی برای آنها داشته باشیم:

چه ساعتی از روز با اپراتور صحبت کرده است؟
ساعت را بدانیم خوب است یا نه؟
دانستن زمان دقیق بر حسب ساعت و دقیقه به چه دردی می خورد؟
چطوری ساعت تاثیرگذار است؟

شاید درنگاه اول تاثیر نداشته باشد که زمان تماس مشتری با مرکز تماس یا زمان خرید وی از فروشگاه چه ساعتی بوده باشد؟ اما با نگاهی دقیق تر می توان به ابعاد و زوایای احتمالی این تاثیرگذاری بر روی رضایت مشتری پی برد. مثلاً اینکه شیفت های پرسنل ما ۸ ساعته است و شیفت صبح از ۸ تا ۱۶ می باشد. فرض کنید در خریدهای ساعت ۱۶-۱۵ رضایت مشتری پایین تر است چون پرسنل خسته بوده اند و می خواسته اند بروند. مثلاً یک مشتری ساعت ’۱۵:۵۵ وارد می شود و نمیداند که شیفت ها در حال تعویض هستند، بنابراین چون پاسخگویی خوبی نمی بیند، ناراضی می شود. پس یک سری موارد به ظاهر جزئی هم شاید تاثیرگذار باشند که باید این ها را هم موردتوجه قراردهیم که یافته های جالبی را به ما می دهد.

در فضای کنونی سیستم ها به سمت دیجیتالی شدن رفته اند و تمام داده ها ثبت می شوند (Log) و باید آنها را در Data Structure مورد نظر ثبت کرده و سپس نسبت به فراخوانی و پردازش حاصل از آنها اقدام نمایید. مثلا سیستم های آموزش الکترونیکی (LMS) که تمام فعالیت های دانشجو و استاد مانند حضورها، Log In، زمان بارگذاری تمرین ها و …. در آنها ثبت و ضبط می شود. این چنین داده هایی زمینه خوبی برای تحلیل داده بدست می دهد. ذهن ما باید در هنگام Data Gathering باز باشد تا بتوانیم ابعاد و جنبه های مختلف را به خوبی در یک ساختار یکپارچه و بهم پیوسته در نظر داشته باشیم.

سوال: حال یک سوال مهم مطرح می شود. عوامل نامرتبط بودنشان فایده دارد یا خیر؟ عواملی که تاثیرشان کم هستند، آیا بیاوریم؟ مثلاً ۶۰-۵۰ تا فیلد داشته باشیم، نظرتان چی هست؟

پاسخ: با یک سری تست های آماری در شروع کار می توانیم ویژگی های نامرتبط را شناسایی و آنها را جدا کنیم. در واقع این کار یکی از اقدامات مربوط به فعالیت کلیدی انتخاب ویژگی (Feature Selection) است. حتی با یک Correlation ساده با ابزارها و نرم افزارهای داده کاوی هم می توان نسبت به انتخاب و جداسازی ویژگی ها اقدام نمود. بخصوص وقتی دامنه پروژه شما باز تعریف شده باشد و عوامل موثر طیف وسیعی را دربرداشته باشند انجام فعالیت انتخاب ویژگی به شکل صحیح و اصولی از اهمیت ویژه ای برخوردار است. فراموش نکنید که فلش معکوس و رابطه برگشتی بین فازهای اول و دوم الگوریتم کریسپ دی ام برقرار است. یعنی می توانیم هرجا که لازم شد به فاز اول برگشته و مشخص کنیم که بیشتر روی چه عواملی کار کنیم بهتر است؟ و از کارفرما بپرسیم چه مشکلی پیش آمده است که شما این پروژه داده کاوی را تعریف کرده اید؟

بعد از ویژگی ها (Features) که مربوط به ستون ها (Fields) است، موضوع سطرهای جداول بانک اطلاعاتی (Records) بررسی و توضیح داده می شود.

سوال: درعوامل موثر در رضایت مشتری در مثال قبل که فیلدهای اطلاعاتی مشخص شد، چند رکورد داشته باشیم بهتراست؟ چقدر داده جمع کنیم بهتر است؟ مربوط به ۱۰هزارمشتری یا ۲۰ هزار مشتری یا بیشتر؟

پاسخ: در ابتدا باید مشخص کنیم چندتا مشتری داریم؟ مثلاً اگر ۵ میلیون مشتری داریم و اطلاعات ۱۰ هزار نفر را جمع کرده ایم آیا کافی است و یا اینکه بهتر است اطلاعات کل مشتری ها را جمع کنیم؟ این یک سوال کلیدی است که داده چند رکورد از این ۵ میلیون مشتری را باید جمع کنیم و مورد پردازش قرار دهیم؟ در بحث های آماری حداقل هایی از منظر نمونه گیری (مانند جداول مورگان) مطرح می شود که اگر گوشه ذهن داشته باشیم خوب است چرا که به ما می گوید که به ازای جامعه، حداقل یک نمونه چندتایی باید داشته باشیم؟ البته باید در نظر داشته باشیم که در حین انجام یک پروژه داده کاوی بحث نمونه گیری از نوع مباحث مطرح در آمار توصیفی مد نظر نیست. در پروژه داده کاوی طبیعتا در صورت در اختیار داشتن ظرفیت ها و امکانات محاسباتی مناسب، هر چه قدر داده بیشتری در دسترس باشد بهتر است (مگر در موارد خاص). در سالهای اخیر هم بحث کلان داده ها (Big Data) در راستای پاسخگویی به نیاز به پردازش حجم عظیم داده ها شکل گرفت و توسعه پیدا کرد.

باید توجه داشته باشیم که در پروژه های داده کاوی و یادگیری ماشین محدودیت صرفا در نبود و فقدان داده ها نیست. خیلی از اوقات داده موجود است اما امکان دسترسی تیم تحلیل گر به این داده ها به دلایل مختلف مقدور نیست. معمولا همواره یکی از دغدغه های تیم های تحلیل داده (خصوصا در هنگامی که یک پروژه با زمان بندی مشخص و محدود تعریف شده باشد) اخذ داده های مناسب می باشد. در این راستا بایستی ابتدا خود به این سوال کلیدی پاسخ دهیم که چه دیتاهایی را باید از کارفرما بگیریم تا بتوانیم طیف های مختلف نیازهای مطرح شده (که عمدتا در فاز اول الگوریتم کریسپ دی ام یعنی درک و فهم کسب و کار مشخص شده اند) را پوشش دهیم؟ در صورت انتخاب یک نمونه از کل جامعه در دسترس باید در نظر داشت که دیتاهای جمع آوری شده تصویر مناسبی از کل داده های موجود را ارایه دهند. یعنی تا حد امکان سعی کنیم تنوعی که درون ویژگی ها (Features) وجود دارد، در حین نمونه گیری حفظ شود. برخی از مصادیق این موضوع به صورت زیر می باشند:

مثلاً در تنوع استانهای محل زندگی مشتریان، نمونه از همه استان ها داشته باشیم.
هر دو جنسیت زن و مرد در نمونه باشد.
نمونه ها از تاریخ انجام همه نظرسنجی ها باشد.
یا فرض کنید رتبه اعتباری مثلاً در سه رنگ سبز، زرد و قرمز تعریف شده است. پس در نمونه گیری از هر سه رنگ داشته باشیم. نه اینکه فقط مشتریان با رنگ سبز آورده شده باشند.

پس در فیلدهای اطلاعاتی موجود، Valueهای که هر فیلد اختیار می کند را در نظر داشته باشیم و در نمونه اخذ شده از همگی آن Valueها مقادیر موجود باشند. یک سطح (Level) بالاتر هم می توانیم برویم و آن حفظ ترکیب و تنوع موجود در داده ها است. مثلاً فرض کنید که در کل دیتاست در دسترس، ۴۰%سبز، ۲۰%قرمز و ۴۰%زرد می باشند. بهترین حالت این است که در داده های نمونه ای اخذ شده از این دیتاست نیز این ترکیب و درصدها تا حد امکان حفظ شوند. یعنی تا حد امکان میزان رکوردهای دارای فیلد اعتباری سبز، قرمز و زرد به ترتیب به اعداد ۴۰، ۲۰ و ۴۰ درصد نزدیک باشند. اگر این موضوع رخ دهد می توانیم بگوییم که به تحقق ضرب المثل «مشت نمونه خروار» خیلی نزدیک شده ایم.

تقسیم بندی ویژگی ها (Features)

سوال: سوالی که در این رابطه مطرح می شود این است که چگونه ویژگی ها (Features) را تقسیم بندی کنیم؟

پاسخ: ستون ها (Fields) از یک زاویه به ۲ دسته تقسیم می شوند:

ویژگی هایی که تبیین کننده ابعاد مختلف مربوط به (Goal) ما می باشند. مثلاً فیلد کاهش مصرف انرژی ارتباط مستقیمی با موضوع تحلیلی مورد نظر تحت عنوان مصرف حامل های انرژی دارد.
ویژگی هایی که موثر بر روی هدف می باشند. مثلاً مساحت ساختمانها، تعداد افراد ساکن یا نوع عایق کاری سقف و دیواره ساختمانها که می توانند روی مصرف حامل های انرژی موثر باشند.

این دو دسته باید در Data Set ما مدنظرقرارگیرد.ارتباط بین این ۲ دسته و فیلدها را بررسی می کنیم. این موضوع مبنای خوبی را فراهم می نماید چون ذهنیت اولیه ای به ما می دهد که آیا Data Set از جامعیت خوبی برخورداراست یا نه؟

ستون ها(Fields) از زاویه ای دیگر به ۲ دسته دیگر تقسیم می شوند:

کنترل پذیر
کنترل ناپذیر

به عنوان مثال اگر راجع به مشتریان دیتا جمع آوری کردیم برخی از ویژگی ها را نمی توان تغییرداد، مثل: سن مشتری، محل سکونت مشتری که اینها را به عنوان غیرکنترل پذیر در نظر می گیریم. اما یک سری ویژگی توسط سازمان قابل تغییر می باشند، مثل تخفیف های ارایه شده به مشتری یا تغییر بازه زمانی خرید برای مشتری، که کنترل پذیر نامیده می شوند. این تقسیم بندی از آن جهت حا‌ئز اهمیت است که یک سری سیاست ها و متغییرهایی که دست ماست و می توانیم به کمک آنها روی مشتری اثر بگذاریم را شناسایی می کند. این موضوع شامل جاهاییکه می شود که فکر میکنیم و بررسی میکنیم و می خواهیم راهکار بدهیم و این دغدغه را داریم که آیا آخر پروژه خروجی قابل قبولی خواهیم داشت یا خیر؟ این جز مواردی است که به تیم پروژه کمک کرده و احتمال حصول به کیفیت بالاتر را افزایش می دهند.

می دانیم که فاز آخر CRISP-DM اجرا است، می توانیم از فاز ۲ زمینه چینی اجرا (Deployment) را انجام دهیم. مثلاً می گوییم با اعمال این فعالیت ها (Actions) می توانیم روی این متغیرهای کنترل پذیر، تاثیر بگذاریم. یعنی همیشه یک سری متغییر در Data Set داشته باشیم که بتوانیم آنها را تغییردهیم و Action Plan پیشنهادی خود را بر اساس تغییر روی یک یا چند متغیر قابل کنترل، تعریف و ارایه دهیم.

اگر دسته بندی های فوق را به حالت ضربدری (Cross) بنویسیم ۴ حالت زیر را داریم:

ویژگی هایی که ارتباط مستقیم با هدف دارند و قابل کنترل هستند.
ویژگی هایی که موثر بر هدف بوده و قابل کنترل هستند.
ویژگی هایی که ارتباط مستقیم با هدف دارند و غیرقابل کنترل هستند.
ویژگی هایی که موثر بر هدف بوده و غیرقابل کنترل هستند.

یکی دیگر از موضوعات مهم در فاز ۲ این است که باید ویژگی ها (Features) را به صورت کامل و شفاف تعریف کنیم. در واقع در اینجا به بحث فراداده (Meta Data) می رسیم. یعنی در ارتباط با خود دیتاها بطور کامل هر فیلد اطلاعاتی را تشریح کرده و ابعاد آن Data Set را معرفی می کنیم که شامل موارد زیر می شود:

فرمت (Format) : مثلاً سن را تشریح می کنیم که آیا بر اساس سال است یا براساس ماه؟ سن را به سمت بالا گرد میکنیم یا به سمت پایین؟ فرمت استانداردی را باید رعایت کنیم؟
نوع (Type): نوع ویژگی را باید توضیح دهیم. مثلاً اعشاری هست؟ تا چندرقم اعشاری هست؟
مقدار (Value): این ویژگی، چه مقادیری را به خود اختصاص می دهد. مثلاً مقادیر ۷ سال الی ۸۰ سال برای مشتری در نظرگرفته شده است.

در ادامه بحث های آمار توصیفی مثل مد ، میانه،واریانس را باید درباره هر ستون توضیح دهیم. شاخص های آماری دیگر مثل نحوه توزیع داده ها در چارک ها، دهک ها، صدک ها هم می تواند کمک کننده باشد. مثلاً اگر بدانیم که ۱۰% از داده ها مربوط به مشتریان با سن کمتر از ۳۰ سال است، ذهنیت و جهت گیری فکری خیلی خوب و متناسبی را به ما میدهد. این گام اول است که برای هر ویژگی F1,F2,F3,…. جداگانه توضیحاتی طبق موارد بالا ارایه می کنیم.

گام دوم تبیین ارتباطات بین فیلدها است. یعنی بین F1,F3 یا بین F2, F3,F5 چه ارتباطاتی وجود دارد؟ چه ابزارهایی به این موضوع کمک می کند؟ بطور مثال Pivot Table ها برای این موضوع به ما کمک می کنند.

مثلاً در مورد سن و محل زندگی و جنسیت و ارتباط آنها با یکدیگر سوالاتی داریم، آیا در همه شهرها ارتباط یه همین گونه هست که مثلاً ۱۰% از مشتریان زیر ۲۰ سال هستند؟ و اگر ۴۰% از آنها در تهران، خانم هستند آیا در شهرهای دیگر هم همین درصد خانم هستند؟

برای پاسخگویی به سوالات فوق می توان از این راهکارها بهره جست:

استفاده از فیلتر (Filter): در مثال بالا میتوان روی استان فیلتر کرد و در استان مورد نظر مثلا البرز، تعداد زن و مرد را به تفکیک نوشت و درصد گیری کرد که بسیار وقت گیر است.
استفاده از پیوت (Pivot): با انتخاب دو آیتم جنسیت و استان محل زندگی مشتری از ابزار pivot table استفاده کرده و به سرعت تمام اطلاعات مورد نظر استخراج می شوند. در این هنگام متوجه می شویم که حتماً ضرورتی به استفاده از تکنیک های پیچیده برای حصول نتیجه نیست و حتی با ساده ترین ابزارها نیز می توان اطلاعات بسیار خوبی بدست آورد.

تحلیل اکتشافی داده ها EDA (Exploration Data Analysis)

تحلیل اکتشافی فعالیت بسیار مهمی در فاز دوم است چرا که در اینجا می توان بسیاری از برداشت های تحلیلی خوب را کسب نموده و آنها را در گزارش پروژه منعکس نمود. مثلاً اینکه گفته شود استان البرز کمترین میانگین سن مشتریان را دارد و ریشه یا Cause نیز به صورت تحلیلی بحث شود. با این کار ، سرمایه گذاری خوبی برای ادامه پروژه می شود و دید خوبی به دیگران می دهد.خیلی وقت ها ارتباطات جالب و ارزشمندی بین ویژگی ها (Features) و اثرات (Effects) در این بین آشکار می شود. در هنگام انجام تحلیل اکتشافی نیز توصیه می شود که به صورت موثر و هدفمند از Pivot Tables برای بررسی ارتباطات و کیفیت اثرگذاری و تحقق پیامدهای مرتبط با فیلدها، بهره گرفت.

نکته: روی بحث ارتباط تاکیدشد و تاثیرگذاری های فیلدها، یک سری فیلدها مرتبط با هدف اصلی و یکی سری هستند که تاثیر می گذارند.خوب است که یکی از آنها که مرتبط و اصلی هست انتخاب شود و دیگری یکی از انها که تاثیر می گذارند انتخاب شود. باید هوشمندانه عمل شود. به این منظور تقسیم بندی های صورت گرفته بر روی ویژگی ها می تواند مورد نظر باشد. یکی از کارهایی که در این باره می توان انجام داد بررسی ارتباط بین متغیرهای بحث کنترل پذیر و کنترل ناپذیر است. مثلا بررسی ارتباط بین مثل محل زندگی مشتریان (که در کنترل ما نیست) با میزان تبلیغات شرکت (که در کنترل ما است) می تواند به ما ذهنیت بدهد. در کل انجام EDA هوشمندانه قبل از اینکه از الگوریتم های پیچیده استفاده کنیم، در بسیاری از مواقع راهگشا بوده و ذهنیت خوبی را در اختیار تیم پروژه قرار می دهد.

همچنین باید توجه داشته باشیم که فازهای مختلف در CRISP-DM در هم تنیده و به هم پیوسته می باشند و بین آنها مرز و دیوار بتنی وجود ندارد. در نتیجه در فاز ۲ در حین تحلیل و بررسی ارتباطات بین فیلدها و ویژگی ها (Features) باید از اطلاعات حاصله از شناخت کسب و کار (Business Understanding) به خوبی بهره برد. این موضوع برای تضمین موفقیت پروژه و اثربخشی آن بسیار کلیدی و مهم است. در تشریح فیلدها در فاز ۲ باید به اهداف و معیارهای گفته شده در فاز ۱ توجه تام داشته باشیم. همچنین عکس این موضوع نیز ممکن است رخ دهد. مثلا وقتی در فاز ۲ هستیم با یک فیلد جدیدی مواجه شویم که قبلاً در فاز ۱ به آن توجه نداشته ایم. در این صورت محتمل است که مجدد به فاز ۱ برگشته و اهداف و معیارهای مرتبط با موثر بر این فیلد جدید کلیدی را مورد بازنگری قرار دهیم.

مثلاً فرض کنیم که در رابطه با میزان استفاده مشتری از خدمات بانک در فاز اول بحث ها و تحلیل هایی داشتیم. حال که به فاز دوم رسیده ایم متوجه می شویم که بایستی خدمات را به دو شکل حضوری و غیرحضوری تعریف کنیم. بر این اساس و با فرض دردسترس بودن داده های مربوط به هر دو نوع خدمت در بانک، می توان به فاز۱ برگشت و یکسری هدف (Goal) جدید تعیین کرد یا تغییری در شناخت کسب و کار (Business Understanding) بوجود آوریم و ممکن است از آن استفاده های خیلی خوبی بکنیم و بعد دوباره به فاز ۲ می رویم. بر اساس چیزی که در فاز ۲ اتفاق می افتد می توانیم به فاز ۳ الگوریتم کریسپ دی ام (یعنی پیش پردازش) برویم. ورودی فاز ۲ به فاز ۳، خود Data هست و می توان از آن بهره برد.

رای دادن به این post

داده کاوی

فاز دوم الگوریتم داده کاوی کریسپ دی ام: شناخت داده (Data Understanding)

Total Manager

دیدگاهتان را بنویسید لغو پاسخ