واریانس تجمعی

ش

در این مقاله به بحث واریانس تجمعی پرداخته می شود و تلاش می شود تا به سوالات زیر پاسخ داده شود:

  • مفهوم واریانس تجمعی چیست؟
  • کاربرد آن به چه صورت می باشد؟
  • شیوه درست استفاده از واریانس تجمعی چگونه است؟

مفهوم واریانس تجمعی

واریانس تجمعی در تکنیک تحلیل مولفه های اصلی (Principal Component Analysis=PCA) مورد نظر قرار می گیرد. به این منظور برای هریک از مولفه های عددی مورد مطالعه بر اساس محاسبات مبتنی بر مقادیر ویژه و بردار مقادیر ویژه، واریانس هریک از مولفه ها (فیلدهای اطلاعاتی مورد نظر) بدست می آید. در جدول زیر یک مثال از محاسبه واریانس تجمعی برای ۱۰ مولفه ارائه شده است:

1

ستون های جدول فوق عبارتند از:

ستون Component (مولفه): مربوط به ۱۰ مولفه مورد مطالعه است.

ستون Total: واریانس داده های مربوط به هریک از ۱۰ مولفه در این ستون آورده شده است. باید توجه نمود که مولفه ها بر حسب مقادیر این ستون به صورت نزولی (از بزرگ به کوچک) سورت (مرتب) شده اند.

ستون of Variance (درصد از واریانس): مربوط به نسبت واریانس هر مولفه تقسیم بر مجموع کل واریانس ۱۰ مولفه می باشد. به عنوان مثال در مورد مولفه شماره ۱ (که در سطر اول ارائه شده است) مقدار واریانس این مولفه یعنی ۵.۹۹۴ تقسیم بر مجموع کل واریانس ۱۰ مولفه شده و مقدار آن به صورت نسبت و بر حسب درصد که معادل با ۵۹.۹۳۸ درصد گردیده، در جدول ذکر شده است. به صورت مشابه برای مولفه های بعدی نیز این عملیات انجام شده است.

ستون Cumulative (تجمعی): که برای هر مولفه مجموع ستون درصد از واریانس کل (ستون سوم) برای آن مولفه و مولفه های قبلی آن می باشد. به عنوان مثال برای مولفه اول مقدار تجمعی برابر با خود مقدار ستون درصد از واریانس شده که برابر با ۵۹.۹۳۸ درصد می باشد. اما برای مولفه دوم برابر با جمع مقادیر درصد از واریانس مولفه های اول و دوم یعنی مجموع ۵۹.۹۳۸ و ۱۶.۵۴۵ شده که برابر با ۷۶.۴۸۲ درصد می گردد. برای مولفه های بعدی نیز به همین صورت مقادیر واریانس تجمعی در این ستون محاسبه شده است.

کاربرد واریانس تجمعی

کاربرد اصلی واریانس تجمعی در تکنیک تحلیل مولفه های اصلی (Principal Component Analysis=PCA) برای انتخاب مجموعه ای از مولفه ها به منظور ساده سازی و کاهش ابعاد مساله مورد بررسی در تحلیل داده ها می باشد. یعنی در این مثال هدف از محاسبه واریانس تجمعی انتخاب مولفه های اصلی (به جای کل ۱۰ مولفه) می باشد. در این صورت به جای دخیل کردن هر ۱۰ مولفه در محاسبات و تصمیم گیری، کار تحلیل داده ها و تصمیم گیری بر اساس نتایج تحلیل داده ها بر اساس تعداد کمتری مولفه (مثلا ۳ یا ۴ مولفه) انجام می شود که پیچیدگی بسیار کمتری را در بردارد. 

شیوه استفاده از واریانس تجمعی

ستون آخر در جدول (ستون واریانس تجمعی) نشان می دهد که چند درصد از اطلاعات موجود در مولفه ها به وسیله تعداد مشخصی از مولفه ها قابل ارائه می باشند. به عنوان مثال مولفه اول حدود ۵۹ درصد از اطلاعات، مولفه اول و دوم با هم حدود ۷۶ درصد از اطلاعات، و مولفه های اول و دوم و سوم با هم حدود ۸۷ درصد از اطلاعات موجود در ۱۰ مولفه را ارائه می دهند. به بیان ساده تر اگر به جای ۱۰ مولفه، فقط ۳ مولفه اول انتخاب شوند حدود ۸۷ درصد از کل اطلاعات موجود در ۱۰ مولفه قابل انتقال بوده و فقط ۱۳ درصد (۱۰۰-۸۷=۱۳) از اطلاعات از دست می روند. بسته به هدف از تحلیل و دقت مورد نظر، تحلیل گر می تواند یک سطحی از مقدار قابل قبول را در نظر گرفته و بر اساس آن اقدام به انتخاب مولفه های اصلی نماید. به عنوان مثال اگر در این مثال ۸۰ درصد به عنوان سطح قابل قبول باشد، پس انتخاب سه مولفه از ۱۰ مولفه منطقی و معقول می باشد، چرا که سه مولفه ۸۷ درصد (بیشتر از مقدار ۸۰ درصد مورد نظر) از اطلاعات موجود در ۱۰ مولفه را منتقل (ارائه) می نمایند. 

رای دادن به این post

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.