مطالب ارائه شده برگرفته از کتاب "راهنمای آسان تحلیل آماری با SPSS" تالیف آقای"رامین کریمی" است. کپی فقط با ذکر منبع مجاز می باشد.


داده های ناقـص

هنگامی با مقادیر ناقص مواجه شده ­ایم که در یک یا چند متغیر، مقادیر معتبر برای تحلیل وجود نداشته باشد. تحلیل کردن داده­ های ناقص امری ضروری است چون ممکن است در تعمیم­ پذیری نتایج اثر منفی بگذارد. داده­ های ناقص (که به داده­ های گمشده یا بدون پاسخ هم معروف ­اند) و روش برخورد با آن از مباحث مهم در آماده سازی داده­ هاست.

داده­ های ناقص سوالاتی هستند که بی پاسخ مانده­ اند و مقدار آن­ها مشخص نیست. پاسخگوها همیشه به همه سوالات پاسخ نمی دهند، چون سهوا متوجه آن سوال نشده اند یا در مورد آن اطلاعی ندارند و یا پاسخ به آن را برای خود دردسرساز می ­دانند. مثلا ممکن است برخی افراد از اعلام سن خود یا میزان درآمد خود اجتناب کنند. ممکن است پاسخگویان اطلاع دقیقی از برخی سوالات نداشته باشند، مثلا احتمال این که برخی افراد میزان بهره هوشی خود را ندانند زیاد است. گاه نیز ممکن است پاسخگویان به دلایلی مانند عجله در پاسخ به سوالات، سهوا برخی از سوالات را بدون پاسخ بگذارند. در نتیجه وجود بی ­پاسخی در داده­ ها امری محتمل و رایج است و باید به شیوه مناسب با آن برخورد نمود.

با داده ­های ناقص چه باید کرد؟
در نخستین گام باید دانست که فرآیند گردآوری اطلاعات از پاسخگویان باید به شیوه ­ای انجام گیرد که احتمال وجود داده­ های ناقص را به حداقل ممکن برساند. با این وجود چنانچه در پژوهش خود با مسأله داده­ های ناقص مواجه شدیم می­ توانیم  روش­ های زیر را به ­کار ببریم (جهت بحث کامل­تر در مورد روش­ های برخورد با داده­ های ناقص می­توانید به کتاب پیمایش در تحقیقات اجتماعی، دی. اِی. دواس، ترجمه هوشنگ نایبی، فصل 16 مراجعه نمایید).
در برخورد با داده ­های ناقص می­توان سه روش یا راه حل را در پیش گرفت که در ادامه به توضیح هرکدام از این سه روش پرداخته­ ایم:
      1.چشم پوشی و بی­ اعتنایی به داده ناقص
      2.حذف متغیر یا پاسخگویی که دارای داده ناقص است
      3.جایگذاری داده ناقص

    1. چشم پوشی از مساله داده­ های ناقص
چنانچه نسبت تعداد داده ­های ناقص در مورد متغیر مدنظر بسیار ناچیز باشد می­ توان ساده ­ترین راه را انتخاب کرد و وجود داده های ناقص را نادیده گرفت و به ادامه تحلیل پرداخت. به عنوان یک قاعده کلی اگر داده­ های از دست رفته 5 درصد یا کمتر باشد می ­توان آن را نادیده گرفت. مثلا چنانچه 3 نفر از 100 پاسخگوی میزان تحصیلات خود را اعلام نکرده­ اند (و متغیر میزان تحصیلات از متغیرهای مهم پژوهش باشد) می­ توان آن ها را نادیده گرفت و با حجم نمونه 97 نفر به ادامه تحلیل پرداخت.

    2.حذف مورد یا متغیر
الف) حذف مورد:
 در این روش، چنانچه تعداد داده­ های ناقص کم باشد و سوالی که بی­ پاسخی در آن وجود دارد سوال مهمی در پژوهش به حساب بیاید، می ­توان اقدام به حذف آن فرد (یا پرسشنامه) کرد. در مثال کتاب، اگر یک یا چند نفر از افراد به سوالات مربوط به معدل کارشناسی و یا تعداد ساعات مطالعه (سوالات مهم پژوهش) پاسخ نداده باشند می­ توانیم این افراد یا پرسشنامه­ ها را به طور کلی از تحلیل حذف کنیم. تنها باید دقت کرد که حذف این افراد به کاهش چشمگیر حجم نمونه منتهی نشود و حذف موردها کمتر از 15 درصد نمونه کل شود. در برنامه SPSS  از دو روش برای حذف مورد استفاده می ­شود: روش حذف فهرستی[1] (لیستی) و روش حذف زوجی[2].

حذف فهرستی
 در این روش همه افرادی که دارای داده­ های ناقص هستند از تحلیل ­های آماری معیّنی حذف می­ شوند. در این روش افرادی که در هریک از متغیرها، داده از دست رفته داشته باشند، حذف می­ کنیم. در این روش، یک اندازه از دست رفته­ یِ تک، فقط در یک متغیر واحد سبب می­ شود که در مورد داده­ های آن فرد تحلیل­ های آماری انجام نشود. این روش یک عمل استاندارد در بیشتر نرم افزارهای کامپیوتری مانند SPSSاست.
از مزایای حذف فهرستی این است که این روش را می­ توان در مورد گسترده­ ای از روش های چندمتغیری (برای مثال رگرسیون چندمتغیری، تحلیل عاملی و مدل­ یابی معادلات ساختاری) به­ کار برد و این روش به طور معمول به هیچ فرمان یا محاسبات اضافی نیاز ندارد. یک نگرانی آشکار در مورد این رویکرد، از دست دادن افرادی است که به سختی و با صرف هزینه (به لحاظ وقت یا منابع دیگر) درباره آنان اطلاعات جمع­ آوری می­ شود. نگرانی دیگر، کاهش حجم نمونه است که ممکن است در نمونه­ های نسبتا بزرگ را که برای بیشتر روش ­های چندمتغیری لازم است، به نمونه­ های با حجم کوچک تبدیل کند.

حذف زوجی
در این روش، افرادی که داده­ های ناقص در یک یا دو متغیر خاص دارند، در صورتی که در سایر متغیرها اندازه­ های معتبر داشته باشند، همچنان در تحلیل باقی می ­مانند. بنابراین لازم نیست هیچ فردی به طور کامل از تحلیل­ ها حذف شود. این رویکرد خلاصه شاخص­ های آماری (برای مثال، میانگین­ ها، انحراف استانداردها، همبستگی­ ها) را برای همه موارد موجود که اندازه ­های معتبر دارند، محاسبه می­ کند. پیشنهاد می ­شود وقتی رگرسیون چندمتغیری، تحلیل عاملی یا مدل­ یابی معادلات ساختاری را انجام می­ دهیم از حذف زوجی استفاده نکنید (از روش حذف حذف فهرستی استفاده کنیم).

  •  نکته: لازم به ذکر است که برنامه SPSS به طور خودکار از روش­ های حذف فهرستی و زوجی استفاده می ­کند. بدین صورت که هنگام استفاده از آزمون­ های آماری و متناسب با نوع آزمون، اقدام به حذف داده­ های ناقص می­ کند. به عنوان مثال برنامه SPSS به­ طور پیش ­فرض از روش حذف زوجی برای همبستگی­ ها (پیرسون، اسپیرمن و...) و از روش حذف­ فهرستی برای آزمون­ های­ چندمتغیره­(رگرسیون چندمتغیره و تحلیل­ عاملی) استفاده می­ کند و نیازی به اجرای دستور حذف فهرستی یا زوجی برای این آزمون­ ها نیست.

ب) حذف متغیر:
 گاه برخی سوالات با بی­ پاسخی چشمگیری مواجه می­ شوند. چنانچه این سوال از سوالات مهم پژوهش نباشد (به عنوان نمونه متغیر درآمد در مثال کتاب) می­ توان این سوال و ستون مربوط به داده­ های آن در برنامه را از تحلیل نهایی حذف کرد. اما اگر سوالی که نسبت بی­ پاسخی زیادی دارد از سوالات مهم باشد (به عنوان مثال ساعات مطالعه)، نمی ­توان سوال را حذف کرد. در این مواقع باید با روش ­های مناسب اقدام به جایگذاری داده­ های ناقص نمود و چنانچه نتوان داده ­های ناقص را به شیوه دقیقی تخمین زد و جایگذاری کرد باید دوباره پژوهش را اجرا کرده و داده ­های لازم و مناسب را جمع­ آوری کرد.

    3.جایگذاری داده ناقص:
در روش جایگذاری، داده ناقص با مقدار یا مقادیری جایگزین می­ شود. این مقادیر به روش­ های مختلفی به دست می ­آیند. در ادامه سه روش رایج جایگذاری داده ­های ناقص را توضیح داده شده است.

  الف) جایگذاری با میانگین متغیر
در این روش، میانگین متغیری که دارای داده ناقص است را به دست می­ آوریم و سپس این مقدار میانگین کل را جایگزین مقادیر داده­ های ناقص آن متغیر می­ کنیم. در این روش یک عدد که همان میانگین کل متغیر است، جایگزین تمامی داده­ ها ناقص می شود. این روش ساده ­ترین روش در بین روش­ های جایگذاری است اما روش جایگذاری با میانگین خرده گروه­ ها بر این روش برتری دارد.

  ب) جایگذاری با میانگین خرده گروه­ ها
در این روش نمونه را برحسب متغیرهای زمینه ­ای و طبقه­ ای (مانند قومیت، جنس، تحصیلات) که همبستگی خوبی با متغیر دارای داده ناقص دارند به گروه ­هایی تقسیم می­ کنیم. سپس میانگین هر گروه را به جای مقادیر ناقص همان گروه می­ گذاریم.
فرض کنیم که ­10 نفر (شامل 3 دختر و 7 پسر) از 100 نفر به سوال مربوط به تعداد ساعات مطالعه پاسخ نداده­ اند. با استدلال منطقی و نیز با بررسی داده ­های خود به این نتیجه رسیدیم که دختران و پسران میزان مطالعه متفاوتی دارند و دختران به طور چشمگیری بیشتر از پسران در هفته مطالعه می­ کنند.
در این حالت، ابتدا با توجه به داده ­های موجود و اطلاعات مربوط به 90 نفر باقی مانده، میانگین ساعات مطالعه دختران و پسران را به طور جداگانه محاسبه می­ کنیم. سپس مقادیر به دست آمده از میانگین ساعات مطالعه هر گروه را با توجه به جنس پاسخگو جایگزین می­ نماییم. مثلا اگر تعداد ساعات مطالعه دختران به طور میانگین 5 ساعت و پسران 3 ساعت باشد باید عدد 5 را در گروه دخترانی که داده ناقص دارند و عدد 3 را نیز در گروه پسرانی که داده ناقص دارند قرار بدهیم.

مثال                       
در پژوهشی در بین دانشجویان مقطع کارشناسی یکی از دانشگاه­ های کشور، از آنان خواسته شد که معدل مقطع کارشناسی خود را بیان کنند. تعداد 100 نفر از دانشجویان مقطع کارشناسی به­ طور تصادفی انتخاب شدند که پاسخ آنان به متغیر معدل کارشناسی وارد برنامه شد. جدول فراوانی داده ­ها نشان داد که 2 مورد داده ناقص در معدل کارشناسی وجود دارد و دو نفر به سوال مربوط به معدل پاسخ نداده­ اند. در اینجا قصد داریم 2 مورد داده ناقص را با روش­ های مختلف جایگذاری کنیم.

2 نفر از 100 نفر به سوال مربوط به معدل کارشناسی پاسخ نداده ­اند، و ما با دو داده ناقص یا بدون پاسخ مواجه ایم. چون درصد بی ­پاسخی کمتر از 5 درصد کل است (2 درصد است)، در نتیجه می ­توانیم از داده­ های بدون پاسخ چشم ­پوشی کرده و با باقی داده­ ها که 98 مورد می ­شود به تحلیل­ ها ادامه دهیم. در این­جا چون هدف، آموزش جایگزینی داده های ناقص با مقادیر معتبر است اقدام به جایگزینی دو مورد فوق با روش­ های ذکر شده می­ کنیم. در اینجا با دو روش جایگزینی با میانگین متغیر و با میانگین خرده گروه­ ها اقدام به جایگزینی داده­ های بدون پاسخ می­ کنیم.

روش اول: جایگزینی با میانگین متغیر
در این روش میانگین کل معدل کارشناسی 98 نفری که به این سوال پاسخ داده ­اند محاسبه شده و جایگزین داده­ های ناقص می شود. در این روش از دستور جایگذاری مقادیر ناقص استفاده می­ کنیم.

برای مطالعه بیشتر لطفا فایل زیر را دانلود کنید.

دانلود فایل PDF متن کامل

 

مطالب ارائه شده برگرفته از کتاب "راهنمای آسان تحلیل آماری با SPSS" تالیف آقای"رامین کریمی" است. کپی فقط با ذکر منبع مجاز می باشد.

 

 


[1]Listwise
[2]Pairwise