عنوان مقاله :
رگرسيون خطي، نرمال بودن توزيع مقادير خطا يا نرمال بودن توزيع متغير وابسته؟
عنوان فرعي :
Letter to editor
پديد آورندگان :
بهنامفر، رضا نويسنده دانشجوي دكتراي مديريت آموزشي، كارشناس مركز مطالعات و توسعه آموزش علوم پزشكي، دانشگاه علوم پزشكي شهيد صدوقي يزد، يزد، ايران. Behnam far, Reza , راستي، اعظم نويسنده كارشناس ارشد ژنتيك انساني، دانشگاه علوم پزشكي شهيد صدوقي يزد، يزد، ايران. Rasti, Azam
اطلاعات موجودي :
ماهنامه سال 1394 شماره 76
چكيده فارسي :
يكي از پركاربردترين روشهاي آماري براي تجزيه و تحليل دادهها در علوم مختلف، رگرسيون خطي ساده يا چندگانه است. در تحليل رگرسيون نوع روابط متغيرها و اين كه آيا يك متغير ميتواند در متغير ديگر تاثيرگذار باشد يا خير، بررسي ميشود(1). به عبارتي چنين بيان شده كه "كاربرد اصلي رگرسيون خطي، تعيين عوامل موثر بر يك متغير عددي است كه توزيع نرمال دارد"(2). براي استفاده از اين روش آماري، پيش فرضهايي ذكر گرديده است: 1. خطي بودن رابطه متغيرهاي مستقل و وابسته 2. نرمال بودن توزيع مقادير خطا 3. استقلال مقادير خطاها و 4. نرمال بودن توزيع متغير وابسته(1تا3).
مساله چالش برانگيز، پيش فرض نرمال بودن است. سوال اين است كه در واقع كدام يك بايد به عنوان "پيشفرض اوليه" استفاده از رگرسيون خطي مد نظر قرار گيرد: نرمال بودن توزيع متغير وابسته يا نرمال بودن توزيع مقادير خطا؟
همانگونه كه عنوان شد، در بعضي از منابع، نرمال بودن توزيع "متغير وابسته"به عنوان پيش شرط استفاده از رگرسيون خطي بيان شده است. اما، كياني(1) نرمال بودن توزيع متغير وابسته را "شرط لازم" براي استفاده از رگرسيون خطي ندانسته و نرمال بودن توزيع مقادير خطا را مد نظر دانسته است. به نظر ميرسد اين تحليل به واقعيت نزديكتر باشد. در منابع ديگر نيز به نرمال بودن توزيع مقادير خطا به عنوان يكي از پيش شرطهاي"اساسي" استفاده از رگرسيون خطي اشاره گرديده و همگي موافق هستند كه "در صورت عدم برقراري اين پيشگزيده، نميتوان از رگرسيون استفاده نمود"(3).
اما بحث نرمال بودن توزيع متغير وابسته را چگونه ميتوان تحليل نمود؟ بار ديگر بايد تاكيد نمود كه نرمال بودن توزيع مقادير خطا، شرط اوليه (در كنار استقلال خطاها و هم خط نبودن متغيرهاي مستقل) براي استفاده از رگرسيون خطي ساده يا چندگانه است. نرمال بودن توزيع متغير به عنوان يك شرط ثانويه و در زمان نرمال نبودن توزيع مقادير خطا مطرح ميشود و هدف از طرح آن، تلاش براي دستيابي به توزيع نرمال مقادير خطا است. كما اين كه چنين ذكر شده است كه: "در صورتي مقادير خطا توزيع نرمال نداشته باشند، آنگاه ممكن است انجام تبديل در مورد متغير وابسته با روشهاي سنتي و يا روش باكس-كاكس بتواند اين مشكل را حل نمايد"(1).
همانگونه كه مشخص است، در اينجا از عبارات "ممكن" و "متغير وابسته" استفاده شده است. به اين ترتيب ممكن است حتي با وجود نرمال بودن توزيع متغير وابسته (چه از ابتدا و چه از طريق استفاده از تبديل) امكان استفاده از رگرسيون خطي (به واسطه نبود يكي از سه شرط نرمال بودن توزيع مقادير خطا، نبود هم خطي بين متغيرهاي مستقل و استقلال خطاها)فراهم نباشد. بنابراين براي استفاده از رگرسيون خطي بايد حتما توزيع مقادير خطا نرمال باشد. اگر اين پيش شرط برقرار نباشد و متغير وابسته از توزيع نرمال برخوردار باشد، شانس استفاده از اين روش آماري كاملاً از بين ميرود زيرا ديگر امكان استفاده از تبديلها وجود ندارد. در صورت نرمال نبودن توزيع متغير وابسته، اين شانس هنوز وجود دارد كه با نرمال كردن آن، احتمال نرمال شدن توزيع مقادير خطا نيز پديد آيد و بتوانيم از رگرسيون خطي استفاده نماييم. البته در صورتي كه تبديلهاي مختلف موفق به نرمال كردن توزيع متغير وابسته شوند، باز هم تضميني براي نرمال بودن مقادير خطا و امكان استفاده از روش آماري مدنظر وجود ندارد. به اين ترتيب ميتوان گفت كه نرمال بودن توزيع متغير وابسته، يك شرط اوليه نيست و صرفا ميتواند به عنوان يك شرط ثانويه و با هدف ايجاد يك شانس مجدد (با فرايند ياد شده) مدنظر قرار داشته باشد.
در واقع به نظر ميرسد بيان شرط نرمال بودن توزيع متغير وابسته براي افزايش شانس نرمال بودن توزيع مقادير خطا باشد. هر چند كه بيان آن به شكل "مطلق" باعث ميشود تا پژوهشگران كمتر آشنا به مباحث آماري (در صورتي كه تبديلها هم به آنها كمكي نكند) از رگرسيون خطي صرف نظر نموده و از روشهاي ديگري استفاده نمايند. در حالي كه ميتوانستند با بررسي سه پيش شرط اصلي و در صورت برقراري آنها (حتي با وجودتوزيع غيرنرمال متغير وابسته) از رگرسيون خطي استفاده نمايند.
متاسفانه بعضي از اساتيد آمار و اپيدميولوژي نيز نرمال بودن توزيع متغير وابسته را شرط لازم براي استفاده از رگرسيون خطي و مدل سازي از اين طريق ميدانند؛ حال آن كه همان طور كه توضيح داده شد، اين يك برداشت اشتباه و گمراه كننده است و بحث نرمال بودن، صرفا براي توزيع مقادير خطا "لازم" است.
در اينجا ذكر دو نكته كوتاه ولي مهم ديگر براي محققين عزيز كه تمايل به استفاده از رگرسيون خطي و مدل يابي از اين طريق را دارند، خالي از لطف نيست.
اول اين كه، در سراسر اين نوشته به نرمال بودن توزيع متغيرهاي مستقل اشاره نشد. زيرا اين امر، پيش شرط و لازمه رگرسيون خطي نيست.
دوم اين كه، بايد توجه داشت كه بين رگرسيون خطي چندگانه و رگرسيون چند متغيره تفاوت وجود دارد. حال آن كه به اشتباه در بسياري از كتب و مقالات به جاي استفاده از رگرسيون خطي چندگانه از رگرسيون خطي چند متغيره استفاده ميشود. "در بحث تخصصي، موقعي از رگرسيون چندمتغيره صحبت ميكنيم كه چند متغير وابسته داشته باشيم. به عبارت ديگر ميخواهيم بين يك يا چند متغير مستقل با چند متغير وابسته رابطهاي توام برقرار كنيم"(4). در حالي كه در رگرسيون خطي چندگانه، تاثير يا رابطه چند متغير مستقل و يك متغير وابسته بررسي ميشود.
براي بررسي استقلال خطاها از آزمون دوربين واتسون استفاده ميگردد. چنانچه مقدار آن در بازه 1.5 تا 2.5 قرار بگيرد به معناي عدم همبستگي بين خطاها است(3). براي بررسي هم خطي (كه نشاندهنده آن است كه يك متغير مستقل تابعي خطي از ساير متغيرهاي مستقل است)، ميتوان عامل تورم واريانس و تولرانس را محاسبه نمود. به عنوان يك قاعده كلي، تولرانس كمتر از 1/0 و عامل تورم واريانس بزرگتر از 10 نشاندهنده مشكل ساز بودن هم خطي هستند(5).
به طور خلاصه، استفاده از رگرسيون خطي منوط به نرمال بودن توزيع خطا است. در صورتي كه توزيع مقادير خطا نرمال نباشد، حتي با وجود نرمال بودن توزيع متغير وابسته، امكان استفاده از رگرسيون خطي وجود ندارد. زماني كه هم توزيع مقادير خطا و هم توزيع متغير وابسته نرمال نباشد، با استفاده از تبديلهاي مختلف براي توزيع متغير وابسته، سعي در ايجاد شانس براي نرمال كردن توزيع مقادير خطا داريم. در واقع در اين شرايط، هدف اصلي از نرمال كردن توزيع متغير وابسته، نرمال كردن توزيع خطا است.
در پايان نويسندگان از دريافت نظرات صاحبنظران در اين زمينه استقبال نموده و اميدوارند تا اين نوشتار كوتاه و نظرات احتمالي ساير نويسندگان در روشن شدن نكات مبهم استفاده از رگرسيون خطي گره گشا باشند. به هرحال، تفاسير مبهم يا نادرست سبب ميشوند تا طيف گستردهاي از پژوهشگران نتوانند از روشهاي آماري موردنظر خود استفاده نمايند.
عنوان نشريه :
مجله ايراني آموزش در علوم پزشكي
عنوان نشريه :
مجله ايراني آموزش در علوم پزشكي
اطلاعات موجودي :
ماهنامه با شماره پیاپی 76 سال 1394
كلمات كليدي :
#تست#آزمون###امتحان