شماره ركورد :
774174
عنوان مقاله :
رگرسيون خطي، نرمال بودن توزيع مقادير خطا يا نرمال بودن توزيع متغير وابسته؟
عنوان فرعي :
Letter to editor
پديد آورندگان :
بهنام‌فر، رضا نويسنده دانشجوي دكتراي مديريت آموزشي، كارشناس مركز مطالعات و توسعه آموزش علوم پزشكي، دانشگاه علوم پزشكي شهيد صدوقي يزد، يزد، ايران. Behnam far, Reza , راستي، اعظم نويسنده كارشناس ارشد ژنتيك انساني، دانشگاه علوم پزشكي شهيد صدوقي يزد، يزد، ايران. Rasti, Azam
اطلاعات موجودي :
ماهنامه سال 1394 شماره 76
رتبه نشريه :
علمي پژوهشي
تعداد صفحه :
3
از صفحه :
263
تا صفحه :
265
كليدواژه :
رگرسيون خطي
چكيده فارسي :
يكي از پركاربردترين روش‌هاي آماري براي تجزيه و تحليل داده‌ها در علوم مختلف، رگرسيون خطي ساده يا چندگانه است. در تحليل رگرسيون نوع روابط متغيرها و اين كه آيا يك متغير مي‌تواند در متغير ديگر تاثيرگذار باشد يا خير، بررسي مي‌شود(1). به عبارتي چنين بيان شده كه "كاربرد اصلي رگرسيون خطي، تعيين عوامل موثر بر يك متغير عددي است كه توزيع نرمال دارد"(2). براي استفاده از اين روش آماري، پيش فرض‌هايي ذكر گرديده است: 1. خطي بودن رابطه متغيرهاي مستقل و وابسته 2. نرمال بودن توزيع مقادير خطا 3. استقلال مقادير خطاها و 4. نرمال بودن توزيع متغير وابسته(1تا3). مساله چالش برانگيز، پيش فرض نرمال بودن است. سوال اين است كه در واقع كدام يك بايد به عنوان "پيش‌فرض اوليه" استفاده از رگرسيون خطي مد نظر قرار گيرد: نرمال بودن توزيع متغير وابسته يا نرمال بودن توزيع مقادير خطا؟ همان‌گونه كه عنوان شد، در بعضي از منابع، نرمال بودن توزيع "متغير وابسته"به عنوان پيش شرط استفاده از رگرسيون خطي بيان شده است. اما، كياني(1) نرمال بودن توزيع متغير وابسته را "شرط لازم" براي استفاده از رگرسيون خطي ندانسته و نرمال بودن توزيع مقادير خطا را مد نظر دانسته است. به نظر مي‌رسد اين تحليل به واقعيت نزديك‌تر باشد. در منابع ديگر نيز به نرمال بودن توزيع مقادير خطا به عنوان يكي از پيش شرط‌‌هاي"اساسي" استفاده از رگرسيون خطي اشاره گرديده و همگي موافق هستند كه "در صورت عدم برقراري اين پيش‌گزيده، نمي‌توان از رگرسيون استفاده نمود"(3). اما بحث نرمال بودن توزيع متغير وابسته را چگونه مي‌توان تحليل نمود؟ بار ديگر بايد تاكيد نمود كه نرمال بودن توزيع مقادير خطا، شرط اوليه (در كنار استقلال خطاها و هم خط نبودن متغيرهاي مستقل) براي استفاده از رگرسيون خطي ساده يا چندگانه است. نرمال بودن توزيع متغير به عنوان يك شرط ثانويه و در زمان نرمال نبودن توزيع مقادير خطا مطرح مي‌شود و هدف از طرح آن، تلاش براي دستيابي به توزيع نرمال مقادير خطا است. كما اين كه چنين ذكر شده است كه: "در صورتي مقادير خطا توزيع نرمال نداشته باشند، آنگاه ممكن است انجام تبديل در مورد متغير وابسته با روش‌هاي سنتي و يا روش باكس-كاكس بتواند اين مشكل را حل نمايد"(1). همان‌گونه كه مشخص است، در اينجا از عبارات "ممكن" و "متغير وابسته" استفاده شده است. به اين ترتيب ممكن است حتي با وجود نرمال بودن توزيع متغير وابسته (چه از ابتدا و چه از طريق استفاده از تبديل) امكان استفاده از رگرسيون خطي (به واسطه نبود يكي از سه شرط نرمال بودن توزيع مقادير خطا، نبود هم خطي بين متغيرهاي مستقل و استقلال خطاها)فراهم نباشد. بنابراين براي استفاده از رگرسيون خطي بايد حتما توزيع مقادير خطا نرمال باشد. اگر اين پيش شرط برقرار نباشد و متغير وابسته از توزيع نرمال برخوردار باشد، شانس استفاده از اين روش آماري كاملاً از بين مي‌رود زيرا ديگر امكان استفاده از تبديل‌ها وجود ندارد. در صورت نرمال نبودن توزيع متغير وابسته، اين شانس هنوز وجود دارد كه با نرمال كردن آن، احتمال نرمال شدن توزيع مقادير خطا نيز پديد آيد و بتوانيم از رگرسيون خطي استفاده نماييم. البته در صورتي كه تبديل‌هاي مختلف موفق به نرمال كردن توزيع متغير وابسته شوند، باز هم تضميني براي نرمال بودن مقادير خطا و امكان استفاده از روش آماري مدنظر وجود ندارد. به اين ترتيب مي‌توان گفت كه نرمال بودن توزيع متغير وابسته، يك شرط اوليه نيست و صرفا مي‌تواند به عنوان يك شرط ثانويه و با هدف ايجاد يك شانس مجدد (با فرايند ياد شده) مدنظر قرار داشته باشد. در واقع به نظر مي‌رسد بيان شرط نرمال بودن توزيع متغير وابسته براي افزايش شانس نرمال بودن توزيع مقادير خطا باشد. هر چند كه بيان آن به شكل "مطلق" باعث مي‌شود تا پژوهشگران كمتر آشنا به مباحث آماري (در صورتي كه تبديل‌ها هم به آنها كمكي نكند) از رگرسيون خطي صرف نظر نموده و از روش‌هاي ديگري استفاده نمايند. در حالي كه مي‌توانستند با بررسي سه پيش شرط اصلي و در صورت برقراري آنها (حتي با وجودتوزيع غيرنرمال متغير وابسته) از رگرسيون خطي استفاده نمايند. متاسفانه بعضي از اساتيد آمار و اپيدميولوژي نيز نرمال بودن توزيع متغير وابسته را شرط لازم براي استفاده از رگرسيون خطي و مدل سازي از اين طريق مي‌دانند؛ حال آن كه همان طور كه توضيح داده شد، اين يك برداشت اشتباه و گمراه كننده است و بحث نرمال بودن، صرفا براي توزيع مقادير خطا "لازم" است. در اينجا ذكر دو نكته كوتاه ولي مهم ديگر براي محققين عزيز كه تمايل به استفاده از رگرسيون خطي و مدل يابي از اين طريق را دارند، خالي از لطف نيست. اول اين كه، در سراسر اين نوشته به نرمال بودن توزيع متغيرهاي مستقل اشاره نشد. زيرا اين امر، پيش شرط و لازمه رگرسيون خطي نيست. دوم اين كه، بايد توجه داشت كه بين رگرسيون خطي چندگانه و رگرسيون چند متغيره تفاوت وجود دارد. حال آن كه به اشتباه در بسياري از كتب و مقالات به جاي استفاده از رگرسيون خطي چندگانه از رگرسيون خطي چند متغيره استفاده مي‌شود. "در بحث تخصصي، موقعي از رگرسيون چندمتغيره صحبت مي‌كنيم كه چند متغير وابسته داشته باشيم. به عبارت ديگر مي‌خواهيم بين يك يا چند متغير مستقل با چند متغير وابسته رابطه‌اي توام برقرار كنيم"(4). در حالي كه در رگرسيون خطي چندگانه، تاثير يا رابطه چند متغير مستقل و يك متغير وابسته بررسي مي‌شود. براي بررسي استقلال خطاها از آزمون دوربين واتسون استفاده مي‌گردد. چنانچه مقدار آن در بازه 1.5 تا 2.5 قرار بگيرد به معناي عدم همبستگي بين خطاها است(3). براي بررسي هم خطي (كه نشان‌دهنده آن است كه يك متغير مستقل تابعي خطي از ساير متغيرهاي مستقل است)، مي‌توان عامل تورم واريانس و تولرانس را محاسبه نمود. به عنوان يك قاعده كلي، تولرانس كم‌تر از 1/0 و عامل تورم واريانس بزرگ‌تر از 10 نشان‌دهنده مشكل ساز بودن هم خطي هستند(5). به طور خلاصه، استفاده از رگرسيون خطي منوط به نرمال بودن توزيع خطا است. در صورتي كه توزيع مقادير خطا نرمال نباشد، حتي با وجود نرمال بودن توزيع متغير وابسته، امكان استفاده از رگرسيون خطي وجود ندارد. زماني كه هم توزيع مقادير خطا و هم توزيع متغير وابسته نرمال نباشد، با استفاده از تبديل‌هاي مختلف براي توزيع متغير وابسته، سعي در ايجاد شانس براي نرمال كردن توزيع مقادير خطا داريم. در واقع در اين شرايط، هدف اصلي از نرمال كردن توزيع متغير وابسته، نرمال كردن توزيع خطا است. در پايان نويسندگان از دريافت نظرات صاحب‌نظران در اين زمينه استقبال نموده و اميدوارند تا اين نوشتار كوتاه و نظرات احتمالي ساير نويسندگان در روشن شدن نكات مبهم استفاده از رگرسيون خطي گره گشا باشند. به هرحال، تفاسير مبهم يا نادرست سبب مي‌شوند تا طيف گسترده‌اي از پژوهش‌گران نتوانند از روش‌هاي آماري موردنظر خود استفاده نمايند.
سال انتشار :
1394
عنوان نشريه :
مجله ايراني آموزش در علوم پزشكي
عنوان نشريه :
مجله ايراني آموزش در علوم پزشكي
اطلاعات موجودي :
ماهنامه با شماره پیاپی 76 سال 1394
كلمات كليدي :
#تست#آزمون###امتحان
لينک به اين مدرک :
بازگشت