تبلیغات
RF2268AM - مطالب آمار
پنجشنبه 7 دی 1391

رگرسیون لجستیك و سوالات

   نوشته شده توسط: عارف محمدی    نوع مطلب :آمار ،

جدول ماتریس همبستگی را ترسیم و انواع همبستگی را ذکر کنید؟

جدول ماتریس همبستگی را ترسیم و انواع همبستگی را ذکر کنید؟

قبل از پاسخ به سوال،شرح مختصری از تحلیل رابطه همزمانی متغیرها و ارائه تعریفی از رابطه متقارن و همزمانی لازم و مفید است.

*تحلیل رابطه همزمانی متغیرها:

به منظور پی بردن به رابطه بین تغییرات دو یا چند متغیر که همزمان اندازه گیری شده اند،تحلیل رابطه همزمانی مورد استفاده قرار می گیرد.برای پی بردن به میزان رابطه شاخص های همبستگی بکار برده می شود.این نوع شاخصها با توجه به مقیاس اندازه گیری متغیرها انتخاب می گردد.شاخص های رابطه میان متغیرها را به طور کلی می توان به دو دسته پارامتری و ناپارامتری تقسیم کرد.

• محاسبه همبستگی برای تحقیقات پارامتری

چنانچه دو متغیر در مقیاس‏های فاصله‏ای یا نسبی اندازه گیری شده باشند، می‌توان برای تعیین رابطه بین آنها از ضریب همبستگی گشتاوری پیرسون استفاده کرد. در محاسبه ضریب همبستگی پیرسون پیش فرض اینست که دو متغیر دارای توزیع دومتغیری بهنجار باشد. درصورتی که این پیش فرض صادق نباشد از روش های دیگری استفاده می‏کنیم که به شرح ذیل می باشد(سرمد و همکاران،1390 ،ص222).

 

جدول1- ضریب های همبستگی دومتغیری در تحلیل های پارامتری

ضریب همبستگی

نماد متغیر 1 متغیر 2 مقیاس اندازه گیری

ضریب همبستگی گشتاوری پیرسون r پیوسته پیوسته هر دو متغیر فاصله‏ای

ضریب همبستگی دورشته‏ای

دو سطحی ساختگی پیوسته یک متغیر اسمی دو سطحی و دیگری فاصله‏ای

ضریب همبستگی دورشته‏ای نقطه‏ای دو سطحی واقعی پیوسته یک متغیر اسمی دو سطحی و دیگری فاصله‏ای

ضریب همبستگی تتراکوریک

دو سطحی ساختگی دو سطحی ساختگی هر دو متغیر اسمی دو سطحی

حسین چهارباشلو دانشجوی دکتری دانشگاه خوارزمی

توسط محمد حسین ضرغامی |


سوال دوم:کوواریانس چیست؟

سوال دوم:کوواریانس چیست؟

تعریف:

کوواریانس شاخصی برای تغییرات یک متغیر با متغیر دیگر است (سرمد،1388: 80). كوواریانس مشابه واریانس است ولی در كوواریانس انحراف از میانگین را به طور همزمان برای دو متغیر X,Y محاسبه می كنیم و با رابطه زیر محاسبه می‏شود:

ویژگی ها:

با توجه به فرمول کوواریانس می‏توان گفت که مقدار کوواریانس از میزان پراکندگی داده های هر متغیر از میانگین اثر می‏پذیرد. چنانکه دو متغیر تصادفی ناوابسته باشند، کواریانس آنها صفر خواهد بود(سرمد،1388: 12). اگر نمره بالا در یک متغیر با نمره بالا در متغیر دیگر و نمره پایین در یک متغیر با نمره پایین در متغیر دیگر همراه باشد، مقدار کوواریانس مثبت (هم جهت بودن تغیرات دو متغیر) خواهد بود. از طرف دیگر اگر نمره بالا در یک متغیر با نمره پایین در متغیر دیگر همراه باشد، مقدار کوواریانس منفی (غیر هم‏جهت بودن تغیرات دو متغیر) خواهد بود (کیامنش،1387: 198) .بطورکلی در توزیع‏های دومتغیری برای توصیف رابطه میان دو متغیر از ضریب همبستگی، کوواریانس و معادله رگرسیون استفاده می‏کنیم. تحقیقات همبستگی را می توان برحسب هدف به سه دسته تقسیم کرد:

1- مطالعات همبستگی دومتغیری : به بررسی رابطه همزمانی متغیرها می پردازد.

2- تحلیل رگرسیون: به بررسی رابطه تابعی میان متغیرها می پردازد. Y= f(x) ، در این رابطه متغیرx نسبت به متغیر y تقدم زمانی دارد.

3- تحلیل ماتریس همبستگی یا کوواریانس: هدف بررسی مجموعه ای از همبستگی های دو متغیر، متغیرها در جدولی به نام ماتریس همبستگی یا کوواریانس است که تحلیل عاملی و حل معادلات ساختاری از این دسته هستند. ماتریس همبستگی از نوع تحلیل عاملی با هدف تبین تغییرات متغیرها در عامل‏های محدودتر یا تعیین خصیصه‌های زیر بنایی یک مجموعه از داده‌ها انجام می‌شود. این روش می‌تواند بر دو نوع اکتشافی (Exploratory) یا تاییدی (Confirmatory) انجام شود. در تحلیل عامل اکتشافی محقق درباره تعداد عامل‏های خصیصه فرضیه‌ای ندارد، در صورتی که برای روش تاییدی فرضیه ارائه می‌شود.

در پایان به عنوان جمع بندی می توان گفت، یکی از شاخص های عددی آمار توصیفی دو متغیری کوواریانس می باشد. کوواریانس اندازه تغییرات هماهنگ دو متغیر تصادفی است. (اگر دو متغیر یکی باشند، کواریانس برابر واریانس خواهد شد). به عبارت ساده،واریانس یعنی تغییرات اما کوواریانس یعنی تغییرات مشترک.

کوواریانس تحت تاثیر دامنه تغییرات است.از آن جا که در علوم رفتاری ما با مقیاس های-که واحد و مشترک نیستند- سرو کار داریم،نتیجه کوواریانس تحت تاثیر واحد اندازه گیری قرار می گیرد.به طور کل،نتیجه کوواریانس تحت تاثیر دامنه تغییرات و رنج می باشد.از این رو،کوواریانس ابزار خوبی برای بیان رابطه نیست.برای برون رفت از نقطه ی ضعف کوواریانس،کوواریانس را استاندارد می کنیم که در قالب فرمول ضریب همبستگی پیرسون در می آید.پس همبستگی،کوواریانس استاندارد شده است.

دومین شاخص عددی همبستگی می باشد که درباره ی آن در تکلیف شماره ی چهار پاسخ داده شد.نکته ی تکمیلی اینکه،همبستگی هم براساس میانگین و هم بر اساس انحراف استاندارد محاسبه می شود. و نمودار ون هم برای تفسیر ضریب همبستگی استفاده می شود.

حسین چهارباشلو: دانشجوی دکتری برنامه ریزی درسی دانشگاه خوارزمی

+ نوشته شده در یکشنبه 21 آبان1391ساعت 20:16 توسط محمد حسین ضرغامی | نظر بدهید


علت رخداد کجی و کشیدگی در توزیعات چیست؟ و برای برون رفت از آن چه راهکاری وجود دارد؟

علت رخداد کجی و کشیدگی در توزیعات چیست؟ و برای برون رفت از آن چه راهکاری وجود دارد؟

در نگاه نخست برای پاسخ به این سوال ،به ارائه تعریفی از توزیع نرمال،کجی و کشیدگی به ترتیب خواهیم پرداخت:

* توزیع نرمال یا متقارن توزیعی است که در آن مد، میانه و میانگین برابر است.

* در تعریف کجی باید گفت :کجی یعنی انحراف یک منحنی از حالت تقارن.کجی به سه صورت است،در حالتی کجی صفر است که منحنی متقارن باشد.در توزیعهای متقارن فاصله بین چارک اول تا میانه با فاصله بین چارک سوم تا میانه مساوی است. در حالت کجی منفی مد بزرگتر از میانه و میانه بزرگتر از میانگین است(بیانگر این است که افراد زیادی نمره ی بالایی گرفته اند و بنابراین امتحان ساده بوده است). در حالت کجی مثبت نیز میانگین بزرگتر از میانه و میانه بزرگتر از مد است(یعنی آزمون دشوار بوده است).به دیگر سخن، کجی یا چولگی زمانی ایجاد می شود که منحنی مشاهدات متقارن نباشد. اگر سمت راست منحنی مشاهدات طول بیشتری نسبت به سمت چپش داشته باشد مشاهدات کجی مثبت دارند یا چوله به راستند. در این حالت مشاهدات کوچکتر از نما (مد) تنوع عددی کمی دارند ولی فراوانی های بزرگی دارند ولی مشاهدات بزرگتر از نما تنوع عددی زیادی دارند ولی فراوانی هایشان کوچک است. اگر سمت چپ منحنی مشاهدات طول بیشتری نسبت به سمت راستش داشته باشد مشاهدات کجی منفی دارند یا چوله به چپند. این حالت عکس حالت قبل است. یعنی مشاهدات کوچکتر از نما پر تنوعند با فراوانی های کوچک و مشاهدات بزرگتر از نما کم تنوعند با فراوانی های بزرگ.

* کشیدگی:هنگامی که مقدار کشیدگی برابر صفر باشد توزیع نمره ها طبیعی است یعنی در شکل توزیع که بلند و رو به بالاست، نمرات نزدیک به هم یا یکسان می باشند و واریانس کم است.در صورتی که کشیدگی مثبت باشد برآمدگی منحنی توزیع نمره ها در نقطه اوج قرار خواهد گرفت. در شکل توزیع مسطح که کشیدگی منفی دارد، نمرات دور از هم‌ قرار دارند و واریانس زیاد است. میزان كشیدگی یا پخی منحنی فراوانی را نسبت به منحنی نرمال استاندارد، برجستگی آن می نامند. به عبارتی دیگر،کشیدگی زمانی ایجاد می شود که پراکندگی مشاهدات بیشتر از پراکندگی مشاهدات نرمال باشد که در این صورت منحنی مشاهدات پهن تر از منحنی نرمال خواهد بود و تاجش نیز پایین تر از تاج منحنی نرمال خواهد بود. از طرفی اگر پراکندگی مشاهدات کمتر از پراکندگی مشاهدات نرمال باشد منحنی مشاهدات جمع تر از منحنی نرمال و تاجش نیز بالاتر از تاج منحنی نرمال خواهد بود. حالت اول را کشیدگی مثبت و دومی را کشیدگی منفی گوییم(دلاور،1383،ص103).

 

 


ادامه مطلب

پنجشنبه 7 دی 1391

رگرسیون لجستیك

   نوشته شده توسط: عارف محمدی    نوع مطلب :آمار ،

رگرسیون لوژستیك (لوجستیك) زمانی كه متغییر وابسته ی ما دو وجهی است و می خواهیم از طریق تركیبی از متغییرهای پیش بین دست به پیش بینی بزنیم باید از رگرسیون لوجستیك استفاده كنیم. چند مثال از كاربردهای رگرسیون لوژستیك در زیر ارائه می گردد. 1. در فرایند همه گیر شناسی ما می خواهیم ببینیم آیا یك فرد بیمار است یا خیر. اگر به عنوان مثال بیماری مورد نظر بیماری قلبی باشد پیش بینی كننده ها عبارتند از سن، وزن، فشار خون سیستولیك، تعداد سیگارهای كشیده شده و سطح كلسترول. 2. در بازاریابی ممكن است بخواهیم بدانیم آیا افراد یك ماشین جدیدی را می خرند یا خیر. در اینجا متغییرهایی مانند درآمد سالانه، مقدار پول رهن، تعداد وابسته ها، متغیرهای پیش بین می باشند. 3. در تعلیم و تربیت فرض كنید می خواهیم بدانیم یك فرد در امتحان نمره می آورد یا خیر. 4. در روانشناسی می خواهیم بدانیم آیا فرد یك تكلیف را انجام می دهد یا خیر. در تمام موارد گفته شده متغییر وابسته یك متغییر دو حالتی است كه دو ارزش دارد. زمانی كه متغییر وابسته دو حالتی است مسایل خاصی مطرح می شود. 1. خطا دارای توزیع نرمال نیست. 2. واریانس خطا ثابت نیست. 3. محدودیت های زیادی در تابع پاسخ وجود دارد. مشكل سوم مطرح شده مشكل جدی است. می توان از روش حداقل مجذورات وزنی برای حل مشكل مربوط به واریانس های نابرابر خطا استفاده نمود. بعلاوه زمانی كه حجم نمونه بالا باشد می توان روش حداقل مجذورات برآوردگرهایی را ارائه می دهد كه به طور مجانبی و تحت موقعیت های نسبتا عمومی نرمال می باشند. ما در رگرسیون لوژستیك به طور مستقیم احتمال وقوع یك رخداد را محاسبه می كنیم. چرا كه فقط دو حالت ممكن برای متغییر وابسته ی ما وجود دارد. این احتمال برای زمانی كه چند متغییر مستقل وجود دارد به صورت زیر محاسبه می شود: كه در آن z تركیب خطی زیر است: دو مساله ی مهم كه باید در ارتباط با رگرسیون لوجستیك در نظر داشته باشیم عبارتند از: 1. رابطه ی بین پیش بینی كننده ها و متغییر وابسته غیر خطی است. 2. ضرایب رگرسیونی از طریق روش ماكزیمم درستنمایی برآورد می شود. رگرسیون لوژستیك از لحاظ محاسبات آماری شبیه رگرسیون چند گانه است اما از لحاظ كاركرد مانند تحلیل تشخیصی می باشد. در این روش عضویت گروهی بر اساس مجموعه ای از متغییرهای پیش بین انجام می شود دقیقا مانند تحلیل تشخیصی. مزیت عمده ای كه تحلیل لوجستیك نسبت به تحلیل تشخیصی دارد این است كه در این روش با انواع متغییرها به كار می رود و بنابراین بسیاری از مفروضات در مورد داده ها را به كار ندارد. در حقیقت آنچه در رگرسیون لوژستیك پیش بینی می شود یك احتمال است كه ارزش آن بین 0 تا 1 در تغییر است. ضرایب رگرسیونی مربوط به معادله ی رگرسیون لجستیك اطلاعاتی را راجع به شانس هر مورد خاص برای تعلق به گروه صفر یا یك ارائه می دهد. شانس به صورت احتمال موفقیت در برابر شكست تعریف می شود. ولی بدلیل ناقرینگی و امكان وجود مقادیر بی نهایت برای آن تبدیل به لگاریتم شانس می شود. هر یك از وزن ها را می توان از طریق مقدار خی دو كه به آماره ی والد مشهور است به لحاظ معناداری آزمود. لگاریتم شانس، شانسی را كه یك متغییر به طور موفقیت آمیزی عضویت گروهی را برای هر مورد معین پیش بینی می كند را نشان می دهد. به طور كلی در روش رگرسیون لجستك رابطه ی بین احتمال تعلق به گروه 1 و تركیب خطی متغییرهای پیش بین بر اساس توزیع سیگمودال تعریف می شود. برای دستیابی به معادله ی رگرسیونی و قدرت پیش بینی باید به نحوی بتوان رابطه ای بین متغییرهای پیش بین و وابسته تعریف نمود. برای حل این مشكل از نسبت احتمال تعلق به گروه یك به احتمال تعلق به گروه صفر استفاده می شود. به این نسبت شانس گویند. به خاطر مشكلات شانس از لگاریتم شانس استفاده می شود. لگاریتم شانس با متغییرهای پیش بینی كننده ارتباط خطی دارد. بنابراین ضرایب بدست آمده برای آن باید بر اساس رابطه ی خطی كه با لگاریتم شانس دارند تفسیر گردند. بنابراین اگر بخواهیم تفسیر را بر اساس احتمال تعلق به گروهها انجام دهیم باید لگاریتم شانس را به شانس و شانس را به اجزای زیر بنایی آن كه احتمال تعلق است تبدیل نماییم. آماره ی والد كه از توزیع خی دو پیروی می كند نیز برای بررسی معناداری ضرایب استفاده می شود. از آزمون هوسمر و لمشو نیز برای بررسی تطابق داده ها با مدل استفاده می شود معنادار نبودن این آزمون كه در واقع نوعی خی دو است به معنای عدم تفاوت داده ها با مدل یعنی برازش داده با مدل است. رگرسیون چند متغییری در این رگرسیون هدف این است كه از طریق مجموعه ای از متغییرهای پیش بین به پیش بینی چند متغییر وابسته پرداخته شود در واقع اتفاقی كه در رگرسیون كانونی می افتد.

منبع . http://measurement.blogfa.com/post-744.aspx


پنجشنبه 7 دی 1391

رگرسیون چیست؟

   نوشته شده توسط: عارف محمدی    نوع مطلب :آمار ،

رگرسیون چیست؟

تاریخچه :

واژه رگرسیون در فرهنگ لغت به معنی بازگشت است و اغلب جهت رساندن مفهوم "بازگشت به یک مقدار متوسط یا میانگین” به کار می رود. بدین معنی که برخی پدیده ها به مرور زمان از نظر کمی به طرف یک مقدار متوسط میل می کنند .

بیش از 100 سال پیش در سال 1877 فرانسیس گالتون (Francis Galton) در مقاله ای که در همین زمینه منتشر کرد اظهار داشت که متوسط قد پسران دارای پدران قد بلند ، کمتر از قد پدرانشان می باشد . به نحو مشابه متوسط قد پسران دارای پدران کوتاه قد نیز بیشتر از قد پدرانشان گزارش شده است. به این ترتیب گالتون پدیده بازگشت به طرف میانگین را در داده هایش مورد تأکید قرار داد . برای گالتون رگرسیون مفهومی زیست شناختی داشت اما کارهای او توسط کارل پیرسون (Karl Pearson) برای مفاهیم آماری توسعه داده شده . گرچه گالتون برای تأکید بر پدیده "بازگشت به سمت مقدار متوسط" از تحلیل رگرسیون استفاده کرد، اما به هر حال امروزه واژه تحلیل رگرسیون جهت اشاره به مطالعات مربوط به روابط بین متغیرها به کار برده می شود .

نمودار پراکندگی :

در حقیقت تحلیل رگرسیونی فن و تکنیکی آماری برای بررسی و مدل سازی ارتباط بین متغیرها است. رگرسیون تقریباً در هر زمینه ای از جمله مهندسی، فیزیک، اقتصاد، مدیریت، علوم زیستی، بیولوژی و علوم اجتماعی برای برآورد و پیشبینی مورد نیاز است . می توان گفت تحلیل رگرسیونی، پرکاربردترین روش در بین تکنیک های آماری است. شمایی کلی و خلاصه شده از یک تحلیل رگرسیونی ساده به صورت زیر می باشد:

در ابتدا تحلیل گر حدس می زند که بین دو متغیر نوعی ارتباط وجود دارد ، در حقیقت حدس می زند که یک رابطه به شکل یک خط بین دو متغیر وجود دارد و سپس به جمع آوری اطلاعات کمی از دو متغیر می پردازد و این داده ها را به صورت نقاطی در یک نمودار دو بعدی رسم می کند.

این نمودار که به آن نمودار پراکندگی [scatter plot] گفته می شود نقش بسیار مهمی را در تحلیل های رگرسیونی و نمایش ارتباط بین متغیرها ایفا می کند.

در صورتی که نمودار نشان دهنده این باشد که داده ها تقریباً (نه لزوماً دقیق) در امتداد یک خط مستقیم پراکنده شده اند، حدس تحلیل گر تأیید شده و این ارتباط خطی به صورت زیر نمایش داده می شود:

y = a x + b

که در آن a عرض از مبدأ و b شیب این خط است.

متغیر ها و خطا :

بین برخی از نقاط و تصویر آنها بر روی خط رگرسیونی (خط y) کمی تفاوت به چشم می­خورد که از آن به عنوان خطای برآورد یاد می کنیم.

این خطا ممکن است از خطا در اندازه گیری ، شرایط محیط ، تفاوت های طبیعی و... ناشی شده باشد. بنابراین معادله اولیه را به صورت زیر اصلاح می کنیم :

y = ax + b + ?

معادله بالا یک مدل رگرسیون خطی نامیده می شود . معمولاً به x متغیر مستقل (رگرسیونی) و به y متغیر وابسته (پاسخ) گفته می­شود . که ? خطای تصادفی است که برای کامل شدن مدل و نشان دادن این که خطا نیز تا حدی وجود دارد در نظر گرفته می شود.

فرضیات :

معمولا فرض میشود که خطاها یکدیگر را خنثی میکنند ، به عبارت دیگر مجموع خطا ها برابر صفر است . همچنین فرض میشود خطای موجود در یک مشاهده رابطه ای با خطاهای دیگر ندارد و در نهایت تغییرات بین خطاها ثابت در نظر گرفته میشود . این سه فرض برای ساختن یک مدل ضروری است و روشهای بسیاری برای پی بردن به وجود (یا عدم برقراری ) این فرض ها وجود دارد . یکی از دلایل استفاده های نادرست از رگرسیون معمولا نادیده گرفتن این فرض ها است که موجب استدلال های غلط خواهد شد .

در صورتی که در مدل رگرسیونی فقط یک متغیر مستقل وجود داشته باشد، مدل را مدل رگرسیونی خطی ساده می نامند.

روش های رگرسیونی :

ا این مرحله مدل رگرسیونی معرفی شده و کافی است پارامترهای مجهول مدل (در اینجا a و b) برآورد شوند. برآورد پارامترها در مدل سازی با استفاده از روش های مختلف انجام میشود از جمله روش کمترین مربع خطا .

 

روش کمترین مربع خطا که یکی از روش های مورد استفاده در تحلیل رگرسیونی است اولین بار توسط لژندر (Legendre) ریاضیدان فرانسوی در سال 1805 و گوس (Gauss) ریاضیدان مشهور آلمانی در سال 1809 معرفی و در مطالعات نجومی به کار برده شد .

پس تا این قسمت تحلیل گر مدلی مشخص را به عنوان الگویی برای داده ها معرفی کرده است. مرحله بعدی "کنترل مناسب بودن مدل" می باشد که مدل از نظر قابل استفاده بودن و این که تا چه حد می تواند خوب داده ها را بیان کند بررسی می شود و در مورد بکارگیری مدل تصمیم گرفته می شود. در نتیجه مدل یا قابل استفاده تشخیص داده می شود و یا اینکه باید اصلاح شود . بنابراین تحلیل رگرسیونی فرآیندی همراه با تکرار و بازنگری است، یعنی در ابتدا مدلی معرفی می شود، کیفیت مدل مورد بررسی قرار میگیرد ، مدل قبول و یا اینکه مجدداً اصلاح می شود.

رابطه قد و وزن، رابطه عرضه و تقاضا در علم اقتصاد، تعیین رابطه بین سن افراد و فشارخون آنها، رابطه بین میزان مطالعه دانش آموزان و سطح نمرات آنها، رابطه بین نمرات و میزان قبولی در کنکور سراسری مثال هایی ساده در کاربرد رگرسیون هستند .

¤ نویسنده: سیامک داداشی

توسط محمد حسین ضرغامی