ترجمه متون ریاضی انگلیسی به فارسی + نمونه ترجمه احتمالات
اصطلاحات ریاضی به انگلیسی pdf
فصل ششم
انتخاب توزیع احتمال ورودی
۶.۱ مقدمه
برای انجام یک شبیهسازی با استفاده از ورودیهای تصادفی مانند زمان بین دو ورود یا اندازه تقاضا، باید توزیع احتمال آنها را مشخص کنیم. به عنوان مثال، در شبیهسازی سیستم صفبندی تک سرور در بخش ۱.۴.۳، زمان بین دو ورود به عنوان متغیرهای تصادفی نمایی IID با میانگین ۱ دقیقه در نظر گرفته شدند؛ اندازههای تقاضا در شبیهسازی موجودی بخش. ۱.۵ برابر با ۱، ۲، ۳، یا ۴ با احتمالات مربوطه به ترتیب 1/6، 1/3، 1/6 و 1/6 تعیین شد و سپس، با توجه به اینکه متغیرهای تصادفی ورودی به یک مدل شبیهسازی، توزیعهای ویژه را دنبال میکنند، شبیهسازی از طریق تولید مقادیر تصادفی از این توزیعها در بعد زمان حرکت می کند. فصل ۷و ۸ در مورد روشهای تولید مقادیر تصادفی از توزیعهای مختلف و فرایندها بحث می کند. دغدغه ما در این فصل این است که چگونه تحلیلگر ممکن است مشخصات احتمالی توزیع احتمال ورودی را تعیین کند.
تقریباً تمام سیستمهای دنیای واقعی دارای یک یا چند منبع تصادفی هستند, همانطور که در جدول ۶.۱. نشانداده شدهاست, در شکلهای ۶.۱ تا ۶.۴ ما نمودار هیستوگرام را برای چهار مجموعه داده بدستآمده از پروژههای شبیهسازی واقعی نشان میدهیم. شکل ۶.۱, معادل ۸۹۰ زمان پردازش ماشین (در دقیقه) برای تولید کننده خودرو است. میتوان مشاهده کرد که هیستوگرام یک دنباله راست طولانیتر (چولگی مثبت) دارد و حداقل مقدار آن نزدیک به ۲۵ دقیقه است. در شکل ۶.۲ یک هیستوگرام برای ۲۱۹ بار (در دقیقه) به یک بانک راهاندازی شده نشان میدهیم (مثال ۶.۴ را ببینید). شکل ۶.۳ هیستوگرام را برای ۸۵۶ بار کشتی - زمان (در چند روز) نمایش میدهد (مثال ۶.۱۷ را ببینید). نهایتا, در شکل ۶.۴, هیستوگرام را برای تعداد یارد کاغذ (مقیاس بندی شده به دلایل محرمانه) در ۱۰۰۰ رول بزرگ کاغذ دیواری که برای پوشاندن بافت اتاق یا حمام به کار میرود, ارایه میدهیم. در این حالت هیستوگرام یک دنباله چپ دیگر (چولگی منفی) دارد.
جدول ۶.۱
منابع تصادفی بودن برای کاربردهای شبیهسازی مشترک
نوع سیستم |
منابع تصادفی |
تولید |
زمان پردازش، زمان ماشین به شکست، زمان تعمیر ماشین |
مربوط به سامانه های دفاعی |
زمان ورود و بارگیری محموله موشکها یا هواپیماها، نتیجه درگیری، از دست دادن فواصل مهمات |
ارتباطات |
زمان بین دو ورود پیغامها، انواع پیغام، طول پیامها |
حمل و نقل |
بار بار کشتی، زمان بین دو ورود از مشتریان به مترو |
توجه داشته باشید که علیرغم این حقیقت که بسیاری از متخصصان شبیهسازی و کتابهای شبیهسازی بطور گسترده از توزیعهای نرمال ورودی استفاده میکنند هیچ یک از چهار نمودار هیستوگرام یک شکل متقارن ندارند.
ما در بخش ۴.۷ مشاهده نمودیم که به طور کلی برای نشان دادن هر منبع تصادفی از طریق توزیع احتمال (به جای میانگین آن) در مدل شبیه سازی ضروری است. مثال زیر نشان میدهد که شکست در انتخاب توزیع "درست" نیز میتواند بر دقت نتایج یک مدل به شدت موثر باشد.
مثال 6.1: یک سیستم صفبندی واحد - سرور (به عنوان مثال، یک ماشین واحد در یک کارخانه) زمان بین دو ورود نمایی با میانگین ۱ دقیقه دارد. فرض کنید که ۲۰۰ زمان سرویس از سیستم در دسترس باشد، اما توزیع احتمالی آنها ناشناخته است. استفاده از این روش در بخش ۶.۵ مورد بحث قرار گرفت، ما "بهترین" توزیع نمایی، گاما، ویبول، لگ نرمال، و نرمال (برای بحث بیشتر در خصوص این توزیع ها به بخش 6.2.2 مراجعه کنید) را به داده های مشاهداتی خدمت-زمان برازش کردیم. (در مورد توزیع نمایی، ما میانگین b را انتخاب کردیم به طوری که توزیع حاصل نزدیک ترین به مجموعه دادههای موجود باشد) سپس ۱۰۰ اجرای شبیهسازی مستقل روی سیستم صف بندی برای هر 5 توزیع موجود ایجاد کردیم (به عنوان مثال، اعداد تصادفی متفاوت برای هر اجرا مورد استفاده قرار گرفتند (همانطور که در بخش ۲. ۷.۲ مورد بحث قرار گرفته است) (برای توزیع نورمال، اگر زمان خدمت منفی بود، بعد دوباره تولید شد) هر یک از ۵۰۰ اجرای شبیهسازی تا ۱۰۰۰ تاخیر به ترتیب جمع آوری شد. خلاصهای از نتایج حاصل از این شبیهسازی در جدول ۶.۲. در ستون دوم جدول داده شدهاست که به طور متوسط هر ۱۰۰۰۰۰ تاخیر برای هر کدام از توزیعهای مبتنی بر زمان ارایه شدهاست (به ۶.۲۷ مراجعه کنید). همانطور که در بخش 6.7 خواهیم دید. توزیع ویبول در واقع بهترین مدل برای دادههای زمان سرویس را ارایه میدهد. بنابراین، تاخیر متوسط برای سیستم واقعی باید به ۴.۳۶ دقیقه نزدیک باشد. از سوی دیگر، میانگین تاخیر برای توزیعهای نرمال و لگ نرمال به ترتیب برابر با 6.04 و 7.19 متناظر با خطاهای خروجی مدل ۳۹ درصد و ۶۵ درصد است. این برای توزیع لگ نرمال شگفتانگیز است چون همانند توزیع ویبول همان شکل کلی را دارد (به عنوان مثال، چولگی راست دارد). با این حال، مشخص میشود که توزیع لگ نرمال یک دنباله راست "ضخیمتر" دارد که به دفعات و تاخیر سرویس های بزرگتر اجازه وقوع می دهد. تفاوتهای نسبی بین "احتمالات دنباله" در ستون چهارم جدول نیز قابلتوجه است. انتخاب توزیعهای احتمالی میتواند تاثیر زیادی بر روی خروجی شبیهسازی داشته باشد و به طور بالقوه بر روی کیفیت تصمیمات اتخاذ شده با نتایج شبیهسازی تاثیر میگذارد.
اگر امکان جمعآوری دادهها بر روی متغیر تصادفی ورودی مورد نظر وجود داشته باشد، این دادهها را میتوان در یکی از روشهای زیر برای تعیین توزیع (به ترتیب مطلوبیت) مورد استفاده قرار داد:
- مقادیر دادها خود به طور مستقیم در شبیهسازی استفاده میشوند. به عنوان مثال، اگر دادهها زمانهای سرویسدهی را ارایه میدهند، آنگاه یکی از مقادیر دادهای زمانی استفاده میشود که زمان خدمتی در شبیهسازی مورد نیاز باشد. این وضعیت، گاهی اوقات شبیهسازی مبتنی بر ردیابی نامیده میشود.
- مقادیر دادها خود برای تعریف یک تابع توزیع تجربی به کار میروند. ( بخش ۶.۲.۴). اگر این دادهها زمانهای سرویسدهی باشند، ما از این توزیع زمانی که زمان خدمت در شبیهسازی مورد نیاز است، نمونهبرداری میکنیم.
- تکنیکهای استاندارد استنتاج آماری به عنوان یک شکل توزیع نظری مورد استفاده قرار میگیرند (مثال ۶.۱)، به عنوان مثال، توزیع های نمایی یا پواسون، به دادهها و انجام آزمونهای فرضیه برای تعیین میزان خوبی برازش به کار می روند. اگر یک توزیع نظری خاص با مقادیر ویژه برای پارامترهای آن یک مدل خوب برای دادههای زمان سرویس باشد، آنگاه ما از این توزیع زمانی که زمان خدمت در شبیهسازی مورد نیاز است، نمونهبرداری میکنیم.
دو محدودیت روش ۱ این است که شبیهسازی تنها میتواند آنچه که در طول تاریخ رخ دادهاست را تولید مجدد کند و به ندرت دادههای کافی برای انجام تمام شبیهسازی مورد نظر وجود دارد. رویکرد ۲ محدودیت های مذکور را ندارد چون حداقل برای دادههای پیوسته، هر مقدار بین حداقل و حداکثر نقاط داده مشاهدهشده را میتوان تولید کرد. ۸.۳.۱۶). بنابراین رویکرد ۲ معمولاً نسبت به رویکرد ۱ ارجحیت دارد. با این حال، رویکرد ۱ کاربردهای مهمی دارد. به عنوان مثال، فرض کنید که برای مقایسه یک سیستم کنترل مواد پیشنهادی با سیستم موجود برای یک مرکز توزیع مطلوب است. برای هر سفارش ورودی، زمان ورود، فهرستی از محصولات مورد نظر و مقداری برای هر محصول وجود دارد. مدلسازی یک جریان دستورها برای یک دوره مشخص (به عنوان مثال، برای ۱ ماه) اگر غیر ممکن نباشد، با استفاده از رویکرد ۲ یا ۳، دشوار خواهد بود. بنابراین، در این حالت سیستمهای موجود و پیشنهادی اغلب با استفاده از داده های مشاهداتی شبیهسازی خواهند شد. همچنین برای اعتبارسنجی مدل هنگامی که خروجی مدل برای یک سیستم موجود با خروجی متناظر برای خود سیستم مقایسه میشود، استفاده از روش 1 توصیه میشود. (برای بحث در مورد رویکرد بررسی همبسته به بخش ۵.۶.۱ مراجعه کنید.)
اگر یک توزیع نظری باشد که تناسب آن با دادههای مشاهدهشده مناسب باشد (نزدیک به ۳)، به طور کلی این روش به دلایل زیر نسبت به استفاده از یک توزیع تجربی (رویکرد ۲) ارجحیت دارد:
- یک تابع توزیع تجربی میتواند "بینظمیهایی" هم داشته باشد، به خصوص اگر داده های موجود محدود باشند. از طرف دیگر یک توزیع نظری، " این دادهها را هموار میکند و ممکن است اطلاعاتی در مورد توزیع کلی ارایه دهد.
- اگر توزیع تجربی به روش معمول استفاده شود ( به بخش ۶.۲.۴ مراجعه شود)، تولید مقادیر خارج از محدوده دادههای مشاهدهشده در شبیهسازی امکان پذیر نیست (به بخش ۸.۳.۱۶ مراجعه کنید). این یک بدشناسی است، زیرا بسیاری از معیارهای عملکرد برای سیستمهای شبیهسازی شده به شدت به احتمال وقوع یک رویداد "حدی" وابسته هستند، به عنوان مثال، تولید یک زمان خدمت بسیار بزرگ. با این حال، با یک توزیع نظری برازش شده، مقادیر خارج از محدوده دادههای مشاهدهشده را می توان ایجاد کرد.
- ممکن است یک دلیل فیزیکی قانعکننده در برخی شرایط برای استفاده از یک شکل توزیع نظری خاص به عنوان یک مدل برای یک متغیر تصادفی ورودی خاص وجود داشته باشد (بخش ۶.۱۲.۱). حتی زمانی که به اندازه کافی خوششانس باشیم که این نوع اطلاعات موجود باشد، ایده خوبی است که از دادههای مشاهدهشده برای ارایه پشتیبانی تجربی برای استفاده از این توزیع خاص استفاده کنیم.
- یک توزیع نظری یک روش فشرده برای نمایش مجموعهای از مقادیر دادهای است. بالعکس، اگر n مقدار داده از یک توزیع پیوسته در دسترس باشد، آنگاه 2n مقدار (به عنوان مثال، داده و احتمالات تجمعی مربوطه) باید وارد شوند و در کامپیوتر ذخیره شوند تا یک توزیع تجربی در بستههای شبیهسازی داشته باشند. بنابراین، اگر مجموعه داده بزرگ باشد، استفاده از یک توزیع تجربی دشوار خواهد بود.
- یک توزیع نظری برای تغییر راحتتر است. برای مثال، فرض کنید که مجموعهای از زمان بین دو ورود به خوبی با یک توزیع نمایی با میانگین ۱ دقیقه مدلسازی میشود. اگر میخواهیم تاثیر سیستم شبیهسازی شده افزایش نرخ ورود را تا ۱۰ درصد مشخص کنیم، پس تمام کاری که باید انجام دهیم این است که میانگین توزیع نمایی را به ۰.۹۰۹. تغییر دهیم.
موقعیتهای قطعی وجود دارند که در آن هیچ توزیع نظری برای دادههای مشاهدهشده، از جمله موارد زیر، مناسب نیست:
- دادهها ترکیبی از دو یا چند جمعیت ناهمگن هستند (به بخش زمان تعمیر خودرو در بخش 6.4.2 مراجعه کنید).
- زمانها برای انجام برخی کارها به طور قابلملاحظهای گرد شده (به صورت گسسته) ارائه شدهاند, و مقادیر متمایز کافی در نمونه وجود ندارد تا به هر توزیع نظری پیوسته اجازه برازش مناسب بدهد.
در شرایطی که هیچ توزیع نظری مناسب نباشد، توصیه میکنیم از یک توزیع تجربی استفاده کنید. یکی دیگر از اشکال احتمالی توزیعهای تئوری (به عنوان مثال، لگ نرمال) این است که مقادیر زیادی را به طور دلخواه البته با احتمال بسیار کم میتوان تولید کرد. بنابراین، اگر مشخص شود که یک متغیر تصادفی هرگز نمیتواند مقادیر بزرگتر از b را بدست آورد، آنگاه ممکن است مطلوب باشد که توزیع نظری برازش شده را در b برآورد کنیم (به بخش 6.8.2 مراجعه کنید). برای مثال، زمان خدمت در یک بانک بسیار بعید است که از ۱۵ دقیقه تجاوز کند.
ادامه این فصل درباره موضوعات مختلف مربوط به انتخاب توزیعهای ورودی بحث میکند. بخش ۶.۲ شرح میدهد که چگونه توزیع های نظری پارامتری می شوند و موارد مرتبط با توزیعهای پیوسته و گسسته پر کاربرد را ارایه میدهد و توضیح میدهد که یک توزیع تجربی چگونه میتواند خاص باشد. در قسمت ۲. ۶.۳ ما تکنیکهایی را برای تعیین اینکه آیا دادهها مشاهداتی مستقل از برخی توزیع اساسی هستند یا نه، ارایه میدهیم، که نیاز به استفاده از بسیاری از روشهای آماری در این فصل دارد. از طریق بخش های 6.4 ۶.۶ ما سه فعالیت اساسی را در تعیین توزیع نظری براساس دادههای مشاهدهشده مورد بحث قرار میدهیم. نرمافزار distribution ExpertFit - fitting و یک مثال جامع در بخش ۲. ۶.۷ مورد بحث قرار می گیرد. در بخش ۲. ۶.۸ ما نشان میدهیم که چگونه برخی از توزیعهای تئوری، به عنوان مثال، گاما، ویبول، و لگ نرمال را میتوان " جابجا کرد تا دادههای مشاهدهشده را در برخی موارد بهبود دهیم؛ همچنین توزیع های بریده (Truncated distribution) را مورد بحث قرار میدهیم. ما از توزیع Bezier نیز استفاده میکنیم که چهارمین راه برای مشخص کردن توزیع براساس دادههای مشاهدهشده در بخش ۶.۹. است. همچنین، در بخش 6.10 توضیح میدهیم که چگونه توزیع چند متغیره درنظر گرفته میشود و زمانی که دادههای مشاهدهشده در دسترس هستند تخمین زده میشود. در قسمت ۶.۱۱ چندین روش ممکن برای مشخص کردن توزیعهای ورودی را در زمانی که هیچ دادهای در دسترس نباشد را توصیف میکنیم. چندین مدل احتمالی مفید برای شرح نحوه رسیدن مشتریان به یک سیستم در بخش ۶.۱۲ ارائه شده است، در حالی که در بخش ۲. ۶.۱۳ ما تکنیکهایی را برای تعیین اینکه آیا مشاهدات از منابع مختلف همگن هستند و میتوانند با هم ادغام شوند، ارایه میدهیم.
طرحهای گرافیکی و خوبی برازش که در این فصل ارائه شدند, بااستفاده از نرمافزار distribution ExpertFit - توسعه داده شدند (به بخش 6.7 مراجعه کنید).
۶.۲ توزیع های احتمالاتی مفید
هدف این بخش، بحث در مورد انواع توزیع که در مدلسازی شبیهسازی مفید هستند و تهیه یک لیست از احتمالات مرتبط این توزیعها میباشند [همچنین فوربس و همکاران (۲۰۱۱)؛ جانسون، کوتز، و آلاکریشانان (۱۹۹۴، ۱۹۹۵)؛ و جانسون، کوتز ، و کمپ (۱۹۹۲). بخش ۶.۲.۱ یک بحث کوتاه از روشهای معمول ارایه میدهد که در آن توزیعهای پیوسته تعریف یا پارامتری سازی میشوند. بخش ۶.۲.۲ و ۶.۲.۳ شامل تلفیق از چندین توزیع پیوسته و گسسته هستند. در نهایت، در بخش ۶.۲.۴ نشان میدهد که چگونه دادههای خود را میتوان مستقیماً برای تعریف توزیع تجربی مورد استفاده قرار داد.
۶.۲.۱ پارامتری سازی توزیع پیوسته
برای یک گروه مشخص از توزیعهای پیوسته، به عنوان مثال، نرمال یا گاما، معمولاً چندین روش جایگزین برای تعریف یا پارامتری سازی تابع چگالی احتمال وجود دارد. با این حال، اگر پارامترها بدرستی تعریف شدهباشند، میتوان آنها را براساس تفسیر فیزیکی یا هندسی آنها به عنوان یکی از سه نوع اصلی تعریف کرد: مکان، مقیاس، یا پارامترهای شکل.
یک پارامتر مکان γ برای موقعیت مکانی (محور x) یک نقطه از مقادیر توزیع است؛ معمولاً γ نقطه میانی (به عنوان مثال، میانگین µ برای توزیع نورمال) یا نقطه پایانی است. ۶.۸) محدوده توزیع. (در مورد دوم، پارامترهای مکان گاهی اوقات پارامترهای جابجایی نامیده میشوند) به عنوان مثال با تغییر γ، توزیع وابسته به دنباله چپ و راست تغییر میکند و در غیر این صورت، با ثابت ماندن γ این مقادیر نیز ثابت است. همچنین، اگر توزیع یک متغیر تصادفی X دارای پارامتر مکان صفر باشد، آنگاه توزیع متغیر تصادفی Y + X یک پارامتر مکان برابر با γ دارد.
پارامتر مقیاس؛ b مقیاس (یا واحد) اندازهگیری مقادیر در محدوده توزیع را تعیین میکند. (انحراف استاندارد یک پارامتر مقیاس برای توزیع نرمال است) یک تغییر در b توزیع مربوطه را بدون تغییر شکل اصلی آن فشردهسازی کرده یا گسترش میدهد. همچنین، اگر توزیع متغیر تصادفی X یک پارامتر مقیاس برابر با ۱ داشته باشد، آنگاه توزیع متغیر تصادفی Y + bX پارامتر مقیاس b دارد.
یک پارامتر شکل α، متمایز از مکان و مقیاس، شکل اصلی توزیع را در گروه توزیع مورد نظر تعیین می کند. در حالت کلی، یک تغییر در α ویژگیهای توزیع (به عنوان مثال، چولگی) بیشتر از تغییر در مکان یا مقیاس را تغییر میدهد. برخی توزیعها (به عنوان مثال، نمایی و نرمال) پارامتر شکل ندارند، در حالی که برخی دیگر (به عنوان مثال، بتا) ممکن است دو پارامتر داشته باشند.
۶.۲.۲ توزیع پیوسته
جدول ۶.۳ اطلاعات مربوط به کاربردهای مدلسازی و شبیهسازی را برای ۱۳ توزیع پیوسته را ارایه میدهد. کاربردهای احتمالی ابتدا برای نشان دادن برخی (قطعا نه همه) توزیع ها استفاده می شود [به هان و شاپیرو (1994) و لاولس (2003) برای کاربردهای دیگر مراجعه کنید[. سپس تابع چگالی و تابع توزیع (اگر در شکل بسته ساده موجود باشند). سپس یک توصیف کوتاه از پارامترها, از جمله مقادیر ممکن آنها ارائه میشود. این بازه زمانی را نشان میدهد که متغیر تصادفی متناظر میتواند روی مقادیر حساب کند. همچنین میانگین (مقدار مورد انتظار), واریانس, و حالت, یعنی مقدار که تابع چگالی به حداکثر میرسد, آورده شدهاست. MLE به برآورد حداکثر احتمال (s) پارامتر اشاره دارد, که بعداً در بخش ۶.۵ در مورد آن بحث می شود. نظرات کلی شامل روابط توزیع تحت مطالعه برای توزیعهای دیگر است. نمودارهای توابع چگالی برای هر توزیع ارائه میشوند. نماد نشان داده شده در کنار نام هر توزیع, مخفف مورد نظر ما برای آن توزیع است, که شامل پارامترها هم می شود. این نماد ~ خوانده میشود " به صورت زیر توزیع میشود. "
توجه داشته باشید که توزیع های کمتر شناخته شده جانسون SB ، جانسون SU ، لوگ لجستیک، پیرسون نوع V و پیرسون نوع VI را نیز مورد استفاده قرار داده ایم، زیرا متوجه شده ایم که این توزیع ها غالباً نسبت به توزیع های استاندارد مانند گاما ، لگ نرمال و ویبول وضعیت بهتری را به مجموعه داده ارائه می دهند.
جدول ۶.۳
متغیر |
U(a, b) |
کاربردهای احتمالی
چگالی (به شکل 5.6 مراجعه کنید)
توزیع
پارامترها
محدوده
متوسط
واریانس
مد
MLE
سایر موارد |
به عنوان یک مدل "اولیه" برای مقداری که احساس می شود به طور تصادفی بین a و b متفاوت است اما مورد کمی دیگر شناخته شده است. توزیع U (0 ، 1) برای تولید مقادیر تصادفی از سایر توزیعهای دیگر ضروری است (به بخشهای 7 و 8 مراجعه کنید).
اعداد حقیقی b و a که a کوچکتر از b است؛ a یک پارامتر مکان و b - a یک پارامتر مقیاس است
[a,b]
A+b/2
به صورت یکتا وجود ندارد
1. توزیع U (0,1) ، یک مورد خاص از توزیع بتا است، وقتی که al = a2 = 1) باشد). 2. اگر X، U (0,1)، و [x,x + Dx] یک زیر فاصله از [0، 1] با که نام "یکنواخت" را توجیه می کند.
|
شکل 6.5
تابع چگالی U(a,b)
شکل 6.13 توابع چگالی PT(α1, , α2 ,1)
شکل 6.16
6.2.3 توزیع های گسسته
جدول 6.4 همان الگوی توزیع پیوسته در جدول 6.3 را دنبال می کند و توضیحات مربوط به شش توزیع گسسته در آن ارائه می شود.
6.2.4 توزیع های تجربی
در بعضی شرایط ممکن است بخواهیم از داده های مشاهده شده برای تعیین مستقیم توزیع (به تعبیر دیگر توزیع تجربی) استفاده کنیم، که در آن مقادیر تصادفی در طول شبیه سازی ایجاد می شود ، به جای آنکه یک توزیع نظری به داده ها اعمال کنیم. به عنوان مثال ، ممکن است این اتفاق بیفتد که ما به سادگی نتوانیم توزیع نظری را پیدا کنیم که داده ها را به درستی تقریب بزند (به.بخش 6.4 تا 6.6 مراجعه کنید). در این بخش راه های مشخص سازی توزیع تجربی مورد بررسی قرار گرفته است.
برای متغیرهای تصادفی پیوسته، نوع توزیع تجربی که می تواند تعریف شود بستگی به این دارد که آیا ما مقدار واقعی مشاهدات اصلی اصلی X1 ، X2. . . ، Xn را داریم یا خیر و صرفا تعداد Xi ها که در هر یک از چندین بازه مشخص مشخص قرار می گیرند، کارایی لازم را ندارند.
شکل ۶.۲۴ یک تصویر را برای n =6 ارایه میدهد. توجه داشته باشید که F(x) با سرعت بیشتری در محدوده x افزایش مییابد که در آن Xis همانطور که پیشتر عنوان شد، به صورت متراکم توزیع شدهاست.
تبدیل ۶.۲۴
تابع توزیع تجربی پیوسته خطی-تکهای از دادههای اصلی.
همچنین برای هر i، که تقریباً (برای n بزرگ) کمتر از X(i) است؛ این همان رفتاری است که ما از یک تابع توزیع پیوسته انتظار داریم. (به اثبات 6.5 مراجعه کنید). با این حال، یک ایراد آشکار تعیین این توزیع تجربی خاص این است که مقادیر تصادفی تولید شده از آن در طول اجرای شبیهسازی هرگز نمیتواند کمتر از X(1) یا بزرگتر از X(n) باشد (به بخش 8.3.16 مراجعه کنید). همچنین، میانگین F(x) برابر با میانگین نمونه
از Xis است (به اثبات 6.6 مراجعه کنید).
اگر با این حال، دادهها گروهبندی میشوند، باید از یک روش متفاوت استفاده شود چون ما مقادیر مجزای Xi را نمیدانیم. فرض کنید که به k دسته مجاور هم گروه بندی شده باشد (
)، آنگاه مقدار j امین فاصله شامل nj مشاهده است که در آن
. (معمولا فاصله aj به همان اندازه است، بنابراین ما به این فرض نیازی نداریم) یک تابع توزیع تجربی خطی تکه ای با فرض
و
برای
انجام می شود. سپس، در حالی که به صورت خطی بین "
" برونیابی می شود.
شکل ۶.۲۵ این مشخصات خاص یک توزیع تجربی برای k =4 را نشان میدهد. در این مورد، نسبتی از Xis می باشد که کمتر از aj است، و G(x) با سرعت بیشتری در محدوده x افزایش می یابد، که در آن مشاهدات بیش از حد متراکم هستند. مقادیر تصادفی تولید شده از این توزیع هنوز هم در پایین (با a0) و بالا (توسط ak) محدود خواهد شد. به بخش ۸.۳.۱۶ مراجعه کنید.
در عمل، بسیاری از توزیعهای پیوسته به سمت راست منحرف میشوند و چگالی با یک شکل مشابه آن در شکل ۶.۲۶. دارند. بنابراین ، اگر اندازه نمونه n خیلی بزرگ نباشد ، ما احتمالاً مشاهداتی در از دنباله راست توزیع واقعی (اگرچه این دنباله احتمالاتمعمولاً ناچیز هستند) در صورت وجود ، به میزان اندکی خواهیم داشت. علاوه بر این، توزیعهای تجربی بالا اجازه تولید مقادیر تصادفی را نمیدهند.
از سوی دیگر، مقادیر بسیار بزرگ تولید شده میتواند تاثیری قابلتوجه بر وضعیت اجرای شبیهسازی داشته باشد. به عنوان مثال، زمان خدمت بزرگی میتواند باعث تراکم قابلتوجهی در سیستم صفبندی سیستم شود. در نتیجه، بارتلی، فاکس و شارج (۱۹۸۷،صفحه. ۱۳۱ (۱۳۳، ۱۵۰ - ۱۵۱) پیوستن یک توزیع نمایی به سمت راست توزیع تجربی را پیشنهاد میدهد، که به مقادیر بزرگتر از X(n) اجازه ایجاد میدهد.
برای دادههای گسسته، تعریف یک توزیع تجربی بسیار ساده است، به شرطی که مقادیر داده اصلی X۱، X۲، …، Xn در دسترس باشند. برای هر مقدار ممکن x، یک تابع جرم تجربی p(x) را میتوان به نسبت Xis که برابر با x هستند تعریف کرد. برای دادههای گسسته گروهی میتوانیم یک تابع جرمی را تعریف کنیم که مجموع p در تمام مقادیر ممکن x در یک فاصله برابر با نسبت Xis در آن فاصله. اینکه چگونه '(x)p برای مقادیر محتمل x در فاصله یک فاصله تخصیص داده میشود لزوماً اختیاری است.
شکل 6.26 تابع چگالی نمونه در عمل.
6 - ۳ روش برای ارزیابی استقلال نمونه ها
یک فرض مهم که توسط بسیاری از تکنیکهای اماری مورد بحث در این فصل مورد بحث قرار گرفت این است که مشاهدات X۱، X۲،...، یک نمونه مستقل (یا تصادفی) از توزیع اصولی هستند. برای مثال برآورد حداکثر احتمال (مراجعه به بخش ۲. ۶. ۵) و چی آزمونهای مربع (به بخش ۲ مراجعه کنید). ۶.۶.۲) استقلال را فرض میکنند. اگر فرض استقلال ثابت نشود، این تکنیکهای آماری ممکن است معتبر نباشند. با این حال، حتی زمانی که دادهها مستقل نیستند، تکنیکهای اکتشافی مانند نمودار هیستوگرام هنوز میتواند مورد استفاده قرار گیرد.
گاهی مشاهدات جمعآوریشده در طول زمان وابسته هستند. به عنوان مثال، فرض کنید که X۱، X۲،... نشاندهنده دمای ساعتی در یک شهر خاص از ظهر در یک روز خاص است. ما انتظار نداریم که این دادهها مستقل باشند چون دمای ساعتی نزدیک به هم در زمان باید به طور مثبت همبسته باشد. به عنوان مثال دوم، سیستم صفبندی منفرد را در بخش1.4 در نظر بگیرید.، X۱، X۲،... را در صف مشتریانی که به سیستم میرسند، به تاخیر میاندازد. اگر نرخ ورود مشتریان به نرخ خدمات نزدیک باشد، سیستم متراکم خواهد شد و Xis به شدت همبستگی مثبت خواهد داشت (به بخش ۲.4.3 مراجعه کنید).
ما اکنون دو روش گرافیکی را برای ارزیابی غیر رسمی این که آیا دادهها X۱، X۲، …، Xn (فهرستشده در زمان جمعآوری) مستقل هستند، توصیف میکنیم. نمودار همبستگی یک گراف از همبستگی نمونه است (به بخش ۲.4 مراجعه کنید). برای j = ۱، ۲، …، l (l یک عدد صحیح مثبت است). همبستگی پیرسون نمونه یک برآورد همبستگی حقیقی بین دو مشاهداتی است که مشاهدات j را در زمان از هم جدا میکند. (توجه داشته باشید که اگر مشاهدات X۱، X۲،...،، مستقل باشند، آنگاه X [۱] = ۱، ۲،. با این حال، سیستم
حتی زمانی که Xis مستقل است، صفر نخواهد بود، چون
مشاهده یک متغیر تصادفی است که میانگین آن برابر با صفر نیست (به بخش ۲ مراجعه کنید). اگر
از صفر به مقدار قابلتوجه متفاوت باشد، پس مدارک مستندی وجود دارد که Xis مستقل نیستند.
دیاگرام پراکنده مشاهدات، X۲، X۲،... (Xn) یک نمودار از جفت (Xi، Xi+1) برای i=1,2,..,n است. برای سادگی فرض کنید که Xis ها غیر منفی هستند. اگر the مستقل باشد، انتظار میرود که نقاط (Xi، Xi+1) به صورت تصادفی در طول ربع اول صفحه (Xi، Xi+1) پراکنده شوند. با این حال، ماهیت پراکنش به توزیعهای اساسی of بستگی دارد. اگر Xis به طور مثبت همبسته باشد، نقاط در امتداد خط با شیب مثبت در ربع اول قرار میگیرند. اگر Xis به طور منفی همبسته باشند، نقاط در امتداد خط با شیب منفی در ربع اول قرار میگیرند.
مثال ۶.۲. در شکلهای ۶.۲۷ و ۶.۲۸ ما نمودار همبستگی و نمودار پراکندگی را برای ۱۰۰ مشاهده مستقل از یک توزیع نمایی با میانگین ۱نشان دادیم. توجه داشته باشید که در شکل ۶.۲۷، همبستگی نمونه نزدیک به صفر است، اما مقادیر مطلق را به اندازه ۰.۱۶. دارا هستند. پراکندگی نقاط در شکل 6.28 استقلال داده های نمایی را اثبات می کند.