ترجمه تخصصی نظریه تشخیص الگو
2- توضیحات کلی در مورد یافته های نظری اصلی در مورد نظریه تشخیص الگو
نظریه تشخیص الگو، ویژگی های معمول متغیرها را از یک مجموعه داده بزرگ، مشخص می کند و آنها را با استفاده از PCA ساده سازی می کند (جولیفه، 2002)، چنانکه، با استفاده از «تحلیل افتراقی» و «تحلیل خوشه ای»، نتایج پالایش شوند، که این امر با یافتن مهمترین مشخصات میسر می شود. علاوه بر آن، از الگوریتم های بهینه سازی و محاسبه مقادیر ویژه ماتریس ها، بدست آمده بوسیله تعریف ماتریس های مختلف استفاده می کند تا آنها را در یافتن الگوریتم های تحلیل مولفه های اصلی، استفاده کنند.
دی لا توره (2008)، 4 روش PCA، با شروع از نتایج بدست آمده توسط بورگا (1998)، را ارزیابی می کند و الگوریتم های PCA، یعنی «حداقل مربعات جزئی»، «تحلیل همبستگی کانونیکال» و رگرسیون خطی چندگانه» ، را با ملاحظه مسائل مقدار ویژه تعمیم یافته، بیان می کند. پژوهش های بیشتری توسط یان، شو، ژانگ و ژانگ (2007) با استفاده از نظریه گراف و تعریف یک نسخه غیرپارامتری تحلیل افتراقی خطی، انجام شده است.
چا (2012)، یک معیار جدید در الگوریتم های بهینه سازی، یعنی فاصله جابجا کننده زمین، را تعریف و استفاده می کند و اثبات می کند که این الگوریتم در فرآینده دسته بندی نسبت به معیارهای کلاسیک (مانند فاصله اقلیدسی یا «بلوک شهری»)، کارآمدتر است.
مفاهیم نظریه تشخیص الگو، در تقریباً همه زمینه های پژوهشی استفاده شده اند. در امور مالی، پای و لین (2005) و همچنین، چان، وانگ و لام (2000)، از نظریه تشخیص الگو استفاده می کنند تا سری داده های نشان دهنده قیمت دارایی های مالی را مطالعه کنند و شرکت های کمتر ارزشیابی شده ( و بنابراین آنها را خریداری کنند) و شرکت های اضافه ارزیابی شده (برای فروش آنها) را پیدا کنند. آلتمن، مارکو و وارتو (1985)، پایداری مالی شرکت های تشکیل دهنده نظام بانکداری ایتالیا را تحلیل می کنند. بلاخ (2012) از یک روش دسته بندی (با ملاحظه ضریب عدم قطعیت، بجای معیارهای تشابه کلاسیک، مانند فاصله اقلیدسی) برای سری داده های مالی مرتبط با 25 شرکت پذیرفته شده در بورس سهام تل آویو، براساس یک معیار غیرخطی برای همبستگی بین سری داده ها (یک اطلاعات دو طرفه بهنجار شده، به عنوان معیار ضریب عدم قطعیت) استفاده می کند و در نتیجه، دسته بندی حاصله به فرآیند دسته بندی مرتبط تر بود.
هدف «تحلیل خوشه ای»، دسته بندی متغیرها به سازه های جداگانه، که مرتبط هستند و ویژگی های متمایز شفاف دارند، یعنی کلاس ها (گروه ها یا خوشه ها)، مشخص شده با این حقیقت که عدم شباهت بین هر دو مولفه از یک کلاس، کمتر از عدم شباهت بین یک عنصر از کلاس و یک عنصر خارج از کلاس، دارند. برای بکار گیری تحلیل خوشه ای، معیارهای مختلفی ، به عنوان معیار عدم شباهت بین اجزاء فضای اولیه، که شناخته شده ترین آنها «فاصله منهتن» (یا فاصله مستطیلی یا فاصله «بلوک شهری») که به صورت حاصلجمع مقادیر مطلق تفاضل دو مختصات متغیر، مورد استفاده قرار می گیرند.
برای دسته بندی عناصر یک مجموعه، از روش Ward (وارد) استفاده می کنیم که این کارآمدترین روش برای دسته بندی سلسله مراتبی استفاده می کنیم، زیرا باعث کمینه شدن تغییرات درون خوشه ای می شود، و این به عنوان نتیجه اجتماع مجدد- در هر مرحله از الگوریتم- خوشه ها است که برای آن تغییرات خوشه ای حاصله کمتر از تغییرات ناشی از حفظ خوشه های مربوطه به عنوان زیرمجموعه های متمایز، می باشد. چنانکه، واریانس کل، به واریانس درون خوشه ای و واریانس بین خوشه ای، تفکیک می شوند: σT2=σW2+σB2، که σW2
و σB2
به ترتیب واریانس درون خوشه ای و بین خوشه ای می باشند.
در هر مرحله از این الگوریتم، دو خوشه با هم اجتماع داده می شوند، بگونه ای که تغییرات درون خوشه ای حاصله (که بیشتر از تغییرات درون خوشه ای منفرد خواهد بود، به صورت افزایش تعداد عناصر یک کلاس، تغییرات کلاس افزایش خواهند یافت)، با ملاحظه واریانس درون خوشه ای کلی σW2 کمترین می باشد (با حل یک مسئله بهینه سازی، خوشه ها، با شروع از متغیرهای اولیه، تعریف می شوند).
با شروع از دسته بندی تحت تحلیل خوشه ای، از مفاهیم «تحلیل افتراقی» برای یافتن مشخصه های عناصر فضای اولیه استفاده می کنیم که برای یافتن اینکه آیا یک عنصر به یک خوشه خاص (زیرمجموعه) متعلق است یا خیر و بنابراین برای شناسایی احتمال اینکه هر عنصر به خوشه های شناسایی شده متعلق است، مناسب ترین می باشند.
یک معیار برای یافتن اهمیت متغیرها در دسته بندی به خوشه های حاصله از تحلیل خوشه ای، لاندای ویلکس (Wilks) است، و معیاری است که به صورت زیر قابل تفسیر است: اگر ارزش یا مقدار آن نزدیک به صفر باشد، قدرت افتراق کنندگی بیشتر دارد (و بلعکس، هنگامی که آن مقدار به 1 نزدیک باشد، قدرت افتراق کنندگی کاهش می یابد) و مقدار p تقریباً برابر با صفر است.
روش تحقیق
برای ارزیابی ریسک ورشکستگی، از تابع نمره Z تعریف شده توسط ای. آی. آلتمان در 1968، استفاده می کنیم:
Zr1,r2,…,rn=α0+α1r1+α2r2+…+αnrn که در آن r1,r2,…,rn
شاخص های مدنظر برای یافتن مدل دسته بندی می باشند، α1,α2,…,αn
، ضرایب شاخص ها می باشند و α0
، جمله آزاد تابع دسته بندی است.
با استفاده از تابع نمره Z، هر شرکت به یکی از دو دسته تعریف شده توسط آلتمان (شرکت مستطیع و غیرمستطیع) تعلق می گیرد و همچنین احتمال ورشکستگی برای هر شرکت، تخمین زده می شود.
با بکار گیری این مدل برای یک گروه از 66 شرکت فهرست شده در بازار بورس آمریکا، که از آنها، برای نصفشان تقاضای ورشستگی شده، آلتمان تابع نمره Z زیر را بدست آورد:
علاوه بر آن، آلتمان، 3 زمینه احتمال ورشکستگی را تعریف کرد: احتمال ورشکستگی کم (هنگامی که Z بیشتر از 99/2 باشد)، متوسط (هنگامی که Z بین 8/1 و 99/2 باشد) و زیاد (هنگامی که Z کمتر از 8/1 باشد).