ترجمه مقاله معیار فاصله احتمالی شی-تا-گروه برای طبقه بندی داده های نامعین
معیار فاصله احتمالی شی-تا-گروه برای طبقه بندی داده های نامعین
Object-to-group probabilistic distance measure for uncertain data classification
اشیای نامعین که در آنها هر ویژگی با چندین مشایهده یا تابع تراکم احتمال مناسب یا داده شده نشان داده می شود در حوزه های کاربردی نظیر شبکه های حسگر، پایگاه داده شی متحرک و پایگاه داده بیوپزشکی و پزشکی به وجود آمده است. ما متدی برای طبقه بندی اشیای نامعین بر مبنای معیار فاصله احتمالی بین شی نامعین و گروهی از اشیای نامعین ارائه میکنیم. این معیار فاصله احتمالی شی تا گروه ، منحصر بفرد است و همبستگی ویزگی های درونن هر کلاس و در هر شی را ، به صورت جداگانه محاسبه میکند. ما طبقه بندی شی-تا-گروه پیشنهاد شده را با دو روش طبقه بندی به نامهای طبقه بندی K-همسایه نزدیکتر در میانه اشیا (certain-KNN) و طبقه بندی ناوی بیزی نامعین مقایسه میکنیم. همچنین آن را با طبقه بندی K-همسایه نزدیک تر نامعین (uncertain-KNN) که در اینجا پیشنهاد می شود و از معیارهای فاصله احتمالی کنونی برای فاصله های شی-تا-گروه استفاده میکند نیز مقایسه می کنیم. ما مزایای طبقه بندی پینشهادی را در مقایسه با داده های واقعی و شبیه سازی شده نشان می دهیم.
کلمات کلیدی: داده کاوی، داده نامعین، طبقه بندی، معیارهای فاصله احتمالی
سفارش ترجمه تخصصی مهندسی کامپیوتر
- مقدمه
در مسائل داده کاوی سنتی با ویژگی های عددی، هر شی ، تعدادی ویژگی دارد و هر ویژگی یک ارزش نقطه ای مجزاست. این مسائل را با عنوان مسائل داده کاوی معین میشناسند. با این حال در بسیاری از موارد عملی، ویژگی هی هر شی با چندین مشاهده نمایش داده می شود بنابراین باید ماهیت نامعین یا احتمالی ویژگی ها نیز در نظر گرفته شود. این مسائل با عنوان مسائل داده کاوی نامعین شناخته می شوند. برخی کاربردهای رایجی که در آنها ویژگی های هر شی با چندین مشاهده ارائه می شود ، شبکه های حسگر، پایگاه داده اشیای متحرک و پایگاه داده های بیولوژی و پزشکی هستند.
هر گاه ویژگی های هر شی از چند مقدار نقطه ای تشکیل شده باشد می توانیم ، عدم قطعیت را با ایجاد یک تابع تراکم احتمالی (pdf) برای چند نقطه بدست آوریم. ما در این مقاله فرض میکنیم که هر شی با یک pdf نشان داده می شود. روش pdf مزایایی نظیر حفظ ویژگی های اصلی هر شی از طریق پارامترهای کم را دارد و مقدار هر نقطه مجزای درون شی را در نظر نمیگیرد.
در مقاله ارائه شده ، مسئله داده کاوی نامعین با دو مجموعه از پارامترها مشخص می شود. یک مجموعه مربوط به ویژگی های کلاس مثل بردار میانه کلاس ، ماتریس کوواریانس کلاس است که از میانه های اشیا گرفته می شوند و در مسائل داده کاوی معین نیز به کار می روند. مجموعه جدید پارامترهایی که در اینجا معرفی شده اند مربوط به توزیع چندین مقدار نقطه ای در اشیا هستند مثل میانه اشیا و کوواریانس اشیای درون کلاس. که اینها در هیچ متد طبقه بندی نامعینی در نظر گرفته نمی شود.
برای توضیح تفاوت بین پارامترهای کلاس و شی، یک فرآیند پردازش دسته ای را در نظر بگیرید که در آن هر دسته یک شی است. هدف، طبقه بندی هر دسته به دو کلاس سازگار و ناسازگار ، به منظور ایجاد مشخصات آنهاست. به مراجع (6-2) مراجعه کنید. فرض کنید که 20 ساعت زمان لازم است تا یک دسته اجرا شود و حسگرها هر پنج دقیقه یک بار نمونه گیری میکنند و 240 انداه گیری برای هر ویژگی ای دسته انجام می شود. یک روش به کار گیری این داده ها تبدیل آنها به مسئله داده کاوی معین با گرفتن میانه از 240 نمونه در هر دسته مجموعه آموزشی است. ما با استفاده از این مقادیر متوسط میتوانیم pdf نرمال چندمتغیره را با محاسبه بردار میانه و ماتریس کوواریانس، برای هر کلاسها، متناسب کنیم. با این حال این روش اطلاعات مهم را در نظر نمیگیرد. مثلا نمی توانیم دسته ناسازگار را که تنوع زیادی در ویژگی های آن در هنگام اجرا وجود دارد یا دارای همبستگی های غیرعادی بین ویژگی هادر زمان اجراست را تشخیص دهیم . برعکس، روش ما مجموعه ثانویه ای از پارامترها را به نام میانه شی و کوواریانس شی را در نظر میگیرد که شامل توزیع مشاهدات مربوط به یک دسته یا یک شی است.
در سالهای اخیر توجه زیادی به توسعه تکنیک های داده کاوی نامعین شده است. مراجع (7-8) دید خوبی از مقالات منتشر شده در چهار دسته مسائله داده کاوی نامعین می دهد: طبقه بندی، خوشه بندی، تشخیص داده پرت، و کاوش الگوهای تکراری. طبقه بندی بردار پشتیبانی ، عدم طقعیت را برای هر ویژگی بیان شده در (9) اندازه میگیرد. الگوریتم درخت تصمیم ، عدم قطعیت را به شکل pdf های بیان شده در (10-1) در نظر می گیرد. طبقه بندی ناوی بیز برای داده های نامطمئن در (12-11) پیشنهاد شده درحالیکه طبقه بندی مبتنی بر قوانین در (13) ارائه شده است. طبقه بندی انجمنی برای داده های نامعین و یک شبکه عصبی برای طبقه بندی داده های نامعین به ترتیب در (15-14) ارائه شده اند.
ما در این مقاله از مفهوم معیار فاصله احتمالی (pdm) استفاده میکنیم که فاصله بین دو pdf را می دهد، ده ها pdm این چنین در مقالات ارائه شده است . به (17-16) مراجعه کنید. یکی از آنها معیار باتاچاریا است که بعنوان نقطه شروع کار استفاده می شود. Pdm ها در فیلدهای زیادی نظیر پردازش سیگنال و ارتباطات استفاده می شوند.
هدف اصلی این مقاله توسعه یک pdm جدید برای فاصله بین یک شی مجزای نامعین و گروهی از اشیای نامعین است. ما از pdm شی-تا-گروه استفاده میکنیم که در هر pdf ای با اندازه گیری دو لحظه اول قابل استفاده است. pdm شی-تا-گروه از پارامترهای وزنی ایجاد شده که به کاربردی که میخواهیم بهینه شود، بستگی دارد. ما از pdm شی-تا-گروه همراه با متد بهینه سازی وزن مستقل از داده برای توسعه طبقه بندی جدیدی برای داده های نامطمئن استفاده میکنیم که و ویژگی های کلاس و شی را در نظر میگیرد و ما آنرا طبقه بندی شی-تا-کلاس می نامیم. هرگاه شی جدیدی برای طبقه بندی وارد شود (مثلا شی ای از مجموعه تست)، فاصله بین شی جدید و هر کلاس با یک pdm شی-تا-کلاس محسابه و مقایسه شده و نزدیک ترین کلاس به آن شی جدید، تخصیص داده می شود. متذکر می شویم که این روش نیاز به محاسبه فاصله بین همه جفت های اشیا ندارد.
برای بررسی عدم قطعیت طبقه بندی شی-تا-کلاس ، آنرا با دو متد موجود و یک متد جدید به نامهای KNN-نامعین که در این مقاله توضیح داده شده مقایسه خواهیم کرد. متدهای موجود ، طبقه بندی KNN-معین با استفاده از یک میانه از ویزگی های شی و طبقه بندی ناوی بیز نامعین در (12-11) است. متد جدید KNN-نامعین نیاز به محاسبه فاصله بین جفت های اشیا در pdm موجود و تخصیص یک شی جدید از کلاس اکثریت K شی نزدیک تر از مجموعه آموزشی دارد. این متد جدید برای هر pdf کار میکند با این حال ، اگر pdf ها نشان دهند که هر شی ، از نوع چندمتغیره نرم ال است و آن pdm به درستی انتخاب شده، مشابه ترین راه حل باعث کاهش پیچیدگی خواهد شد.
هدف دیگر این مقاله به شبیه سازی داده های نامعین مربوط است. اکثر کارهای موجود در حوزه طبقه بندی داده های نامعین با استفاده از مجموعه داده های مخزن یادگیری ماشینی UCI که واقعی و مطمئن هستند تست شده اند. اکثر مقالات داده های مخزن UCI را با اضافه کردن نویز تصادفی به داده های اصلی ، به داده های نامعین تبدیل میکنند مثل (11-10). این از دیدگاه ما روشی کاملا منطقی نیست چراکه عدم قطعیت یکی از ویژگی های هر کلاس است. نویز به داده های اصلی اضافه می شود اما برچسب کلاس بر مبنای داده های اصلی، ثابت است و نویزی به آن اضافه نمی شود. روش پیشنهادی ما با این مسئله روبرو نیست و می توان از آن برای طراحی انواع مختلف سناریوهای عملی استفاده کرد. ما در این مقاله آزمایشاتی با استفاده از مخزن UCI انجام داده ایم کته نتایج آن با سایر کارها مقایسه می شود. ما مزایای طبقه بندی شی-تا-گروه و طبقه بندی KNN-نامعین را نسبت به ناوی بیز نامعین و طبقه بندی KNN-معین در آزمایشات مختلف نشان می دهیم.
ادامه مقاله به این شکل سازماندهی شده است. بخش 2 نشانه گذاری ها برای مدلسازی مسئله داده کاوی نامعین را ارائه میکند. بخش 3 pdm های شی-تا-گروه موجود را بررسی کرده و طبقه بندی KNN-نامعین را می دهد. ما pdm شی-تا-گروه را همراه با طبق بندی آن در بخش 4 ارائه میکنیم. روش ما در شبیه سازی مسائل داده کاوی نامعین در بخش 5 ارائه شده و نتایج آزمایشات با استفاده از داده های واقعی و شبیه سازی شده به ترتیب در بخش 6 و 7 ارائه شده اند. در نهایت در بخش 8 با بررسی متد پیشنهادی و مزایای آن نتیجه گیری میکنیم.
- مدلسازی داده های نامعین
این بخش به توضیح کلاسهای نامعین و معین می پردازد. هر شی به شکل یک pdf چندمتغیره است. ما ابتدا چگونگی مدلسازی اشیای نامعین و سپس کلاسهای نامعین را نشان می دهیم.
- مدلسازی اشیای نامعین با pdf ها
ابتدا شی ای را در مجموعه آموزشی در نظر بگیرید که در آن K کلاس با nk شی در کلاس k وجود دارد k=1,..,K. شی i در کلاس k با نشان داده می شود که نشان دهنده مجموعه پارامترهای شی i در کلاس k است.
با فرض وجود pdfهای چند متغیره نرمال برای اشیای مجموعه آموزشی داریم
که در آن بردار میانه شی و
ماتریس کوواریانس شی i در کلاس k و نیز p ، نشان دهنده ابعاد است.
حالا یک شی جدید در نظر میگیرم و به مجموعه تست وارد میکنیم. شی جدید با نشان داده می شود که در آن
مجموعه پارامترهای pdf است. با فرض pdf چندمتغیر نرمال برای شی جدید داریم:
که در آن و
بردار میانه شی و ماتریس کوواریانس شی جدید است.
شکل 1 مفاهیم فرمول 1 و 2 را نشان می دهد. هر بیضی نشان دهنده شی ای با دو ویژگی است که با محورهای عمودی و افقی در شی مشخص شده است. بیضی آبی نشان دهنده اشیایی از کلاس 1 در مجموعه آموزشی است. بیضی خط چین قرمز نشان دهنده شی جدیدی است که از مجموعه آموزشی انتخاب شده است. شکل، فرض میکند که هر شی یک توزیع نرمال دو متغیری داشته باشد. نقطه های مرکز هر شی نشان دهنده بردار میانه آن است که با نشان داده می شود و K=1 برای شی های آموزشی و
برای شی جدید است. بیضی دور نقطه نشان دهنده 95% حدفاصله pdf دو متهغیره است یعنی بیضی به 95% توزیع نزدیک می شود. بیضی درون برچسب مجموعه آموزشی که به راست منحرف است نشان دهنده ارتباط مثبت بین دو ویزگی هر شی است. مشابه این، بیضی شی جدید نیز به راست منحرف است. ماتریس های کوواریانس همه اشیای آموزشی وجدید به ترتیب برچسب
و
دارند. این معیارهای کوواریانس همبستگی اشیا را نشان می دهد.
- مدلسازی کلاسهای نامعین با pdf ها
حالا مفهوم مشخص کردن یک کلاس در کاوش داده های نامعین را توضیح می دهیم. بردارهای میانه شی را در یک کلاس در نظر بگیرید. این بردار های میانه شی را میتوان با نشان داد که در آن
نشان دهنده مجموعه پارامترهاست.
شکل 1: یک شی نامعین جدید در مقابل کلاس 1 از اشیای نامعین (برای تفسیر رفرنس های رنگ های این شکل به نسخه وب این مقاله مراجعه کنید)
سفارش ترجمه تخصصی مهندسی کامپیوتر
شکل 2: دو کلاس داده نامعین با اشیای نامعین (برای تفسیر رفرنس های رنگ های این شکل به نسخه وب این مقاله مراجعه کنید)
اگر یک pdf نرمال چند متغیره برای بردارهای میانه اشیا در کلاس k فرض کنیم. داریم
که در آن بردار میانه کلاس برای کلاس k است و به شکل زیر محاسبه می شود
و ماتریس کواریانس کلاس برای کلاس k است که به شکل زیر محاسبه می شود
شکل 2 مفاهیم فرمول 3 تا 5 را با دو ویژگی نشان می دهد. دوکلاس وجود دارد که کلاس قرمز رنگ در سمت چپ و کلاس نقطه چین سبز در سمت راست است که ما آنها را با عنوان کلاسهای قرمز و سبز میشناسیم. هر یک دارای 5 شی با توزیع نرمال دومتغیری است یعنی هر شی دو ویژگی دارد. X در مرکز هر کلاس نشان دهنده موقعیت بردار میانه کلاس است که در فرمول 4 بیان شده است. مشخص است کته واریانس اشیای قرمز کوچکتر از اشیای سبز است یعنی استفاده از نشانه گذاری فرمول 1 ، عبارت مورب کوچکتر از عبارت مورب
است. همچنین مشاهده می شود که ویژگی های اشیای درون کلاس قرمز به هم وابسته نیستند (بیضی مستقیم است) درحالیکه ویزگی های کلاس سبز ارتباط منفی دارند (بیضی های منحرف به چپ). به عبارت دیگر، هیج همبستگی شی ای برای کلاس قرمز وجود ندارد درحالیکه همبستگی شی ای منفی در کلاس سبز مشاهده می شود.
سپس تفاوت بین کلاسهای سبز و قرمز را بررسی میکنیم. حالا فقط بردار های میانه اشیا را در نظر بگیرید. بردارهای میانه اشیای قرمز گسترده تر از سبز هستند. ماتریس کوواریانس بردارهای میانه شی در کلاسهای 1 و 2 در بخش های 2.1 و با و
نشان داده می شوند. شکل 2 نشان می دهد که عبارت مورب
برخلاف عبارات مورب
، بزرگتر می باشد. بعلاوه شکل 2 نشان می دهد که عبارات قطری
برخلاص عبارات
که منفی هستند، مثبت می باشند.
- Pdm های شی-تا-شی و متد طبقه بندی KNN-نامعین
این بخش pdm ها را معرفی می کند که فاصله بین دو شی را که هر یک با یک pdf مشخص می شود ارائه می دهد. سپس ما از pdm برای ایجاد یک متد طبقه بندی KNN-نامعین سرراست استفاده میکنیم.
مقالات قبلی کاربردهای زیادی از pdm ها را در آمار، تشخیص الگوف تئوری ارتباط و بسیاری از حوزه های دیگر در بر میگیرند. در آمار از آنها برای تحلیل تقریبی استفاده می شود. در pdm های تشخیص الگو نظیر Chernoff، Bhattacharyya و Lissack-Fu گاهی برای ایجاد محدودیت خطای طبقه بندی بیزی استفاده می شود. در تئوری ارتباطات از pdm های Bhattacharyya و Kullback-Leibler برای انتخاب سیگنال استفاده می شود. در (16) مرور خیلیخوبی بر pdm ها انجام شده که دسته های اصلی pdm ها ، خانواده واگرای f، فاصله ، اختلاف جنسن ، معیارهای کنترل تضاد و اندازه گیری فاصله طیفی است. جدول 1 تعریفی از برخی pdm های به کاررفته از خانواده واگرای f را نشان می دهد. هر دسته از pdf ها ویژگی هایی دارند که بر اساس کاربردشان از آنها استفاده می شود.
حالا ممکن است ما از pdm های موجود برای ایجاد متد طبقه بندی استفاده کنیم که KNN-نامعین خوانده می شود. ما فاصله احتمالی بین یک شی خاص و هر شی نامعین درون مجموعه آموزشی را محاسبه کرده و کلاسی را به شی جدید میدهیم که مطابق با برچسب کلاس اصلی K همسایه نزدیک تر است.
ما در ای مقاله از K=1 همسایه نزدیک تر و pdm Bhattacharyya استفاده میکنیم. همانطور که در جدول 1 می بینید Bhattacharyya حالت خاصی از Chernoff pdm با s = 0.5 است. ما به این دلیل Bhattacharyya pdm را انتخاب کردیم که در اینجا اشیای نامعین را با pdf های نرمال چندمتغیری مدلسازی کرده و این معیار راه حل نزدیکی برای فاصله بین دو pdf نرمال چند متغیره است. Bhattacharyya یا سایر pdm هی موجود را میتوان برای هر توزیع احتمالی در متدهای عددی محاسبه کرد. فرم مشابه Bhattacharyya pdm برای pdf های نرمال چند متغیره در فرمول 5 نشان داده شده است.
که در آن m1، m2، S1 و S2 پارامترهای دو pdf نرمال چند متغیر و |. | نشان دهنده مورد معین است. متذکر می شویم که اولین عبارت روی فاصله بین میانه ها (که به وسیله کوواریانس ها تنظیم شده اند) تمرکز دارد درحالیکه عبارت دوم روی تفاوت بین ماتریس های کوواریانس تمرکز دارد.
جدول 1: تعریف معیارهای فاصله احتمالی
- Pdm شی-تا-گروه و طبقه بندی شی-تا-گروه برای داده های نامعین
ما در این بخش یک pdm جدید برای فاصله بین یک شی و گروهی از اشیا و توضیح چگونگی استفاده از آن برای طبقه بندی اشیای نامعین تعریف میکنیم. ما معیار خود را pdm شی-تا-گروه و طبقه بندی شی-تا-گروه می نامیم. Pdm شی-تا-گروه را میتوان برای هر توزیع احتمالی مثل دوثانیه اول محاسبه کرد. در هنگام طبقه بندی یک برچسب کلاس به شی داده می شود که متناسب با نزدیک ترین کلاس است. ما از واژه گروه به جای کلاس استفاده می کنیم تا امکان استفاده آتی از این معیار در طبقه بندی را فراهم کنیم. در طبقه بندی از وزن های بهینه برای اندازه گیری استفاده می شود.
سفارش ترجمه تخصصی مهندسی کامپیوتر
- معیار فاصله احتمالی شی-تا-گروه
با در نظر گرفتن شی و گروه جدید و کلاس k ، pdm پیشنهادی درفرمول 7 نشان داده شده است.
که در آن w1 و w2 وزن های دو عبارت درون فرمول اند. متذکر می شویم که اولین عبارت فرمول 7 با فرمول زیر بدست می آید
و متذکر می شویم که بردار جدید میانه شی و بردار میانه کلاس و ماتریس کوواریانس کلاس را نیز شامل می شود. ما از روش اندازه گیری بیان شده در فرمول های 4 و 5 برای بدست آوردن و
استفاده میکنیم.
با توجه به این فرمول ها مشاهده می شود که ماتریس کوواریانس کلاس بر مبنای بردارهای میانه اشیا است. متذکر می شویم که عبارت اول با کاهش فاصله بین بردار میانه شی و بردار میانه کلاس ، کاهش می یابد. همچنین عبارت اول با افزایش مولفه های مورب ماتریس کوواریانس کلاس، کاهش می یابد.
عبارت دوم فرمول 7 را به این شکل نشان می دهند:
که در آن متوسط ماتریس کوواریانس اشیا در کلاس k است و به شکل زیر محاسبه می شود
در روش پیشنهادی معیار فاصله احتمالی، ممکن است فاصله بین شی تصادفی جدید که انتخاب شده و گروه باقیمانده اشیا برای هر شی ای که تصادفا انتخاب شده متفاوت باشد.
میتوان از مقادیر وزنهای مختلفی برای pdm شی-تا-گروه استفاده کرد اما سرراست ترین روش در نظر گرفتن وزنهای برابر برای دو عبارت است. رویه های مختلفی با توجه به کاربرد آنها می توان برای رسیدن به وزن های بهینه توسعه داد. سپس به دنبال یافتن وزن های بهینه در هنگام استفاده از pdm شی-تا-گروه برای طبقه بندی هستیم.
- تعیین وزن های طبقه بندی شی-تا-گروه
ما در این بخش متدی برای تعیین وزن های pdm شی-تا-گروه در طبقه بندی داده های نامعین نشان می دهیم. ما مسئله طبقه بندی دوکلاس (K=2) را شرح داده و سپس بیشتر درباره دو کلاس توضیح خواهیم داد. گام های اصلی شامل این موارد است 1) برای هر شی درون مجموعه آمزوشی تفاوت بین عبارات اولی و pdm های شی-تا-گروه در کلاس 1 و 2 با استفاده از فرمول 8 حساب کرده و تفاوت بین عبارات دوم pdm های شی-تا-گروه آن را با کلاس 1 و 2 با استفاده از فرمول 9 حساب میکنیم. 2) تفاوت های بدست آمده را برای سادگی و اجتناب از هر مشکلی استاندارد میکنیم. 3) از تفاوت های استاندارد برای همه اشیای درون مجموعه آموزشی استفاده کرده و وزن های بهینه ای راکه بهترین ابر-طرح را شکل می دهند استفاده میکنیم تا دوکلاس را جدا کنیم 4) اشیا جدید یا اشیا را در یک مجموعه تست با استفاده از ابرطرح طبقه بندی میکنیم.
حالا گام های بالا را با جزییاتشان بیان میکنیم. یک مجموعه داده آموزشی با دو کلاس k=1,2 و N شی نامعین در نظر بگیرد. همانند گام 1 برای هر شی Ii ، عبارت pdm شی تا گروه ، و و را با فرمولهای 8 و 9 محاسبه کنید. سپس برای هر شی i تفاوت بین اولین عبارت را به شکل نشان داده شده در فرمول 11 حساب کنید
تفاوت بین عبارات دوم به شکل بیان شده در فرمول 12 است
در گام 2 برای تسهیل کار و اجتناب از مسائل مقیاس بندی ، می توانیم عبارت و را به عبارات استاندارد و
در فرمول 13 تبدیل کنیم
در گام 3 همانطور که ذکر شد، هدف بدست آوردن وزنهای بهینه ایست که بهترین ابرطرح را شکل دهند و بتوان دو کلاس را بر مبانی اختلافات استاندارد شده از هم جدا کرد. متذکر می شویم که ابرطرح است. متذکر می شویم که پارامتر ثابت ابرطرح صفر است زیرا ما درحال استفاده از عبارت اختلاف استاندارد شده ایم.
ما پیشنهاد استفاده از فاصله Kullback-Leilbler برای بدست آوردن وزنهای بهینه w1 و w2 را میدهیم. می توان از فاصله Kullback-Leilbler برای تعیین تفکیک پذیری کلاسها با توجه به عبارت اختلاف استاندارد استفاده کرد. فاصله Kullback-Leilbler دو کلاس به لحاظ عبارت اختلاف استاندارد شده zj,j=1, 2 به این شکل محاسبه می شود
که در آن ، pdf مربوط به jمین عبارت اختلاف استاندار برای اشیای کلاس 1 و
، pdf مربوط به j مین عبارت اختلاف استاندارد در کلاس 2 است.
وزن عبارت اختلاف استاندارد شده zj را میتوان بعد از نرمال سازی فاصله Kullback-leibler به شکل زیر محاسبه کرد
با توجه به فرمول 15 مشاهده می شود که w1+w2=0 . بعد از بدست آوردن وزنهای بهینه w1 و w2 که بهترین ابرطرح را ایجاد می کنند یک شی جدید در گام 4 ایجاد می شود. در این گام ، قانون طبقه بندی به این شکل است که اگر شی جدید به کلاس 1 تعلق میگیرد. این یعنی در این مورد فاصله شی جدید تا شی ای در کلاس 1 کمتر از فاصله آن تا کلاس 2 است. برعکس اگر
باشد یعنی طبقه بندی به 2 کلاس با این قانون تطابق دارد که فاصله شی جدید تا کلاس 2 کمتر از فاصله آن تا کلاس 1 است. با داشتن دو مجموعه داده آموزش و تست، ابرطرح بهینه از مجموعه آموزشی بدست آمده و برای طبقه بندی اشیا در مجموعه تست استفاده می شود.
این چارچوب را می توان برای زمانی که K بزرگتر از 2 است توسعه داد. رویه رایج این کار "یک کلاس در مقابل بقیه" است که در آن k ابرطرح بدست آمده و هر کدام یک کلاس را از بقیه جدا میکند. طبقه بندی با ترکیب نتایج k طبقه بندی انجام شده بدست می آید.
جدول 2: دقت متدهای طبقه بندی در سناریوی 1 برای افزایش همبستگی اشیا. همبستگی کلاس ، صفر است. همبستگی اشیا برای هر شی ای در کلاس 1 مثبت و برای هر شی ای در کلاس 2، برابر P=2 است.
- شبیه سازی داده های نامعین
ما متد شبیه سازی جدیدی برای تولید اشیای داده نامعین و کلاسها ارائه می کنیم. همانطور که در بخش مقدمه بیان شده ، رایج ترین روش شبیه سازی داده های نامعین تبدیل داده های مخزن UCI از معین به نامعین به وسیله اضافه کردن نویز تصادفی به ویژگی هاست. این ممکن است مشکل ساز شود زیرا برچسب های کلاس داده UCI ثابت است و بر مبنای داده های مشخص و اضافه کردن تصادفی عدم قطعیت ، ممکن است ماهیت کلاس تغییر کند. روش پیشنهادی ما این مشکل را ایجاد نمیکند. بعلاوه روش پیشنهاد ما محدود به داده های موجود در مخزن UCI نمی کند و انعطاف نامحدودی به سناریوهای آزمایشی می دهد. مزیت دیگر متد شبیه سازی ما این است که می توانیم همبستگی داده و همبستگی کلاس را به صورت توامان در ایجاد داده نامعین به کار ببریم.
سفارش ترجمه تخصصی مهندسی کامپیوتر
حالا متد شبیه سازی را بیان میکنیم. با فرض اینکه همه pdf های کلاسها و اشیا ، چندمتغیره نرمال هستند. ابتدا برای هر کلاس پارامترهای pdf، و
را انتخاب می کنیم. سپس میانه اشیا را در هر کلاس k تولید می کنیم. میانه های اشیا بردارهای تصادفی هستند که با
و با pdf ها در فرمول 16 نشان داده شده است.
ماتریس های کوواریانس شی ، ماتریس های تصادفی هستند که با با Wishart pdf معکوس به شکل بیان شده در فرمول 17 نشان داده می شوند. از Wishart pdf به شکل وسیعی برای شبیه سازی ماتریس های تصادفی قطعی مثبت با مقادیر حقیقی استفاده میشود.
شکل 3: گرفتن همبستگی کم اشیا از طریق طبقه بندی شی-تا-گروه (برای تفسیر مرجع رنگ های این شکل به نسخه وب مراجعه کنید)
که در آن و نشان دهنده ماتریس است. میتوانیم ماتریس را که با نشان داده می شود بعنوان مبنای تولید ماتریس کوواریانس شی برای اشیای کلاس k، تعریف کنیم. درجه پارامتر آزادی
نشان دهنده سطح انحراف ماتریس های کوواریانس شی ایجاد شده از ماتریس اصل کلاس k است. با میل کردن
به بی نهایت، ماتریس های کوواریانس شی تولید شده ، انحراف کمتری نسبت به ماتری اصلی خواهند داشت. درحالیکه با نزدیک تر شدن
به P-1 ، ماتریس های کوواریانس شی ایجاد شده ، انحراف بیشتری از ماتریس اصلی خواهند داشت. در این مقاله در آزمایشات انجام شده از مقادیر 300 و 500 برای تولید ماتریس های کوواریانس شی با سطح متوسط انحراف از ماتریس های اصلی استفاده شده است.
- بررسی دو متد طبقه بندی موجود: KNN-معین و ناوی بیز نامعین
برای طبقه بندی اشیای نامعین با استفاده از KNN-معین ، هر شی معینی فقط با بردار میانه pdf نرمال چندمتغیره نمایش داده شده وسپس KNN با فاصله اقلیدسی برای طبقه بندی استفاده یمشود.
طبقه بندی بیزی نامعین ، شی جدید را به کلاسی با بیشترین احتمال پسین می فرستد.
که در آن
و احتمال مشاهده pdf شی جدید در رخدادی است که کلاس آن k است. بعلاوه اولویت قبلی است. در طبقه بندی ناوی بیز نامعین ، فرض می شود که ویژگی ها مستقل باشند و همبستگی میان آنها در نظر گرفته نمی شود. بعبارت دیگر
که در آن نشان دهنده pdf شی جدید در j مین بعد است. بنابراین نه همبستگی کلاس و نه همبستگی شی بدست نمی آیند که همین مشکل اصلی این روش است.
در اشیای نامعینی که با pdf نرمال چند متغیره مدلسازی شده اند ، راه حل احتمالی احتمالات کلاس شرطی طبقه بندی ناوی بیز نامعین به شکل زیر است که در (11) آمده است
جدول 3: وزن های بهنیه pdm شی-تا-گروه در هنگامی که فقط یک همبستگی شی برای p=2 وجود دارد.
جدول 4: دقت متد طبقه بندی سناریو 2 با افزایش همبستگی کلاس. همبتسگی شی ، صفر است. همبتسگی کلاس برای هر شی ای در کلاس 1 مثبت و برای هر شی ای در کلاس 2 و p=2 منفی است.
که در آن و و به ترتیب نشان دهنده واریانس شی جدید در jمین بعد و در i مین بعد در کلاس k است. که در آن واریانس میانه اشیای کلاس k در jمین بعد است. توان طبقه بندی بیزی به توانایی آن در به کارگیری اطلاعات اصلی نیز وابسته است.ما در ازمایشاتمان از استفاده میکنیم.
- مقایسه متدهار در چهار سناریوی شبیه سازی
در این بخش عملکرد روش پیشنهادیمان، KNN-نامعین و طبقه بندی شی-تا-گروه را با KNN-معین و طبقه بندی ناوی بیز نامعین در چهار سناریوی شبیه سازی مقایسه میکنیم. در سناریوی اول فقط همبستگی اشیا وجود دارد و در سناریوی دوم ، فقط همبستیگ کلاس وجود دارد و در سناریوی سوم هر دو همبستگی موجود است. در سه سناریوی اول، تعداد ویژگی ها، p برابر با 2 است. در نهایت چهارمین سناریو کارآیی ابعاد زیاد را زمانی که هر دونوع همبستگی وجود داشته باشد می سنجد.
ماتریس های کوواریانس کلاس در آزمایشات به صورت زیر است.
شکل 4: میزان همبستگی بزرگ کلاس در طبقه بندی کنند شی-تا-گروه (برای تفسیر مرجع رنگ ها به نسخه وب مقاله مراجعه کنید)
جدول 5: وزنهای بهینه pdm شی-تا-گروه در هنگامی که همبستگی های کلاس برای p=2 موجود است.
که در آن dk نشان دهنده عناصر مورب ماتریس کوواریانس کلاس از کلاس k و نشان دهنده مولفه های غیرمورب ماتریس کوواریانس کلاس از کلاس k است. ما فرض میکنیم که مولفه های مورب و نیز مولفه های غیر مورب برابرند.
ماتریس های کوواریانس شی به شکل زیر هستند.
که در آن نشان دهنده مولفه های مورب ماتریس کوواریانس شی از کلاس k و
نشان دهنده مولفه های غیرمورب ماتریس کوواریانس شی از کلاس k است. دوباره مولفه های مورب برابر و نیز مولفه های غیرمورب برابری را فرض میکنیم.
هرسناریو ده بار تکرار شده که در هر کدام دو مجموعه داده وجود دارد: داده های آموزشی و تست. مجموعه آموزشی دو کلاس با 1000 شی p بعدی دارد که برای هر کلاس تولید شده اند. مجموعه تست نیز دارای 250 شی است که برای هر کلاس ایجاد شده. هر شی ای از مجموعه تست با به کارگیری طبقه بندی ای که برای آن مجموعه آموزشی به کارگرفته شده، طبقه بندی می شود.
در همه سناریوها، بردارهای میانه کلاس به شکل و هستند و مولفه های مورب کوواریانس کلاس و ماتریس های کوواریانس شی به شکل هستند و = درجه پارامترهای آزادی برای Wishart pdf معکوس در فرمول 17 که است.
ما در همه جدولها دقت متوسط طبقه بندی در ده تکرار مجموعه تست را با انحراف استاندارد عنوان کرده ایم.
- سناریو1: همبستگی کلاس صفر و همبستگی شی غیرصفر
در این سناریو فقط همبستیگ اشیا غیرصفرند. همبستگی کلاسها صفرند. ما موردی را شبیه سازی می کنیم که در آن سطح همبستگی اشیا بسیار کم، خیلی کم و کم است یعنی 0.1 ± 0.05, ± 0.075, ± و کلاس 1 مقدار مثبت و کلاس 2 مقدار منفی دارد.
جدول 2 همانطور که انتظار می رود نشان می دهد که متد KNN-معین در مواجه با عدم قطعیت های بالای 0.50 شکست می خورد زیرا ماتریس های کوواریانس شی را در نظر نمی گیرد.
جدول 6: دقت متدهای طبقه بندی سناریو 3. همبتسگی اشیا و همبستگی کلاس ها برای هر شی ای در کلاس 1 مثبت و برای هر شی ای در کلاس 2 منفی است و p=2
طبقه بندی ناوی بیز نامعین واریانس های شی را در نظر میگیرد اما این نیز عملکرد ضعیفی دارد زیرا در مد نظر داشتن واریانس شی با مشکل مواجه است. NKK-نامعین و طبقه بندی شی-تا-گروه، با افزایش سطح همبستگی، قادر به ایجاد تمایز بین دو کلاس با دقت بیشتر هستند. با این حال طبقه بندی شی-تا-گروه بهترین نتایج را برای یافتن وزن هیا بهینه pdm برای جدا کردن کلاس ها می دهد. ذکر این نکته حائز اهمیت است که با اینکه همبستگی شی خیلی کم است متدهای پیشنهادی به بیشترین دقت ممکن در طبقه بندی می رسند.
شکل 3 نشان میدهد که چگونه همبستگی شی روی طبقه بندی گروه-تا-شی در کلاس 2 با “o” سبز اثر میگذارد. در شکل 3a بردارهای افقی و عمودی مربوط به مقادیر کلاس 1 و 2 عبارت 1 هستند که نشان می دهد که عبارت 1 روی میانه های اشیا، میانه های کلاس و کواریانس های کلاس به شکلی که در فرمول 8 آمده تمرکز دارند. مشاهده میشود که این دو کلاس به سادگی قابل تفکیک نیستند. برعکس در شکل 3b، بردارهای عمودی و افقی مربوط به مقادیر کلاس 1 و 2 عبارت 2 هستند که نشان می دهند که عبارت 2 روی ماتریس های کوواریانس شی در فرمول 9 تمرکز دارد. شکل 3b نشان میدهد که جداسازی کلاس ، به بهترین نحو امکانپذیر است. شکل 3c نشان دهنده جدا سازی دو کلاس بعد از بهینه سازی وزن هر pdm با استفاده از عبارات استاندارد است. خط قرمز نشان دهنده ابرطرح جداسازیست:
وزن های بهینه سه سناریو در جدول 3 نشان داده شده اند که با افزایش سطح همبستگی شی، طبقه بندی کننده گروه-به-شی وزن بیشتری به عبارت استاندارد دوم می دهد. این نشان دهنده ماهیت مستقل از داده متد ماست.
- سناریو2: همبتسگی های کلاس غیرصفر و همبستگی های شی صفر
این بخش عملکرد چهار متد پیشنهادی را با در نظر گرفتن همبستگی کلاس نشان می دهد. سطح همبستگی کلاس به این شکل در نظر گرفته شده است: کم، متوسط و بزرگ با مقادیر 0.1، ± 0.5 و ± 0.8. کلاس 1 دارای مقادیر مثبت و کلاس 2 دارای مقادیر منفیست. مقادیر همبستگی شی نیز صفر هستند.
شکل 5: همبستگی شی خیلی کوچک و همبتسگ کلاس متوسط در طبقه بندی شی-تا-گروه (برای تفسیر مراجع رنگهای این شکل به نسخه وب این مقاله مراجعه کنید)
بردارهای میانه کلاس و پارامترهای درجه آزادی مشابه بخش قبلی هستند.
جدول 4 نشان میدهد که همه متدها با افزایش همبستگی کلاس بهبود می یابند. طبقه بندی ناوی بیز نامعین با بزرگتر شدن همبستگی کلاس ، بهتر عمل میکند. متدهای KNN-معین و KNN-نامعین با افزایش همبستگی به ، عدم قطعیت بیشتری می رسند. از انجایی که هیچ همبستگی شی ای وجود ندارد ، KNN نامعین مزایای بهتری نسبت به KNN-معین ندارد. با این حال طبقه بندی شی-تا-کلاس مزایایی نسبت به سایر روش ها دارد زیرا ماتریس کوواریانس کلاس را در نظر گرفته و از ابرطرح بهینه برای تفکیک بهتر دو کلاس استفاده میکنید.
تاثیر همبستگی کلاس بر طبقه بندی شی-تا-گروه را میتوان در شکل 4 دید. شی های درون مجموعه آموزشی در کلاس 1 با + نشان داده شده اند و شی های کلاس دو با o سبز نشان داده شده اند. همانطور که در شکل 4a می بینید، این دو کلاس در مقدار همبستگی کلاسشان که در عبارت 1 pdm شی-تا-گروه در نظر گرفته می شود با هم فرق دارند با این حال با توجه به شکل 4b می بنیم که تفکیک از طریق عبارت 2 pdm شی-تا-گروه امکانپذیر نیست زیرا ماتریس های کوواریانس شی ، خیلی شبیه به دو کلاس هستند. شکل 4c نشان دهنده جداسازی دو کلاس بعد از بهینه سازی وزن با استفاده از عبارات استاندارد است.
ما با توجه به وزن های نرمال جدول 5 متوجه می شویم که با افزایش سطح همبستگی کلاس، در طبقه بندی شی-تا-گروه نیز وزن بیشتری به اولین عبارت استاندارد داده شده است و این نشان دهنده وابستگی این متد پیشنهادی به داده ها است.
- سناریو 3: همبستگی کلاس غیرصفر و همبستگی شی غیرصفر
ما در این بخش نمونه هایی را بررسی میکنیم که در آنها هر دو نوع همبستگی وجود دارد. ما مثالهایی با سطح خیلی کم و کم همبستگی اشیا در ترکیب با سطوح بالا و متوسط همبستگی اشیا ارائه میکنیم. نتایج آزمایش در جدول 6 ارائه شده که نشان دهنده اولیت طبقه بندی شی-تا-گروه نسبت به همه متدهاست. KNN-نامعین در مکان دوم قرار دارد زیرا هنوز هم همبستگی شی و همبستگی کلاس را میگیرد. KNN-معین و ناوی بیز نامعین نیز بعد از آن هستند.
توانایی طبقه بندی شی-تا-گروه در تشخیص همبتسگی خیلی جزیی اشیا و همبستگی متویط بین آنها در شکل 5 قابل رویت است. اشیای کلاس 1 با + آبی و اشیای کلاس 2 با o سبز نشان داده شده اند. شکل 5a و 5b تفاوت های نسبی دو کلاس را بر مبنای همبستگی شی آنها و همبستگی کلاسها نشان میدهد که از عبارات 1 و 2 pdm شی-تا-گروه بدست آمده است. شکل 5c نشان دهنده جدایی دو کلاس بعداز بهینه سازی وزن با استفاده از عبارات استاندارد است.
وزنهای بهینه مثالها در جدول 7 نشان داده شده است. به دلیل وجود هر دو نوع همبستگی در طراحی سناریو، بین وزنهای بهینه اختصاص یافته به عبارات تعادل وجود دارد.
جدول 7: وزنهای بهینه pdm شی-تا-گروه در هنگامی که همبستگی شی و همبستگی کلاس وجود دارد و p=2
جدول 8: دقت متدهای طبقه بندی در سناریو 4 با ابعاد بیشتر، p=2, 5, 10
جدول 9: مجموعه داده های انتخاب شده از مخزن یادگیری ماشینی UCI
- سناریو 4: آزمایشات در ابعاد بالاتر
جدول 8 نتایج سناریوهای شبیه سازی با داده های دو، پنج و ده بعدی را نشان می دهد. پارامترهای شبیه سازی عبارتند از و
. درجه پارامترهای آزادی برای این سناریو برابر با
است که بیشتر روی ماتریس های کوواریانس شی تولید شده دلالت دارد.
همانطور که در جدول مشاهده می شود طبقه بندی شی-تا-گروه در رسیدن به دقت بیشتر، بهتر از سایر متدها عمل می کند. KNN-نامعین به خاطر وجود همبستگی اشیا، بهتر از KNN-معین کار می کند. در این سناریوها ناوی بیز نامعین نیز، نتایج خوبی تولید میکند چراکه مقادیر همبستگی در نظر گرفته شده نسبتا کوچک هستند.
- آزمایشات با استفاده از داده های مخزن یادگیری ماشینی UCI
برای ارائه تحلیل کامل تر از کارآیی روشهای پیشنهادی، آنها را برای مجموعه داده های بدست آمده از مخزن یادگیری ماشینی UCI به کار می بریم. ده مجموعه داده انتخابی ، که در جدول 9 لیست شده اند از بین مواردی با ویژگی های عددی انتخاب شده اند. مجموعه داده ها فقط شامل اشیای مشخصی هستند.
ما هر شی را به یک شی نامعین به شکل pdf نرمال چندمتغیره تبدیل میکنیم. در این خصوص فرمول 1 برای pdf شی i در کلاس k اجرا می شود که بردار میانه و
ماتریس واریانس است. ما داده اصلی را به شکل
در نظر گرفته و
را با استفاده از فرمول 22 حساب میکنیم.
که در آن نشان دهنده محدوده j مین ویژگی از داده اصلی است و
می باشد که
پارامتر کنترلی تعریف شده برای کلاس k است. از آنجایی که ما عدم قطعیت را بعنوان یک ویژگی از یک کلاس در نظر میگیریم ، مقادیر متفاوت ck را برای سطوح مختلف عدم قطعیت اشیای کلاسهای مختلف در نظر خواهیم گرفت.
ما از معتبرسازی متقاطع 10 لایه ای روی مجموعه داده انتخابی استفاده کرده ایم تا دقت چهار متد مطالعه شده را بررسی کنیم. مقادیر دقت ، همراه با ck انتخاب شده برای هر مجموعه داده در جدول 10 نشان داده شده اند. همانطور که در این جدول می بینیم در اکثر مجموعه داده ها، طبقه بندی شی-تا-گروه بیشترین سطح دقت را می دهد. احرازهویت یادداشت بانکی ، فقط یک مجموعه داده است که در مورد آن، طبقه بندی شی-تا-گروه در مکان دوم، با تفاوت خیلی کمی از متدهای KNN- معین و نامعین قرار گرفت. متد KNN-نامعین همچنین متد سودمندی است زیرا در 8 مورد از 10 مورد مجموعه داده ها ، بهتر از KNN-معین عمل میکند و سپس روشهای KNN-معین و متدهای ناوی بیز نامعین در هفت مجموعه داده بخوبی عمل کرده اند.
- نتیجه گیری
ما دو روش جدید برای طبقه بندی اشیای نامعین مدلسازی شده با pdf نرمال چندمتغیره پیشنهاد کردیم. هر دو متد پیشنهادی مبتنی بر مفهوم pdm است. اولین متد مبتنی بر بدست آوردن فاصله شی-تا-گروه است که شامل طبقه بندی K همسایه نزدیکتر می باشد که از pdm های موجود نیز میتواند استفاده کند. ما معیار فاصله Bhattacharyya را بعنوان pdm انتخاب میکنیم زیرا راه حلی تحلیلی برای pdf نرمال چندمتغیره است. این متد در طبقه بندی اشیای نامعین در آزمایشات، با استفاده از داده های واقعی و شبیه سازی شده موفق بوده و اثبات شده که در اکثر موارد بهتر از KNN-معین و طبقه بندی ناوی بیز نامعین عمل میکند.
برای رسیدن به عملکرد بهتری در طبقه بندی، متد دوم پیشنهاد شد که مبتنی بر فاصله شی-تا-گروه است. این روش از pdm پیشنهاد به نام pdm شی-تا-گروه استفاده میکند. استفاده از pdm شی-تا-گروه برای طبقه بندی همبستگی داده و همبستگی کلاس است. طبقه بندی شی-تا-گروه ، در مقایسه با سایر متدها عملکرد بهتری در طبقه بندی دارد زیرا از ابرطرح تفکیک بهینه استفاده می کند.
تحقیقات آتی را میتوان درمورد به کارگیری pdm ها در توسعه الگوریتم های داده کاوی نامعین نظیر خوشه بندی استفاده کرد. همچنین میتوان pdm های شی-تا-گروه عمومی تری برای توزیع احتمال ها ایجاد کرد که در دوثانیه اول، کاملا تعیین و مشخص شوند.