ترجمه مقاله چالش های نوظهور انتخاب ویژگی در زمینه کلان داده

جمعه, ۱۱ فروردين ۱۴۰۲، ۰۱:۴۷ ق.ظ

پیشرفت های اخیر و چالش های نوظهور انتخاب ویژگی در زمینه کلان داده

Recent advances and emerging challenges of feature selection in the context of big data

چکیده: در دوره ای از افزایش پیچیدگی داده و حجم و ظهور داده بزرگ، انتخاب ویژگی نقش اصلی برای کمک به کاهش بعدپذیری بالا در مسائل یادگیری ماشین را ایفاء می کند. ریشه ها و اهمیت انتخاب ویژگی و مقالات اخیر در طیف کاربردها، از تجزیه و تحلیل ریزآرایه DNA تا تشخیص چهره را مورد بررسی قرار می دهیم. سال های اخیر شاهد بوجود آمدن مجموعه داده های بزرگ بوده و مشخص است که این ها تنها در افزایش اندازه و تعداد ادامه دارد. این سناریوی جدید داده بزرگ ، فرصت ها و چالش ها برای محققان انتخاب ویژگی را ارائه می دهد ، زیرا یک نیاز افزایشی برای روش های انتخاب ویژگی مقیاس پذیر ولی کارآمد، با توجه به اینکه روش های موجود احتمالا ناکافی هستند، وجود دارد.

سفارش ترجمه مقاله مهندسی کامپیوتر

1. مقدمه

پدیده '' داده بزرگ '' قبل از چشمانمان تاگشا[1] است و ماهیت تحولی غیر قابل انکار[2] است. از آغاز تا 2003 ، بشر در مجموع 5 اگزابایت داده تولید کرده و در سال 2008 این رقم به 14.7 اگزابایت رسید یعنی سه برابر شد. امروزه 5 اگزابایت داده هر 2 روز تولید شده، و سرعت تولید همچنان رو به افزایش است. از آنجا که حجم، سرعت، تنوع و پیچیدگی مجموعه داده ها[3] به طور پیوسته در حال افزایش است، از این رو روش های یادگیری ماشین به منظور استخراج اطلاعات مفید از حجم عظیمی از داده های بی معنی به امری حتمی تبدیل شده است. یک روش یادگیری ماشین ، انتخاب ویژگی (FS) است که توسط این روش، ویژگی هایی که امکان تعریف مشخص یک مسئله را فراهم می کنند انتخاب می شوند، در حالی که از داده های غیرمربوط و یا اضافه صرف نظر می شود. روش های انتخاب ویژگی به طور سنتی به صورت روش های فیلتر، روش های پوشاننده [4] و یا روش های جاسازی شده [5] طبقه بندی می شوند [1]، هرچند روش های جدیدی که روش های موجود و یا مبتنی بر سایر تکنیک های یادگیری ماشین را ترکیب می کنند، به طور پیوسته برای رفع چالش های مجموعه داده های امروزی پدیدار می شوند. در چند سال گذشته، انتخاب ویژگی با موفقیت در حالات مختلف از جمله حجم بزرگ داده ، مانند تجزیه و تحلیل ریزآرایه DNA، طبقه بندی تصویر، تشخیص چهره، و طبقه بندی متن بکار گرفته شده است. اما، ظهور داده بزرگ چالش های بی سابقه ای برای محققان به وجود آورده است. این مقاله نقاط مهم [6]در تحقیق انتخاب ویژگی، با هدف تشویق جامعه علمی به جستجو و جذب فرصت ها و چالش های جدید که به تازگی بوجود آمده اند را مشخص می کند.

2. نیاز به انتخاب ویژگی

در سال های اخیر، بسیاری از شرکت ها و سازمان ها حجم زیادی از داده ها را به شیوه سیستماتیک، اما بدون یک ایده روشن از سودمندی بالقوه اش ذخیره کرده اند. علاوه بر این، محبوبیت(رواج) رو به رشد اینترنت، داده هایی در فرمت های مختلف (متن، چند رسانه ای، و غیره) و از بسیاری منابع مختلف (سیستم ها، حسگرها، دستگاه های تلفن همراه، و غیره) تولید کرده است. برای اینکه بتوانیم اطلاعات مفید را از تمام این داده ها استخراج کنیم، ما به ابزارهای جدید تجزیه و تحلیل و پردازش احتایج داریم. اکثر این داده ها در چند گذشته تولید شده اند – زیرا به تولید کنتیلیون [7] بایت روزانه ادامه می دهیم [2]. داده بزرگ- حجم های بزرگ و ابعاد فوقالعاده بالا - یک ویژگی تکرارشونده [8] از حوزه های مختلف کاربرد یادگیری ماشین ، از جمله متن کاوی و بازیابی اطلاعات است[3]. Weinberger و همکاران [4]، برای مثال، مطالعه ای راجع به یک عمل فیلترینگ مشارکتی ایمیل اسپم [9] با 16 تریلیون ویژگی منحصر به فرد انجام دادند، در حالی که مطالعه انجام شده توسط Tan و همکاران [3] مبتنی بر طیف گسترده ای از مجموعه داده های مصنوعی و واقعی ده میلیون نقاط داده با ویژگی بود. افزایش دائمی اندازه مجموعه داده ها ، چالش مهمی برای جامعه پژوهش به وجود می آورد؛ طبق Donoho و همکاران [5] '' وظیفه مان ، پیدا کردن یک سوزن در انبار کاه است، بدست آوردن اطلاعات مربوطه خارج از حجم گسترده داده است ''. ابعاد فوق العاده بالا نشان دهنده ی الزامات بزرگ حافظه و هزینه محاسباتی زیاد برای آموزش است.

ظرفیت های تعمیم سازی نیز با آنچه که به عنوان '' نفرین ابعادی[10] '' شناخته می شود، مشخص می شود. مطابق Donoho و همکاران [5]، Bellman این عبارت پرمعنا را در سال 1957 برای توصیف دشواری بهینه سازی به وسیله ی شمارش جامع [11] در فضاهای محصول ابداع کرد [6]. این عبارت به پدیده های مختلفی اشاره دارد که هنگام تجزیه و تحلیل و سازماندهی داده ها در فضاهای با ابعاد بالا (با صدها یا هزاران ابعاد) بوجود می آیند که در پیکربندی های با ابعادی کم اتفاق نمی افتد. مجموعه داده معمولا به وسیله یک ماتریس بیان می شود که در آن سطرها نمونه های ثبت شده (ویا نمونه ها) و ستون ها خصیصه ها [12] (و یا ویژگی ها) هستند که نشان دهنده مشکل مربوطه است. برای حل مسئله ابعادی، مجموعه داده می تواند به وسیله ی پیدا کردن ماتریس های '' باریک تر '' خلاصه شوند که از بعضی جهات به ماتریس اصلی نزدیک هستند. از آنجا که این ماتریس های باریک تر ، تعداد اندکی نمونه و یا ویژگی دارند، از این رو این ماتریس ها می توانند خیلی موثر تر نسبت به ماتریس اصلی استفاده شوند. فرایند پیدا کردن این ماتریس ها باریک ، کاهش ابعادی[13] نامیده می شود. ابعاد فوق العاده بالا نه تنها باعث آسیب در ملزومات غیر قابل تحمل حافظه و هزینه محاسباتی بالا در آموزش می شود، بلکه توانایی تعمیم سازی به خاطر مسئله " نفرین ابعادی" را کاهش می دهد. مطابق مقاله [5] در سال 1957 Bellman [6] عبارت پرمعنی نفرین ابعادی، در ارتباط با مسئله بهینه سازی به وسیله ی شمارش جامع در فضاهای محصول را ابداع کرد. این پدیده هنگام هنگام تجزیه و تحلیل و سازماندهی داده ها در فضاهای با ابعاد بالا (با صدها یا هزاران ابعاد) بوجود می آید که در پیکربندی های با ابعادی کم اتفاق نمی افتد. مجموعه داده معمولا به وسیله یک ماتریس بیان می شود که در آن سطرها نمونه های ثبت شده (ویا نمونه ها) و ستون ها خصیصه ها (و یا ویژگی ها) هستند که نشان دهنده مشکل مربوطه است. برای حل مسئله ابعادی، مجموعه داده می تواند به وسیله ی پیدا کردن ماتریس های '' باریک تر '' خلاصه شوند که از بعضی جهات به ماتریس اصلی نزدیک هستند. از آنجا که این ماتریس های باریک تر ، تعداد اندکی نمونه و یا ویژگی دارند، از این رو این ماتریس ها می توانند خیلی موثر تر نسبت به ماتریس اصلی استفاده شوند. فرایند پیدا کردن این ماتریس ها باریک ، کاهش ابعادی نامیده می شود. استخراج ویژگی یک تکنیک کاهش ابعاد است که مسئله پیدا کردن فشرده ترین و آموزنده ترین مجموعه ویژگی ها برای یک مسئله مشخص را حل می کند تا اینکه ذخیره سازی داده ها و راندمان پردازش افزایش یابد. استخراج ویژگی به مراحل ساخت [14]و انتخاب تفکیک می شود. روش های ساخت ویژگی تخصص انسان در تبدیل داده های '' خام '' به مجموعه ای از ویژگی های مفید با استفاده از روش های تبدیل پیش پردازش از قبیل استانداردسازی، نرمال سازی، گسسته سازی، تقویت سیگنال، و استخراج محلی ویژگی را تکمیل می کند. بعضی از روش های ساخت ابعاد مکان[15] را تغییر نمی دهند، در حالی که سایر روش ها، آن را افزایش و کاهش می دهند و یا هر دو با هم. لازم است که اطلاعات طی مرحله ساخت ویژگی ها از دست نرود. Guyon و Elisseeff [7] توصیه کردند که بهتر است همیشه در سمت خیلی فراگیر بودن به جای اجرای خطر رد کردن(حذف) اطلاعات مفید خطا کنیم[16]. افزودن ویژگی ها ممکن است منطقی به نظر برسد اما هزینه ای در بر دارد: افزایش در ابعاد الگوها ، خطر از دست دادن اطلاعات مربوطه در دریایی از ویژگی های نامربوط، نویزی و یا اضافی را در پی دارد. هدف روش های انتخاب ویژگی ، کاهش دادن تعداد ویژگی های اولیه است برای اینکه زیر مجموعه ای که اطلاعات کافی برای به دست آوردن نتایج رضایت بخش را حفظ می کند، انتخاب کنیم. در جامعه ای که باید با مقادیر عظیمی از داده ها و ویژگی ها در کلیه انواع رشته ها سروکار داشته باشد ، نیاز فوری به راه حل هایی برای مسئله ضروری انتخاب ویژگی وجود دارد. برای درک چالش هایی که محققان با انها روبرو هستند، بخش بعدی به طور خلاصه ریشه های انتخاب ویژگی و مقالات اخیر را توصیف می کند.

سفارش ترجمه مقاله مهندسی کامپیوتر

3. پیشینه کوتاه

انتخاب ویژگی به صورت فرایند تشخیص ویژگی های مربوطه و رد کردن ویژگی های غبرمربوط و زائد با هدف به دست آوردن یک زیر مجموعه از ویژگی هایی که با دقت یک مسئله مشخص با حداقل تنزل عملکرد توصیف می کند، تعریف می شود [1]. به لحاظ تئوری، داشتن ویژگی های ورودی زیاد شاید مطلوب باشد، اما نفرین ابعاد نه تنها یک مسئله ذاتی از داده ها ابعاد بالا است، بلکه بیش از یک مسئله مشترک از داده ها و الگوریتم بکار گرفته شده، است. به این دلیل، محققان شروع به انتخاب ویژگی در یک مرحله پیش پردازش در اقدامی برای تبدیل داده های شان به یک فرم ابعاد کمتر کردند. تحقیق اول راجع به انتخاب ویژگی به سال 1960 بر می گردد[8].

Hughes [9] از یک مدل کلی پارامتری برای مطالعه دقت طبقه بند بیزی [17] به صورت تابعی از تعداد ویژگی ها استفاده کرد، نتیجه به شرح زیر است: '' انتخاب معیار، کاهش و ترکیب به عنوان روش های توسعه یافته پیشنهاد نشده است. تقریبا، این روش ها بیان کننده چارچوبی برای بررسی بیشتر هستند ''. از آن زمان، تحقیق در مورد انتخاب ویژگی با چالش های بسیاری مواجه بوده است، با بعضی از محققان که در مورد پیشرفت خیلی مردد بودند؛ در '' بحث مقاله دکتر میلر '' [10]، برای مثال،RL Plackett بیان کرد: '' اگر حذف متغیر بعد از دو دهه کار با کمک محاسبات با سرعت بالا مرتب [18]نشده است، آنگاه شاید زمان انتقال به سایر مسائل رسیده باشد ''. در سال 1990، پیشرفت های مهم در انتخاب ویژگی مورد استفاده برای حل مسائل یادگیری ماشین صورت گرفت[11-13]. امروزه، انتخاب ویژگی نقش مهمی در کاهش ابعاد مسائل واقعی ایفاء می کند[1،7،14،15]. روش های جدید انتخاب ویژگی های در چند دهه اخیر ایجاد شده اند - به صورت روش های فیلتر، پوشاننده و یا جاسازی شده- که مبتنی بر رابطه بین الگوریتم انتخاب ویژگی و روش یادگیری استقرایی مورد استفاده برای بدست آوردن مدل هستند [1]. روش های انتخاب ویژگی همچنین می توانند مطابق با روش های ارزیابی فردی و ارزیابی زیر مجموعه طبقه بندی شوند [16]؛ روش اولی نیز رتبه بندی ویژگی نامیده می شود - که ویژگی های فردی را به وسیله ی تخصیص دادن وزن ها به آنها مطابق با رابطه بررسی می کند، در حالی که روش دوم، زیر مجموعه های نامزد ویژگی مبتنی بر روش خاص جستجو را تولید می کند که سپس توسط بعضی از معیارها ارزیابی می شود. با توجه به توانایی اش برای افزایش عملکرد الگوریتم های یادگیری، انتخاب ویژگی توجه زیادی در زمینه یادگیری ماشین، در فرآیندهایی از قبیل خوشه بندی [17،18]، رگرسیون [19،20] و طبقه بندی [12،21] بدست آورده است، اینکه آیا نظارتی یا بدون نظارت. از الگوریتم های متعدد انتخاب ویژگی ، الگوریتم های زیادی در میان محققان رایج شده است. جدول 1 خلاصه وار بسیاری از روش های پرکاربرد انتخاب ویژگی را ارائه می دهد، نشان می دهد که آیا این روش ها، تک متغیره و یا چند متغیره هستند، اینکه آیا این روش ها یک رتبه بندی و یا زیر مجموعه ، مرجع اصلی انتشار و پیچیدگی محاسباتی را بازمی گردانند (که در آن n تعداد نمونه ها و m تعداد ویژگی ها است). این روش های پرکاربرد بخشی از پیشرفته ترین [19] در انتخاب ویژگی هستند. روش های چند متغیره معمولا خواهان به دست آوردن نتایج بهتر نسبت به روش های تک متغیره هستند، اما در ازای هزینه محاسباتی بیشتر. هیچ روش یک اندازه واحد برای همه [20] وجود ندارد، زیرا هر روش برای انواع مشخص مشکلات مناسب تر است. در مقاله قبلی [32]، ما عملکرد بعضی از این الگوریتم های جدید در یک سناریوی مصنوعی کنترلی بررسی کردیم که راندمان شان در حل مشکلاتی از قبیل افزونگی[21] بین ویژگی ها، غیر خطی بودن، نویز در ورودی و خروجی ها و تعداد زیاد ویژگی ها نسبت به نمونه ها (همانطور که با طبقه بندی ریزآرایه DNAاتفاق می افتد) بررسی می کند. جدول 2 خلاصه وار نتایج مان (ستاره بیشتر به معنی مناسب بودن بیشتر برای یک مسئه مشخص است) را ارائه می دهد. توجه کنید که نسخه های SVM-RFE با کرنل [22]خطی و غیر خطی مورد آزمایش قرار گرفت، اما دومی (SVM-RFE-nl) نمی تواند به دلایل محاسباتی به یک سناریو با هزاران ویژگی ها اعمال شود. الگوریتم ReliefF، که یک گزینه خوب مستقل از خصوصیات مسئله است، به دلیل مستحکم بودن و توانایی تعامل با داده های ناقص و نویزی شناخته شده است. الگوریتم ReliefF می تواند در اکثر شرایط به کار گرفته شود، دارای بایاس پایین است، و تعامل در میان ویژگی ها را در بر می گیرد و می تواند وابستگی های محلی که سایر روش ها شاید از دست دهند را بدست آورد.

SVM-RFE نیز کاملا انجام شده، اگر چه پیچیدگی محاسباتی اش مانع استفاده از آن با مجموعه داده های با ابعاد بالا می شود، به ویژه زمانی که یک کرنل غیر خطی استفاده می شود. mRMR نیز به صورت قابل قبول انجام شده به جز با مجموعه داده هایی با تعداد ویژگی های زیاد. حتی اگر mRMR با ایده حذف افزونگی ایجاد شده باشد، اما mRMR نمی تواند ویژگی های زائد در آزمایشات با یک مجموعه داده ریزآرایه مصنوعی DNA حذف کند، که در آن افزونگی یک مسئله آشکار است. نهایتا، نتایج ضعیف برای همبستگی و افزونگی با CFS، Consistency ، INTERACT و InfoGain ارزیابی شده با مجموعه داده رایج CORRAL بدست آمد، که دارای چهار مقدار باینری لازم برای پیش بینی و طبقه بندی، با یک ویژگی اضافی است که به برچسب کلاس 75٪ مرتبط(همبسته) شده است. این چهار روش ، ویژگی همبسته شده را انتخاب کرده، ولی چهار ویژگی کاملا مربوطه را حذف می کنند. با این حال، این روش ها در انتخاب ویژگی های اضافی هنگام مواجهه با سناریوهایی مواه با هزاران ویژگی ها کاملا موثر نبودند [32]. همانطور که مشاهده می شود، روش های موجود انتخاب ویژگی دارای محاسن و معایب مختص به خودشان هستند. توجه کنید که زمان محاسباتی در تجزیه و تحلیل های قبلی مان لحاظ نشده است [32].

اما، امروزه این عامل نقش مهمی در مسائل داده بزرگ ایفاء می کنند. به طور کلی، روش های تک متغیره دارای مزیت مهم مقیاس پذیری هستند، اما در ازای صرف نظر از وابستگی های ویژگی و کاهش عملکرد طبقه بندی. در مقابل، روش های چند متغیره ، عملکرد طبقه بندی را افزایش می دهند، اما بار محاسباتی شان اغلب بدان معناست که آنها نمی توانند به داده بزرگ اعمال شوند. بدیهی است که محققان انتخاب ویژگی باید روش های موجود را بپذیرند و یا روش های جدیدی برای حل چالش های ناشی از انفجار داده های بزرگ ارائه دهند (بحث شده در بخش 5).

4. مقالات اخیر

روش های جدید انتخاب ویژگی به طور پیوسته توسعه یافته است، بنابراین یک مجموعه گسترده در دسترس محققان است. در زیر، پیشرفت های اخیر در راه حل ها برای مشکلات ابعاد بالا در حوزه هایی از قبیل خوشه بندی [33،34]، رگرسیون [35-37] و طبقه بندی [38،39] مورد ارزیابی قرار می دهیم. کاربرد انواع مختلف ویژگی و ترکیبات به هنجاری در بسیاری از کاربردهای واقعی امروزه تبدیل شده است، که منجر به انفجار واقعی ویژگی با توجه به پیشرفت های سریع در فن آوری های محاسباتی و اطلاعاتی می شود [2]. به طور سنتی، و به دلیل ضرورت تعامل با داده ابعاد خیلی بالا ، جدیدترین روش های انتخاب ویژگی ، روش های فیلتر هستند. اما، روش های جاسازی شده در چند سال اخیر بسیار استفاده شده اند ، با توجه به اینکه این روش ها امکان انتخاب و طبقه بندی همزمان ویژگی را فراهم می کنند [40-42]. اما به روش های پوشاننده به علت بار محاسباتی سنگین و خطر زیاد بیش برازش [23] هنگامی که تعداد نمونه ها ناکافی است توجه کمتری شده است. همچنین تمایل به ترکیب کردن الگوریتم ها، یا در قالب روش های ترکیبی [43-46] و یا روش های گروهی وجود دارد [47-51]. جدا از مقاله خود مان [32]، بیان شده در بخش قبلی ، سایر مقالات ، روش های پردکاربرد انتخاب ویژگی از چند سال گذشته را مورد بررسی قرار دادند. Molina و همکاران [52] عملکرد الگوریتم های اصلی انتخاب ویژگی در یک سناریوی کنترلی، با در نظر گرفتن ارتباط ، نامرتبطی و افزونگی مجموعه داده را بررسی کردند. Saeys و همکاران [53] یک طبقه بندی اساسی از تکنیک های کلاسیک انتخاب ویژگی ایجاد کردند که استفاده شان در کاربردهای بیوانفورماتیک را مورد بحث قرار می دهد. Hua و همکاران [54] بعضی از روش های اصلی انتخاب ویژگی در پیکربندی ها از جمله هزاران ویژگی ، با استفاده از هر دو داده های مصنوعی مبتنی بر مدل و داده های واقعی مقایسه کردند. Brown و همکاران [55] یک چارچوب واحد برای انتخاب ویژگی اطلاعات تئوری پیشنهاد دادند که تقریبا دو دهه تحقیقات را درون معیار فیلتر اکتشافی تحت یک چتر تئوری می آورد. نهایتا، Garcia و همکاران [56] یک فصل از کتاب پیش پردازش داده را به بحث در مورد انتخاب ویژگی و تجزیه و تحلیل جنبه ها و روش های اصلی اش اختصاص دادند. دیدگاه دیگر هنگام تمرکز بر روی یک مشکل مشخص بدست امده است، به وسیله استفاده از روش های مختلف انتخاب ویژگی توسط محققان در اقدامی برای بهبود عملکرد. در این مورد، روش ها کاملا به مسئله مورد نظر بستگی دارند.

1.4 کاربردها

روش های انتخاب ویژگی در حال حاضر به مسائلی در زمینه های بسیار متفاوت اعمال شده است. در زیر بعضی از رایج ترین کاربردها که استفاده از این روش ها را ترویج می دهند، ارائه می دهیم.

1.1.4 تجزیه و تحلیل ریزآرایه

ریزآرایه های DNA برای جمع آوری اطلاعات در تفاوت های بیان ژن[24] در نمونه های بافتی و سلولی استفاده می شوند که می توانند برای تشخیص بیماری و یا برای تشخیص انواع خاص تومورها مفید باشند. اندازه نمونه معمولا کوچک (اغلب کمتر از 100 بیمار) است، اما داده خام که بیان ژن را اندازه گیری می کند، ممکن است 6000-60000 ویژگی داشته باشد. در این حالت، انتخاب ویژگی ناچاراً به یک مرحله الزامی پیش پردازش تبدیل می شود. اولین تحقیقی در این زمینه، در سال 2000 ]53[، توسط الگوی تک متغیره غالب بود[57-59]، که سریع و مقیاس پذیر است اما از وابستگی های ویژگی صرف نظر می کند. با این حال، بعضی تلاش ها همچنین با روش های چند متغیره صورت گرفت، زیرا این روش ها می توانند وابستگی های ویژگی را مدل کنند، اگر چه این روش ها کندتر و کم مقیاس پذیر نسبت به روش های تک متغیره هستند [32]. روش های چند متغیره فیلتر [60-63]، و همچنین روش های پیچیده تر مانند روش های پوشاننده و جاسازی شده استفاده شدند [64-67].

یک بررسی کامل از به روز ترین روش های انتخاب ویژگی مورد استفاده برای داده های ریزآرایه را می توان در مقاله [68] پیدا نمود، که نشان می دهد که بسیاری از مقالات از سال 2008 به روش فیلتر روی آوردند، اساسا بر اساس تئوری اطلاعات (شکل 1). از روش پوشاننده تا حد زیادی به علت بار محاسباتی سنگین منابع و خطر بالای بیش برازش اجتناب شده است. اگرچه روش جاسازی شده، توجه زیادی در مراحل ابتدایی طبقه بندی داده های ریزآرایه بدست نیاورده است، اما چندین پیشنهاد در سال های اخیر پدید آمده است. نهایتا، لازم به ذکر است که مقالات اخیر تمایلی به سمت ترکیب کردن الگوریتمها در روش های ترکیبی و یا گروهی دارند (نمایش داده شده به صورت '' Other '' در شکل 1).

2.1.4 طبقه بندی تصویر

طبقه بندی تصویر یک زمینه پژوهشی رایج با توجه به تقاضا برای روش های کارآمد برای طبقه بندی تصاویر به دسته ها تبدیل شده است. خواص عددی ویژگی های تصویر معمولا برای تعیین اینکه به کدام دسته تعلق دارند تجزیه و تحلیل می شوند. با پیشرفت های اخیر در ضبط تصویر و ذخیره سازی و فن آوری های اینترنت، مقدار داده های تصویری زیادی برای عموم در دسترس قرار گرفته است، از مجموعه عکس گوشی هوشمند تا وب سایت ها و حتی پایگاه داده های ویدئویی. از آنجا که پردازش تصویر معمولا به حافظه کامپیوتر بزرگ و توان زیاد احتیاج دارد، از این رو انتخاب ویژگی می تواند به کاهش تعداد ویژگی های مورد نیاز به منظور طبقه بندی صحیح تصویر کمک کند. اگر چه انفجار داده ها کفایت روش های انتخاب ویژگی برای تعامل با میلیون ها تصویر را آشکار کرده است، اما یک نیاز برای اطلاع از اینکه کدام ویژگی برای استخراج از هر پیکسل در دهه های قبلی پیش احتیاج است. یک مشکل رایج در این زمینه آن است که مقالات به بسیاری از مدل ها برای استخراج ویژگی های بافتی از تصویر مشخص از قبیل میدان های تصادفی مارکوف[25] و ویژگی های رخداد همزمان[26] اشاره می کنند. اما، Ohanian و Dubes بیان کردند [69] ، بهترین زیر مجموعه ویژگی به لحاظ جهانی وجود ندارد. به همین علت، وظیفه انتخاب پارامتر باید برای هر مسئله به منظور تصمیم گیری اینکه کدام نوع ویژگی استفاده شود، خاص باشد. Jain و Zongker ]70[ همچنین سعی کردند تا تعیین کنند اینکه آیا نرخ خطای طبقه بندی برای تصاویر رادار روزنه مصنوعی می تواند به وسیله ی روش انتخاب ویژگی به مجموعه ای از 18 ویژگی به دست آمده از چهار مدل مختلف بافت برای هر پیکسل کاهش یابد. اخیرا، چندین فیلتر به ویژگی های استخراج شده با پنج روش مختلف تجزیه و تحلیل بافت اعمال شد[71]، اگر چه، در این مورد، محققان به پیدا کردن اینکه کدام ویژگی های بافت استفاده شود، اهمیت ندادند، اما کاهش زمان محاسباتی لازم برای استخراج ویژگی ها را مورد توجه قرار دادند . وقتی که تعداد ویژگی های استخراج شده و پردازش شده کاهش می یابد، زمان مورد نیاز نیز متعاقبا کاهش می یابد، و این امر معمولا می تواند با حداقل تنزل عملکرد حاصل شود. انتخاب ویژگی نیز برای حاشیه نویسی تصویر[27] به صورت خودکار قابل اجرا است. دو الگوریتم انتخاب ویژگی وزن دار [72،73] برای کمک به الگوریتم های خوشه بندی که با ابعاد بزرگ داده ها و پیاده سازی مقیاس دهی به تعداد زیاد کلیدواژه ها سرو کار دارد، پیشنهاد شده است. Gao و همکاران [74] و Jin و Yang [75] یک راه حل مبتنی بر الگوریتم های سلسله مراتبی انتخاب ویژگی برای حل مشکلات استخراج خودکار ویژگی و آموزش طبقه بند تصویر و انتخاب زیر مجموعه ویژگی ، با استفاده از یک چارچوب مبتنی بر شبکه چند ریزه گی [28] و یک الگوریتم تقویت [29] برای افزایش دادن ماشین های بردار پشتیبان [30] در فضای ویژگی ابعاد بالا ارائه دادند. Lu و همکارانش [76] سپس روش پوشاننده مبتنی بر الگوریتم ژنتیک به منظور انتخاب بین توصیف گرهای ویژگی MPEG-7 ارائه دادند. در عین حال، Little و Ruger [77] یک الگوریتم تخمین تراکم غیر پارامتری برای ارزیابی زیرمجموعه های ویژگی ها پیشنهاد دادند. اخیرا، Ma و همکاران [78] یک روش جدید، مبتنی بر یک مدل مبتنی بر پراکندگی[31] ارائه دادند که به طور مشترک مرتبط ترین ویژگی ها را از همه نقاط داده انتخاب می کنند در حالی که همچنین زیرفضای مشترک ویژگی های اصلی را آشکار می کنند (برای یادگیری چند برچسبی مفید است).

3.1.4 تشخیص چهره

تشخیص چهره انسان یک مسئله پیچیده تشخیص بصری است. در چند دهه گذشته، تشخیص چهره به یکی از زمینه های تحقیقاتی فعال به دلیل کاربردهای تجاری و حقوقی اش تبدیل شده است.

یک کاربرد رایج ، شناسایی و یا تایید یک فرد از یک تصویر دیجیتال و یا یک قاب منبع شده با تصویر[32] به وسیله ی مقایسه ویژگی های صورتی انتخاب شده از تصویر با ویژگی ها در یک پایگاه داده صورت است. یک مسئله مهم در این زمینه ، تعیین اینکه کدام ویژگی های تصویر، آموزنده(خبری) ترین برای اهداف تشخیص هستند، می باشد. متاسفانه، این وظیفه بی اهمیتی نیست، زیرا افزونگی زیادی در تصاویر شی وجود دارد؛ علاوه بر این، پایگاه داده های صورت شامل تعداد زیادی ویژگی می شود اما تعداد نمونه ها کاهش یافته است. الگوریتم های انتخاب ویژگی برای تشخیص چهره به تازگی به عنوان روش برای حل این مسائل پیشنهاد شده است. روش فیلتر انتخاب ویژگی یک انتخاب رایج است، اساسا به علن هزینه محاسباتی کم اش در مقایسه با روش های پوشاننده و یا جاسازی شده. Yang و همکاران [79] روشی مبتنی بر معنای فیزیکی معیار تعمیم یافته ی فیشر به منظور انتخاب متمایزترین ویژگی ها برای تشخیص ارائه دادند. Lu و همکارانش [76] یک روش جدید برای انتخاب یک زیر مجموعه از ویژگی های اصلی حاوی مهم ترین اطلاعات؛ به نام تجزیه و تحلیل ویژگی اصلی (PFA) ارائه دادند، این روش شبیه به روش های تجزیه و تحلیل مولفه های اصلی (PCA) است. de S Matos و همکاران [80] یک روش تشخیص چهره مبتنی بر انتخاب ضریب تبدیل کسینوسی گسسته (DCT) پیشنهاد دادند. اخیرا، Lee و همکاران [81] یک روش جدید تشخیص رنگ چهره ارائه دادند که از جستجو پی در پی پیشرو شناور (SFFS) برای به دست آوردن مجموعه مولفه های بهینه رنگ برای اهداف تشخیص استفاده می کند. همچنین لازم به ذکر است که روش پیشنهادی زیادی مبتنی بر روش های محاسبات تکاملی در این زمینه موفق ظاهر شده اند[82-85].

4.1.4 طبقه بندی متن

هدف طبقه بندی متن ، دسته بندی اسناد درون تعداد ثابتی دسته [33]ها و یا برچسب [34]های از پیش تعریف شده است. این مسئله به ویژه به کاربردهای اینترنت برای تشخیص اسپم و وب سایت های خرید و حراج مرتبط شده است. هر کلمه منحصر به فرد در یک سند یک ویژگی در نظر گرفته می شود. اما، از آنجا که این امر نشان دهنده ی ویژگی های ورودی بیشتر نسبت به نمونه ها است، (معمولا بیش از یک مرتبه اندازه)، از این رو انتخاب یک کسری از واژگان لازم است و بنابراین به الگوریتم یادگیری اجازه ی کاهش دادن الزامات محاسباتی، ذخیره سازی و یا پهنای باند مورد نظر را می دهد. مرحله پیش پردازش معمولا از قبل برای انتخاب ویژگی جهت حذف کلمات نادر و ترکیب کردن اشکال کلمه مانند صرف های جمع و فعل درون عبارت یکسان بکار گرفته می شود. روش های زیادی برای نمایش مقادیر ویژگی وجود دارد، برای مثال، ارزش بولی[35] برای نشان دادن این که یک کلمه وجود دارد و یا ندارد و یا حاوی تعداد تکرارهای کلمه است. حتی بعد از این مرحله پیش پردازش، تعداد کلمات ممکن در یک سند ممکن است هنوز زیاد باشد، بنابراین انتخاب ویژگی غالب[36] می باشد. روش های زیادی ایجاد شده و در سال های اخیر به این مسئله اعمال شده است. Forman [86] یک متریک جدید انتخاب ویژگی ، به نام تفکیک دو نرمالی (BNS) پیشنهاد داده است که یک روش اکتشافی مفید برای مقیاس پذیری افزایش یافته است زمانی که با روش های پوشاننده ی طبقه بندی متن استفاده می شود. Kim و همکاران [87] چند روش جدید انتخاب ویژگی را به داده های خوشه بندی شده اعمال کردند، در حالی که Dasgupta و همکاران [88] یک روش بدون نظارت انتخاب ویژگی پیشنهاد دادند که به لحاظ تئوری قدرت تعمیم سازی تابع طبقه بندی حاصله را با توجه به تابع طبقه بندی مبتنی بر تمام ویژگی ها تضمین می کند. Forman [89] یک سری فیلتر اعمال شده به مسائل باینری، چند کلاسه و سلسله مراتبی طبقه بندی متن را مورد بررسی قرار داد که به ویژه بر مقیاس پذیری تمرکز دارد. Uguz ]43[ یک روش انتخاب ویژگی دو مرحله ای برای طبقه بندی متن با استفاده از الگوریتم های InfoGain، PCA و ژنتیک پیشنهاد داد که اثربخشی طبقه بندی بالا برای دو مجموعه داده کلاسیک محک[37] را بدست می آورد. Shang و همکاران [90] اخیرا یک متریک جدید به نام بهره اطلاعات جهانی (GIG) پیشنهاد دادند که از افزونگی به طور طبیعی اجتناب می کند و همچنین یک روش کارامد انتخاب به نام بیشینه سازی بهره اطلاعات جهانی (MGIG) ارائه می دهد، که اثبات شده برای انتخاب ویژگی در حوزه متن مناسب است. اخیرا، Baccianella و همکاران [91] شش روش جدید انتخاب ویژگی به ویژه برای طبقه بندی ترتیبی ارائه دادند. همانطور که دیده می شود، اکثر روش های یادگیری ماشین می توانند از انتخاب ویژگی برای اهداف پیش پردازش بهره ببرند، زیرا این روش معمولا بهبود دقت را افزایش و هزینه محاسباتی تشخیص الگو را کاهش می دهد.

5. نقاط مهم: نسل بعدی انتخاب ویژگی چیست؟

همانطور که در ابتدای این مقاله بیان شد، پیشرفت های مداوم در فناوری های مبتنی بر کامپیوتر این امکان را برای محققان و مهندسان فراهم کرده است تا بتوانند داده ها را با سرعتی بالایی جمع آوری کنند . برای حل چالش تجزیه و تحلیل این داده ها، انتخاب ویژگی به یک مرحله پیش پردازش مهم تبدیل می شود که باید برای کنترل داده های با ابعاد بالا پذیرفته شده و بهبود یابد. نیاز به انتخاب ویژگی را مشخص کرده و مقالات اخیر در زمینه های مختلف کاربردی را مورد بحث قرار دادیم. اما ، در سناریوی جدید داده بزرگ، چالش های مهمی نو ظهور هستند، که نشان دهنده ی نقاط مهم در تحقیقی انتخاب ویژگی است.

1.5 میلیون ها ابعاد

در عصر جدید داده بزرگ، روش های یادگیری ماشین باید توانایی تعامل با مقیاس بی سابقه داده ها را داشته باشند. مشابه با داده بزرگ ، عبارت '' ابعاد بزرگ '' ابداع شده که بیان تعداد بی سابقه ویژگی ها وارد شونده به سطوحی که روش های یادگیری ماشین را ارائه می دهند، نامیده می شود [2]. انباره پرکاربرد یادگیری ماشین UCI [94] نشان می دهد که در سال 1980، ماکزیمم ابعاد داده تنها تقریبا 100 تا است. در سال 1990، این تعداد به بیش از 1500 و تا سال 2009، به بیش از 3 میلیون افزایش یافت. اگر بر روی تعداد ویژگی های مجموعه داده های UCI تمرکز کنیم، آنگاه 13 تا دارای بیش از 5000 ویژگی و اکثراً دارای نسبت نمونه / ویژگی زیر سطح 0-a هستند که به طور بالقوه مانع فرایند یادگیری می شود. شکل 2 تعداد ویژگی های مجموعه داده های با بالاترین ابعاد موجود در انباره یادگیری ماشین UCI در هفت سال اخیر را نشان می دهد. در پایگاه داده رایج LIBSVM [95] ماکزیمم ابعاد داده تقریبا 62000 در سال 1990 بود، و به حدود 16 میلیون در سال 2000 و به بیش از 29 میلیون در سال 2010 افزایش یافت. به طور مشابه، 20 تا از 92 مجموعه داده دارای بیش از 5000 ویژگی و 11 مجموعه داده دارای ویژگی های بسیار زیاد نسبت به نمونه ها هستند. هفت تا از مجموعه داده ها موجود در این دو انباره در 9 سال گذشته دارای ابعادی از مرتبه میلیون هستند. جدا از این انباره های کلی، انباره های دیگری با مشکلات خاص ابعاد بالا از قبیل طبقه بندی ریزآرایه DNA فوق [68] و تجزیه و تحلیل تصویر وجود دارد [96،97]. در این سناریو، روش های جدید انتخاب ویژگی با چالش های کلیدی مواجهه شده است که به طور بالقوه دارای پیامدهای منفی بر عملکرد است. برای مثال، Zhai و همکاران [2] به بیش از یک روز تلاش محاسباتی به وسیله ی انتخاب گرهای جدید ویژگی SVM-RFE و mRMR برای کاهش دادن[38] داده ها برای یک مجموعه داده پلی مورفیسم تک نوکلئوتیدی پسوریازیس (SNP) متشکل از تنها نیم میلیون ویژگی اشاره کردند. علاوه بر این، بسیاری از روش های جدید انتخاب ویژگی مبتنی بر طرح های الگوریتم برای محاسبه همبستگی جفتی [39]هستند. پیامدها هنگام تعامل با یک میلیون ویژگی آن است که کامپیوتر باید یک تریلیون همبستگی را کنترل کند . این نوع مسئله ، چالش بزرگ برای محققان یادگیری ماشین به وجود می آورد که هنوز باید بررسی شود.

2.5 مقیاس پذیری

بیشتر الگوریتم های یادگیری موجود زمانی ایجاد شدند که اندازه های مجموعه داده بسیار کوچکتر است، اما امروزه راه حل های مختلفی برای مسائل مقیاس کوچک نسبت به مسائل یادگیری مقیاس بزرگ مورد نیاز هستند. مسائل یادگیری مقیاس کوچک متحمل مصالحه[40] معمول تخمین - تقریب می شوند، اما این مصالحه در حالت مسائل یادگیری مقیاس بزرگ پیچیده تر است، نه تنها به دلیل دقت ، بلکه به دلیل پیچیدگی محاسباتی الگوریتم یادگیری. علاوه بر این، از آنجا که اکثر الگوریتم های ، با این فرضیه طراحی شده بودند که مجموعه داده نشان دهنده ی یک جدول مقیم در حافظه است ، از این رو این الگوریتم ها زمانی که کل مجموعه داده در حافظه اصلی منطبق(جور) نمی شود، بی فایده هستند. اندازه مجموعه داده بنابراین یک دلیل برای الگوریتم های افزایش مقیاس [41] یادگیری ماشین است. با این حال، ساختارهای دیگری وجود دارد که در آن یک محقق می تواند مقیاس دلهره آور وظیفه یادگیری ماشین را پیدا کند [98] ، برای مثال:

. پیچیدگی مدل و الگوریتم: تعدادی از الگوریتم های یادگیری با دقت بالا به مدل های پیچیده ، غیر خطی، وابسته بوده و یا زیرروالهای محاسباتی گران را به کار می برند.

. محدودیت های زمانی استنتاج: کاربردهایی که شامل سنجش، مانند هدایت ربات و یا تشخیص گفتار می شود، نیاز به پیش بینی هایی در زمان حقیقی برای انجام شدن دارند.

. کسکودهای پیش بینی: کاربردهایی که به پیش بینی های متوالی، وابسته نیاز دارند، دارای یک مکان خروجی مشترک بسیار پیچیده هستند.

. انتخاب مدل و جاروب های پارامتر: تنظیم ابر پارامترهای الگوریتم یادگیری و ارزیابی اهمیت آماری به اجراهای متعدد یادگیری احتایج دارد.

به خاطر این دلایل، الگوریتم های افزایش مقیاس یادگیری یک مسئله مهم است. مثال های مناسب عبارتند از: کارگاه '' چالش یادگیری مقیاس بزرگ پاسکال '' برگذار شده در 25 امین کنفرانس بین المللی راجع به یادگیری ماشین (ICML08) و کارگاه '' یادگیری بزرگ '' که در کنفرانس سال 2011 راجع به اصول سیستم های پردازش اطلاعات عصبی (NIPS2011) برگذار شد. افزایش مقیاس به دلیل آنکه افزایش اندازه مجموعه آموزش غالباً دقت الگوریتم را افزایش می دهد، مطلوب است [99]. در الگوریتم های افزایش مقیاس یادگیری، موضوع تنها بالا بردن سرعت یک الگوریتم کند همانند تبدیل یک الگوریتم غیر عملی به یک عملی نیست. امروزه یک اجماع در جوامع یادگیری ماشین و داده کاوی وجود دارد که حجم داده ها ، چالش فوری مربوط به مسئله مقیاس پذیری ارائه می دهند[2]. نکته مهم این نیست که چقدر سریع شما می توانید یک مشکل خاص را حل کنید، بلکه ان است که چگونه شما می توانید با یک مسئله بزرگ تعامل داشته باشید [100]. مقیاس پذیری به صورت تاثیر افزایش در اندازه مجموعه آموزشی بر روی عملکرد محاسباتی یک الگوریتم از نظر دقت، زمان آموزش و حافظه تخصیص یافته تعریف می شود. بنابراین چالش اصلی، پیدا کردن یک مصالحه در میان این معیارها – به عبارت دیگر، به دست آوردن راه حل های '' به اندازه کافی خوب '' و بسیار '' سریع '' و بسیار '' موثر '' است. همانطور که قبلا توضیح داده شد، این موضوع در شرایطی بحرانی می شود که در آن محدودیت های زمانی و یا مکانی وجود دارد، زیرا با کاربردهای زمان حقیقی که با مجموعه داده های بزرگ تعامل دارد اتفاق می افتد، مشکلات محاسباتی غیر عملی که به یادگیری و نمونه سازی اولیه که به راه حل های با سرعت اجرای بالا احتیاج دارند. همانند انتخاب نمونه، که دارای هدف حذف حشوها[42] یعنی نمونه های زائد و یا نامرتبط است[101]، انتخاب ویژگی می تواند الگوریتم های یادگیری ماشین را به وسیله ی کاهش دادن ابعاد ورودی و نیز زمان اجرای الگوریتم مقیاس دهی کند. اما، هنگام تعامل با یک مجموعه داده حاوی تعداد زیادی از هر دو ویژگی و نمونه ها، مقیاس پذیری روش انتخاب ویژگی نیز اهمیت بحرانی را در نظر می گیرد. از آنجا که اکثر روش های انتخاب ویژگی برای پردازش داده های مقیاس کوچک طراحی شده اند، از این رو راندمان شان احتمالا کاهش می یابد، در صورتی که کاملا با داده های ابعاد بالا کاهش نیافته باشد. شکل 3 پاسخ های زمان اجرا برای تغییرات نسبت به تعداد ویژگی ها و نمونه ها برای چهار روش معروف رتبه دهنده انتخاب ویژگی اعمال شده به مجموعه داده SD1، مجموعه داده مصنوعی که داده های ریزآرایه DNAرا شبیه سازی می کند، نشان می دهد]102[. در این سناریو، محققان انتخاب ویژگی نه تنها باید بر دقت انتخاب تمرکز کنند، بلکه باید بر جنبه های دیگر نیز تمرکز داشته باشند. یک عامل پایداری [43] است که به صورت حساسیت نتایج به تغییرات مجموعه آموزش تعریف می شود. عامل مهم دیگر، مقیاس پذیری، که پاسخ انتخاب ویژگی به مجموعه بزرگ آموزش نامیده می شود. مقالات اندکی در مورد رفتار فیلتر در مجموعه های کوچک آموزش با ویژگی های زیاد [55،103-105] و حتی کمتر در مورد مسئله مقیاس پذیری منتشر شده است [106]. مطالعات انجام شده اساسا بر مقیاس پذیری در کاربردهای خاص [107]، تغییرات روش های موجود [108]، ترکیبات روش های انتخاب نمونه و ویژگی [109] و روش های آنلاین [110] و روش های موازی [111] متمرکز هستند. مقاله اخیر منتشر شده توسط Tan و همکاران [3] یک روش جدید مقیاس دهی تطبیقی ویژگی - اعمال شده به چند مجموعه داده مصنوعی و واقعی بزرگ ؛ مبتنی بر انتخاب ویژگی گروهی و یادگیری کرنل چندگانه را ارائه دادند ؛ این روش مقیاس پذیری را برای سناریوهای داده بزرگ فراهم می کند. به طور کلی، اگرچه اکثر روش های کلاسیک انتخاب ویژگی تک متغیری (با هر ویژگی مستقل) دارای مزیت مهم از نظر مقیاس پذیری هستند، اما این روش ها از وابستگی های ویژگی صرف نظر کرده و از این رو به طور بالقوه عملکرد بدتری نسبت به سایر روش های انتخاب ویژگی دارند. روش های چند متغیره، در مقابل، ممکن است عملکرد را بهبود بخشند، اما در ازای کاهش یافتن مقیاس پذیری [112]. مقیاس پذیری یک روش انتخاب ویژگی نیز بسیار مهم است و نیازمند توجه بیشتری از سوی جامعه علمی است. یکی از راه حل های رایج پذیرفته شده برای تعامل با مسئله مقیاس پذیری ، توزیع داده ها درون چند پردازنده است.

3.5 انتخاب ویژگی توزیعی

به طور سنتی، انتخاب ویژگی به شیوه متمرکز بکار گرفته می شود، یعنی، یک مدل یادگیری برای حل یک مسئله مشخص استفاده می شود.

اما، از آنجا که امروزه داده ها ممکن است توزیع شوند، از این رو انتخاب ویژگی می تواند از پردازش زیر مجموعه های چندگانه به صورت متوالی و یا همزمان بهره ببرد. رو های مختلفی برای توزیع یکی وظیفه انتخاب ویژگی وجود دارد [113] (توجه کنید: پردازش زمان حقیقی در بخش 5.4 بحث خواهد شد):

(الف) داده با هم در یک مجموعه داده خیلی بزرگ قرار دارد. داده ها را می توان در چندین پردازنده توزیع نمود، یک الگوریتم انتخاب ویژگی یکسان می تواند در هر یک اجرا و نتایج ترکیب شوند.

(ب) داده ها ممکن است در مجموعه داده های مختلف در مکان های مختلف باشد (برای مثال، در بخش های مختلف یک شرکت و یا حتی در سازمان های مختلف مشارکتی). همانند حالت قبلی، یک الگوریتم مشابه انتخاب ویژگی می تواند در هر یک اجرا و نتایج ترکیب شود.

(ج) حجم زیاد داده ها ممکن است به جریان پیوسته نامحدود در زمان حقیقی برسد. اگر داده ها همگی درون یک پردازنده جریان سازی [44]شوند، آنگاه بخش های مختلف را می توان به وسیله ی پردازنده های مختلف که به صورت موازی عمل می کنند، پردازش کرد. اگر داده ها درون پردازنده های مختلف جریان سازی شود، آنگاه می توان آنها را به صورت فوق کنترل نمود.

(د) مجموعه داده خیلی بزرگ نیست اما روش های مختلف انتخاب ویژگی باید برای یادگیری نمونه های پنهان به کار برده شوند و نتایج ترکیب شود(توسط سیستم رای گیری). کلمجموعه داده ممکن است در یک پردازنده باشد، و توسط روش های یکسان و یا متفاوت انتخاب ویژگی که به تمام یا بخشی از داده ها دسترسی دارد، قابل دسترسی باشد.

این روش آخر، به عنوان یادگیری گروهی [45]نامیده می شود، که به تازگی توجه زیادی از محققان را به خود جلب کرده است[114]. توجه به این روش، به علت این واقعیت است که، از آنجا که واریانس بالا یک مشکل روش های انتخاب ویژگی است، از این رو یک راه حل عملی ، استفاده از یک روش گروهی مبتنی بر روش های ترکیبی است [115،51]. انتخابگرهای فردی در یک گروه به عنوان انتخاب گر های پایه[46] نامیده می شوند. اگر انتخابگرهای پایه همگی از یک نوع یکسان باشند ، آنگاه گروه ، همگن[47] نامیده می شود. انتخاب ویژگی گروهی در دو مرحله انجام می شود. ابتدا، مجموعه ا انتخابگرهای مختلف ویژگی به کار برده می شوند، بر این اساس که هیچ روش فراگیر بهینه وجود ندارد و اینکه ممکن است بیش از یک زیرمجموعه ویژگی وجود داشته باشد که داده ها را متمایز می کند. دوم، هر انتخاب گر ویژگی ، خروجی هایی تولید می کند که متعاقبا از طریق رتبه بندی اجماع ویژگی انباشته می شوند،و مکررترین ویژگی های انتخابی انتخاب می شوند، و غیره [116]. شکل 4 حالات مختلف انتخاب ویژگی قسمت بندی شده را نشان می دهد. شکل 4(الف) وضعیت در (الف) را توصیف می کند: داده های اصلی بین چندین پردازنده توزیع شده و نتایج محلی در یک نتیجه نهایی ترکیب شده است. شکل 4(ب) نشان دهنده وضعیت در (IV) است: داده ها در پردازنده های مختلف تکرار می شوند، نتایج محلی از روش های مختلف انتخاب ویژگی به دست می آیند و دوباره، نتایج محلی به یک نتیجه جهانی ترکیب می شوند. همانطور که قبلا بیان شد، از اکثر روش های انتخاب ویژگی انتظار نیست که به صورت موثر هنگام تعامل با میلیون ها ویژگی مقیاس دهی شوند. در واقع، این روش ها حتی ممکن است غیر قابل اجرا(غیرعملی) شوند. یک راه حل ممکن برای توزیع داده ها، اجرای انتخاب ویژگی در هر پارتیشن و سپس ترکیب نتایج است. این دو روش اصلی برای توزیع داده های تقسیم شده ، ویژگی (به صورت عمودی) و یا نمونه (به صورت افقی) هستند. یادگیری توزیعی برای افزایش مقیاس مجموعه داده استفاده شده است که برای یادگیری دسته ای[48] توسط نمونه ها خیلی بزرگ است[117-119]. در حالی که یادگیری توزیعی رایج نیست، پیشرفت هایی در مورد توزیع داده ها توسط ویژگی ها وجود داشته است[120،121]. یک پیشنهاد ، روش توزیعی [49] است که در آن پارتیشن بندی داده ، هر دو حالت عمودی و افقی است [122]. یک پیشنهاد دیگر ، روش انتخاب ویژگی موازی توزیعی است که می تواند داده ها را به صورت توزیعی خوانده و انتخاب ویژگی موازی در حالت متقارن چند پردازشی [50] از طریق چندریسمانی [51] و پردازش موازی انجام دهد[111].

سفارش ترجمه مقاله مهندسی کامپیوتر

با این حال، هنگام تعامل با مجموعه داده های با ابعاد بزرگ ، محققان باید توسط ویژگی ها پارتیشن بندی کنند. در مورد داده های ریزآرایه DNA، اندازه کوچک نمونه ترکیب شده با ابعاد بزرگ از بکارگیری پارتیشن بندی افقی اجتناب می کند. اما ، روش های قبلی پارتیشن بندی عمودی بعضی از خصوصیات این مجموعه داده، مانند افزونگی بالا در میان ویژگی ها را مدنظر قرار نمی دهند، زیرا در روش های شرح داده شده توسط Sharma و همکاران [123] و Bolón-Canedo و همکاران [124] انجام شده ، دومی در ازای محاسباتی خیلی کمتر. پارادایم های زیادی برای انجام یادگیری توزیعی در دهه گذشته پدید آمده است. نگاشت کاهش [52][125] یک مدل برنامه نویسی رایج با پیاده سازی مربوطه برای پردازش و تولید مجموعه داده های بزرگ با الگوریتم موازی، توزیعی در یک خوشه است. هادوپ[53]، ایجاد شده توسط Cutting و Cafarella در سال 2005 [126]، مجموعه ای از الگوریتم ها برای ذخیره سازی توزیعی و پردازش توزیعی مجموعه داده های بسیار بزرگ بر روی خوشه های کامپیوتری است؛ این برنامه از سخت افزار کالایی ساخته شده و دارای بخش پردازشی مبتنی بر نگاشت کاهش است. یک برنامه جدید تر، Apache Spark [127]،سریع، موتور کلی برای پردازش داده ها در مقیاس بزرگ است، و در میان محققان یادگیری ماشین به علت مناسب بودن اش برای روش های تکرار شونده رایج است. توسعه یافته درون پارادایم Apache Spark، Mlib بود]128[، که به عنوان یک کتابخانه یادگیری ماشین مقیاس پذیر حاوی الگوریتم ها ایجاد شد. اگر چه این مدل شامل تعداد زیادی الگوریتم یادگیری از قبیل SVM و طبقه بندی ساده بیزی و خوشه بندی K-means می شود، اما این مدل هنوز هیچ یک از الگوریتم های انتخاب ویژگی را در بر نمی گیرد. این امر چالشی برای محققان یادگیری ماشین به وجود می آورد، و همچنین فرصتی برای شروع یک زمینه جدید پژوهشی را مهیا می کند. خط باز دیگر پژوهشی، استفاده از واحدهای پردازش گرافیکی (GPU ها) برای توزیع و در نتیجه سرعت بخشیدن به محاسبات انجام شده در الگوریتم های انتخاب ویژگی است. با کاربردهای فراوان برای شبیه سازی های فیزیک، پردازش سیگنال، مدل سازی مالی، شبکه های عصبی، و زمینه های بی شمار دیگر، الگوریتم های موازی اجرا شونده در GPU ها اغلب به سرعتی 100 برابر سرعت الگوریتم های CPU مشابه دست یافته اند. چالش کنونی ، استفاده کردن از قابلیت های GPU برای پذیرش روش های جدید انتخاب ویژگی جهت داشتن توانایی تعامل موثر و صحیح با میلیون ها ویژگی است.

4.5 پردازش زمان حقیقی

داده با سرعت بی سابقه سریع جمع آوری می شود، متعاقبا، باید به سرعت نیز پردازش شود. شبکه های رسانه اجتماعی و دستگاه های قابل حمل ، بر زندگی هر روز مان تسلط دارند و ما به روش های پیچیده ایی احتیاج داریم که توانایی تعامل با مقدار زیاد داده ها در زمان واقعی، برای مثال، برای تشخیص اسپم و تشخصیص ویدیو / عکس را داشته باشیم [2]. الگوریتم های کلاسیک یادگیری دسته ای نمی توانند با جریان داده های به طور پیوسته شناور که به روش های آنلاین نیاز دارند، تعامل داشته باشند. یادگیری آنلاین [129] یک فرایند پیوسته تجدید نظر و پالایش یک مدل به وسیله ی ادغام داده های جدید بر حسب تقاضا اتس که به یک زمینه مهم در چند سال گذشته تبدیل شده است ، زیرا یادگیری آنلاین مسائل مهم برای فرآیندهای رخ داده بر حسب زمان را حل می کند (برای مثال، یک ارزش سهام با توجه به تاریخ اش و سایر عوامل خارجی). فرایند نگاشت[54] در زمان حقیقی به روز رسانی شده و نمونه های بیشتری به دست آمده است. یادگیری آنلاین نیز می تواند برای مجموعه داده های مقیاس خیلی بزرگ مفید باشد، زیرا یک راه حل عملی شاید از داده ها در حالت متوالی آموخته شود. انتخاب آنلاین ویژگی ،توجه یکسانی همانند یادگیری آنلاین کسب نکرده است [129]. با این وجود، مقالات اندکی وجود دارد که دست به انتخاب ویژگی های مربوطه در یک سناریویی که در آن هر دو نمونه جدید و ویژگی های جدید بوجود می آیند، زده باشند. Zhang و همکاران [130] یک الگوریتم افزایشی انتخاب زیر مجموعه ویژگی پیشنهاد دادند که از روش ماتریس بولی به وجود آمده است و به صورت موثر ویژگی های مفید برای هدف مشخص داده را انتخاب می کند. با این وجود، راندمان روش انتخاب ویژگی با الگوریتم افزایشی یادگیری ماشین آزمایش نشده بود. Katakis و همکاران [131] ایده یک فضای ویژگی پویا را پیشنهاد دادند که به موجب آن ویژگی های انتخاب شده از یک مجموعه اولیه اسناد آموزشی ؛ متعاقبا توسط یادگیرنده طی عملیات سیستم در نظر گرفته شده است. اما، ویژگی ها ممکن است بر حسب زمان تغیر یابند و یک مجموعه آموزش اولیه اغلب در بعضی کاربردها در دسترس نباشد. Katakis و همکاران [131] انتخاب ویژگی افزایشی را با الگوریتم یادگیری مبتنی بر ویژگی برای تعامل با یادگیری آنلاین در جریان های داده با ابعاد بالا ترکیب کردند. این چارچوب یکسان، به حالت خاصی از تغییر مفهوم [132] ذاتاً برای جریان داده های متنی اعمال شد(یعنی، ظاهر کلمات جدید پیش بینی کننده بر حسب زمان).

عیب این روش این است که ویژگی ها فرض می شوند که دارای مقدار گسسته هستند. Perkins و همکارانش [133] یک روش جدید و انعطاف پذیر به نام پیوند [55] ارائه دادند که انتخاب ویژگی های مناسب به صورت بخش جدایی ناپذیر یادگیری یک پیش بینی کننده در یک چارچوب منظم یادگیری را حل می کند. آنچه که روش پیوند را برای مسائل بزرگ مناسب می سازد این است که این روش در حالت تکراری افزایشی عمل می کند و به تدریج یک مجموعه ویژگی هنگام آموزش یک مدل پیش بینی با استفاده از گرادیان نزولی ایجاد می کند. Perkins و Theiler ]134[ مسئله ویژگی های وارد شونده در یک زمان به جای انکه از ابتدا در دسترس باشند را حل کرده اند؛ روش شان، انتخاب آنلاین ویژگی (OFS) نامیده می شود، فرض می شود که، به هر دلیلی، انتظار ارزشمند نیست تا زمانی که تمام ویژگی ها قبل از آنکه آموزش آغاز شود وارد شوند. آنها همچنین به تابع نگاشت '' به اندازه کافی خوب '' از ورودی ها تا خروجی ها بر اساس یک زیر مجموعه ویژگی دست یافتند. پتانسیل روش OFS در حوزه پردازش تصویر به وسیله ی استفاده از آن در مسئله تشخیص لبه [56] مشخص شد [135]. یک روش های جایگزین امیدوارکننده، به نام انتخاب آنلاین ویژگی جریان سازی (OSFS)، کاملا ویژگی های مرتبط و زائد را انتخاب می کند [136]. در عین حال دو روش جدید انتخاب آنلاین ویژگی ، از رابطه[57] برای انتخاب ویژگی های متغییر [58] استفاده می کنند. افزونگی تنها بعدا در نظر گرفته می شود، زمانی که این ویژگی ها از طریق جریان سازی به وجود می آیند، اما تعداد مثال های آموزشی ثابت باقی می ماند [137]. در نهایت، مقالات به انتخاب آنلاین ویژگی و طبقه بندی اشاره می کنند. یک روش، الگوریتم یادگیری آنلاین برای استخراج ویژگی و طبقه بندی ، اجراشده برای سیگنال های صوتی جهت مرتب کردن هسته های فندق [59] است [138]. دیگر، توسط Levi و Ullman [139]، طبقه بندی تصاویر به وسیله ی انتخاب ویژگی پیوسته پیشنهاد دادند، هرچند روش شان تنها از یک زیر مجموعه کوچکی از داده ها آموزشی در هر مرحله استفاده می کند. مقاله دیگر ، انتخاب ویژگی آنلاین که بر اساس وزن های اختصاص یافته به هر ورودی طبقه بند انجام شده، را تشریح کرده است [140]. همانطور که دیده می شود، انتخاب آنلاین ویژگی اساسا به صورت فردی بررسی شده است ، یعنی، به وسیله ویژگی های پیش انتخاب در یک مرحله مستقل از مرحله یادگیری آنلاین ماشین، و یا از طریق انجام انتخاب آنلاین ویژگی بدون طبقه بندی آنلاین . بنابراین، دستیابی به تجزیه و تحلیل زمان حقیقی و پیش بینی برای مجموعه داده ها با ابعاد بالا به صورت یک چالش برای هوش محاسباتی بر روی بسترهای قابل حمل باقی می ماند. اکنون سؤال ، پیدا کردن روش های انعطاف پذیر انتخاب ویژگی است که توانایی اصلاح زیر مجموعه ویژگی های انتخاب شده را داشته باشند، همانطور که نمونه های جدید آموزشی می رسند.

5.5. هزینه ویژگیها

همانطور که در این مقاله مشخص است، با اینکه متدهای جدیدی برای انتخاب ویژگی ارائه شده اند ، اکثرا بیشتر از پرداختن به هزینه کسب ویژگی های ورودی ، روی حذف ویژگی های اضافه و نامرتبط تمرکز کرده اند. هزینه یک ویژگی با مفاهیم مختلفی در ارتباط است. مثلا الگویی در تشخیص پزشکی که دارای علایم قابل مشاهده (مانند سن و جنسیت) است هیچ هزینه ای ندارد و همراه با نتایج تست هایی که مربوط به هزینه و خطر اند ارائه می شود مثلا جراحی اکتشافی تهاجمی پرهزینه تر و خطرناک تر از تست خون است (141). مثال دیگری از خطر کشف ویژگی را باهاموند و همکارانش (142) بیان کرده اند که اندازه گیری اندام های جانوران برای ارزیابی معیارهای پرورش گاو گوشتی لازم است. هزینه دیگر مربوط به مسائل محاسباتی است. در فیلد تصویربرداری پزشکی، استخراج ویژگی از تصاویر پزشکی هزینه بر است بعلاوه در تکنیک های تحلیل الگویی که با عنوان ویژگی های رخداد (143) شناخته می شود، این حقیقت که هزینه محاسباتی استخراج هر ویژگی فرق دارد ، زمان محاسباتی مختلفی را به دنبال دارد. در برنامه های زمان حقیقی ، پیچیدگی زمانی قابل چشم پوشی است ولی پیچیدگی محاسباتی بحرانی است (144). شکل 5 مثالهایی از هزینه ویژگی را نشان می دهد.

شکل 5: سه مثال از ویژگی هایی با یک هزینه a) هزینه محاسباتی مسئله مهمی در سناریوهای داده بزرگ است b) در تشخیص پزشکی، هزینه اسکن ، به اندازه هزینه تست خون نیست c) اندازه گیری اندام های جانواران زنده هزینه بیشتری را به صورت ریسک به همراه دارد

این مساله قابل توجه است که ویژگی هایی با هزینه های مرتبط در بسیاری از موارد دنیای واقعی وجود دارند. با این حال توجه زیادی به تحقیقات یادگیری ماشینی نشده است. اکثر کارها هزینه طبقه بندی غلط را بررسی کرده اند که جریمه ایست که هنگام قراردادن شی در گروه غلطی که به آن تعلق ندارد، دریافت می شود (145).

تلاشهایی برای متعادل کردن سهم ویژگی ها و هزینه های آنها انجام شده است. مثلا در طبقه بندی، فرایدمن (146) یک اصطلاح تنظیمی را برای تحلیل تفکیک خطی (LDA) به کار گرفته شده است ، بخش سمت چپی تابع هزینه ، خطاها و قسمت راستی وزن پارامتر تنظیم l را نشان می دهد. یو و همکارانش (147) با توجه به استخراج ویژگی ها، معیاری برای انتخاب ویژگی های هسته ای بر مبنای حداکثر کردن پراکندگی بین کلاسها و حداقل کردن پراکندگی درون کلاسها پیشنهاد کرده اند. رایت و همکارانش (148) یک چارچوب طبقه بندی عمومی برای تشخیص چهره به منظور استخراج ویژگی های و جلوگیری از آنها با بدست آوردن یک نمایش پراکنده پیشنهاد کردند. این متد به جای اندازه گیری ارتباط میان ویژگی و کلاس ، خطای نمایش را بررسی میکند.

با توجه به تلاشهای قبلی برای طبقه بندی و استخراج ویژگی ، کارهای کمتری هستند که با این موضوع در انتخاب ویژگی دست و پنجه نرم کرده اند.در اوایل دهه 1990 فدمن و همکارانش (144) متدهای برای انتخاب اتوماتیک ویژگی های تصویر به وسیله یک روبات پیشنهادکردند. در این فرآیند انتخاب ، آنها از یک معیار وزن دار برای بررسی هزینه محاسباتی ویزگی ها استفاده کردند یعنی پیچیدگی فضایی و زمانی فرآیند استخراج ویژگی. سالها بعد یانگ و هانوار (141) یک الگوریتم ژنتیک برای انتخاب ویژگی ارائه کردند که تابع برازش را بر مبنای دو معیار دقت شبکه عصبی در طبقه بندی و هزینه طبقه بندی (که باعنوان هزینه اندازه گیری ارزش ویژگی خاصی که برای طبقه بندی لازم است ، ریسک موجود و غیره) تعیین میکرد. هانگ و وانگ (149) نیز از الگوریتم ژنتیک برای انتخاب ویژگی و بهینه سازی پارامتر برای یک ماشین بردار پشتیبانی ، استفاده از دقت طبقه بندی، تعداد ویژگی های انتخاب شده و هزینه ویژگی بعنوان معیار طراحی تابع برازش استفاده کردند. متدی ترکیبی برای انتخاب یک زیرمجموعه از ویژگی ها بر مبنای بهینه سازی کلونی و شبکه عصبی مصنوعی نیز ارائه شده (150) که در آن یک روش ابتکاری مورچه ها را قادر به انتخاب ویزگی هایی در جهت عکس تابع هزینه می کند. اخیرا یک چارچوب کاری جدید پیشنهاد شده که یک واژه جدید به تابع ارزیابی همه متدهای انتخاب ویژگی اضافه میکند و به این ترتیب هزینه ویژگی نیز در نظر گرفته می شود. در نهایت ژو و همکارانش (152) دو مفهوم اصلی هزینه زمان تست CPU را با نامهای هزینه ارزیابی طبقه بندی کننده و هزینه استخراج ویژگی بررسی کردند و نشان دادند که چگونه این هزینه ها را با دقت طبقه بندی متوازن میکنند.

با اینکه مسئله کاهش هزینه انتخاب ویژگی توجهات زیادی را در سالهای اخیر به خود جلب کرده است اما متدهای جدید انتخاب ویژگی که با کاربردهای بلادرنگ و وسیع سروکار دارند نیز نیاز است چراکه هزینه محاسبات باید بودجه بندی و محاسبه شود. فرصت جدیدی که برای محققان یادگیری ماشینی پیش آمده ، تطابق دادن دقت بهترین الگوریتم ها و در عین حال کاهش هزینه محاسبات است.

5.6. تصویرسازی و قابلیت تفسیر

در سالهای اخیر تکنیک های کاهش بعد زیادی برای تصویرسازی داده و پردازش آن توسعه داده شده است. با این حال با اینکه هدف آنها تصویرسازی بهتر است اما اکثرشان محدودیت هایی دارند که ویژگی های به تصویر کشیده شده ، نتیجه تغییر شکل ویژگی های اصلی هستند (153-155). بنابراین ، زمانی که قابلیت تفسیر مدل مهم باشد ، تکنیک انتخاب ویژگی در کاهش بعد اولویت دارد.

یک مدل به واسطه ویژگی هایش مدل خوبی محسوب می شود ، در یک مدل خوب این ویژگی ها نقش دارند و در قابلیت تصویر آن مدل نیز اهمیت بیشتری دارند. کاربران به دو جهت نیاز به قابلیت تفسیر وشفافیت در انتخاب ویژگی و فرآیند انتخاب مدل دارند : 1) آنها نیاز به تصویرسازی تعاملی تر دارند و در عین حال می توانند پارامترهای ورودی را به منظور تعامل بهتر با مدل و به تصویر کشیدن سناریوهای ویژگی تغییر دهند 2) آنها نیاز به فرآیند انتخاب ویژگی تعاملی تری با ستفاده از تصویرسازی تعاملی دارند و قدرت تکرار آنها در زیرمجموعه ویژگی های مختلف بیش از وابستگی به مجموعه خاصی است که الگوریتم آنرا انتخاب کرده است. برخی از کارهای جدید ، استفاده از انتخاب ویژگی را برای بهبود این قابلیت تفسییر مدلها که در فیلدهای مختلفی بدست آمده اند دارد. مثالی از آن متدی برای تصفیه تکراری و اتوماتیک سیستم پیشنهادی است که در آن گام انتخاب ویژگی، بهترین ویژگی های مدل اولیه را برای تصفیه اتوماتیک آن انتخاب میکند (156). مورد دیگر، استفاده از انتخاب ویژگی برای بهبود درخت تصمیم -که عامل هایی ارائه میکند که اشخاص را در سازمان شبیه سازی میکند تا رفتارهای توسعه پایدار را شبیه سازی نماید- در یک دید تخصصی از ثبات تئوریک آنها است (157). یک مورد دیگر ، روش تصویرسازی داده بر مبنای نگاشت توپوگرافی مولد است که ویژگی ها را همزمان با یادگیری مدل تصویرسازی بررسی میکند (158). کراس و همکارانش (159) ابزاری ارائه کردند که در آن تصویرسازی با فراهم کردن امکان رتبه بندی ویزگی ها (بر مبنای امتیازات از پیش تعیین شده) ، ترکیب ویزگی ها و تشخیص تشابهات بین ابعاد، به کاربران در توسعه یک مدل پیش گویانه از مسئله آنها کمک می کند .

با این حال داده ها همه جا هستند و پیوسته درحال افزایش و ناهمگن اند. شاهدیم که شکلی از سندروم دیوژن به داده ها مربوط است : سازمانها قادر به جمع آوری و ذخیره چندین تن دادن هستند اما اکثرشان ابزاریا منبعی برای دسترسی و تولید گزارشات داده ای استراتژیک و بررسی داده ها ندارند. سازمانها نیاز به جمع آوری موثر داده ها سناریوهایی با دانش ضعیف و داده قوی تا سناریوهایی با دانش قوی ، شناخت قوی دارند. مسئله ای که اینجا هست ، ایجاد تصویرسازی کاربر پسندانه از منابع به منظور تقویت قابلیت تفسیر آنهاست. پیچیدگی که در اثر کاربرد داده بزرگ ایجاد شده نیز موجب نیاز به محدود کردن رشد پیچیدگی تصویرسازی شده است. با این حال، با اینکه تا امروز انتخاب یک ویژگی و تصویرسازی آن جدا از سایر ویژگی بوده است ، تصویرسازی ویزگی های داده نیز میتواند نقش مهمی در سناریوهای چندبعدی دنیای واقعی داشته باشد. با این حال باید در نظر داشت که با این که ابزارهای تصویرسازی به صورت گسترده ای برای تفسیر و قابل درک کردن داده های پیچیده به کار می روند ، کیفیت تصمیم گیری ها نیز به خاطر اینکه ابزارها در بررسی نقش روشهای ابتکاری ، مبناها و غیره به مشکل برمیخورند ، دچار اختلال می شود. بنابراین ابزارهای تعاملی مشابه ابزارهایی که کراس و همکارانش (159) بیان کرده اند، خط تحقیقاتی جالبی برای محققان است.

6. بحث و نتیجه گیری

انتخاب ویژگی به شکل وسیعی بعنووان یک گام پردازشی برای کاهش ابعاد مسئله و بهبود دقت طبقه بندی به کار می رود. نیازهایی از این نوع به منظور بررسی سناریوهایی با ویژگی های ورودی متعدد و یا نمونه های زیاد در سالهای اخیر توسعه یافته است. بعبارت دیگر این روزها مسئله داده بزرگ نیز مشکلات بیشتری را به ابعاد بزرگ مسئله وارد کرده است.

این مقاله نیاز به انتخاب ویژگی و بررسی متدهای رایج انتخاب ویزگی و برخی کاربردهای رایج را بررسی میکند. با این که ممکن است انتخاب ویژگی یکی از بهترین تکنیک های پردازش باشد ، نباید فاکتورهای موثر بر گزینه های انتخاب ویژگی را از نظر انداخت. مثلا انتخاب یک تکنیک تمرکززدایی خوب که متد انتخاب ویژگی مشابهی داشته باشد – بخصوص آنهایی که در فیلد تئوری اطلاعات هستند- برای کاربا داده های گسسته طراحی شده اند. مشخص است که انتخاب متد تمرکز زدایی روی نتایج فرآیند انتخاب ویژگی اثر میگذارد.

نیاز به تکنیک های پیش پردازش جدید نه تنها روی متد انتخاب ویژگی تعیین شده تاثیر میگذارد بلکه روی سایر گامهای پردازشی نیز تاثیر دارد. برخی متدها یک رتبه بندی از ویژگی ها بر مبای برخی معیارها ارائه میکنند که در آن ها میزان خوب بودن ویژگی ها باید بررسی شود و تصمیماتی برای تعیین میزان استانه گرفته شود. الگوریتم های طبقه بندی نیز ابزارهای بهتری برای ارزیابی ویژگی ها هستند با این حال بار محاسباتی بیشتری به همراه دارند. بعلاوه استفاده از طبقه بندی های خاصی نیز می تواند نامفهوم شدن تاثیرگذاری فرآیند انتخاب ویژگی شود. شواهد نشان می دهد که دقت حتی زمانی که مجموعه ویژگی های انتخابی کمتر از حد بهینه است نیز میتوان دقت خوبی داشت (32). مسئله دیگری که می تواند روی انتخاب متد انتخاب ویژگی یا طبقه بندی کننده تاثیربگذارد پیچیدگی داده است (162،163)

دربرخی کاربردهای خاص، مثلا در حوزه پزشکی گاهی نیاز است که قادر به تفسیر توان هر ویژگی باشیم. در این مورد استفاده از متد انتخاب ویزگی که خروجی آن یک طیف باشد (مثلا ReliefF, InfoGain, Chi-Squared) بهتر از متدهایی است که رتبه بندی یا زیرمجموعه ای از ویزگی ها را برمیگردانند و توان خاص ویژگی ها در آنها در نظر گرفته نمی شود. باید در زمان تصمیم گیری درباره متدی انتخاب ویژگی که میخواهیم به کار بگیریم دقت کنیم زیرا این به مسئله، نوع داده (عداد یا گسسته ، پیچیدگی و غیره) و ویژگی داده مربوط می شود.

در نتیجه، میزان تناسب استفاده از انتخاب ویژگی در انواع کاربردهای مختلفی که نیاز به پردازش حجم عظیم داده ها دارد بررسی شده است. با این حال در سالهای اخیر چندین میلیون پایگاه داده هایی با ویژگی شماره گذاری ارائه شده است بعلاوه مشخص است که این تعداد فقط درحال صعودی امکان پذیر است و نشان دهنده توسعه سریع محاسبات و تکنولوژی اطلاعات است. این سناریوی جدید ویژگی ها و چالشهای جدیدی را در تحقیقات یادگیری ماشینی مطرح می کند. هنوز نیاز رو به رشدی به متدهای انتخاب ویژگی کارآمد و مقیاس پذیر وجود دارد و به این ترتیب متدهای موجود برای رویارویی با این ویژگی ها کارآمد نیستند. بعلاوه نیازهای جدیدی در جامعه پیش امده مثلا یادگیری توزیع شده و پردازش بلادرنگ که شکاف بزرگی ایجاد کرده که باید پر شود. بی شک تحقیقات در مورد ویژگی ها و نقاط حساس، خط تحقیقاتی جدید را شکل می دهد.

[1] unfolding

[2] unquestionable

[3] datasets

[4] Wrappers

[5] embedded

[6] hot spot

[7] quintillion

[8] recurring

[9] collaborative email-spam filtering

[10] Curse of Dimensionality

[11] exhaustive enumeration

[12] attributes

[13] dimensionality reduction

[14] construction

[15] space

[16] err

[17] Bayesian classifier

[18] sorted out

[19] state of the art

[20] one-size-fits all

[21] redundancy

[22] kernel

[23] Over-fitting

[24] gene expression

[25] Markov random fields

[26] co-occurrence

[27] image annotation

[28] multi-resolution grid

[29] boosting

[30] support vector machines

[31] sparsity

[32] video-sourced frame

[33] categories

[34] labels

[35] Boolean value

[36] paramount

[37] benchmark

[38] crunch

[39] pairwise correlation

[40] trade-off

[41] Scaling up

[42] superfluous

[43] stability

[44] streaming

[45] ensemble learning

[46] base selector

[47] homogeneous

[48] batch learning

[49] distributed method

[50] multiprocessing

[51] multithreading

[52] MapReduce

[53] Hadoop

[54] mapping

[55] grafting

[56] edge detection

[57] relevance

[58] on the fly

[59] hazelnut kernels

۰ ۰
۰۲/۰۱/۱۱

ترجمه تخصصی مقالات انگلیسی

ترجمه تخصصی مقالات رشته های فنی مهندسی، علوم انسانی، علوم پایه، پزشکی، حقوق

در این وبلاگ، مطالب و مقالات علمی برای رشته های مختلف دانشگاهی، منتشر خواهد شد

روانشناسی

مدیریت

بازاریابی

مدیریت پروژه

مدیریت کسب و کار

مدیریت استراتژیک

مدیریت مالی

مدیریت رفتار سازمانی

مدیریت زنجیره تامین

مدیریت گردشگری

مدیریت منابع انسانی

مدیریت بحران

مدیریت دانش

مدیریت کارآفرینی

مهندسی برق

علوم پایه

حسابداری

پزشکی

داروسازی

ادبیات

ریاضی

مهندسی عمران

مهندسی کامپیوتر

حقوق

فناوری اطلاعات

مهندسی مکانیک

مهندسی صنایع

اقتصاد

پیشرفت های اخیر و چالش های نوظهور انتخاب ویژگی در زمینه کلان داده

Recent advances and emerging challenges of feature selection in the context of big data

سفارش ترجمه انگلیسی به فارسی

سفارش ترجمه تخصصی

سفارش ترجمه فارسی به انگلیسی

سفارش ترجمه فوری مقاله

سفارش ترجمه مقاله

سفارش ترجمه مهندسی کامپیوتر

مهندسی کامپیوتر

نظرات (۰)

ارسال نظر