سفارش ترجمه تخصصی رشته ریاضی
شناسه مجدد. پس از تشخیص دو مرحلهای، مختصات کادرهای محصور کننده اصلاح شده به لایههای ROI-Align وارد میشوند تا ویژگیهای پیشنهادات شی اصلاح شده برای بازشناسی فرد (جستجوی فرد) یا بازیابی شی (جستجوی تصویر) را مورد محاسبه قرار دهند. همچنین، نگاشت های ویژگی ادغام شده دارای اندازه 7 × 14 برای وظیفه جستجوی فرد بوده و دارای نسبت تصویر مشابه در کادرهای محصور کننده فرد هستند. سپس نگاشت های ویژگی به لایههای کاملاً متصل وارد میشوند تا نمایش بردار ویژگی برای بازشناسی افراد فراگرفته شود. در نهایت، ویژگیهای نرمال شده L2 256-D توسط یک لایه کاملاً متصل اضافی برای پیشنهادات شی ایجاد می گردد و در مرحله بعدی در زیان OLP و C2HEP برای آموزش رسمی ماژول بازشناسیC2HEP وارد میشوند.
سفارش ترجمه تخصصی مقالات در تمامی رشته ها
زیان HEP هدایت شده مرکز کلاس (C2HEP)
زیان HEP هدایت شده مرکز کلاس (CHEP) به منظور بهبود مشکل تمرین سخت HEP در I-Net عنوان شده است، که یک مسئله ذاتی وظیفه جستجوی افراد حاصل از تعداد هویت ناکافی در هر تکرار می باشد. از اینرو، از ویژگی های استخراج شده از تصاویر ورودی جهت محاسبه مرکز کلاس در هر دسته استفاده می شود. توجه داشته باشید که شباهت کسینوس بین هر نمونه و مراکز کلاس میتواند به طور دقیق احتمال وابستگی نمونه به یک کلاس را نشان دهد. در اینجا پیشنهاد می شود که شباهت کسینوس در تابع soft-max HEP وارد شده و C2HEP فرموله شود. برای تسهیل کار، یک لغت نامه مرکز کلاس را طراحی می کنیم که با برچسب حقیقت مبنای آنها مشخص می شود. در هر تکرار، مرکز کلاس ذخیره شده برای کلاس j با ویژگی های جدید به روز رسانی شده و به صورت زیر فرمول بندی می شود:
سفارش ترجمه تخصصی مقالات در تمامی رشته ها
که در آن coldj c، مرکز قبلی کلاس j و) x(i ویژگی ورودی کلاس j و (0 < ∅
< 1) ∅
یک هایپر پارامتر است که در پیاده سازی ما بر روی 0.5 تنظیم شده است. ذکر این نکته ضروری است که لغت نامه مرکز کلاس با لغت نامه ویژگی در زیان OLP متفاوت است. برای جستجوی کامل اطلاعات هویتها/ دستهها به هر شی برچسبگذاری شده (به طور مثال، فرد) در مجموعه داده، یک مرکز کلاس ذخیره شده در لغت نامه مرکز کلاس اختصاص داده می شوند.
فرض کنید که ویژگی i ام شیء وارد شده به تابع زیان C2HEP ، xi است. لغتنامه مرکز کلاس به صورت S تعریف می شود، که در آن S= {c1,c2,...,cc} و C تعداد هویت ها (دسته ها) است. ) در مجموعه حاشیه نویسی شده در پایگاه داده است. به طور کلی، ویژگی احتمالاً متعلق به کلاسی است که درای کمترین فاصله کسینوس بین مرکز کلاس و ویژگی است. بر اساس تابع softmax، احتمال xi ، متعلق به کلاس j را به صورت زیر تعریف می کنیم:
که در آن λ یک هایپرپارامتر است که در پیاده سازی بر روی 10 تنظیم می شود و P مجموعه ای از کلاس های اولویت انتخابی است که در بخش 3.3 ارائه شده است. با توجه به معادله (8)، در می یابیم که بیشترین احتمال p، زمانی ایجاد می شود که یک نمونه معین xi، متعلق به کلاس j، دارای کمترین فاصله کسینوس تا مرکز کلاس cj باشد.
فرض کنید که احتمال تعلق یک نمونه به برچسب حقیقت مبنا متناظر آنها به صورت {p1,p2,...,pn} نشان داده شود که n تعداد نمونه ها در یک تکرار می باشد. با فرض توزیع مستقل و یکسان ویژگی های آموخته شده، بیشینه سازی تابع درستنمایی زیر برای آموزش مدل منطقی است.
برای آموزش مدل یادگیری عمیق، تابع درستنمایی لوگ منفی زیر را به حداقل می رسانیم:
با تابع درستنمایی لوگ منفی ، تابع زیان پیشنهادی C2HEP به صورت زیر می باشد:
سفارش ترجمه تخصصی مقالات در تمامی رشته ها
با توجه به معادله (9)، در می یابیم که کمینه سازی تابع زیان می تواند به طور موثر شباهت کسینوس d( ·) بین هر ویژگی و مرکز کلاس مربوطه آن را برای بزرگتر بودن محدود کند. از اینرو، تشخیص هویتی تضمین می شود. لازم به ذکر است که زیان C2HEP سناریومحور پیشنهادی برای شبکه یکپارچه سازی شناسایی و بازشناسی طراحی شده است، که به طور صریح و ضمنی با افت یادگیری ویژگی مبتنی بر کلاس موجود، نظیر زیان مرکز [55] و زیان نمونه اولیه [56] متفاوت بوده و صرفا به نمونه های آموزشی موجود وابسته است. با این وجود، در سناریوی جستجوی فرد، تعداد نمونه های آموزشی در هر تکرار بسیار اندک (یعنی 2 نمونه برای هر تکرار در مدل مربوطه) است و زیان مرکز و زیان نمونه اولیه با مسئله رکود مواجه می شوند. از اینرو، یک لغتنامه مرکز کلاس در CHEP برای کاهش موثر مشکل رکود آموزشی و بهبود کارایی آموزش در نظر گرفته شده است. زیان C2HEP به عنوان یک اتصال یکپارچه در زیان OLP برای تشخیص ویژگی قابل تشخیص می باشد.
4.3 زیان کلی DC-I-Net
DC-I-Net همچنین یک مدل انتخا به انتها برای جستجوی تصویر کاربرپسند است. مشابه I-Net، تلفات DC-I-Net شامل افت شناسایی و افت باز شناسی است. به خصوص، افت تشخیص LDet از Faster-RCNN سنتی با تشخیص دو مرحلهای تبعیت کرده و هر مرحله مبتنی بر زیان دستهبندی آنتروپی متقاطعsoftmax (cls.) و رگرسیون L1 صاف (reg.) در زمینه پیش بینی کادر محصور کننده می باشد. از آنجاییکه دو جریان شبکه سیامی پارامترهای مشابهی را برای تشخیص اشتراک گذاری می کنند، برای آموزش آشکارساز از دو تصویر ورودی به طور همزمان استفاده می شود. همچنین، زیان بازشناسی شامل زیان متریک OLP و تلفات طبقهبندی هویت CHEP برای نمایش ویژگی متمایز است. از اینرو زیان کلی DC-I-Net به صورت زیر می باشد:
که در آن α و β مخفف پارامترهای مبادله/ رابطه جایگزینی و LOLP در معادله 1 داده شده است. با استفاده از بهینهسازی SGD mini- batch، میتوان مدل را به صورت انتها به انتها برای جستجوی افراد آموزش داد. به طور خلاصه، چهار مرحله در طول آموزش در هر تکرار وجود دارد:
1). محاسبه زیان تشخیص. تصاویر ورودی جفتی برای تشخیص ابتدا به ساختار سیامی وارد می شوند و زیان تشخیص برای هر تصویر مورد محاسبه قرار می گیرد.
2). محاسبه زیان OLP . اشیاء شناسایی شده (نگاشت ویژگی) به لایه ROI-Align وارد می شوند تا ویژگی ها را برای بازشناسی مجدد شناسایی کنند. همچنین ویژگی ها جفت می شوند و فاصله جفت های مثبت و منفی نیز مورد محاسبه قرار می گیرد. سپس، زیان OLP با به روز رسانی پویای لغتنامه ویژگی مورد محاسبه قرار می گیرد.
3). محاسبه زیان C2HEP . فواصل جفتهای مثبت و منفی به زیان C2HEP با کلاسهای اولویت انتخابی وارد میشوند. پس از محاسبه زیان، مراکز کلاس به تدریج از طریق ویژگی های جدید ورودی به روز رسانی می شوند.
4). محاسبه گرادیان بر اساس محاسبه تمام تلفات، مدل با SGD تا زمان همگرایی بهینه سازی می شود.
سفارش ترجمه تخصصی مقالات در تمامی رشته ها
5 آزمایش
برای ارزیابی اثربخشی رویکردها و همچنین وظایف مربوط به جستجوی تصویر، آزمایشات متعددی بر روی سه مجموعه داده معیار، نظیر مجموعه دادههای CUHK-SYSU ، مجموعه دادههای PRW و مجموعه داده Webtattoo انجام می گیرد. دو مجموعه داده اول بر روی جستجوی تصویر فرد (یعنی جستجوی فرد) متمرکز هستند که به تشخیص مشترک شی (فرد) و وظایف بازشناسی فرد در مدلهای مربوط می شود. مجموعه داده سوم برای جستجوی تصویر tattoo (یعنی جستجوی tattoo)، که به تشخیص شی مشترک (tattoo) و وظایف بازیابی تصویر در مدلها مربوط می شود. در این بخش، تنظیمات آزمایشی و نتایج تجربی مربوط به هر مجموعه داده ذکر شده است.
5.1 راه اندازی آزمایشی
5 1. 1 جزئیات پیاده سازی
برای آموزش و ارزیابی مدل، I-Net و DC-I-Net پیشنهادی بر روی پلتفرم Caffe و py-faster-rcnn پیادهسازی شدهاند. VGG-16 به عنوان شبکه اصلی مدل ها مورد استفاده قرار می گیرد و برای مقداردهی اولیه پارامترهای شبکه، مدل از پیش آموزش داده شده در [57] در نظر گرفته شده است. دو پشته اول لایه های کانولوشنال/ پیچشی در طی آموزش مدل های ما انعطاف ناپذیر می شوند. دو شاخه شبکه سیامی برای مقداردهی اولیه و آموزش دارای پارامترهای یکسانی هستند. بخش RPN هر شاخه، 128 پروپوزال را برای هر تصویر ایجاد می کند و پیشنهاداتی که به عنوان پس زمینه برچسب گذاری شده اند مفید نبوده و بنابراین برای کار بازیابی شی حذف می شوند. در هر دو I-Net و DC-I-Net، پارامترهای مبادله α و β
به صورت 1 تنظیم می شوند. نرخ یادگیری به صورت 0.001 مقداردهی می شود و پس از 40k تکرار به 0.0001 کاهش می یابد. در مجموع، 70k تکرار برای فعال سازی همگرایی تنظیم می شود.
5.1.2 مجموعه داده CUHK-SYSU
مجموعه داده CUHK-SYSU مجموعه ای از ابرداده ها برای جستجوی افراد است که متشکل از 18184 تصویر از دوربین های دستی و تصاویر فوری فیلم با تغییرات زیادی در زاویه دید، نور، وضوح و غیره می باشد. طی حاشیه نویسی ها، 8432 شناسه فرد مختلف و 96143 کادر محدود کننده وجود دارد. هر فرد برچسب گذاری شده حداقل دارای دو تصویر از دیدگاه های مختلف است برای تقسیم آموزش/آزمایش، توسعهدهنده این مجموعه داده ، 11206 تصویر از 5532 هویت را برای آموزش و 6978 تصویر از 2900 هویت را برای آزمون ارائه کرده است. لازم به ذکر است که برای مقایسه عادلانه، از همان پروتکلهای آزمایشی [57] تبعیت می شود.
سفارش ترجمه تخصصی مقالات در تمامی رشته ها
5.1.3 مجموعه داده PRW
مجموعه داده PRW از یک ویدیوی 10 ساعته توسط شش دوربین بدست آمده است که در آن پنج دوربین HD 10801920× و مابقی SD 576 ×720 هستند. در مجموع 11816 فریم به صورت دستی حاشیه نویسی شدند و 43110 کادر محصور کننده عابر پیاده ایجاد می شود که در آن 34304 عابر پیاده با 932 شناسه حاشیه نویسی می شوند. برای تقسیم آموزش/آزمایش، مجموعه داده PRW ، 5134 فریم از 482 هویت برچسبگذاری شده را برای آموزش و 6112 فریم از 450 هویت برچسبدار را برای آزمایش انتخاب می کند. وظیفه این مجموعه داده این اجازه را به مدل می دهد تا یک فرد مورد نظر (کاوشگر) را از کل مجموعه آزمایش (گالری) جستجو کند، که همچنان یک مسئله پر چالش به شمار می آید.
5. 1.4 مجموعه داده Webtattoo
مجموعه داده Webtattoo در دیدگاه های مختلف ارائه شده و متشکل از سه بخش است که عبارتند از: (i) قسمت اول ترکیبی از سه مقیاس کوچک مجموعه داده ( کمتر از 10k) ، مانند Tatt-C [60] ، فلیکر و DeMSI است. (ii) بخش دوم مجموعه ای بیش از 300 هزار تصویر تاتو پراکنده از اینترنت است. (iii) بخش سوم شامل 300 طرح تاتو است که توسط داوطلبان کشیده شده است. در این مجموعه داده Webtattoo، سه کار شامل تشخیص، جستجوی تاتو و جستجوی خالکوبی مبتنی بر طرح اجرا شده است. در مطالعه حاضر، بر تشخیص تاتوی مشترک و جستجوی تصویر متمرکز می شویم. به طور دقیق از 1428 تصویر از 400 کلاس تاتو برای آموزش مدل استفاده می شود. برای مقایسه عملکرد تشخیص مدلهای مختلف، از 755 تصویر از 200 کلاس تاتو با کادر های محصور کننده حقیقت مبنا استفاده شده است. برای مقایسه عملکرد جستجو (بازیابی) مدل های مختلف، مجموعه کوئری شامل 200 تصویر (یک تصویر در هر کلاس تاتو) برای جستجوی تصاویر از مجموعه گالری شامل 355 تصویر تاتو استفاده می شود.
سفارش ترجمه تخصصی مقالات در تمامی رشته ها
5.2 آزمایشات مربوط به مجموعه داده CUHK-SYSU
5.2. 1روش های مقایسه
خطوط مبنا: مدلهای شناسایی و بازشناسی مجزا. در این بخش، آزمایشاتی را روی مجموعه داده CUHK-SYSU با هدف بررسی اثربخشی مدلهای خود پیاده سازی می کنیم. توجه داشته باشید که هدف مدلهای پیشنهادی در این مجموعه داده، یادگیری مشترک تشخیص عابر پیاده و بازشناسی افراد است، از اینرو، سه روش تشخیص عابر پیاده و پنج رویکرد بازشناسی شناسایی فرد برای مقایسه خط مبنا انتخاب می شود، که سپس منجر به 15 خط مبنا برای کار جستجوی فرد میشود. به خصوص اینکه، سه روش تشخیص خط مبنا، CCF ، Faster-RCNN با Resnet50 و ACF برای تشخیص عابران پیاده مورد استفاده قرار می گیرد. همچنین، از کادرهای محصور کننده حقیقت مبنای مجموعه تست به عنوان کران بالایی عملکرد آشکارساز استفاده می شود برای روشهای بازشناسی خط مبنا، چندین روش بازنمایی ویژگی بازشناسی معروف نظیر DenseSIFT-ColorHist (DSIFT) ، Bag of Words (BoW) ، Local Maximal Ocurrence (LOMO) و ID-Net (بخش بازشناسی شناسایی مجدد OIM ) را مورد ارزیابی قرار می دهیم. روشهای یادگیری متریک، یعنی KISSME و XQDA همراه با این نمایش ویژگی برای Re-ID مورد استفاده قرار می گیرند. این روشهای تشخیص و بازشناسی مجزا برای جستجوی افراد ترکیب میشوند، بنابراین در مقایسات به عنوان خطوط مبنا در نظر گرفته میشوند.
سفارش ترجمه تخصصی مقالات در تمامی رشته ها
جدیدترین دستاورد (SOTA): مدل های شناسایی مشترک و بازشناسی. براساس یافته های بدست آمده، تنها چند کار در زمینه آموزش مشترک آشکارساز و شناسه مجدد برای وظیفه جستجوی فرد وجود دارد که عبارتند از: مدل OIM ، مدل انتها به انتها (مدل اولیه)، NPSM ، IAN، RCAA و نمودار زمینه