توضیحات
Face Detection Using Neural Network And Gabor Wavelet Transform
ترجمه فارسی موضوع مقاله: تشخیص چهره با استفاده از شبکه عصبی و تبدیل موجک گابور
شبیه سازی در محیط ام فایل متلب انجام شده است.
دارای گزارش 6 صفحه ای در قالب ورد است.
دارای ترجمه مقاله در قالب ورد است.
بخش هایی از ترجمه مقاله
چکیده
این مقاله مبتنی بر طبقه بندی ویژگی های تشخیص چهره با استفاده از تکنیک های استخراج ویژگی فیلتر گابور در پردازش تصویر است. بردار ویژگی مبتنی بر فیلتر های گابور به عنوان ورودی طبقه بندی کننده استفاده شده است، که یک شبکه عصبی رو به جلو ( FFNN) روی یک زیر فضای ویژگی کاهش داده شده آموزش دیده توسط یک رویکرد ساده تر از تحلیل مولفه اصلی (PCA ) است. تاثیر متد پیشنهادی با نتایج آزمایش روی تعداد زیادی از تصاویر تست و مقایسات با حالت متد هنر نشان داده شده است. تشخیص و شناسایی چهره کاربردهای زیادی در زمینه های گوناگون مثل سیستم های امنیت ، ویدئو کنفرانس و شناسایی دارد.
مقدمه
تشخیص و شناسایی چهره انسان یک فضای فعال از پوشش تحقیق در چندین نظم مثل پردازش تصویر، شناسایی الگو و بینایی ماشین است. تشخیص و شناسایی چهره مراحل اولیه برای طیف گسترده از کاربردها مثل تایید شناسایی شخص، نظارت- ویدئو ، پیگردی لبه، استخراج بیان مربوط به صورت، طبقه بندی جنسی، تعامل انسان و کامپیوتر پیشرفته است. بیشتر متدها مبتنی بر رویکردهای شبکه عصبی ، استخراج ویژگی ، زنجیره مارکوف، رنگ پوست و بقیه مبتنی بر تطبیق الگو است. طبقه بندی و موضعی کردن الگو مرحله ای است که برای طبقه بندی چهره و بدون الگوهای چهره استفاده شده است. سیستم های زیادی با طبقه بندی شی مبتنی بر رنگ پوست سر و کار دارد. در این مقاله ما علاقه مند به طراحی الگوریتم ANN به منظور دستیابی طبقه بندی تصویر است. این مقاله به صورت زیر سازماندهی شده: در بخش II، ما یک مروری بر طبقه بندی برای تشخیص چهره می دهیم. توصیف مدل ما در بخش III بحث شده است. مطلوب های بخش با آموزش متد است.
II. طبقه بندی برای تشخیص چهره
در حالی که متدهای زیادی برای تشخیص چهره در یک تصویر تنها از شدت یا رنگ تصاویر پیشنهاد شده است. یک مسئله مهم و وابسته این است که چطور کارایی متدهای تشخیص پیشنهادی ارزیابی شود. تعداد زیادی از مقاله های تشخیص چهره اخیر کارایی چندین متد را ، معمولا در شرایط تشخیص و نرخ های هشدار غلط مقایسه می کند. همچنین شایان توجه است که معیارهای زیادی برای الگوریتم های ارزیابی اتخاذ شده ، مثل زمان یادگیری، زمان اجرا، تعداد نمونه های مورد نیاز برای آموزش و نسبت بین نرخ های تشخیص و هشدارهای غلط است. به طور کلی تشخیص دهنده می تواند دو نوع از خطاها را بسازد: منفی های غلط در جایی که چهره ها نتیجه را در نرخ های تشخیص پایین از دست داده و مثبت های غلط در جایی که یک تصویر برای صورت اعلان شده است.
منفی غلط= تعداد چهره های گم شده / تعداد کل چهره های واقعی
مثبت غلط= تعداد چهره های شناخته شده نادرست/ تعداد کل چهره های واقعی
تشخیص چهره می تواند به عنوان یک مسئله تشخیص دو کلاس دیده شود در جایی که یک ناحیه تصویر به عنوان بودن یک ” چهره” یا ” غیر چهره” طبقه بندی شده است. در نتیجه تشخیص چهره یک از تلاش های اندک برای تشخیص تصاویر یک کلاس از اشیا برای جایی است که مقدار زیادی تنوع داخل کلاس وجود دارد. تشخیص چهره همچنین چالش های جالبی برای طبقه بندی الگو و تکنیک های یادگیری ارائه می دهد. کلاس تصویر صورت و غیر صورت قطعا توسط تابع توزیع چند کیفیتی تشخیص داده می شود و محدوده های تصمیم موثر به نظر می رسد در فضای تصویر غیر خطی باشند. محلی سازی الگو و طبقه بندی فزونی زمان CPU هستند که به طور معمول در نرم افزار پیاده سازی شده ، با این حال با کارایی پایین تر از پیاده سازی های سفارشی می باشد. پیاده سازی های سفارشی در سخت افزار به پردازش زمان واقعی ، داشتن هزینه بالاتر و زمان برای بازار نسبت به پیاده سازی نرم افزار اجازه می دهد. برخی کارها ] 2و3و4[ از ANN برای طبقه بندی استفاده می کنند و سیستم در نرم افزار پیاده سازی شده ، نتیجه در یک کارایی خوب ( 10 ثانیه برای محلی سازی و طبقه بندی است). یک کار مشابه در [5] با هدف طبقه بندی و محلی سازی شی ارائه شده است.
ما در پیاده سازی یک الگوریتم ANN و طراحی یک فیلتر گابور به منظور ارائه طبقه بندی تصویر بهتر علاقه مند هستیم. الگوریتم MLP برای طبقه بندی الگوهای صورت و غیر صورت قبل از مرحله تشخیص استفاده شده است.
III. پرسپترون چند لایه
شبکه عصبی MLP معماری رو به جلو داخل لایه ورودی، یک لایه پنهان و یک لایه خروجی دارد. لایه ورودی این شبکه N واحد برای یک بردار ورودی N بعدی دارد. واحدهای ورودی به طور کامل متصل به واحدهای لایه پنهان I هستند، که به نوبه خود متصل به واحدهای لایه های خروجی J است که J تعداد کلاس های خروجی است. یک پرسپترون چند لایه (MLP) یک شبکه عصبی مصنوعی خاص است. ما فرض خواهیم کرد که به یک مجموعه داده آموزشی از جفت های I( xi,yi) دسترسی داریم که xi بردار شامل الگو ها است و yi کلاس الگوی متناظر است. در مورد ما یک کار دو کلاس ، yi می تواند به 1 و-1 کد شود.
شکل1. نرون از آموزش نظارت دیده
ما یک MLP را یا سه لایه در نظر می گیریم، لایه ورودی بردار شامل شده با n2 واحد از نرون ها است( تصاویر ورودی nX n پیکسل) . لایه مخفی n نرون دارد و لایه خروجی یک نرون منفرد است که اگر صورت ارائه شود با 1 فعال می شود و گرنه غیراز این است.
فعالیت یک نرون مخصوص j در لایه مخفی با یک تابع سیگموید نوشته شده است.
که W1i مجموعه ای از وزن های نرون i است ، b1(i) آستانه و xi ورودی نرون است.
به طور مشابه فعالیت لایه خروجی است:
در سیستم ما ، بعد شبکیه چشم پیکسل های27×18 صورت ها و غیر صورت انسان را نشان می دهد . بردار ورودی با 2160 نرون شامل شده و لایه مخفی 100نرون دارد.
ما یک شبکه عصبی رو به جلو را با یکصد نرون در لایه مخفی و یک نرون در لایه خروجی طراحی کردیم که تصاویر را برای فاز آموزش آماده می کند. همه داده ها از هر دو شاخه های ” صورت ” و ” غیر صورت” در یک آرایه سلول بزرگ جمع آوری شده است. هر ستون ویژگی های یک تصویر را نشان می دهد که می تواند صورت باشد یا نه.
سطرها به صورت زیر هستند:
سطر 1: نام فایل
سطر دو: خروجی خواسته شده از شبکه متناظربا بردار ویژگی.
سطر3: بردار آماده شده برای فاز آموزش.
ما هیستوگرامی از تصویر برای مقایسه بهتر تنظیم خواهیم کرد. سپس تصویر با فیلتر های گابور با ضرب تصویر توسط فیلتر های گابور در فرکانس دامنه به هم پیچیده خواهد شد. برای صرفه جویی در زمان آنها در حوزه فرکانس قبل از اینکه ویژگی های یک آرایه سلول شامل نتیجه در هم پیچیدن تصویر با هر یک از چهل فیلترهای گابور شوند ذخیره شده اند . این ماتریس ها به شکل یک ماتریس BIF 135×144 از اعداد مختلط به هم پیوسته شده اند. ما فقط نیاز به مقدار نتیجه داریم . به همین دلیل است ” قدر مطلق”-135×144 استفاده شده 10،400 پیکسل دارد. این بدین معنی است که بردار ورودی شبکه 19400 مقدار خواهد داشت که مقدار زیادی از محاسبات را دارد. بنابراین ما سایز ماتریس را به یک سوم از سایز اصلی آن با حذف برخی از سطرها و ستون ها کاهش دادیم. حذف بهترین روش نیست اما آن زمان بیشتری را در مقایسه با سایر متدها مثل PCA ذخیره می کند. ما باید این تابع را به صورتی که برای ما امکان دارد بهینه کنیم.
انجام پروژه شبکه عصبی با متلب و انجام پروژه پردازش تصویر با متلب توسط متخصصین سایت متلبی قابل انجام است.
اول شبکه عصبی آموزش می بیند و سپس آن به شبکه آموزش دیده برخواهد گشت. کثال ها از پایگاه داده اینترنت گرفته شده است. MLP روی 500 صورت و 200 مثال غیر صورت آموزش خواهد دید.
IV . متدولوژی آموزش
MLP با الگوریتم آموزش انتشار رو به جلو یک نگاشت دهنده جهانی است که می تواند در تئوری هر ناحیه تصمیم دلخواه مستمر را به خوبی تقریب زند. با این حال هنوز همگرایی الگوریتم های رو به جلو یک مسئله باز است. به خوبی شناخته شده که هزینه زمان آموزش رو به جلو اغلب یک تنوع قابل توجهی را نشان می دهد. نشان داده شده که در اغلب موارد ، متد راه اندازی سریع می تواند به طور برجسته ماهیت سنگین آموزش نمونه ها را سرکوب کند و کارایی محاسبات را بهبود دهد.
پرسپترون چند لایه (MLP) با الگوریتم های یادگیری رو به جلو برای سیستم پیشنهادی به دلیل سادگی آن و توانایی آن در تطبیق الگوی نظارت دیده انتخاب شده است. آن به طور موفقیت آمیز برای تعداد زیادی از مسائل طبقه بندی اتخاذ شده است. مسئله ما به طور مناسب با قانون نظارت دیده درنظرگرفته شده چون جفت های ورودی و خروجی در دسترس هستند. برای آموزش شبکه ، ما الگوریتم رو به جلو کلاسیک را استفاده کردیم. یک مثال از مجموعه آموزش برداشت شده، خروجی محاسبه شده است.
V. توسعه الگوریتم و نتایج
شکل 4. مراحل شامل شده در استخراج ویژگی
VI. نمایش موجک گابور دو بعدی از صورت ها
از انجا که تشخیص چهره کارسختی برای انسان ها نیست، انتخاب فیلترهای گابور با انگیزه بیولوژیکی به خوبی مناسب با این مسئله است. فیلترهای گابور پاسخ های سلول های ساده را در قشر بینایی اولیه، به سادگی امواج مسطح محدود شده توسط تابع پوششی گاوسی مدل سازی می کنند.
شکل 5. فیلترهای گابور متناظر با 5 فرکانس فاصله ای و 8 جهت گیری(فیلترهای گابور در دامنه زمان)
یک تصویر می تواند توسط تبدیل موجک گابور با اجازه توصیف ساختار فرکانس فاصله ای و روابط فاصله ای نمایش داده شود. در هم پیچیدن تصویر با فیلتر های گابور پیچیده با 5 فرکانس فاصله ای ( v=0,..4) و 8 جهت ( u=0,…,7) تمام طیف فرکانس، هم دامنه و هم فاز را می گیرد( شکل5). در شکل 6 یک تصویر صورت ورودی و دامنه پاسخ های فیلتر گابور در زیر نشان داده شده است.
شکل6. a و b مثال هایی از یک پاسخ تصویر صورت به فیلترهای گابور بالا ، 6(a) تصویر صورت اصلی ( از پایگاه داده اینترنت) و b) پاسخ های فیلتر است.
یکی از تکنیک های استفاده شده در نوشتجات برای گابور مبتنی بر تشخیص چهره مبتنی بر استفاده پاسخ از نمایش شبکه توپوگرافی صورت برای کدینگ صورت است. به جای استفاده از نودهای گراف، نقاط با انرژی بالا می تواند در مقایسه ها که اساس این کار است استفاده شود. این رویکرد نه تنها پیچیدگی محاسبات را کاهش می دهد بلکه کارایی را در حضور انسدادها بهبود می دهد.
- استخراج ویژگی
الگوریتم استخراج ویژگی برای متد پیشنهادی دو مرحله اصل دارد( در شکل8):
- محلی سازی نقطه ویژگی
- محاسبه بردار ویژگی
- محلی سازی نقطه ویژگی
در این مرحله بردار های ویژگی از نقاط با محتوای اطلاعاتی بالا روی تصویر صورت استخراج می شوند. در بیشت متدهای مبتنی بر ویژگی ، ویژگیهای چهره ای چشم ها، بینی و دهان فرض شده اند. با این حال ما موقعیت ها و تعداد نقاط ویژگی در این کار را تثبیت نمی کنیم. تعداد بردار های ویژگی و موقعیت های آنها می تواند به منظور نمایش بهتر ویژگی های صورت از چهره های مختلف، مثل فرو رفتگی، خال و غیره متنوع باشد، که همچنین ویژگی هایی هستند که مردم ممکن است برای شناخت چهره های استفاده کنند.
ادامه ترجمه و شبیه سازی مقاله را با خرید این محصول دریافت نمایید.
- دانلود متلب 2018b در سایت متلبی
- قطعه بندی تصویر رنگ با استفاده از ویژگی های بافت و با استفاده از کلاسیفایر ماشین بردار پشتیبان فازی FSVM
نتیجه گیری
تشخیص چهره یک رشته جذاب از تحقیق برای هر دو عصب شناسان و دانشمندان بینایی ماشین است. از سال 1988، الگوریتم های زیادی به عنوان راه حل برای تشخیص چهره خودکار پیشنهاد شده است. اگرچه هیچ یک از انها نمی تواند به عملکرد تشخیص انسانی برسد، اخیرا دو روش بیولوژیکی الهام گرفته شده ، به نام روش های تطبیق گراف الاستیک و eigenfaces به نرخ تشخیص نسبتا بالایی رسیده اند. الگوریتم eigenfaces برخی کاستی ها را به علت استفاده از مقادیر خاکستری پیکسل تصویر دارد. به عنوان یک نتیجه سیستم حساس به تغییرات نور، پوسته پوسته شدن و غیره می شود و نیاز به یک مرحله پیش پردازش از قبل دارد. انجام تشخیص رضایت بخش می تواند به طور موفقیت امیز هم تراز با تصاویر صورت برسد. اگرچه کارایی تشخیص متد تطبیق گراف الاستیک بالاتر از متد eigenfaces گزارش شده است، به علت پیچیدگی محاسباتی و زمان اجرا ، رویکرد تطبیق گراف الاستیک کمتر برای سیستم های تجاری جذاب است. اگرچه استفاده از تبدیل موجک گابور دو بعدی به نظر می رسد به خوبی مناسب با این مسئله است، تطبیق گراف الگوریتم بزرگی می سازد.
با این حال به عنوان اطلاعات محلی استخراج شده از نودهای یک گراف پیش تعریف شده ، برخی جزئیات روی یک صورت ، که مشخصات مخصوصی از صورت هستند و می تواند در کار تشخیص خیلی مفید باشد، ممکن است از دست برود. در این مقاله یک رویکرد جدید برای تشخیص صورت با موجک های گابور و شبکه عصبی رو به جلو ارائه شده است . این متد از تبدیل موجک گابور و شبکه عصبی رو به جلو برای یافتن نقاط ویژگی و استخراج بردارهای ویژگی استفاده می شود.. از نتایج آزمایش به نظر می رسد که متد پیشنهادی نتایج بهتری در مقایسه با متدهای تطبیق گراف و eigenfaces به دست اورده است، که الگوریتم های موفق تری شناخته شده اند.
اگرچه متد پیشنهادی برخی شباهت ها را با الگوریتم تطبیق گراف نشان می دهد، در رویکرد ما، موقعیت نقاط ویژگی همچنین شامل اطلاعاتی درباره صورت است. نقاط ویژگی به دست آمده از مشخصات مخصوص از هر صورت منفرد به طور خودکار ، به جای تناسب یک گراف است که از ایده صورت کلی ساخته شده است. در الگوریتم پیشنهادی، از آنجا که ویژگی های چهره ای به طور محلی به جای استفاده از یک ساختار کلی مقایسه شده ، آن به ما برای ساخت یک تصمیم از بخش های صورت اجازه می دهد. برای مثال وقتی که عینک آفتابی وجود دارد، الگوریتم چهره ها را از لحاظ دهان، بینی وسایر ویژگی ها به جای چشم ها مقایسه می کند. با این حال داشتن یک روند تطبیق ساده و هزینه محاسبات پایین متد پیشنهادی سریع تر از متدهای تطبیق گراف الاستیک است. متد پیشنهادی همچنین برای تغییرات نوری به عنوان یک مشخصه از موجک های گابور مستحکم است، که این مشکل اصلی با رویکردهای eigenfaces است. یک تصویر صورت جدید همچنین می تواند به سادگی با پیوست بردارهای ویژگی جدید به مرجع گالری اضافه شود در حالی که چنین عملیاتی ممکن است برای سیستم هایی که نیاز به آموزش دارند کاملا وقت گیر باشد. نقاط ویژگی، قالب پاسخ های گابور از تصویر صورت ، می تواند انحرافات کوچک بین شرایط مختلف (بیان، نور، داشتن عینک یا نه، چرخش و غیره ) برای همان افراد بدهد. بنابراین یک اندازه گیری دقیق از فواصل متناظر برخلاف ویژگی هندسی مبتنی بر متدها ممکن نیست.
با این حال به علت تشخیص چهره خودکار ، ویژگی های نمایش داده شده با آن نقاط به طور صریح شناخته شده نیستند، که آیا آنها متعلق به یک چشم، دهان و یا غیره است. دادن اطلاعات درباره تطبیق کلی ساختار صورت ، موقعیت های نقاط ویژگی خیلی مهم هستند. با این حال استفاده از چنین هزینه توپولوژی، انحرافات کوچک از مکان های نقاط ویژگی را تقویت می کند که یک اندازه گیری از تطبیق نیستند. تبدیل موجک گابور از یک تصویر صورت 1.1 ثانیه می گیرد، مرحله استخراج ویژگی از یک تصویر صورت تنها 0.2 ثانیه میگیرد، و تطبیق یک تصویر ورودی با یک تصویر گالری تنها 0.12 ثانیه روی یک پنتیوم IV کامپیوتر شخصی می گیرد. توجه کنید که زمان های اجرای بالا بدون کد بهینه سازی اندازه گیری شده است.
توضیحات پروژه
در اين پروژه به پیاده سازی روشي جهت آشكارسازي تعداد دلخواهي چهره در تصاوير ثابت با سطوح خاكستري پيشنهاد ميشود. ابتدا با استفاده از همبستگي يك پنجره حاوي يك چهره دلخواه با تصوير، نواحي كانديداي حضور چهره به طور نادقيق بدست آمده و سپس با ارجاع اين نواحي و اطراف آنها به بخش استخراج ويژگيهاي موجكهاي گابور و طبقه بندي كننده شبكه عصبي، نواحي بدست آمده منجر به آشكارسازي دقيق مكان چهره ها در تصوير ميشوند.
مراحل انجام پروژه:
مراحل انجام این پروژه به شرح زیر است:
- به دست آوردن نواحی محتمل چهره
- آموزش شبکه عصبی با ویژگی های Gabor
- ساختار شبکه عصبی
- آموزش شبکه عصبی
- تعیین کردن دقیق محل چهره
شاید به مطلب زیر نیز علاقه مند باشید:
روشی که در این پروژه پیاده سازی شده است شامل دو بخش است. بخش اول شامل يافتن پنجرههايي است كه احتمال وجود چهره در آنها بيشتر است. به اين نقاط مراكز نادقيق ميگوئيم زيرا كه تجربه نشان ميدهد، اين پنجرهها يا داراي چهره نميباشند و يا مكان آنها با چهره واقعي در تصوير اندكي تفاوت دارد. قسمت دوم جستجوي فضاي اطراف مراكز نادقيق ميباشد. در اين الگوريتم به جهت اكتشاف فضا به سبب يافتن مراكز دقيق چهرهها به ابزاري نياز است كه پنجره ها را به جهت وجود و عدم وجود چهره آزمايش نمايد. اين ابزار همانند تابعي عمل مينمايد كه پنجره را به عنوان ورودي دريافت كرده و هر چه مقدار بازگردانده شده از آن بزرگتر باشد، نشان دهنده آن است كه احتمال وجود يك چهره در مركز پنجره بيشتر است. اين ابزار به كمك استخراج ويژگيهاي موجكهاي گابور از پنجره و ارجاع آنها به يك شبكه عصبي كه به كمك پنجره هاي دارا و فاقد چهره آموزش ديده است محقق ميشود.
تعيين نادقيق مكان چهره ها :
در این مرحله از کار مکان ها محتمل وجود چهره را با استفاده از روش کانولوشن کردن یک الگو صورت برروی کل تصویر به صورت تقریبی بدست می آوریم.
آموزش شبکه عصبی با ویژگی های Gabor
برای آموزش شبکه عصبی در این پروژه از ویژگی های فیلتر گابورکه برروی تصاویر صورت و غیر صورت اعمال شده استفاده می شود. به این صورت که هر تصویر به حالت یک بردار یک بعدی از مقادیر این فیلتر به شبکه عصبی داده می شود و چون کلاس هر تصویر مشخص است شبکه آموزش داده می شود.
شبکه عصبی به کار رفته یک شبکه feed forward ساده با 2160 ورودی که همان بردارهای ویژگی های گابور هر تصویر و دارای 100 نرون لایه پنهان می باشد.
تعیین کردن دقیق محل چهره
پس از اینکه شبکه آموزش داده شد، می توانیم با استخراج ویژگی های گابور محل های نادقیق چهره که در مرحله اولیه بدست آمد و دادن این ویژگی ها به شبکه عصبی، تعیین کنیم که آیا این مکان چهره اصلی هست یا نه.
نتایج شبیه سازی با متلب
نتیجه کد پیاده سازی شده
آموزش شبکه عصبی در کد
نتیجه دیگری از کد پیاده سازی شده
کدهای پروژه شامل فایل های زیر میشود:
Gabor.m: این کد حاوی معادلات و فرمول های فیلتر گابور است.
create_gabor.m: این برنامه با استفاده از معادلات گابور 40 فیلتر گابور را محاسبه کرده و ذخیره میکند.
createffnn.m: ساختن شبکه عصبی مورد نظر.
im2vec.m: گرفتن یک تصویر بلوکی و بدست آوردن بردار مقادیر گابور آن.
trainnet.m: آموزش شبکه عصبی.
imscan.m: تعیین محل های دقیق چهره ها با استفاده از شبکه عصبی آموزش دیده.
Main.m: برنامه اصلی جهت اجرای کل پروسه.
کلید واژه : شبکه عصبی با ویژگی های Gabor، تعیین کردن دقیق محل چهره، موجكهاي گابور و طبقه بندي كننده شبكه عصبي
Face detection, Gabor wavelet, Feed Forward Neural Network (FFNN) classifier, Multilayer perceptron
توجه: جهت دریافت شبیه سازی مقاله با متلب باید این محصول را خریداری نمایید.
شبیه سازی مقاله
Face Detection Using Neural Network And Gabor Wavelet Transform
به تعداد محدودی قابل فروش می باشد.
سفارش انجام پروژه مشابه
درصورتیکه این محصول دقیقا مطابق خواسته شما نمی باشد،. با کلیک بر روی کلید زیر پروژه دلخواه خود را سفارش دهید.