پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی
نوشته شده توسط : admin

عنوان :استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی

 

برای رعایت حریم خصوصی نام نگارنده درج نمی شود

استاد راهنما:

آقای دکتر مروی

 

استاد مشاور:

آقای دکتر احمدی فرد

 

پایان نامه ارشد جهت اخذ درجه کارشناسی ارشد

تکه هایی از متن به عنوان نمونه :

چکیده

در این پایان­نامه روشی برای شناسایی مصوت­های فارسی در کلمات تک سیلابی ارائه می­شود. برای این منظور پس از جداسازی فریم­های تصویر و انتخاب فریم­هایی که مربوط به تلفظ مصوت موجود در کلمه تک سیلابی بودند و نیز استخراج ناحیه­ای پیرامون لب­ها، ویژگی­های مختلفی همچون ضرایب کسینوسی و ضرایب موجک و ضرایب MFCC برای تشخیص مصوت­ها در کلمات تک سیلابی استخراج گردید. پس از آن توسط روش کاهش ویژگی LSDA، ویژگی­ها را کاهش داده و سایز ویژگی­ها را به 25 تغییر دادیم. در نهایت موثرترین ویژگی­ها برای شناسایی مشخص گردید. در این تحقیق از پایگاه داده­ای شامل کلمات تک سیلابی، که توسط گویندگان مختلفی ادا شده بود و شامل 580 ویدیو بود استفاده گردید. از 381 ویدیو برای آموزش و از 199 ویدیو برای آزمایش استفاده نمودیم. ویژگی­های استخراجی به عنوان ورودی به شبکه عصبی دو لایه با 20 نرون در لایه میانی و یک نرون در خروجی اعمال شدند. از تابع فعالسازی تانژانت سیگموید در لایه میانی و تابع خطی در خروجی استفاده کردیم و برای آموزش شبکه از روش گرادیان نزولی با نرخ آموزش متغیر استفاده نمودیم. بهترین نرخ شناسایی 95.75 بود که از محاسبه ضرایب MFCC از 4/1 بردار ضرایب DCT بعد از اسکن زیگزاگ ماتریس ضرایب کسینوسی به دست آمد.

کلمات کلیدی:

لب خوانی، شناسایی مصوت، ویژگی های زمانی- فرکانسی، کاهش ابعاد ویژگی، شبکه های عصبی

 

 

1 مقدمه

از دیر باز بشر، با این واقعیت آشنا بوده است که برای درک بهتر گفتار می­تواند به حرکات لب و دهان گوینده در حین گفتار و هنگام ادای کلمات توجه کند. احتمالاً همه ما به طور ناخودآگاه تا حدی از این جنبه غیر صوتی گفتار استفاده کرده و هنگامی که محیط شنوایی، دچار همهمه و سر و صدا و آغشته به نویز صوتی می‌شود، به حرکات لب گوینده توجه بیشتری می‌کنیم. این امر در مورد مخاطبینی که دارای نقص در سیستم شنوایی خود هستند از اهمیت بالاتری برخوردار می­باشد. ضمناً حرکات لب یا سیگنال تصویری گفتار می­تواند به طور قابل ملاحظه­ای دقت سیستم­های تشخیص گفتار صوتی را خصوصاً در محیط­های نویزی بهبود بخشد. همزمان کردن حرکات لب و صدای گفتار، برطرف کردن خطای تأخیر بین صوت و تصویر و دوبله اتوماتیک تصویری از دیگر کاربردهای این مقوله می­باشد.

افرادی زیادی هستند که دچار آسیب در سیستم صوتی بوده و به دلیل عدم برخورداری از صدای مناسب، قادر به برقراری ارتباط با دیگران نیستند این افراد معمولاً توانایی انجام صحیح حرکات لب به شکلی که برای تکلم لازم است را داشته و در حالت ایده­آل می­توان با انجام لب­خوانی به مقصود آن­ها پی برد. گفتار بشری به دفعات به صورت صوتی و تصویری در طبیعت تکرار شده است. گفتار صوتی به شکل موج تولید شده توسط گوینده و گفتار دیداری به حرکات لب و زبان و ماهیچه­هایی که در صورت است اشاره دارد. در گفتار صوتی واحد اصلی واج[1] نامیده می­شود. در حوزه تصویری واحد اصلی از حرکات دهان ویزم[2] نامیده می­شود که کوچک‌ترین جزء دیداری صحبت است. بسیاری از صداهای صوتی هستند که از نظر دیداری مبهم هستند این صداها به کلاس مشابه­ای گروه­بندی شده که یک ویزم را نشان می­دهد. یک نگاشت چند به یک بین واج­ها و ویزم­ها هست یعنی می­توان مجموعه­ای از واج­ها را در نظر گرفت که تأثیر مشابه­ای بر روی شکل دهان دارند. در جدول­های زیر گروه­بندی ویزم­ها در زبان انگلیسی و فارسی آورده شده است [1] , [2].

جدول 1- 1 گروه­بندی ویزم­ها در انگلیسی

n,l 8 p,b,m 1
R 9 f,v 2
A 10 th,dh 3
E 11 t,d 4
I 12 k,g 5
O 13 sh,zh 6
U 14 s,z 7

جدول 1- 2 گروه­بندی ویزم­ها در زبان فارسی

1. ف، و 5. ر 9. آ
2. ث، س، ص، ز، ذ، ظ، ض 6.ج، چ، گ، ک، ن، ت، د، ی، ط 10. ٳ
3. ژ، ش 7. ای 11. ٱ
4. ب، پ، م 8. ٲ 12. او

به طور کلی سه روش برای شناسایی صحبت وجود دارد شامل شناسایی صوتی صحبت[3]، شناسایی تصویری صحبت[4]، شناسایی صوتی و تصویری صحبت[5]، که در این­ تحقیق به شناسایی تصویری صحبت پرداخته می­­شود.

برای دانلود متن کامل پایان نامه اینجا کلیک کنید.





لینک بالا اشتباه است

برای دانلود متن کامل اینجا کلیک کنید

       
:: بازدید از این مطلب : 406
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : شنبه 2 مرداد 1395 | نظرات ()
مطالب مرتبط با این پست
لیست
می توانید دیدگاه خود را بنویسید


نام
آدرس ایمیل
وب سایت/بلاگ
:) :( ;) :D
;)) :X :? :P
:* =(( :O };-
:B /:) =DD :S
-) :-(( :-| :-))
نظر خصوصی

 کد را وارد نمایید:

آپلود عکس دلخواه: