:: بازدید امروز : 9071
:: باردید دیروز : 2080
:: بازدید هفته : 14455
:: بازدید ماه : 26468
:: بازدید سال : 316576
:: بازدید کلی : 1777919

سمینار بررسی مدل های هایبرید ANN/HMM و Fuzzy HMM در بازشناسی گفتار اتوماتیک (ASR)

نوشته شده توسط : admin

دانشگاه آزاد اسلامی

واحد تهران جنوب

دانشکده تحصیلات تکمیلی

سمینار برای دریافت درجه کارشناسی ارشد

مهندسی برق – الکترونیک

عنوان:

بررسی مدل های هایبرید ANN/HMM و Fuzzy HMM در بازشناسی گفتار اتوماتیک (ASR)

برای رعایت حریم خصوصی اسامی استاد راهنما،استاد مشاور و نگارنده درج نمی شود

تکه هایی از متن به عنوان نمونه :

(ممکن است هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل است)

چکیده

علیرغم پیشرفت های صورت گرفته در دهه های اخیر، بازشناسی گفتار خودکار (ASR) کماکان عملیات دشوار و پرچالشی است. به طور خاص سیستم های بازشناسی مبتنی بر مدل های مارکف مخفی (HMM)، تحت شرایط مختلف کارایی خوبی دارند، ولی با موانعی روبرو هستند که قابلیت های آنها را در بازشناسی، در محیط دنیای واقعی محدود می سازد. برای غلبه بر این مشکل شبکه های عصبی مصنوعی (ANNs)، به عنوان یک جایگزین در ASR به کار گرفته شدند، ولی این شبکه ها در مواجهه با سیگنال های گفتار با دنباله زمانی طولانی، موفقیت چندانی نداشته و نتوانستند به تنهایی نظر محققین را جلب نمایند.

از اوایل دهه 90 میلادی برخی از محققین با ترکیب HMM و ANN در یک سیستم آمیختار، حوزه جدیدی را به وجود آوردند. هدف از این ترکیب استفاده از قابلیت های این دو سیستم در جهت افزایش انعطاف پذیری و اجرای صحیح بازشناسی می باشد. طراحی های متعدد و الگوریتم های آموزش گوناگون در این حوزه پیشنهاد شده است. در این نوشتار پس از بررسی مدل مخفی مارکف و کاربرد آن در بازشناسی گفتار و همچنین معرفی شبکه های عصبی، به بررسی سیستم های آمیختار HMM/ANN خواهیم پرداخت.

مقدمه

خروجی یک فرآیند در جهان واقعی به شکل یک سیگنال پیوسته یا گسسته مشاهده می شود. یک مسئله حیاتی در علوم، ساختن مدل هایی برای این سیگنال واقعی است. مدل سازی یک سیگنال مزایای فراوانی به همراه دارد. اولا، مدل، پایه ای برای توصیف نظری سیگنال فراهم می کند که می تواند برای پردازش سیگنال استفاده شود تا خروجی خواص مطلوبی داشته باشد. ثانیا، مدل می تواند اطلاعات بسیار مفیدی درباره منبع سیگنال بدهد، بدون اینکه احتیاجی به خود منبع باشد. نهایتا و از همه مهمتر، مدل ها می توانند در عمل به خوبی کار کنند و امکان تحقق سیستم های عملی مهمی را فراهم آورند.

بسته به نوع سیگنال، راه های مختلفی برای مدل کردن آن وجود دارد. به طور کلی، یک سیگنال می تواند معین یا نامعین (تصادفی یا آماری) باشد. مدل های معین از بعضی خواص شناخته شده سیگنال استفاده می کنند و مقادیر پارامترهای مدل را تخمین می زنند. از طرف دیگر، در مدل های آماری، یک فرآیند تصادفی، سیگنال را توصیف می کند. برای کاربردهایی نظیر تشخیص گفتار یا دستخط که با نویز و عدم قطعیت همراه هستند، مدل های آماری از کارایی بهتری برخوردارند. مدل های مخفی مارکف، که همچنین منابع مارکف یا توابع آماری زنجیره ای مارکف نامیده می شوند، در تئوری مخابرات یکی از پرکاربردترین مدل های آماری هستند.

فصل اول: کلیات

1-1- هدف

مشکل بازشناسی گفتار را می توان با یک رابطه آماری فرموله نمود. اگر W را تعداد لغات مجاز یک فرهنگ لغت مشخص، فرض کنیم، مطابق رابطه زیر که به قاعده بیز مشهور است، خواهیم داشت:

Pr(W|X)=Pr(X|W)Pr(W)/Pr(X

که در آن برای بردار ویژگی X، وظیفه ما یافتن رشته ای از لغات به نحوی است که احتمال بالا را ماکزیمم نماید. کمیت Pr(w، معمولا به نام مدل زبانی (LM) شناخته شده و به اطلاعات هر زبان خاص بازمی گردد، که وجود یک رشته از کلمات را در کنار یکدیگر مجاز می سازد، کمیت Pr(X|W که آن را به نام مدل آوایی می شناسیم، توصیف کننده وضعیت آماری دنباله های مشاهدات آکوستیکی پارامتری شده مرتبط با هر کلمه تلفظ شده می باشد. به عنوان نمونه مدل زبانی به ما کمک می کند که ما عبارت “bad boy” را شنیده ایم نه “pad boy”، در حالی که مدل آوایی با جنبه تلفظ کلمات سروکار دارد و مثلا به ما می گوید که “cat” را به صورت “kat” ادا می نماید.

برای دانلود متن کامل اینجا کلیک کنید.