پایان نامه استخراج ویژگی زمانی فرکانسی جهت شناسایی دیداری مصوت های فارسی

word
102
1 MB
32129
1392
کارشناسی ارشد
قیمت: ۱۳,۲۶۰ تومان
دانلود فایل
  • خلاصه
  • فهرست و منابع
  • خلاصه پایان نامه استخراج ویژگی زمانی فرکانسی جهت شناسایی دیداری مصوت های فارسی

    پایان نامه کارشناسی ارشد مهندسی برق گرایش الکترونیک

    چکیده

    در این پایان­نامه روشی برای شناسایی مصوت­های فارسی در کلمات تک سیلابی ارائه می­شود. برای این منظور پس از جداسازی فریم­های تصویر و انتخاب فریم­هایی که مربوط به تلفظ مصوت موجود در کلمه تک سیلابی بودند و نیز استخراج ناحیه­ای پیرامون لب­ها، ویژگی­های مختلفی همچون ضرایب کسینوسی و ضرایب موجک و ضرایب MFCC برای تشخیص مصوت­ها در کلمات تک سیلابی استخراج گردید. پس از آن توسط روش کاهش ویژگی LSDA، ویژگی­ها را کاهش داده و سایز ویژگی­ها را به 25 تغییر دادیم. در نهایت موثرترین ویژگی­ها برای شناسایی مشخص گردید. در این تحقیق از پایگاه داده­ای شامل کلمات تک سیلابی، که توسط گویندگان مختلفی ادا شده بود و شامل 580 ویدیو بود استفاده گردید. از 381 ویدیو برای آموزش و از 199 ویدیو برای آزمایش استفاده نمودیم. ویژگی­های استخراجی به عنوان ورودی به  شبکه عصبی دو لایه با 20 نرون در لایه میانی و یک نرون در خروجی اعمال شدند. از تابع فعالسازی تانژانت سیگموید در لایه میانی و تابع خطی در خروجی استفاده کردیم و برای آموزش شبکه از روش گرادیان نزولی با نرخ آموزش متغیر استفاده نمودیم. بهترین نرخ شناسایی 95.75 بود که از محاسبه ضرایب MFCC از 4/1 بردار ضرایب DCT بعد از اسکن زیگزاگ ماتریس ضرایب کسینوسی به دست آمد.

    کلمات کلیدی:

    لب خوانی، شناسایی مصوت، ویژگی های زمانی- فرکانسی، کاهش ابعاد ویژگی، شبکه های عصبی

    1 مقدمه

    از دیر باز بشر، با این واقعیت آشنا بوده است که برای درک بهتر گفتار می­تواند به حرکات لب و دهان گوینده در حین گفتار و هنگام ادای کلمات توجه کند. احتمالاً همه ما به طور ناخودآگاه تا حدی از این جنبه غیر صوتی گفتار استفاده کرده و هنگامی که محیط شنوایی، دچار همهمه و سر و صدا و آغشته به نویز صوتی می‌شود، به حرکات لب گوینده توجه بیشتری می‌کنیم. این امر در مورد مخاطبینی که دارای نقص در سیستم شنوایی خود هستند از اهمیت بالاتری برخوردار می­باشد. ضمناً حرکات لب یا سیگنال تصویری گفتار می­تواند به طور قابل ملاحظه­ای دقت سیستم­های تشخیص گفتار صوتی را خصوصاً در محیط­های نویزی بهبود بخشد. همزمان کردن حرکات لب و صدای گفتار، برطرف کردن خطای تأخیر بین صوت و تصویر و دوبله اتوماتیک تصویری از دیگر کاربردهای این مقوله می­باشد.

    افرادی زیادی هستند که دچار آسیب در سیستم صوتی بوده و به دلیل عدم برخورداری از صدای مناسب، قادر به برقراری ارتباط با دیگران نیستند این افراد معمولاً توانایی انجام صحیح حرکات لب به شکلی که برای تکلم لازم است را داشته و در حالت ایده­آل می­توان با انجام لب­خوانی به مقصود آن­ها پی برد. گفتار بشری به دفعات به صورت صوتی و تصویری در طبیعت تکرار شده است. گفتار صوتی به شکل موج تولید شده توسط گوینده و گفتار دیداری به حرکات لب و زبان و ماهیچه­هایی که در صورت است اشاره دارد. در گفتار صوتی واحد اصلی واج[1] نامیده می­شود. در حوزه تصویری واحد اصلی از حرکات دهان ویزم[2] نامیده می­شود که کوچک‌ترین جزء دیداری صحبت است. بسیاری از صداهای صوتی هستند که از نظر دیداری مبهم هستند این صداها به کلاس مشابه­ای گروه­بندی شده که یک ویزم را نشان می­دهد. یک نگاشت چند به یک بین واج­ها و ویزم­ها هست یعنی می­توان مجموعه­ای از واج­ها را در نظر گرفت که تأثیر مشابه­ای بر روی شکل دهان دارند. در جدول­های زیر گروه­بندی ویزم­ها در زبان انگلیسی و فارسی آورده شده است

     

    (جداول در فایل اصلی موجود است)

    طور کلی سه روش برای شناسایی صحبت وجود دارد شامل شناسایی صوتی صحبت[1]، شناسایی تصویری صحبت[2]، شناسایی صوتی و تصویری صحبت[3]، که در این­ تحقیق به شناسایی تصویری صحبت پرداخته می­­شود.

    1-2 ساختار پایان نامه

    در فصل­های مختلف این پایان نامه روش­های شناسایی دیداری صحبت بررسی شده است. در فصل اول مقدمه­ای در مورد شناسایی گفتار بیان شد. در فصل دوم به بررسی تحقیقات انجام شده در زمینه شناسایی دیداری صحبت و روش­های مختلف برای انجام این کار پرداخته شده است. در فصل سوم روش­های مختلف جداسازی دهان از بقیه قسمت­های صورت معرفی شده است تا با استفاده از این روش­ها بتوانیم علاوه برکوچک نمودن اندازه تصاویر، از پیچیدگی­ و نیز ابعاد زیاد ویژگی­ها جلوگیری نماییم. در فصل چهارم نحوه محاسبه و استخراج ویژگی­های فرکانسی - زمانی از ناحیه مورد نظر از دهان از فریم­های مختلف ویدیو و نیز عملکرد آن­ها با تغییر تعداد فریم­های انتخابی و سایز تصاویر با یکی از روش­های کاهش ویژگی نیز بررسی شده است. که این ویژگی­های استخراجی برای تشخیص به شبکه عصبی اعمال شده­اند و همچنین پایگاه داده­ای که ما در این تحقیق از آن استفاده نمودیم معرفی شده است.

     

     

    Abstract

    Visual features have been widely used to improve the performance of speech  recognition. In this thesis time - frequency features extracted from the images of the  speaker 's mouth and extracted features are used as input parameters to a neural network system for recognition. Because we used the video images so we got to work a different number of video frames. First separated the frames manually and then selected the area around the mouth  and  desired features for the area of each frame obtained. To improve performance and reduce the dimensions of features, we used dimensionality reduction technique LSDA. Using this approach we have reduced the size of our feature. The database consists of  different individuals, that have been uttered monosyllabic words 2 or 3 times. Finally the vowel recognition rate 95.75 was achieved.

    Keyword:

    Lip reading,Vowel recognition, Time-frequency features, Feature dimension reduction, Neural networks

  • فهرست و منابع پایان نامه استخراج ویژگی زمانی فرکانسی جهت شناسایی دیداری مصوت های فارسی

    فهرست:

    فصل اول : مقدمه ..............................................................................................................................1

       1-1 مقدمه ........................................................................................................................................2

        1-2 ساختار پایان نامه .....................................................................................................................4

    فصل دوم : مروری بر تحقیقات انجام شده ..................................................................................5

        2-1 مقدمه .......................................................................................................................................6

        2-2 مدل­های مرز فعال ...................................................................................................................6

             2-2-1 تابع انرژی .........................................................................................................................7

             2-2-2 حداقل سازی انرژی ...........................................................................................................9

        2-3 مدل­های شکل فعال ..............................................................................................................12

        2-4 مدل­های انعطاف­پذیر ............................................................................................................16

             2-4-1 مدل لب .........................................................................................................................16

             2-4-2 فرمول­بندی تابع هزینه ...................................................................................................17

             2-4-3 بهینه سازی پارامترهای مدل ...........................................................................................18

        2-5 الگوهای انعطاف­پذیر .............................................................................................................19

        2-6 موجک هار .............................................................................................................................21

             2-6-1 پیش پردازش .................................................................................................................21

             2-6-2 تبدیل رنگی ....................................................................................................................22

             2-6-3 قطعه­بندی ......................................................................................................................22

        2-7 آنالیز مؤلفه­های خاص ...........................................................................................................23

             2-7-1 زمینه ریاضی EM-PCA ..............................................................................................24

             2-7-2 تولید منیفولد از تصویر ورودی..........................................................................................24

        2-8 تبدیل کسینوسی گسسته .....................................................................................................26

             2-8-1 مدلسازی بر اساس  3-D DCT......................................................................................26

                 2-8-1-1 استخراج ویژگی حرکتی لب ..................................................................................27

                 2-8-1-2 استخراج ویژگی حرکت مبتنی بر شبکه ..................................................................27

                 2-8-1-3 استخراج ویژگی حرکت مبتنی بر کانتور .................................................................28

             2-8-2  استخراج ویژگی از ناحیه مورد نظر..................................................................................29

                 2-8-2-1 استخراج ویژگی­های دیداری...................................................................................30

             2-8-3  تبدیل کسینوسی و  LSDA..........................................................................................31

                 2-8-3-1 پیش پردازش .......................................................................................................31

                 2-8-3-2 روش  DCT.........................................................................................................31

                 2-8-3-3 DCT + PCA ..................................................................................................31

                 2-8-3-4 DCT +LDA ...................................................................................................32

                 2-8-3-5  DCT +LSDA................................................................................................32

                 2-8-3-6 ماتریس انتقال ویژگی.............................................................................................35

        2-9 مدل لب با منحنی بیزیر .......................................................................................................35

        2-10 جداسازی ناحیه لب با کا- منیز ..........................................................................................37

    فصل سوم : روش­های استخراج ناحیه دهان و سیستم­های تشخیص ................................39

        3-1 مقدمه ....................................................................................................................................40

        3-2 آشکارسازی ناحیه لب ...........................................................................................................41

             3-2-1  آنالیز ترکیب رنگ لب و پوست .......................................................................................41

             3-2-2  رنگ و اشباع و شدت روشنایی (HSV) ........................................................................42

             3-2-3  حذف مؤلفه قرمز ...........................................................................................................43

             3-2-4  الگوریتم کا- مینز ..........................................................................................................43

                 3-2-4-1 پیاده­سازی الگوریتم .............................................................................................44

             3-2-5  شدت روشنایی و باینری کردن .......................................................................................45

             3-2-6 روش­های ترکیبی ............................................................................................................45

        3-3 روش­های کلاسه­بندی و شناسایی ........................................................................................47

             3-3-1 شبکه عصبی ...................................................................................................................47

                 3-3-1-1 شبکه­های پیش­خور ..............................................................................................48

                 3-3-1-2 الگوریتم پس انتشار خطا .......................................................................................48

             3-3-2 مدل مخفی مارکوف ........................................................................................................48

    فصل چهارم : ویژگی­های استخراجی وپیاده­سازی روش پیشنهادی و معرفی پایگاه داده .......................................................................................................................................................51

        4-1 پایگاه داده .............................................................................................................................52

             4-1-1 جداسازی ویدیوهای ضبط شده .......................................................................................53

        4-2 ویژگی­های استخراج شده .....................................................................................................53

        4-3 جداسازی ناحیه لب ..............................................................................................................54

             4-3-1 آستانه­گذاری ..................................................................................................................54

             4-3-2 استفاده از روش حذف رنگ قرمز .....................................................................................56

             4-3-3 آنالیز ترکیب رنگ لب و پوست .........................................................................................57

             4-3-4 برچسب­گذاری اجزا .........................................................................................................58

             4-3-5 جعبه محاطی .................................................................................................................59

        4-4 ضرایب مل فرکانسی  ............................................................................................................60

             4-4-1 فریم بندی ......................................................................................................................61

             4-4-2 پنجره­گذاری ...................................................................................................................62

             4-4-3 تبدیل فوریه گسسته .......................................................................................................62

             4-4-4 مقیاس مل .....................................................................................................................62

             4-4-5 تبدیل کسینوسی گسسته ...............................................................................................64

                 4-4-5-1 محاسبه ضرایب کسینوسی و ویولت .......................................................................65

                 4-4-5-2 محاسبه ضرایب مل فرکانسی .................................................................................65

        4-5 یافتن مرکز لب و استخراج ناحیه­ای حول لب .......................................................................66

             4-5-1 اسکن زیگزاگ .................................................................................................................67

             4-5-2 کاهش ویژگی با LSDA ................................................................................................68

                 4-5-2-1 استفاده از تابع Logsigmoid  و تغییر الگوریتم آموزش ......................................70

                 4-5-2-2 استفاده از تابع Tansigmoid  و الگوریتم ممنتوم ................................................70

        4-6 استخراج ویژگی از تصاویر مختلف ........................................................................................72

             4-6-1 استخراج ویژگی از تصاویر جدید ......................................................................................72

             4-6-2 ضرایب مل فرکانسی و ضرایب کسینوسی .........................................................................72

        4-7 کاهش تعداد فریم­ها و کاهش سایز تصاویر...........................................................................73

             4-7-1 محاسبه ضرایب MFCC ...............................................................................................73

             4-7-2 ضرایب DCT , DWT .................................................................................................73

             4-7-3 کاهش تعداد فریم­ها و کاهش سایز تصاویر با دستور ری­سایز ............................................76

        4-8 نتیجه­گیری ...........................................................................................................................81

        4-9 پیشنهاد ادامه کار ..................................................................................................................82

    مراجع ................................................................................................................................................83

     

     

    منبع:

     

    [1] T Chen, ''Audiovisual speech processing''. IEEE Signal Processing Magazine , Vol.18(1), pp: 9–21, (2001).   

    [2]  صادقی، وحیده السادات، "تشخیص مصوت در کلمات تک سیلابی و دو سیلابی فارسی،" پایان نامه کارشناسی ارشد، دانشگاه سمنان، 1385

     [3] E.D.Petajan, "Automatic Lipreading to Enhance Speech Recognition," PhD thesis, University of Illinois at Urbana-Champain, 1984.

    [4] M. Kass, A.Witkin, and Terzopoulos, " Snakes: Active Contour Models," International Journal of Computer Vision , pp.321-331,1988.

    [5] C. Bregler and Y. Konig, " Eigenlips For Robust Speech Recognition," in Proc. IEEE Conf. Acoustics, Speech and Signal Processing, pp.669-672, 1994.

    [6] Takeshi Saitoh and Ryosuke Konishi , " Word Recognition based on Two Dimensional Lip Motion Trajectory, " international Symposium on Intelligent Signal Processing and Communication System(ISPACS2006) ,pp.287-290. 12-15 Dec, 2006

     [7] میر هادی سید عربی، علی آقا گلزاده، سهراب خان محمدی، "تعقیب اتوماتیک حرکات لب و نقاط ویژه آن با استفاده از کانتور فعال"، چهاردهمین کنفرانس مهندسی برق ایران 2006 ICEE.

                [8] T.F. Cootes , C.J. Taylor, D.H. Cooper, and J. Graham, “Active Shape Models-Their Training and Application," Computer Vision and Image Understanding, vol. 61, no. 1, pp. 38-59, Jan. 1995  

    [9] I. Matthews, T. F. Cootes, J. A. Bangham, S. Cox, and R. Harvey, "Extraction of visual features for lipreading," IEEE Trans. Pattern Anal .Mach. Intell., vol. 24, no. 2, pp. 198–213, Feb. 2002.

    [10] Juergen Luettin,Neil A. Thacker ," Speechreading using probabilistic Models," Computer Vision and Image Understanding, Vol.65,No.2, pp.163-178, February 1997

    [11] S.L.Wang , W.H.Lau , S.H.Leung, et al. " A real-time automatic lipreading system,"

    International Symposium on Circuits and Systems, No.2, pp.101-104,IEEE, Vancouver , Canada, May 2004.

    [12] D. Thambiratnam , T. Wark , S.Sridharan and V.Chandran , "Speech Recognition in Adverse Environments using Lip Information," Speech and Image Technologies for Computing and Telecommunications, IEEE TENCON 1997, Vol.1, pp.149-152, 4Dec,1997

    [13] Tanveer A Faruquie, Abhik Majumdar, Nitendra Rajput, L V Subramaniam,"Large Vocabulary Audio-Visual Speech Recognition Using Active Shape Models," Pattern Recognition ,2000,15th International Conference, Vol.3, pp.106-109,2000.

    [14] A.L.Liew, et al," Lip contour extraction from color images using a deformable model," The Journal of the Pattern Recognition Society, No.35, 2949-2962, 2002

    [15] Stefan Horbelt, Jean-Luc Dugelay ," Active Contours For Lipreading Combinning With Templates," 15th GRETST Symposium on Signal and Image processing,pp.18-22, September 1995,france.

    [16] Mohammad Mehdi Hosseini, Abdorreza Alavi Gharahbagh and Sedigheh Ghofrani ," Vowel Recognition by Using the Combination of Haar Wavelet and Neural Network," KES'10 Proceedings of the 14th international conference on Knowledge-based and intelligent information and engineering systems, Part I,pp.331-339, 2010.

    [17] M.M,Hosseini, S.Ghofrani ," Automatic Lip Extraction Baced On Wavelet Transform," IEEE GCIS, pp.393-396, 2009,China.

    [18] Dahai Yu, Ovidiu Ghita, Alistair Sutherland, Paul F. Whelan," A PCA based Manifold Representation for Visual Speech Recognition,"In: CIICT 2007, Proceedings of the China-Ireland International Conference on Information and Communication Technologies, 28-29 August 2007, Dublin, Ireland.

    [19] Y. L. Tian and T. Kanade," Robust Lip Tracking by Combining Shape, Colour and Motion," Proc. of the Asian Conference on Computer Vision, pp.1040-1045, 2000.

    [20] Kim YongMin, Li Hong Zuo, " A Lip Reading Method Based on 3-D DCT and 3-D HMM," International Conference on Electronics and Optoelectronics, vol.1,pp.115-119, IEEE 2011.

    [21] H. Ertan Cetingul, Yucel Yemez, Engin Erzin and A. Murat Tekalp," Discriminative Analysis of Lip Motion Features for Speaker Identification and Speech-Reading," IEEE Transactions on Image Processing, VOL. 15, NO. 10, October 2006.

    [22] Xiaoping WANG, Yufeng HAO, Degang FU, Chunwei YUAN, ''ROI Processing for Visual Features Extraction in Lip-reading'', IEEE Int. Conference Neural Networks & Signal Processing, pp. 178-181, 7-11 June 2008.

    [23] Liang Yaling, Yao Wenjuan, Du Minghui, ''Feature Extraction Based on LSDA for Lipreading'', IEEE 2010.

    [24] I. Shdaifat and R. Grigat,D. Langmann," A System for Automatic Lip Reading ," International Conference on Audio-Visual speech Processing,4-7September , 2003.

    [25] Amin Banitalebi, Maryam Moosaei, Gholam Ali Hossein zadeh ," An Investigation on the usage of Image Quality Assessment in visual speech Recognition," The 6th Iranian machine vision & image processing conference , 27-28 October 2010.

     [26] Z. Wang and E.P. Simoncelli, " Translation insensitive image similarity in complex wavelet domain," in Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, pp.573-576, , Mar. 2005

    [27] Vahideh Sadat Sadeghi, Khashayar Yaghmaie," vowel recognition using neural network," IJCSNS International, Journal of Computer Science and Network Security, VOL.6 No.12, December 2006.

    [28] S.L.Wang, A.W.C.Liew, W.H.Lau,and S.H.Leung ," An Automatic Lipreading System for Spoken Digits With Limited Training Data," IEEE Transactions on Circuits and Systems for Video Technology, VOL. 18, NO. 12, December 2008.

     [29] N. Eveno, A. Caplier, P.Y. Coulon, New color transformation for lips segmentation,  in: Proceedings of IEEE Fourth Workshop on Multimedia Signal Processing, pp. 3–8, Cannes, France, October 2001.

     [30] Wark,T.,sridharan,S.,and Chaandran,V.''An approach to statistical lip modelling for speaker identification via chromatic feature extraction'' .In proceeding of the IEEE International conference on Pattern Recognition, Vol.1, pp 123-125, Aug 1998.

    [31] Coianiz,T.,Torresani,L.,and Caprile,B.''2D deformable models for visual speech analysis''.In [Stork and Hennecke,1996] , pp 391-398.

    [32] Vogt, M. ''Fast matching of a dynamic lip model to color video sequences under regular illumination conditions''.In[Stork and Hennecke,1996], pp.399-407.

    [33] Hamed Talea, Khashayar Yaghmaie,''Automatic visual speech segmentation'', 3rd International Conference on Communication Software and  Networks, pp.4854-4858, 2011 IEEE

    [34] F. G. Hashad, T. M. Halim S. M. Diab, and B. M. Sallam,'' A New Approach for Fingerprint Recognition Based on Mel Frequency Cepstral Coefficients'', International Conference on Computer Engineering & System, pp. 263-268, 14-16 Dec, 2009.

     

    [35] Shikha Gupta1, Jafreezal Jaafar, Wan Fatimah wan Ahmad3 and Arpit Bansal, '' Feature Extraction Using Mfcc'' , Signal & Image Processing : An International Journal (SIPIJ) Vol.4, No.4, August 2013

    [36] M. M. M. Fahmy, " Palmprint recognition based on Mel frequency Cepstral coefficients feature extraction", Ain Shams Engineering Journal, p. 9, 2010.

    [37] N. Puviarasan , S. Palanivel ,''Lip reading of hearing impaired persons using HMM'', 2010 Elsevier Ltd, Expert Systems with Applications 38 (2011).pp. 4477–4481,

    [38] Md. Rashidul Hasan, Mustafa Jamil Md. Golam Rabbani,Md. Saifur Rahman, "Speaker Identification using Mel Frequency Cepstral Coefficients", 3rd International conference on Electrical and computer engineering ICECE 2004,Dec 2004.

    [39] T. M. Talal and  A. El-Sayad, "Identification of Satellite Images Based on Mel Frequency Cepstral Cofficients, pp.274-282, IEEE 2009.

     [40] Sangeeta Biswas” MFCC based Face Identification” Titech Japan, 2009.

    [41] Deng Cai, Xiaofei He, Kun Zhou, “Locality Sensitive DiscriminantAnalysis,” International Joint Conference on Artificial Itelligence. Hyderabad: morgan Kaufmann Publishers 2007. pp.708-713.



تحقیق در مورد پایان نامه استخراج ویژگی زمانی فرکانسی جهت شناسایی دیداری مصوت های فارسی, مقاله در مورد پایان نامه استخراج ویژگی زمانی فرکانسی جهت شناسایی دیداری مصوت های فارسی, پروژه دانشجویی در مورد پایان نامه استخراج ویژگی زمانی فرکانسی جهت شناسایی دیداری مصوت های فارسی, پروپوزال در مورد پایان نامه استخراج ویژگی زمانی فرکانسی جهت شناسایی دیداری مصوت های فارسی, تز دکترا در مورد پایان نامه استخراج ویژگی زمانی فرکانسی جهت شناسایی دیداری مصوت های فارسی, تحقیقات دانشجویی درباره پایان نامه استخراج ویژگی زمانی فرکانسی جهت شناسایی دیداری مصوت های فارسی, مقالات دانشجویی درباره پایان نامه استخراج ویژگی زمانی فرکانسی جهت شناسایی دیداری مصوت های فارسی, پروژه درباره پایان نامه استخراج ویژگی زمانی فرکانسی جهت شناسایی دیداری مصوت های فارسی, گزارش سمینار در مورد پایان نامه استخراج ویژگی زمانی فرکانسی جهت شناسایی دیداری مصوت های فارسی, پروژه دانشجویی در مورد پایان نامه استخراج ویژگی زمانی فرکانسی جهت شناسایی دیداری مصوت های فارسی, تحقیق دانش آموزی در مورد پایان نامه استخراج ویژگی زمانی فرکانسی جهت شناسایی دیداری مصوت های فارسی, مقاله دانش آموزی در مورد پایان نامه استخراج ویژگی زمانی فرکانسی جهت شناسایی دیداری مصوت های فارسی, رساله دکترا در مورد پایان نامه استخراج ویژگی زمانی فرکانسی جهت شناسایی دیداری مصوت های فارسی

ثبت سفارش
تعداد
عنوان محصول
بانک دانلود پایان نامه رسا تسیس