پژوهشکده پردازش هوشمند علائم

Get Adobe Flash player

کاوشگر گوینده

سيستم تشخيص هويت افراد از روی صدا

هدف

يکی از کاربردهای بسيار مهم در دنيای ديجيتال امروزی، تأييد و تعيين هويت افراد به­ صورت خودکار از روی صدای آن­ هاست. دريافت، ضبط و دسترسی به صدای افراد نسبت به مشخصات ديگری همچون اثر انگشت، تصوير چهره، تصوير عنبيه چشم و ... آسان‌تر است. هدف از به­ کارگيری سيستم کاوشگر گوينده، پيدا کردن تعدادی از گويندگان مظنون (هدف) با استفاده از مشخصات صدای آن­ ها در ميان تعداد بی‌شماری از گويندگان است. در واقع اين سيستم، تعداد زيادی از مکالمات ناشناخته را بررسی کرده و فايل ­های صوتی مربوط به گويندگان مظنون (هدف) را می‌يابد و فايل­ های مربوط به گويندگان ديگر را دور می‌ريزد. اين سيستم در مبحث پردازش گفتار اصطلاحاً سيستم تعيين هويت گوينده به ­صورت مجموعه ­ی باز و يا (Open-Set Speaker Identification) ناميده می‌شود.

چکیده

در سيستم کاوشگر گوينده، می‌توان نمونه صدای تعدادی از گويندگان مظنون (گويندگان هدف) را به سيستم آموزش داد. نمونه صدای يک گوينده، سيگنال صوتی او به طول زمانی حداقل 2 دقيقه است که می‌تواند يک فايل صوتی باشد. پس از تعليم نمونه صدای افراد به­ سيستم (به عنوان مثال N گوينده مظنون)، سيستم می‌تواند در تعداد بسيار زيادی از فايل‌های صوتی ناشناخته (شامل مکالمات واقعی) جستجو کند و تعيين کند که آيا صدای يکی از N نفر گوينده هدف، در هر يک از اين فايل‌ها وجود دارد يا خير، و اگر وجود دارد، کداميک از N گوينده هدف می‌باشد.

قابلیت‌ها

نسخه فعلی از نرم‌افزار کاوشگر گوینده دارای ويژگی­ ها و قابلیت‌های زیر است:

  1. قابليت عملکرد سامانه به­صورت مجموعۀ باز (Open-Set)
  2. قابل استفاده در کانال­های ارتباطی مختلف (تلفن ثابت، تلفن موبايل، VoIP و ...)
  3. حساسيت کم به نحوۀ گويش و لهجۀ شخص، حالت احساسی شخص، کانال ارتباطی، نوع گوشی تلفن و زبان گفتاری او
  4. قابليت انعطاف بالا و تنظيم دلخواه ميزان خطای False Alarm و False Rejection توسط کاربر
  5. قابليت تنظيم خطا با 8 معيار استاندارد جهانی
  6. قابليت جستجو به دنبال يک گوينده مظنون خاص (Single-Target Detection) يا مجموعه­ای از گويندگان (Multi-Target Detection)
  7. قابليت افزودن گويندگان و افراد مظنون جديد به مجموعه گویندگان سامانه با داشتن حدّاقل دو دقيقه از صدای آنها
  8. سرعت بالا در افزودن يک گوينده جديد و آموزش مدل صوتی او (که بسيار سريع بوده و کمتر از یک دقيقه طول می­کشد).
  9. استفاده از روش­های مقاوم برای مدل‌سازی صوتی گويندگان و کاهش اثر نويز و کانال ارتباطی
  10. خطای EER نسبتاً پايين برای تأييد هويت گوينده و يافتن يک گوينده خاص (خطای حدود 5%)
  11. قابل استفاده در کانال­های ارتباطی که در آن گفتار فشرده می‌شود (تا نرخ بيت پایین 4 kbps)
  12. ارائۀ يک عدد به کاربر برای نشان­ دادن درصد اطمينان سیستم (از 0% تا 100%) در شناسايی گوينده (Confidence Measure).
  13. قابليت پيکربندی دوباره و کلی سامانه از ابتدای کار و طی تمامی مراحل توسط کاربر برای ساخت يک سامانه در کانال جديد و برای دادگان جديد
  14. ایجاد یک شاخه (Folder) جداگانه برای هر یک از گویندگان مظنون و انتقال فایل‌های یافته شده متعلّق به هر گوینده به شاخۀ اختصاص یافته برای او
  15. قابليت استفاده از توان محاسباتی رایانه­های چندپردازنده
  16. (Multi-Processor). با افزایش تعداد هسته­های رایانه، سرعت برنامه نیز به همان میزان افزایش می­یابد.
  17. قابلیت شاخص­گذاری و تقطیع گوینده (Speaker Segmentation/Diarization) برای پردازش مکالماتی که در آن چند گویندۀ مختلف وجود دارد.
  18. قابلیت آشکارسازی سیگنال­های مخابراتی و غیرگفتاری در محیط واقعی
  19. قابل اجراء برای پردازش و شناسایی مکالمات و دادگان بسیار حجیم
  20. استفاده از دادگان استاندارد بين‌المللی NIST SRE 2004 (متعلّق به مؤسسۀ استاندارد فناوری آمريکا NIST) برای ارزيابی کارايی سامانۀ کاوش­گر گوينده
  21. کارایی قابل مقایسه با و حتّی در برخی شرایط بهتر از محصول خارجی مشابه (در مقایسه با محصول ایتالیایی Loquendo برای شناسایی گوینده).
  22. اوّلين محصول عملياتی و کاربردی با سرعت بالا و خطای پايين برای شناسايی گوينده در کشور

4- مشخصات فنی:

  1. سازگاری با سیستم عامل Windows XP و Windows 7
  2. پردازنده Core i7 و بالاتر در حالت Multi Threading
  3. 200 مگابايت حافظه RAM به ازای هر Thread

 

5- کاربردها:

1- استفاده برای تأييد اصالت صدای افراد در سيستم قضايی و اثبات هويت مظنونين در زمانی که صدای ضبط شده در صحنه جرم وجود دارد.

2- تأييد هويت افراد برای کنترل دسترسی آن­ ها به اطلاعات حساب بانکی آن­ ها در سيستم بانکی از طريق خط تلفن و يا موبايل.

3- پيدا کردن صدای يک شخص خاص در آرشيوهای صوتی و گفتاری (به­ عنوان مثال در سازمان صدا و سيما يا هر ارگان ديگر).

4- استفاده از صدای افراد به­ عنوان رمز عبور برای وارد شدن به سيستم‌ها و دسترسی به اطلاعات بسيار مهم.

 

مشاهده کاتالوگ محصول