پژوهشکده پردازش هوشمند علائم

Get Adobe Flash player

کاوشگر زبان

تشخيص خودکار زبان گفتاری از روی صدا

هدف

تشخيص خودکار زبان گفتاری (فارسی، عربی، انگليسی، ...) در مکالمات صوتی که گويندگان مکالمه به­ آن زبان صحبت می‌کند، يک گام بسيار مهم برای تعيين پردازش‌های بعدی بر روی فايل‌های صوتی و گفتاری است. هدف از به­ کارگيری سيستم کاوشگر زبان، تشخيص زبان گفتاری از روی صدا و جدا کردن تعدادی از فایل‌های صوتی است که در آن گویندگان به زبان یا زبان‌های مورد نظر ما (زبان‌های هدف) صحبت کرده‌اند.

چکيده

در سيستم کاوشگر­ زبان، می‌توان نمونه‌هايی از زبان­ ها را به­ صورت مکالمه‌ها و فايل‌های صوتی به­ سيستم آموزش داد. نمونه‌های فايل‌های صوتی از هر زبان حدوداً 20 ساعت از مکالمات گفتاری گفته شده از آن زبان خاص است. پس از تعليم نمونه‌هايی از هر زبان، سيستم می‌تواند در تعداد زيادی از فايل‌های صوتی ناشناخته (محتوی مکالمات واقعی) جستجو کند و تعيين کند که در هر يک از اين فايل‌های صوتی، گویندگان مکالمه به چه زبانی صحبت کرده‌اند و فايل‌هايی را که به زبان مورد نظر تکلم شده است، پیدا کند.

قابليت‌ها

نسخه فعلی از نرم‌افزار کاوشگر زبان دارای ويژگیها و قابلیت‌های زیر است:

  1. قابليت عملکرد سامانه به­صورت مجموعۀ باز (Open-Set)
  2. پوشش حدّاقل 12 زبان بين­المللی دنيا (با استفاده از دادگان NIST LRE 2003) همراه با چندین زبان محلی داخل کشور
  3. حساسيت کم به­نحوۀ گويش فرد در يک زبان خاص، حتّی برای افرادی که به زبان غير مادری خود صحبت می­کنند (به­خصوص برای 3 زبان عربی، فارسی و انگليسی)
  4. قابليت انعطاف بالا و تنظيم دلخواه ميزان خطای False Alarm و False Rejection توسط کاربر
  5. قابليت تنظيم خطا با 8 معيار استاندارد جهانی
  6. قابليت جستجو به­دنبال يک زبان (Single-Target) يا مجموعه­ای از زبان­های مورد نظر (Multi-Target)
  7. قابليت افزودن يک زبان گفتاری جديد به مجموعه زبان­های سامانه با داشتن درحدود 10 ساعت مکالمه از آن زبان
  8. عدم نیاز به برچسب واجی یا کلمه‌ای برای دادگان آموزشی (برخلاف برخی از انواع سیستم‌های شناسایی زبان که برای آموزش به این برچسب‌ها نیاز دارند).
  9. استفاده از روش­های مقاوم برای مدل‌سازی صوتی زبان­ها و کاهش اثر نويز و کانال انتقال
  10. خطای EER پايين برای يافتن يک زبان خاص (خطای EER زير 3% برای کانال تلفنی)
  11. ارائۀ يک عدد به کاربر برای نشان­دادن درصد اطمينان در تصميم‌گيری (از 0% تا 100%) در شناسايی زبان (Confidence Measure).
  12. قابلیت آشکارسازی سیگنال­های مخابراتی و غیرگفتاری در محیط واقعی.
  13. قابليت استفاده از توان محاسباتی رایانه­های چندپردازنده (Multi-Processor). با افزایش تعداد هسته­های رایانه، سرعت برنامه نیز به همان میزان افزایش می­یابد.
  14. قابل اجراء برای پردازش و شناسایی مکالمات و دادگان بسیار حجیم
  15. استفاده از دادگان استاندارد بين‌المللی NIST LRE 2003 (متعلّق به مؤسسۀ استاندارد فناوری آمريکا NIST) برای ارزيابی کارايی سامانۀ کاوش­گر زبان.
  16. کارایی قابل مقایسه با محصول خارجی مشابه (در مقایسه با محصول ایتالیایی Loquendo برای شناسایی زبان).
  17. اوّلين محصول عملياتی و کاربردی با سرعت بالا و خطای پايين برای شناسايی زبان گفتاری در کشور

مشخصات فنی:

  1. سازگاری با سیستم عامل Windows XP و Windows 7
  2. پردازندۀ Core i7 و بالاتر در حالت Multi Threading
  3. 200 مگابايت حافظۀ RAM به­ازای هر Thread .

کاربردها:

1- استفاده در سيستم‌های هوشمند تشخيص گفتار چندزبانه (Multi-Lingual Speech Recognition) جهت تعيين نوع زبان گوينده برای پردازش‌های بعدی.

2- پيدا کردن يک زبان خاص در آرشيوهای صوتی و گفتاری (به ­عنوان مثال در سازمان صدا و سيما يا ارگان‌های ديگر).

3- استفاده در سيستم‌های پاسخگو و راهنمای تلفنی که کاربران بين‌المللی دارند تا سيستم پس از تشخيص زبان شخص کاربر، مطابق با زبان مادری او، با او ارتباط برقرار کند.

4- استفاده از سيستم در آموزش زبان­ های خارجی از طريق امتيازی که سيستم به نحوه­ی تکلم افراد در زبان‌های غيرمادری آن ها می‌دهد.

مشاهده کاتالوگ محصول