پژوهشکده پردازش هوشمند علائم

Get Adobe Flash player

سامانه برچسب زن موضوعی متون فارسی

- هدف:

دسته‌بندی متون موضوعی اسناد یکی از اساسی‌ترین بخش‌ها در حوزه تحلیل محتوایی محسوب می­شود که در بسیاری از کاربردها از قبيل فیلتر کردن متون، سیستم‌های خودکار پاسخ به سؤالات و كاربردهايي مرتبط با سازمان­دهی خودکار مستندات به‌کاررفته است. هدف از ارائه سامانه برچسب زن موضوعی، تعیین موضوع مناسب برای فایل‌های متنی فارسی به صورت خودكار و توسط یک نرم­افزار هوشمند است.

2- چکیده:

سیستم برچسب زن موضوعی متون بر اساس روش­های نوین در حوزه پردازش متون ارائه شده است و بلوکهای پیش‌پردازش، انتخاب ویژگی، بازنمایی و روشهای یادگیری ماشینی در آن گنجانده شده است. در سيستم برچسب زن موضوعی، تعدادی موضوع و نمونه‌هایی از اسناد متنی متعلق به آن موضوعات برای آموزش به سیستم ارائه می‌گردد. پس از اتمام آموزش، سامانه قادر خواهد بود برچسب صحیح مرتبط با نمونه(های) تستی را که متعلق به یکی از موضوعات آموزش دیده است، تعیین نماید. عمده­ترین مشخصه سیستم، دقت بالای آن در تعیین برچسب صحیح و ارائه خروجی احتمالاتی است.

3- قابلیت‌ها:

نسخه فعلی از نرم‌افزار برچسب زن موضوعی دارای قابلیت‌ و مشخصات زیر است:

  1. قابلیت تغییر موضوعات و تعلیم مدل برای موضوعات مورد نظر کاربر
  2. قابلیت به‌روزرسانی مدل
  3. عدم نیاز به انتخاب واژگان کلیدی به صورت دستی
  4. ارائه بلوک پیش‌پردازش و نرمال سازی متون فارسی به طور مستقل
  5. امکان ارائه فایل ورودی به فرمت‌های txt ، doc ، docx و یا rtf
  6. ارائه خروجی احتمالاتی در کنار خروجی قطعی
  7. تعیین متون چند برچسبی و تک برچسبی
  8. آموزش نیمه سرپرستی شده و استفاده از دادگان متنی بدون برچسب در کنار اسناد برچسب خورد
  9. امکان برچسب‌زنی یک فایل یا مجموعه‌ای از فایل‌های متنی
  10. سرعت بالا در مرحله تست و قابلیت تعلیم سریع
  11. انتخاب تعداد پردازشگرهای موازی و قابلیت استفاده بهینه از توان محاسباتی پردازنده‌های موجود در رایانه
  12. قابل اجرا برای دادگان بسیار حجیم
  13. عملکرد موفق روش‌های به‌کاررفته در مرحله تعلیم روی دادگان استاندارد انگلیسی
  14. کار آیی بالا روی دادگان عملیاتی فارسی ( معیار f-measure بیش از 0.9 و خطای کمتر از 9٪ در برچسب‌زنی 11 موضوع)
  15. دقت قابل‌قبول حتی برای موضوعاتی که داده کافی از آنها موجود نیست
  16. امکان ارائه خروجی قابل‌قبول و دسته‌بندی معتبر برای فایل‌های متنی بسیار کوتاه

 4- مشخصات فنی:

1- سازگاری با سیستم‌عامل‌های Windows XP و Windows 7

2- يك گيگابايت حافظه­ی RAM

5- کاربردها:

  1. طبقه‌بندی اخبار و گزارش‌ها در سایت‌های خبری
  2. دسته‌بندی اسناد در ادارات دولتی، سازمان‌ها و ناشران
  3. فیلتر کردن هرزنامه‌ها و اطلاعات غیر مرتبط
  4. پیش‌نیاز سیستم‌های پرسش و پاسخ و خلاصه سازها