پژوهشکده پردازش هوشمند علائم

Get Adobe Flash player

هدف:

هدف از اين طرح تبديل تصاوير اسناد به معادل آن­ها و به­صورت فايل نوشتاری، مانند word است که در اين راستا علاوه بر OCR، آناليز قالب بندی اسناد، تشخيص فونت، تشخيص زبان، بازسازی سند نيز انجام می­شود.

چکيده:

يک راه ساده ، ايمن و سريع برای ورود اطلاعات موجود در اسناد کاغذی به رايانه تهيه آرشيو الکترونيکی از تصاوير آن­ ها می باشد .اما از آنجايي­ که اسناد در اين روش به­ صورت عکس نگهداری می­ شوند، آيتم ­های اطلاعاتی موجود در آن­ها قابل استخراج و استفاده نيست. لذا تکنيک ­های تشخيص حروف، اعداد و متن­ های نوشته شده در تصاوير (OCR) اهميت پيدا می­ کنند. براي زبان­ هاي لاتين از سال­ ها قبل نرم ­افزارهاي OCR به وجود آمده و سير تكاملي خود را طي نموده­ اند. امّا استفاده از آن­ ها در زبان فارسی با توجّه به پيچيدگي بالا و مشكل بودن ساختار و نوشتار زبان فارسي در مقايسه با زبان­ هاي لاتين، با مشکل مواجه می­ شود. هدف ما در اين پروژه ارائه ­ی نرم­ افزار بهينه و کاربردی به­ منظور تبديل تصاوير نوشتاری فارسی به متون می باشد.

 

 

قابليت­ها:

  • تبديل تصاوير نوشتاري فارسي به متون
  • ستون‌بندي خودكار
  • بدون نياز به آموزش‌هاي اوليه و آماده‌كار
  • قابل استفاده به شكل مستقل و SDK با توجّه به سفارش
  • قابليت مشخص نمودن خطاها با رنگي كردن متن خروجي
  • داراي غلط‌ياب املايي با توانايي تصحيح خودكار غلط‌ها
  • بهره‌گيري از يك واژگان 120 هزار كلمه‌اي جهت بهبود متن خروجي
  • امكان اصلاح متون OCR شده و متون تايپ شده
  • امكان اضافه نمودن كلمات جديد به واژگان
  • پشتيباني از قالب‌هاي گرافيكي مختلف
  • سرعت پردازش بالا، مناسب كاربردهاي عمومي
  • مقاوم در مقابل چرخش‌ تصوير

 

 

 

مشخصات فنی:

  • پياده‌سازي شده با ++C
  • قابل اجرا برروي سيستم‌هاي XP و Vista
  • محيط کاربری کاملا فارسی
  • Stand alone: عدم نياز به هيچ نرم افزار جانبي ديگر
  • قابليت توسعه برای کاربردهای اختصاصی توسط کاربران
  • داراي قفل سخت‌افزاري
  • قابل استفاده به شكل تك‌كاربر و شبكه‌اي

کاربردها:

  • تبديل تصاوير اسناد به فايل نوشتاری
  • ورود اطلاعات به شکل خودکار از طريق اسکنر
  • جستجوی آرشيو های تصويری برای متن.