پژوهشکده پردازش هوشمند علائم

Get Adobe Flash player

پیکره متنی استاندارد زبان فارسی

(Farsi Text Corpus)

1- هدف:

یکی از مهم­ترین گام­ها در طراحی و ساخت سیستم­های بازشناسی گفتار پیوسته با دایره لغات بزرگ (LVCSR)، تعلیم مدل زبانی (Language Model) برای مدل کردن نحوه توالی کلمات در یک زبان خاص است. برای انجام چنین کاری، داشتن مقادیر بسیار زیادی از دادگان متنی (Text)از آن زبان همراه با برچسب­ های لازم ضروری است. از طرفی در بسیاری از پروژه­ های تحقیقاتی در زمینه پردازش زبان طبیعی (Natural Language Processing)، چنین دادگانی مورد نیاز است. پیکره متنی زبان فارسی، دادگانی است که جواب گوی این­گونه نیازها در شناسایی گفتار فارسی و پردازش زبان طبیعی است.

2- چکیده:

پیکره متنی زبان فارسی، مجموعه­ ای از متون نوشتاری و گفتاری زبان فارسی به صورت رسمی است که از منابع واقعی همچون روزنامه­ ها، سایت­ ها و مستنداتِ از قبل تایپ شده، جمع­ آوری شده، تصحیح گردیده و برچسب خورده است. حجم این دادگان حدوداً 100 میلیون کلمه است و از منابع مختلف تهیه گردیده و دارای تنوعات بسیار زیادی است.

3- قابلیت­ ها و ویژگی­ ها:

پیکره متنی زبان فارسی دارای قابلیت­ ها و ویژگی­ های زیر است:

1- جمع­ آوری و سازمان­دهی متون نوشتاری و گفتاری رسمی زبان فارسی با حجم 100 میلیون کلمه.

2- ویرایش نیمه­ خودکار اولیه متون.

3- برچسب­ دهی نحوی-معنایی کلمات برای 10 میلیون کلمه با استفاده از 882 برچسب به صورت دستی توسط دانشجویان رشته زبان شناسی بر اساس دستورالعمل.

4- تهیه نویسه­ های UniCode و XML برای پرونده­ های متنی دادگان.

5- امکان برچسب­ دهی گروه­ های نحوی.

6- طبقه­ بندی هر پرونده بر حسب موضوع و منبع آن.

7- پوشش موضوعات مختلف سیاسی، اجتماعی، اقتصادی، فرهنگی، ... .

8- مجهز به یک نرم­ افزار آماری برای محاسبه و استخراج ویژگی­های زبانی از قبیل: توزیع احتمالی مشروط، واژگان بسامدی، شناسایی هم­نگاره­ ها،

همایندها، مطابقه ­ها و ترتیب قاموسی با امکان گزارش­ گیری.

9- طراحی یک زبان جستجوی هوشمند.

10- اولین و تنها پیکره متنی حجیم در زبان فارسی.

4- کاربردها:

1-استفاده در تعلیم مدل زبانی (Language Model) برای سیستم ­های بازشناسی گفتار پیوسته فارسی با دایره لغات بزرگ( .( LVCSR

2- استفاده در پروژه­ های مربوط به پردازش زبان طبیعی (Natural Language Processing).

مشاهده کاتالوگ محصول