برای اطلاع از آخرین مقالات علمی و اخبار کرونا(COVID-19) کلیک کنید

مشخصات

عنوان:

استخراج فراوانی کلمات متداول نوشتار فارسیگروه تخصصی:  علوم پایه

سازمان مجری:  واحد صنعتی شریف 

گروه پژوهشی: ریاضی

پژوهشگران: 
رمضان پور فرهاد (مسئول طرح)

تاریخ خاتمه:  بهمن 1371

کارفرما: ریاست جمهوری

خروجی طرح: 

نتایج حاصل از این تحقیق به کارفرما واگذار شده است.


نوع: کاربردی

 
تلفن: 66005970-66031914-66024544-021

نشانی سازمان مجری: تهران، خیابان آزادی، خیابان شهید ولی اله صادقی، روبروی درب شمالی دانشگاه صنعتی شریف، پلاک 79، کدپستی
 

چکیده:

اطلاعات آماری دقیق از کلمات متداول در نوشتار فارسی برای مقاصد تحقیقاتی در زمینه های نمایه سازی، فشرده سازی متون، ترجمه ماشینی و تبدیل گفتا به نوشتار یا بالعکس از لوازم اصلی کار محسوب می شود.در این پروژه، ابتدا نمونه های تصادفی از متون فارسی در موضوعات گوناگون و متنوع اجتماعی، اقتصادی، ورزشی، علمی، ادبی، تاریخی، فرهنگی، سیاسی و … به حجم حدودا نه میلیون کلمه جمع آوری و ذخیره سازی کامپیوتری شدند. سپس فهرست کلمات فارسی بر حسب حروف الفبا و بر حسب فراوانی ظهور در متون فارسی تهیه و در قالب گزارش های مکتوب ارائه گردید.
خلاصه ای از فعالیت های انجام شده عبارتند از:
- تبدیل مجموعه کاراکترهایی که متون از طریق آن جمع آوری شده بود و به مجموعه کاراکترهایی که مورد نظر بود.
- تفکیک اطلاعات نمونه ای جمع آوری شده به فایل های جداگانه به دلیل حجیم بودن اطلاعات برای سهولت پردازش
- حذف اطلاعات تکراری و نامناسب پس از بازبینی نسبتا دقیق اطلاعات
- پردازش تک تک فایل های اطلاعات جمع آوری شده و محاسبه فراوانی مطلق کلمات در هر یک از آن ها و ذخیره فراوانی ها بر حسب ترتیب قاموسی کلمات
- ادغام کلمات یکسان با املاهای متفاوت و استخراج نهایی فراوانی کلمات به ترتیب قاموسی به حجم دقیقا 793410 کلمه
- حذف کلماتی که فراوانی آن ها یک بوده و در نتیجه استخراج 73773 کلمه مجزا از اطلاعاتی به حجم 7317553 کلمه و محاسبه فراوانی آن ها.کلیدواژگان:

 
 
Title:Abstract:

Keyword(s):