نسخه جدید سایت SID.ir

مشخصات

عنوان:

بررسی آماری زبان فارسیگروه تخصصی:  فنی و مهندسی

سازمان مجری:  واحد صنعتی شریف 

گروه پژوهشی: ریاضی کاربردی

پژوهشگران: 
تاریخ خاتمه:  1369

کارفرما: 

خروجی طرح: 
 
تلفن: 66005970-66031914-66024544-021

نشانی سازمان مجری: تهران، خیابان آزادی، خیابان شهید ولی اله صادقی، روبروی درب شمالی دانشگاه صنعتی شریف، پلاک 79، کدپستی
 

چکیده:

در این طرح ابتدا داده های فارسی نوشتاری بطور تصادفی انتخاب و نمونه گیری می شوند. این داده ها که بصورت متونی در زمینه های مختلف به زبان فارسی هستند با استفاده از امکانات خاص کامپیوتری ذخیره شده و مورد پردازشهای لازم قرار می گیرند. ضمن این پردازشها، پارامترهای مورد نظر در جامعه فارسی نوشتاری برآورد شده و با استفاده از دانش نظریه آگاهی، مقدار عددی برخی از آماره های زبان محاسبه میشوند. پارامترها و آماره هایی که در این طرح مدنظر می باشد عبارتند از:
- احتمال وقوع n حرفی های ممکن به ازای 5 و 4 و 3 و 2 و 1n= .
- احتمال وقوع تک حرفی های ممکن در آغاز وانتهای کلمات.
- متوسط طول کلمات
- متوسط تعداد حروف متفاوت در رشته هایی به طول N حرف.
- آنتروپی در فارسی نوشتاری
- حشو در فارسی نوشتاری
این پارامترها بر اساس نمونه ای با حجم بیش از یک میلیون حرف برآورده شده و نتایج حاصله طی جداول مربوطه در ضمایم پروژه درج گردیده اند. نتایج به دست آمده در این طرح هم از بعد زبانشناسی برای تعبیر کمی بعضی از مفاهیم، و هم بعد از کاربردهایی که در رمز نگاری و نظریه نمایه سازی دارند حائز اهمیت می باشند.

 
 
Title:

Statistical Approach in written FARSIAbstract:

In this project. At first stage. Written Farsi data were selected randomly. Data which are texts in different lapics. Are stored by using special capabilities. Then processed properly finally, using information theory knowledge, numerical value of some of the statistics are estimated, as follows:
- Probability distribution of possible n- grams, for n= 1, 2, 3, 4, 5.
- Probability distribution of possible d- grams at the beginning and the of words.
- Average length of words.
- Average number of different Letters on messages having length 7.
- Written farsi Ethropy.
- Written farsi Redundancy.
Parameters are estimated on the basis of a sample size of more than one million letters and related results and tables are given in several appelidices at the end of report. Results of this project are applicable in both linguistics for guntitalive inlerpretation of some of the linguistie concepts. And cryptology and coding theory fot different communication cogineeting objectives.Keyword(s):