پیکره ها براساس زبان به کاررفته در متن های تشکیل دهندة آنها به پیکرههای تک زبانه، دوزبانه و چندزبانه گروه بندی میشوند. پیکرة مقایسه ای، پیکرهای است دوزبانه یا چندزبانه که شامل متن هایی است مشابه در حوزههای موضوعی یکسان. با وجود کاربرد فراوان این نوع پیکره ها در پژوهش های گوناگون همچون پژوهشهای زبانی، ترجمة ماشینی و سامانه های خودکار بازیابی اطلاعات بینازبانی، پژوهشگران همواره با کمبود پیکره های مقایسه ای مواجه بوده اند. در این مقاله، به معرفی مراحل ساخت یک پیکرة مقایسه ای تخصصی به نام «پارسا» پرداخته شده است. این پیکره از چکیدههای فارسی و انگلیسی پایان نامه ها و رساله های ثبت شده در پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) ساخته شده است و شامل بیش از 89 میلیون واژه فارسی و 79 میلیون واژه انگلیسی است. محتوای این پیکره عمومی نیست و مشتمل بر متن های بسیار تخصصی در حوزههای موضوعی کلان مانند علوم اجتماعی، علوم انسانی و هنر، فنی ومهندسی و رشته های مربوط به این حوزهها است و ازاین جنبه، برای پردازشهای زبانی که نیازمند بهره گرفتن از متن های تخصصی است، بسیار ارزشمند است. برای ساخت این پیکره، پس از نمونه گیری، دادههای فارسی وارد فرایند پیش پردازش (هنجارسازی و واحدسازی) شدند. برای ارزیابی این مرحله دقت (P)، فراخوان (R) و F1 سنجیده شد. دقت، 5614035088. 0، فراخوان، 0531561462. 0 و در پایان، F1 09711684370257966. 0 محاسبه شده است. سپس، دادهها برچسب گذاری شدند (برچسب گذاری اجزای کلام) و برچسبهای متون فارسی کنترل شدند. دادههای انگلیسی نیز به صورت ماشینی برچسب گذاری شدند. شمار واژه های محتوایی (فعل، اسم، صفت، قید) دادههای فارسی این پیکره 57653813 و شمار واژههای دستوری به همراه اعداد و علائم سجاوندی 31350125 است و بن واژههای فارسی استخراج شده نیز شامل 41064 بن واژه است. شمار واژههای محتوایی متون انگلیسی 45606686 و شمار واژههای دستوری به همراه اعداد و علائم سجاوندی شامل 33662304 و بن واژههای انگلیسی استخراج شده نیز شامل 12937 بن واژه است. پیکرۀ ساخته شده قابلیت بسیار بالایی برای داده کاوی، پژوهشهای مربوط به ترجمه ماشینی و به کارگیری در تمام پژوهش هایی که بر روی متون علمی انجام می شود را دارا است.