X
+9821-44265001 |  نشریات فارسی |  مجامع فارسی |  نشریات انگلیسی |  مجامع انگلیسی |  کارگاه های آموزشی |  عضویت در خبرنامه
LinkedIn
Instagram
Telegram
مرکز اطلاعات علمی
  • صفحه اصلی
  • خبر و گزارش
  • تحلیل داده
  • ثمر علم
  • اینفوگرافی
  • نشریات
  • مجامع
  • طرح ها
  • کارگاه های آموزشی
  • رویدادها
  • مناسبت ها
مرکز اطلاعات علمی
مرکز اطلاعات علمی

FarsTail اولین مجموعه‌داده‌ فارسی استنتاج زبان طبیعی

1399/08/26FarsTail | مجموعه داده زبان فارسی | استنتاج زبان طبیعی1365 بازدیدمرکز اطلاعات علمی جهاد دانشگاهی

استنتاج زبان طبیعی


استنتاج زبان طبیعی (Natural Language Inference) یکی از مهمترین وظایف مطرح شده در پردازش زبان طبیعی (Natural Language Processing) است. این مسئله آنقدر مهم است که آن را آزمونی برای رسیدن پردازش زبان طبیعی به هدف نهایی خود، یعنی درک کامل زبان طبیعی (Natural Language Understanding) توسط ماشین میدانند. در مسئله‌ی استنتاج زبان طبیعی دو عبارت مطرح می‌شود؛ عبارت اول، مقدم (Premise) و عبارت دوم، تالی (Hypothesis) نامیده می‌شود. در این مسئله، نوع ارتباط این دو عبارت در سه کلاس زیر دسته‌بندی می‌شود:
1) کلاس دلالت: با توجه به عبارت مقدم، عبارت تالی درست می‌باشد.
2) کلاس تضاد: با توجه به عبارت مقدم، عبارت تالی غلط می‌باشد.
3) کلاس خنثی: با توجه به عبارت مقدم، نمی‌توان درباره‌ی درست یا غلط بودن تالی نظر قطعی داد.
با توجه به مثال زیر، از جمله‌ی مقدم می‌توان نتیجه گرفت که تالی دلالت درست است و تالی تضاد نادرست است و نمی‌توان نتیجه گرفت که آیا تالی خنثی درست است یا خیر.

FarsTail: اولین مجموعه‌داده‌ی فارسی استنتاج زبان طبیعی

آیا انتشار مقاله در مجلات داخلی اهمیت دارد؟

در سال‌های اخیر مدل‌های بسیاری توسط پژوهشگران برای حل مسأله‌ی استنتاج زبان طبیعی ارائه شده است. این مدل‌ها که اکثراً بر پایه‌ی یادگیری عمیق هستند، برای آموزش نیازمند داده‌های برچسب‌دار می‌باشند. به همین منظور در زبان های مختلف دنیا مجموعه داده‌هایی مختص مسئله‌ی استنتاج زبان طبیعی جمع‌آوری و منتشر شده است. از جمله این مجموعه داده‌ها می‌توان به «SNLI»، «MultiNLI» و «SciTail» در زبان انگلیسی، «Evalita» در زبان ایتالیایی، «ArbTEDS» در زبان عربی و «ASSIN» در زبان پرتغالی اشاره کرد. اما چنین مجموعه داده‌هایی را در زبان فارسی که یک زبان کم منبع است، نمی‌توان یافت.

FarsTail چیست

مجموعه داده‌ی FarsTail، اولین مجموعه داده‌ی فارسی جمع آوری شده برای مسئله‌ی «استنتاج زبان طبیعی» می‌باشد. این مجموعه داده در طول 22 ماه توسط یک تیم تخصصی پردازش زبان طبیعی در آزمایشگاه داده‌کاوی و یادگیری ماشین دانشگاه قم جمع‌آوری شده است.

در روند جمع‌آوری مجموعه داده‌ی FarsTail روشی نوین شبیه به سناریوی استفاده شده در SciTail برای تولید یک مجموعه داده‌ی استاندارد طراحی و به کار گرفته شده است.مراحل توسعه‌ی مجموعه داده‌ی FarsTail در شکل زیر نشان داده شده است.

FarsTail  اولین مجموعه‌داده‌ی فارسی استنتاج زبان طبیعی

مجموعه داده‌ی FarsTail بر اساس توزیع ارائه شده در جدول زیر به سه بخش مجموعه‌ی آموزشی (70%)، مجموعه‌ی اعتبارسنجی (15%) و مجموعه‌ی آزمایشی (15%) تقسیم شده است.

مجموعه داده زبان فارسی

برای دریافت آخرین‌های بلاگ و بن تخفیف در خبرنامه عضو شوید.

کارگاه آموزشی متن کاوی با پایتون

کارگاه آموزشی متن کاوی با پایتون

آزمایش‌ها

برای محاسبه‌ی بازنمایی جملات ورودی روش های مختلفی از جمله TF-IDF، word2vec، fastText، ELMo، BERT با استفاده از طبقه‌بندهای SVM، LSTM و GRU به کار گرفته شده‌اند. همچنین نتایج مدل‌های DecompAtt، ESIM، HBMP و ULMFiT بر روی مجموعه داده‌ی FarsTail نشان داده شده است. علاوه بر این، رویکرد انتقال بین زبانی (Cross-lingual transfer) نیز بر روی این مجموعه داده آزمایش شده است که از دو روش پایه‌ی Translate-Source و Translate-Target استفاده شده است. خلاصه‌ای از بهترین نتایج آزمایش‌ها در جداول زیر آمده است:

FarsTail

دانلود داده برای کارهای غیرتجاری:

https://github.com/dml-qom/FarsTail

 

مقاله در arXiv:

Hossein Amirkhani, Mohammad Azari Jafari, Azadeh Amirak, Zohreh Pourjafari, Soroush Faridan Jahromi, and Zeinab Kouhkan. 2020. FarsTail: A Persian Natural Language Inference Dataset. arXiv preprint arXiv:2009.08820.

 

لینک در paperswithcode:

https://paperswithcode.com/sota/natural-language-inference-on-farstail

 

 

برچسب‌ها: FarsTailمجموعه داده زبان فارسیاستنتاج زبان طبیعی

www_sid_ir.com

ما را در شبکه های اجتماعی دنبال کنید

RSS
LinkedIn
Instagram
Telegram

لینک های مرتبط:

  • نشریات فارسی
  • مجامع فارسی
  • نشریات انگلیسی
  • مجامع انگلیسی
  • کارگاه های آموزشی

تماس با مرکز اطلاعات علمی

  • +9821-44265001 - 4 تلفن:
  • +9821-44265001 124 داخلی فکس:
  • workshop@sid.ir ایمیل:

کليه حقوق اين سايت متعلق به مرکز اطلاعات علمی جهاد دانشگاهی می‌باشد. 2019 - 2004 حریم خصوصی  |  قوانین و مقررات  |  سؤالات متداول