بلاگ

پایگـاه اطلاعات علمی جهاد دانشگاهی

FarsTail اولین مجموعه‌داده‌ فارسی استنتاج زبان طبیعی


FarsTail چیست ؟

استنتاج زبان طبیعی


استنتاج زبان طبیعی (Natural Language Inference) یکی از مهمترین وظایف مطرح شده در پردازش زبان طبیعی (Natural Language Processing) است. این مسئله آنقدر مهم است که آن را آزمونی برای رسیدن پردازش زبان طبیعی به هدف نهایی خود، یعنی درک کامل زبان طبیعی (Natural Language Understanding) توسط ماشین میدانند. در مسئله‌ی استنتاج زبان طبیعی دو عبارت مطرح می‌شود؛ عبارت اول، مقدم (Premise) و عبارت دوم، تالی (Hypothesis) نامیده می‌شود. در این مسئله، نوع ارتباط این دو عبارت در سه کلاس زیر دسته‌بندی می‌شود:
1) کلاس دلالت: با توجه به عبارت مقدم، عبارت تالی درست می‌باشد.
2) کلاس تضاد: با توجه به عبارت مقدم، عبارت تالی غلط می‌باشد.
3) کلاس خنثی: با توجه به عبارت مقدم، نمی‌توان درباره‌ی درست یا غلط بودن تالی نظر قطعی داد.
با توجه به مثال زیر، از جمله‌ی مقدم می‌توان نتیجه گرفت که تالی دلالت درست است و تالی تضاد نادرست است و نمی‌توان نتیجه گرفت که آیا تالی خنثی درست است یا خیر.

FarsTail: اولین مجموعه داده ی فارسی استنتاج زبان طبیعی

آیا انتشار مقاله در مجلات داخلی اهمیت دارد؟

در سال‌های اخیر مدل‌های بسیاری توسط پژوهشگران برای حل مسأله‌ی استنتاج زبان طبیعی ارائه شده است. این مدل‌ها که اکثراً بر پایه‌ی یادگیری عمیق هستند، برای آموزش نیازمند داده‌های برچسب‌دار می‌باشند. به همین منظور در زبان های مختلف دنیا مجموعه داده‌هایی مختص مسئله‌ی استنتاج زبان طبیعی جمع‌آوری و منتشر شده است. از جمله این مجموعه داده‌ها می‌توان به «SNLI»، «MultiNLI» و «SciTail» در زبان انگلیسی، «Evalita» در زبان ایتالیایی، «ArbTEDS» در زبان عربی و «ASSIN» در زبان پرتغالی اشاره کرد. اما چنین مجموعه داده‌هایی را در زبان فارسی که یک زبان کم منبع است، نمی‌توان یافت.

رله میلون

FarsTail چیست

مجموعه داده‌ی FarsTail، اولین مجموعه داده‌ی فارسی جمع آوری شده برای مسئله‌ی «استنتاج زبان طبیعی» می‌باشد. این مجموعه داده در طول 22 ماه توسط یک تیم تخصصی پردازش زبان طبیعی در آزمایشگاه داده‌کاوی و یادگیری ماشین دانشگاه قم جمع‌آوری شده است.

در روند جمع‌آوری مجموعه داده‌ی FarsTail روشی نوین شبیه به سناریوی استفاده شده در SciTail برای تولید یک مجموعه داده‌ی استاندارد طراحی و به کار گرفته شده است.مراحل توسعه‌ی مجموعه داده‌ی FarsTail در شکل زیر نشان داده شده است.

FarsTail اولین مجموعه داده ی فارسی استنتاج زبان طبیعی

مجموعه داده‌ی FarsTail بر اساس توزیع ارائه شده در جدول زیر به سه بخش مجموعه‌ی آموزشی (70%)، مجموعه‌ی اعتبارسنجی (15%) و مجموعه‌ی آزمایشی (15%) تقسیم شده است.

مجموعه داده زبان فارسی

برای دریافت آخرین‌های بلاگ و بن تخفیف در خبرنامه عضو شوید.

کارگاه آموزشی متن کاوی با پایتون

کارگاه آموزشی متن کاوی با پایتون

آزمایش‌ها

برای محاسبه‌ی بازنمایی جملات ورودی روش های مختلفی از جمله TF-IDF، word2vec، fastText، ELMo، BERT با استفاده از طبقه‌بندهای SVM، LSTM و GRU به کار گرفته شده‌اند. همچنین نتایج مدل‌های DecompAtt، ESIM، HBMP و ULMFiT بر روی مجموعه داده‌ی FarsTail نشان داده شده است. علاوه بر این، رویکرد انتقال بین زبانی (Cross-lingual transfer) نیز بر روی این مجموعه داده آزمایش شده است که از دو روش پایه‌ی Translate-Source و Translate-Target استفاده شده است. خلاصه‌ای از بهترین نتایج آزمایش‌ها در جداول زیر آمده است:

FarsTail

دانلود داده برای کارهای غیرتجاری:

https://github.com/dml-qom/FarsTail

 

مقاله در arXiv:

Hossein Amirkhani, Mohammad Azari Jafari, Azadeh Amirak, Zohreh Pourjafari, Soroush Faridan Jahromi, and Zeinab Kouhkan. 2020. FarsTail: A Persian Natural Language Inference Dataset. arXiv preprint arXiv:2009.08820.

 

لینک در paperswithcode:

https://paperswithcode.com/sota/natural-language-inference-on-farstail

 

 

پست های مرتبط

انتشار کتاب پارک‌های علم و فناوری ایران

تاریخ: 1401/05/04

بازدید: 54

1401

زمان مطالعه: 2 دقیقه

پارک‌های علم و فناوری با مدیریت کارای چرخه ایده تا بازار موجبات تحقق تجاری‌سازی ایده‌های نوآورانه، خلق و رشد شرکت‌های دانش بنیان و به هم‌رسانی پژوهش، صنعت و بازار را که از عوامل مهم تحقق اقتصاد دانش‌بنیان هستند را فراهم می‌نمایند.

مدرس

@ins

آیا انتشار مقاله در مجلات داخلی اهمیت دارد

تاریخ: 1399/08/20

بازدید: 2786

1399

زمان مطالعه: 5 دقیقه دقیقه

بررسی موردی متن کاوی

مدرس

@ins

چرا ترویج علم در جامعه مهم است؟

تاریخ: 1397/11/16

بازدید: 973

1397

زمان مطالعه: 5 دقیقه دقیقه

گزارش علمی

مدرس

@ins

معایب و مزایای دورکاری

تاریخ: 1401/01/21

بازدید: 374

1401

زمان مطالعه: 5 دقیقه دقیقه

دورکاری عبارت است از انجام کار از راه دور . مفهوم دورکاری به انعطاف پذیری در کار اشاره دارد . دورکاری یعنی کارمند وظایف و مسئولیت های خود را خارج از محل کار انجام دهد .

مدرس

@ins

بازخوانی مقاله سرطان پستان در ايران: ميزان ها، پراکندگی و عوامل مرتبط

تاریخ: 1397/11/15

بازدید: 979

1397

زمان مطالعه: 5 دقیقه دقیقه

بازخوانی مقاله به مناسبت روز جهانی سرطان

مدرس

@ins

کتاب اصول روش تحقیق علمی

تاریخ: 1400/02/21

بازدید: 4906

1400

زمان مطالعه: 5 دقیقه دقیقه

کتاب اصول روش تحقیق علمی قابل استفاده اساتید و کلیه دانشجویان رشته های علوم انسانی

مدرس

@ins

زمینه تعلیم و تربیت

تاریخ: 1401/03/08

بازدید: 487

1401

زمان مطالعه: 2 دقیقه

نیاز به تعلیم و تربیت درانسان‌ها موضوعی طبیعی است و برای به فعل درآوردن سرشت بالقوه افراد به بالفعل نیاز به تعلیم و تربیت هستیم .

مدرس

@ins

بازخوانی مقاله علل كاهش سطح آب درياچه اروميه

تاریخ: 1397/12/15

بازدید: 1441

1397

زمان مطالعه: 5 دقیقه دقیقه

بازخوانی مقاله علمی

مدرس

@ins

نتایج یک مطالعه گسترده جهانی نشان داد: افزایش سرطان های وابسته به سبک زندگی ناسالم

تاریخ: 1397/11/15

بازدید: 676

1397

زمان مطالعه: 5 دقیقه دقیقه

ارتباط مستقیم سبک زندگی ناسالم با گسترش سرطانها

مدرس

@ins

امیدواری شغلی چیست ؟

تاریخ: 1400/12/17

بازدید: 395

1400

زمان مطالعه: 5 دقیقه دقیقه

امید یک منبع قوی در تعیین رفتار است . امید منجر به نگرش افراد برای رسیدن به اهداف است . امید شامل فرایندهای شناختی است که منجر به حالت انگیزشی و در نتیجه بر ساختارهای آموزشی و همچنین شغل اثر می گذارد .

مدرس

@ins