بلاگ

پایگـاه اطلاعات علمی جهاد دانشگاهی

دسترسی رایگان به مجموعه داده ها


در فرآیند یادگیری ماشین ، محقق برای انجام کارهای مورد نظر خود نیاز به مجموعه داده استاندارد دارد . در این پست به معرفی یکی از پایگاه هایی که به طور رایگان ، مجموعه داده را در اختیار محققان قرار می دهد می پردازیم .

مجموعه داده چیست ؟

مجموعه داده یا دیتاست[1] به فایل هایی گفته می شود که دربردارنده بیش از یک یا چند رکورد هستند .  در مورد جداول ، یک مجموعه داده مربوط به یک یا چند جدول پایگاه داده است ، که هر ستون نشان دهنده مقدار خاصی است و هر ردیف مربوط به یک رکورد مجموعه داده است . مجموعه داده ، تعدادی از اعداد یا مقادیری است که به موضوع خاصی مربوط است . برای مثال نمرات امتحانات دانش آموزان در یک کلاس ، یک مجموعه داده است ، یا تعداد ماهی هایی که توسط کوسه در دریا خورده می شوند ، یک مجموعه داده است .

در فرآیند یادگیری ماشین ، محقق برای انجام کارهای مورد نظر خود نیاز به مجموعه داده استاندارد دارد . در این پست به معرفی یکی از پایگاه هایی که به طور رایگان ، مجموعه داده را در اختیار محققان قرار می دهد می پردازیم . مخزن UCI ، پایگاهی است که مجموعه داده به زبان انگلیسی را به طور رایگان در اختیار محققان قرار می دهد .

UCI چیست ؟

UCI ، مخزنی برای یادگیری ماشین ، مجموعه ای از پایگاه های داده ، تئوری های دامنه و تولید کننده داده است که توسط جامعه یادگیری ماشین برای تحلیل تجربی الگوریتم های یادگیری ماشین به کار می رود . مخزن UCI در سال 1987 توسط دیوید آها و همکارانش ساخته شد . از آن زمان به بعد مخزن UCI به مخزنی برای همه دانشجویان ، محققان و همه کسانی شد که نیاز به داده های مربوط به یادگیری ماشین دارند . داده های موجود در مخزن UCI بیش از هزار بار توسط مقالات مختلف مورد استناد قرار گرفته اند . البته یکی از مقالاتی که از داده های مخزن UCI استفاده کرده جز صد مقاله برتر حوزه موضوعی علوم کامپیوتر است . مخزن UCI از مردم برای قرار دادن داده خود در این پایگاه تشکر می کند و آنها را مهم ترین سرمایه خود می داند .

در حال حاضر ، 622 مجموعه داده در مورد یادگیری ماشین در این وب سایت وجود دارد . برای دسترسی به این مجموعه داده ها ، به آدرس وارد شوید . در صفحه نخست ، سه ستون وجود دارد . ستون اول : آخرین اخبار ، ستون دوم : جدیدترین مجموعه داده ها و ستون سوم محبوب ترین مجموعه داده ها دیده می شود . اگر مجموعه داده خود را در این صفحه پیدا کردید روی آن کلیک کنید .

 

UCI چیست ؟

به صفحه زیر منتقل می شوید . در این صفحه اطلاعاتی مثل عنوان مجموعه داده ، دانلود و توصیف آن ، چکیده که اغلب توصیفی از کاربرد مجموعه داده و الگوریتم های توصیه شده برای یادگیری ماشین را نشان می دهد . در جدول مربوط به هر مجموعه داده می توان به اطلاعاتی مثل نوع مجموعه داده ، ویژگی آن ، وظایف مرتبط ، تعداد موارد و تعداد صفات ، حوزه موضوعی ، تاریخ محجموعه داده و تعداد بازدیدها دست یافت .  در صورتی که از مجموعه داده مخزن UCI استفاده می کنید ، در انتهای آن شیوه ارجاع دهی به آن مجموعه داده با عنوان Citation Request وجود دارد که بر اساس آن و به دلیل اعتبار بخشی به کار خود به آن ارجاع دهید .

 

UCI چیست ؟

علاوه بر این مقاله مرتبط با مجموعه داده خود را با عنوان Relevant Papers می توانید در این قسمت ببینید .

در صورتی که مجموعه داده مورد نظر خود را در صفحه ابتدایی پیدا نکردید ، در جعبه جستجو نام آن را وارد کنید . توجه داشته باشید که از گزینه Repository استفاده کنید و بعد جستجو کنید . کوئری شما در موتور گوگل بازیابی می شود .

 

UCI چیست ؟

در صورتی که لازم داشتید تا انواع داده های نمایه شده در این پایگاه را ببینید روی View ALL Data Sets کلیک کنید . در این صفحه می توانید نوع داده را بر اساس آنچه نیاز دارید ، محدود کنید . از جمله مواردی که می توانید فیلتر را انجام دهید شامل Default Task ، Attribute Type ، Data Type و غیره است . علاوه بر این، می توانید با کلیک روی هر آیتم جدول ، مرتب سازی داده را بر اساس علاقه خود انجام دهید .

در صفحه Donate a Data Set ، می توانید اگر مجموعه داده ای دارید ارسال کنید .

برای دریافت آخرین‌های بلاگ در خبرنامه عضو شوید.


[1] Data sets

پست های مرتبط

امام خمینی در مقالات فارسی

تاریخ: 1401/03/16

بازدید: 101

1401

زمان مطالعه: 2 دقیقه

امام خمینی بنیان گذار جمهوری اسلامی است . اندیشه های امام خمینی به عنوان بعد ایشان از دیدگاه محققان و اندیشمندان مورد توجه است .

مدرس

@ins

27فروردین برابر با 16 آوریل روز جهانی صدا و مروری بر مقالات علمی

تاریخ: 1398/01/27

بازدید: 1528

1398

زمان مطالعه: 5 دقیقه دقیقه

مروری بر مقالات

مدرس

@ins

تجزیه و تحلیل احساس چیست ؟

تاریخ: 1400/06/24

بازدید: 1765

1400

زمان مطالعه: 5 دقیقه دقیقه

تحلیل احساس یا Sentiment analysesمی‌کوشد با استفاده از روش‌های یادگیری ماشین و پردازش زبان طبیعی، امکان استخراج، درک و تولید خودکار احساس را در ماشین ایجاد کند.

مدرس

@ins

گرامی داشت مقام شامخ معلم و مروری بر مقالات علمی

تاریخ: 1398/02/11

بازدید: 1419

1398

زمان مطالعه: 5 دقیقه دقیقه

بازخوانی مقاله علمی

مدرس

@ins

coursera : آموزش آنلاین و رایگان برای همه

تاریخ: 1398/12/27

بازدید: 7306

1398

زمان مطالعه: 5 دقیقه دقیقه

آشنایی با کورسرا

مدرس

@ins

یادگیری زبان انگلیسی در تهران زبان

تاریخ: 1400/07/08

بازدید: 305

1400

زمان مطالعه: 5 دقیقه دقیقه

در دنیای امروز، تجربه زندگی در نقاط مختلف جهان و فرهنگ‌های متفاوت آن آرزوی بسیاری از انسان‌ها است. یکی از مهم‌ترین و ضروری‌ترین لازمه‌های دستیابی به این تجربه، دانستن زبان‌های روز دنیا است چرا که زبان مهم‌ترین و اصلی‌ترین ابزار برای برقراری رابطه اجتماعی میان مردم جوامع بشری مختلف است.

مدرس

@ins

ثبت شرکت سهامی خاص

تاریخ: 1400/08/05

بازدید: 118067

1400

زمان مطالعه: 5 دقیقه دقیقه

ثبت شرکت سهامی خاص یک فرصت عالی برای شروع کسب و کار با مزایای متعدد است که در ایران نیز مورد توجه بسیاری قرار گرفته است.

مدرس

@ins

قیمت پروفیل سبک چند است؟

تاریخ: 1401/02/24

بازدید: 150

1401

زمان مطالعه: 15 دقیقه

بر‌خلاف بسیاری از کارخانه‌های دیگر، نام یک کارخانه تولید پروفیل سبک به طور خاص، بی‌دلیل معروف نمی‌شود یقیناً تولیدات آن از کیفیت مطلوبی برخوردار است.

مدرس

@ins

حذف جدول در ورد بدون از بین رفتن محتوای آن

تاریخ: 1400/05/23

بازدید: 4728

1400

زمان مطالعه: 5 دقیقه دقیقه

جدول را با تمام محتویات سند MS Word حذف کنید

مدرس

@ins

رضایت مدرسان دانشگاه از نیاز به ارتباط مستمر یادگیری آنلاین در زمان کرونا

تاریخ: 1400/12/07

بازدید: 299

1400

زمان مطالعه: 5 دقیقه دقیقه

به یادگیری که در محیط آنلاین صورت می گیرد ، یادگیری الکترونیک یا  'E-learning' گفته می شود .

مدرس

@ins