بلاگ

پایگـاه اطلاعات علمی جهاد دانشگاهی

دسترسی رایگان به مجموعه داده ها


در فرآیند یادگیری ماشین ، محقق برای انجام کارهای مورد نظر خود نیاز به مجموعه داده استاندارد دارد . در این پست به معرفی یکی از پایگاه هایی که به طور رایگان ، مجموعه داده را در اختیار محققان قرار می دهد می پردازیم .

مجموعه داده چیست ؟

مجموعه داده یا دیتاست[1] به فایل هایی گفته می شود که دربردارنده بیش از یک یا چند رکورد هستند .  در مورد جداول ، یک مجموعه داده مربوط به یک یا چند جدول پایگاه داده است ، که هر ستون نشان دهنده مقدار خاصی است و هر ردیف مربوط به یک رکورد مجموعه داده است . مجموعه داده ، تعدادی از اعداد یا مقادیری است که به موضوع خاصی مربوط است . برای مثال نمرات امتحانات دانش آموزان در یک کلاس ، یک مجموعه داده است ، یا تعداد ماهی هایی که توسط کوسه در دریا خورده می شوند ، یک مجموعه داده است .

در فرآیند یادگیری ماشین ، محقق برای انجام کارهای مورد نظر خود نیاز به مجموعه داده استاندارد دارد . در این پست به معرفی یکی از پایگاه هایی که به طور رایگان ، مجموعه داده را در اختیار محققان قرار می دهد می پردازیم . مخزن UCI ، پایگاهی است که مجموعه داده به زبان انگلیسی را به طور رایگان در اختیار محققان قرار می دهد .

UCI چیست ؟

UCI ، مخزنی برای یادگیری ماشین ، مجموعه ای از پایگاه های داده ، تئوری های دامنه و تولید کننده داده است که توسط جامعه یادگیری ماشین برای تحلیل تجربی الگوریتم های یادگیری ماشین به کار می رود . مخزن UCI در سال 1987 توسط دیوید آها و همکارانش ساخته شد . از آن زمان به بعد مخزن UCI به مخزنی برای همه دانشجویان ، محققان و همه کسانی شد که نیاز به داده های مربوط به یادگیری ماشین دارند . داده های موجود در مخزن UCI بیش از هزار بار توسط مقالات مختلف مورد استناد قرار گرفته اند . البته یکی از مقالاتی که از داده های مخزن UCI استفاده کرده جز صد مقاله برتر حوزه موضوعی علوم کامپیوتر است . مخزن UCI از مردم برای قرار دادن داده خود در این پایگاه تشکر می کند و آنها را مهم ترین سرمایه خود می داند .

در حال حاضر ، 622 مجموعه داده در مورد یادگیری ماشین در این وب سایت وجود دارد . برای دسترسی به این مجموعه داده ها ، به آدرس وارد شوید . در صفحه نخست ، سه ستون وجود دارد . ستون اول : آخرین اخبار ، ستون دوم : جدیدترین مجموعه داده ها و ستون سوم محبوب ترین مجموعه داده ها دیده می شود . اگر مجموعه داده خود را در این صفحه پیدا کردید روی آن کلیک کنید .

 

UCI چیست ؟

به صفحه زیر منتقل می شوید . در این صفحه اطلاعاتی مثل عنوان مجموعه داده ، دانلود و توصیف آن ، چکیده که اغلب توصیفی از کاربرد مجموعه داده و الگوریتم های توصیه شده برای یادگیری ماشین را نشان می دهد . در جدول مربوط به هر مجموعه داده می توان به اطلاعاتی مثل نوع مجموعه داده ، ویژگی آن ، وظایف مرتبط ، تعداد موارد و تعداد صفات ، حوزه موضوعی ، تاریخ محجموعه داده و تعداد بازدیدها دست یافت .  در صورتی که از مجموعه داده مخزن UCI استفاده می کنید ، در انتهای آن شیوه ارجاع دهی به آن مجموعه داده با عنوان Citation Request وجود دارد که بر اساس آن و به دلیل اعتبار بخشی به کار خود به آن ارجاع دهید .

 

UCI چیست ؟

علاوه بر این مقاله مرتبط با مجموعه داده خود را با عنوان Relevant Papers می توانید در این قسمت ببینید .

در صورتی که مجموعه داده مورد نظر خود را در صفحه ابتدایی پیدا نکردید ، در جعبه جستجو نام آن را وارد کنید . توجه داشته باشید که از گزینه Repository استفاده کنید و بعد جستجو کنید . کوئری شما در موتور گوگل بازیابی می شود .

 

UCI چیست ؟

در صورتی که لازم داشتید تا انواع داده های نمایه شده در این پایگاه را ببینید روی View ALL Data Sets کلیک کنید . در این صفحه می توانید نوع داده را بر اساس آنچه نیاز دارید ، محدود کنید . از جمله مواردی که می توانید فیلتر را انجام دهید شامل Default Task ، Attribute Type ، Data Type و غیره است . علاوه بر این، می توانید با کلیک روی هر آیتم جدول ، مرتب سازی داده را بر اساس علاقه خود انجام دهید .

در صفحه Donate a Data Set ، می توانید اگر مجموعه داده ای دارید ارسال کنید .

برای دریافت آخرین‌های بلاگ در خبرنامه عضو شوید.


[1] Data sets

پست های مرتبط

بررسی تحلیلی موضوعات "زبان فارسی" و "فردوسی" در پایگاه SID به مناسبت پاسداشت زبان فارسی و بزرگداشت حکیم ابوالقاسم فردوسی

تاریخ: 1400/02/25

بازدید: 3552

1400

زمان مطالعه: 5 دقیقه دقیقه

براساس گزارش مرکز اطلاعات علمی جهاددانشگاهی، مقاله‌های علمی فارسی پربازدید با کلیدواژه‌های "زبان فارسی" یا "فردوسی" در بازه هزارروزه معرفی شدند.

مدرس

@ins

اینفوگرافی استفاده از روشهای یادگیری عمیق در تحلیل احساس

تاریخ: 1397/06/13

بازدید: 601

1397

زمان مطالعه: 5 دقیقه دقیقه

اینفوگرافی

مدرس

@ins

جستجوی حریصانه

تاریخ: 1400/01/12

بازدید: 1326

1400

زمان مطالعه: 5 دقیقه دقیقه

مدرس

@ins

تجزیه و تحلیل احساس چیست ؟

تاریخ: 1400/06/24

بازدید: 1788

1400

زمان مطالعه: 5 دقیقه دقیقه

تحلیل احساس یا Sentiment analysesمی‌کوشد با استفاده از روش‌های یادگیری ماشین و پردازش زبان طبیعی، امکان استخراج، درک و تولید خودکار احساس را در ماشین ایجاد کند.

مدرس

@ins

LSTM چیست؟

تاریخ: 1401/02/24

بازدید: 314

1401

زمان مطالعه: 5 دقیقه

Long short-term memory (LSTM) ، یک شبکه عصبی مصنوعی است که در حوزه های موضوعی هوش مصنوعی و یادگیری عمیق به کار گرفته می شود.

مدرس

@ins

بیشینه آنتروپی یک توزیع چقدر است؟

تاریخ: 1401/01/17

بازدید: 384

1401

زمان مطالعه: 5 دقیقه دقیقه

مفهوم آنتروپی ، در مقاله ای که در سال 1948 توسط شانون مطرح شد .

مدرس

@ins

ابزار تحلیل شخصیت بر اساس واژگان

تاریخ: 1399/10/24

بازدید: 1721

1399

زمان مطالعه: 5 دقیقه دقیقه

معرفی AnalyzeWords

مدرس

@ins

چند مجموعه یا خورجین

تاریخ: 1400/04/01

بازدید: 992

1400

زمان مطالعه: 5 دقیقه دقیقه

آشنایی با ریاضی

مدرس

@ins

ماتریس تحول چیست؟

تاریخ: 1399/12/23

بازدید: 1518

1399

زمان مطالعه: 5 دقیقه دقیقه

Transition Matrix

مدرس

@ins

چگونه در بیب اکسل ماتریس هم آیندی ایجاد کنیم؟

تاریخ: 1400/01/14

بازدید: 1700

1400

زمان مطالعه: 5 دقیقه دقیقه

نرم افزار بیب اکسل

مدرس

@ins