دیتاست یا مجموعه داده چیست؟
به داده های ساختار یافته ای که در فرمتی مثل CSV یا JSON قرار می گیرند و شامل داده های مرتبطی هستند و ساختار آنها اغلب به شکل جدول است، دیتاست می گویند . از این داده ها برای تجزیه و تحلیل استفاده می شود. مجموعه داده شامل اطلاعاتی مانند یک موضوع یا یک پروژه ی خاص است. دیتاست ها عمدتا برای تجزیه و تحلیل داده، یادگیری ماشین و تمام موضوعاتی که نیاز به داده های واقعی دارند، به کار می رود. محققان در حوزه های موضوعی مختلف می توانند از دیتاست های مرتبط با موضوع خود استفاده کنند و با آنالیز آن به تحلیل درستی از آنچه مسئله ی شان بود برسند. مهم ترین مجموعه داده ها شامل رفتار مشتری، فروش، مجموعه داده های علمی و شبکه های اجتماعی هستند.
.png)
ویژگی های اصلی مجموعه داده شامل موارد زیر است:
ساختار دیتاست
داده ها معمولا در قالبی ثابت مانند ردیف ها و ستون ها در جدولی مرتب می شوند.
ارتباط دیتاست
داده های یک مجموعه با هم مرتبط هستند و معمولا به موضوع خاصی می پردازند. مثل اطلاعات سلامت افراد
سازماندهی دیتاست
مجموعه داده ها اغلب برای بازیابی راحت تر در فرمت های خاصی مانند CSV یا JSON ذخیره می شوند.
تنوع دیتا ست ها
دیتاست ها می توانند نوع داده متنوعی داشته باشند منظور از تنوع این است که دیتا ست شامل عدد و رقم ، متن عکس ها یا فایل های صوتی باشد.
دیتاست ها تنوع بالای موضوعی دارند اما متاسفانه بیشتر مجموعه داده ها به زبان انگلیسی هستند و درصد بسیار کمی از مجموعه داده ها به زبان فارسی اند. ویژگی زبانی فارسی، کمبود داده ها و عدم خوانش کتابخانه های پایتون و سایر زبان های برنامه نویسی باعث شده تا توجه کمتری به آنالیز داده در این زبان شود . محققان فارسی زبان نیز کمتر به این زبان توجه دارند. اما اخیر دیوار به عنوان سایت فروش فارسی مجموعه داده ی آگهی املاک خود را به صورت رایگان در اختیار پژوهشگران و علاقمندان قرار داده است. هدف از به اشتراک گذاری این داده ها باز کردن مسیر هوش مصنوعی روی دیتای فارسی است .
این مجموعه داده ی رایگان فارسی شامل یک میلیون داده املاک است و به تقویت ابزارهای پردازش زبان طبیعی فارسی، کمک به توسعه ی استارتاپ های حوزه املاک، فراهم کردن بستری برای آموزش و پژوهش دانشجویان و تسهیل نوآوری در تحلیل بازار مسکن با هوش مصنوعی است .
دیتاست املاک دیوار چه کارهایی می توان انجام داد ؟
- ساخت مدلهای تخمین قیمت هوشمند
- کشف الگوهای پنهان بازار مسکن
- طراحی سیستمهای توصیه گر ملک
- پردازش زبان فارسی
- تحلیل روند قیمت با هوش مصنوعی
این مجموعه داده فارسی به آدرس https://huggingface.co/datasets/divarofficial/real_estate_ads در Hugging Face که یک شرکت تکنولوژی و یه پلتفرم بزرگ است و در زمینهی هوش مصنوعی (مخصوصاً مدلهای زبانی و مدلهای یادگیری ماشین) فعالیت می کند ، به صورت رایگان در دسترس است.