مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بلاگ

پایگـاه اطلاعات علمی جهاد دانشگاهی

مجموعه داده فارسی رایگان دیوار


به داده های ساختار یافته ای که در فرمتی مثل CSV یا JSON قرار می گیرند و شامل داده های مرتبطی هستند و ساختار آنها اغلب به شکل جدول است، دیتاست می گویند .

دیتاست یا مجموعه داده چیست؟

به داده های ساختار یافته ای که در فرمتی مثل CSV یا JSON قرار می گیرند و شامل داده های مرتبطی هستند و ساختار آنها اغلب به شکل جدول است، دیتاست می گویند . از این داده ها برای تجزیه و تحلیل استفاده می شود. مجموعه داده شامل اطلاعاتی مانند یک موضوع یا یک پروژه ی خاص است. دیتاست ها عمدتا برای تجزیه و تحلیل داده، یادگیری ماشین و تمام موضوعاتی که نیاز به داده های واقعی دارند، به کار می رود. محققان در حوزه های موضوعی مختلف می توانند از دیتاست های مرتبط با موضوع خود استفاده کنند و با آنالیز آن به تحلیل درستی از آنچه مسئله ی شان بود برسند. مهم ترین مجموعه داده ها شامل رفتار مشتری، فروش، مجموعه داده های علمی و شبکه های اجتماعی هستند.

مجموعه داده فارسی رایگان دیوار

ویژگی های اصلی مجموعه داده شامل موارد زیر است:

ساختار دیتاست

داده ها معمولا در قالبی ثابت مانند ردیف ها و ستون ها در جدولی مرتب می شوند.

ارتباط دیتاست

داده های یک مجموعه با هم مرتبط هستند و معمولا به موضوع خاصی می پردازند. مثل اطلاعات سلامت افراد

سازماندهی دیتاست

مجموعه داده ها اغلب برای بازیابی راحت تر در فرمت های خاصی مانند CSV یا JSON ذخیره می شوند.

تنوع دیتا ست ها

دیتاست ها می توانند نوع داده متنوعی داشته باشند منظور از تنوع این است که دیتا ست شامل عدد و رقم ، متن عکس ها یا فایل های صوتی باشد.

دیتاست ها تنوع بالای موضوعی دارند اما متاسفانه بیشتر مجموعه داده ها به زبان انگلیسی هستند و درصد بسیار کمی از مجموعه داده ها به زبان فارسی اند. ویژگی زبانی فارسی، کمبود داده ها و عدم خوانش کتابخانه های پایتون و سایر زبان های برنامه نویسی باعث شده تا توجه کمتری به آنالیز داده در این زبان شود . محققان فارسی زبان نیز کمتر به این زبان توجه دارند. اما اخیر دیوار به عنوان سایت فروش فارسی مجموعه داده ی آگهی املاک خود را به صورت رایگان در اختیار پژوهشگران و علاقمندان قرار داده است. هدف از به اشتراک گذاری این داده ها باز کردن مسیر هوش مصنوعی روی دیتای فارسی است .

این مجموعه داده ی رایگان فارسی شامل یک میلیون داده املاک است و به تقویت ابزارهای پردازش زبان طبیعی فارسی، کمک به توسعه ی استارتاپ‌ های حوزه املاک،  فراهم کردن بستری برای آموزش و پژوهش دانشجویان و تسهیل نوآوری در تحلیل بازار مسکن با هوش مصنوعی است .

 دیتاست املاک دیوار چه کارهایی می توان انجام داد ؟

  • ساخت مدل‌های تخمین قیمت هوشمند
  • کشف الگوهای پنهان بازار مسکن
  • طراحی سیستم‌های توصیه گر ملک
  • پردازش زبان فارسی
  • تحلیل روند قیمت با هوش مصنوعی

این مجموعه داده فارسی به آدرس https://huggingface.co/datasets/divarofficial/real_estate_ads در Hugging Face که یک  شرکت تکنولوژی و یه پلتفرم بزرگ است و در زمینه‌ی هوش مصنوعی (مخصوصاً مدل‌های زبانی و مدل‌های یادگیری ماشین) فعالیت می کند ، به صورت رایگان در دسترس است.

لینک کوتاه

لینک کوتاه

بازگشت به ابتدای متن
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

مقاله های مرتبط

متن کاوی: مفاهیم و روش ها

بازدید: 348

دانلود: 182

1400

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

متن کاوی و پیش بینی درماندگی مالی

بازدید: 748

دانلود: 421

1400

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

بهبود متن کاوی بر انتخاب کلمات ویژگی

بازدید: 527

دانلود: 218

1384

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

روشی نوین در متن کاوی با آنتروپی کسری

بازدید: 543

دانلود: 180

1399

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

پست های مرتبط

لیست 193 مدرک علمی مرتبط با روزه داری مذهبی در پایگاه استنادی اسکوپوس

تاریخ: 1403/12/12

بازدید: 224

1403

زمان مطالعه: 2 دقیقه

عبارت روزه داری مذهبی (Religious fasting) در قسمت عنوان، چکیده و کلمات کلیدی پایگاه استنادی اسکوپوس به صورت دقیق، جستجو شد و تعداد 193 مدرک علمی بازیابی گردید.

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

دانلود رایگان مقالات خارجی

تاریخ: 1401/03/31

بازدید: 50064

1401

زمان مطالعه: 3 دقیقه

دانشجویان برای نگارش پایان نامه خود نیاز به دریافت منابع مرتبط دارند.

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

telegram sharing button
whatsapp sharing button
linkedin sharing button
twitter sharing button
email sharing button
email sharing button
email sharing button
sharethis sharing button