مشخصات

عنوان:

طراحی و پیاده سازی روشی برای حل مساله انباره داده در کلان داده



گروه تخصصی:  فنی و مهندسی

سازمان مجری:  پژوهشکده فناوری اطلاعات و ارتباطات 

گروه پژوهشی: 

پژوهشگران: 
تقی پور محمد (مسئول طرح)

تاریخ خاتمه:  شهریور 1397

کارفرما: 

خروجی طرح: 
 
تلفن: 

نشانی سازمان مجری: 
 

چکیده:

بنابر اهمیت انباره های داده و وضعیت آنها در پاسخ دهی به تقاضاهای رو به گسترش کلان داده ها در صنعت IT لازم است روشهای مناسبی برای حل مسایل مربوط به این بخش ارائه گردد. امروزه انباره های داده با لحاظ درخواست های مربوط به انواع پردازش های خاص منظوره باید بتوانند مورد پایش داده ای، گزارش گیری های متنوع، و تحلیل های درخواست شده قرار گیرند. در این طرح با هدف ایجاد بستری مبتنی بر کلان داده و در عین حال پاسخ دهی به نیازهای برخط راهکاری ارائه گردیده است. در این پژوهش تلاش گردید تا امکان اجرای همزمان پرس و جوهای برخط و تحلیلی (تاریخی) فراهم گردد. لذا در معماری پردازشی پیشنهاد شده اطلاعات هر سطر به نحوی قرار می گیرند که هر گره از لحاظ داده ای مستقل باشد. در دستیابی به اهداف طرح و برای ایجاد یک مزیت پردازشی قابل قبول در بستر کلان داده، با استفاده از ابزارهای موجود در اسپارک و به کمک زبان برنامه نویسی پایتون و اسکریپت های جاوا، یک راهکار گزارش گیری ایجاد گردید. این راهکار از طریق API خود و به صورت REST Full روی داده های موجود در انباره ها نسبت به تحلیل و تهیه گزارش های اولیه اقدام می نماید. مزیت اصلی این روش هزینه تمام شده پایین برای زیرساخت مورد نیاز و انعطاف در برقرار ارتباط با انواع انباره ها موجود و نرخ نسبی مناسب در زمان مورد نیاز برای گزارش های پایه ای در کلان داده است. با توجه به نتایج حاصل شده و در جهت پاسخ به نیاز صنعت IT، راهکار پیشنهادی می تواند روی انباره داده های سنتی موجود عملکرد بسیار مطلوب و سریعتری داشته باشد. به طوریکه در گزاش های پایه ای مربوط به کلان داده ممکن است زمان اجرای تهیه گزارشات در مواردی از چند ساعت به چندین دقیقه کاهش یابد. نتایج تجربی حاصل از پیاده سازی اولیه این روش در نمونه ای از صنعت اجرا و خروجی های فنی و مشاهدات مربوط به پاسخ دهی راهکار پیادسازی شده، ارائه گردیده است. عملکرد روش پیشنهادی می تواند با بررسی های بیشتر در گزارش گیری های مربوط به داده کاوی روی کلان داده ها بهبود یابد.



کلیدواژگان: کلان داده,نگاشت-کاهش,انباره داده,محلی سازی داده

 
 
Title:

A Method to Solve Data Warehouse Problem in Big Data



Abstract:

Creating an Online data warehouse based on big data is the main purpose of this proposal. This proposal creates situation that a query can be executed in online and analytical(historical) modes simultaneously. This system is implemneted by Spark, Python and Java. This proposal is according to market requirements and creates a system that executes queries more rapidly. The propsed system decreases query execution time from a few hours to a few minutus.



Keyword(s): Big data,MapReduce,Data warehouse,Data localization