مشخصات مقاله | |
عنوان مقاله | Big Data Mining with Parallel Computing: A Comparison of Distributed and MapReduce Methodologies |
ترجمه عنوان مقاله | استخراج کلان داده ها با رایانش موازی: مقایسه روش های توزیعی و MapReduce (نگاشت-کاهش) |
فرمت مقاله | |
نوع مقاله | ISI |
سال انتشار | مقاله سال 2015 |
تعداد صفحات مقاله | 29 صفحه |
رشته های مرتبط | مهندسی کامپیوتر |
گرایش های مرتبط | معماری سیستم های کامپیوتری، مهندسی نرم افزار و رایانش ابری |
مجله | مجله سیستم ها و نرم افزار – Journal of Systems and Software |
دانشگاه | گروه مدیریت اطلاعات، دانشگاه مرکزی، تایوان |
کلمات کلیدی | داده های بزرگ، داده کاوی، رایانش موازی، توزیعی، رایانش ابری، نگاشت کاهش |
کد محصول | 7442 |
نشریه | نشریه الزویر |
لینک مقاله در سایت مرجع | لینک این مقاله در سایت الزویر (ساینس دایرکت) Sciencedirect – Elsevier |
وضعیت ترجمه مقاله | ترجمه آماده این مقاله موجود نمیباشد. میتوانید از طریق دکمه پایین سفارش دهید. |
دانلود رایگان مقاله | دانلود رایگان مقاله انگلیسی |
خرید ترجمه این مقاله | خرید ترجمه این مقاله |
بخشی از متن مقاله: |
چکیده
استخراج با داده های بزرگ یا استخراج داده های عظیم به حوزه ی تحقیقاتی فعالی تبدیل شده است. استفاده از روش های رایج و ابزار نرم افزار داده کاوی برای اینکه یک کامپیوتر شخصی بتواند به طور موثر با پایگاه داده های بسیار بزرگ سر و کار داشته باشد، بسیار دشوار است. سکوهای رایانش موازی و ابری به عنوان راه حل بهتری برای استخراج داده های عظیم در نظر گرفته می شوند. مفهوم رایانش موازی بر مبنای تقسیم کردن یک مشکل بزرگ به قسمت های کوچک است و هر یک از این قسمت ها توسط یک پردازنده به طور مجزا انجام می شود. بعلاوه، این فرایندها به طور همزمان در روشی توزیعی و موازی انجام می شوند. دو روش رایج برای حل کردن این مشکل داده های بزرگ وجود دارد. مورد نخست رویه ی توزیعی بر مبنای الگوی موازی سازی داده هاست که یک مجموعه داده بزرگ می تواند به صورت دستی به n زیرمجموعه تقسیم شود و n الگوریتم برای هر n زیرمجموعه اجرا می گردد. نتیجه نهایی می تواند از ترکیبی از خروجی های تولید شده توسط n الگوریتم بدست آید. مورد دوم روند مبتنی بر نگاشت کاهش (MapReduce) در سکوی رایانش ابری است. این روند از فرایندهای نگاشت و کاهش تشکل شده است که مورد قبلی فیلتر کردن و طبقه بندی را انجام می دهد و مورد بعدی عملیات خلاصه را به منظور ایجاد نتیجه نهایی اجرا می کند. در این مقاله، هدف ما مقایسه ی تفاوت های عملکردی بین روش های توزیعی و نگاشت کاهش در پایگاه داده هایی با مقیاس بزرگ در قالب دقت و کارایی است. آزمایشات بر مبنای چهار پایگاه داده با مقیاس بزرگ است که برای مشکلات طبقه بندی داده ها مورد استفاده قرار می گیرند. نتایج حاکی از آن است که عملکردهای طبقه بندی روند مبتنی بر نگاشت کاهش بسیار پایدار هستند و مهم نیست که چند گره کامپیوتر مورد استفاده قرار می گیرد، و بهتر از ماشین منفرد خط مبنا و روندهای توزیعی جز برای پایگاه داده های عدم تعادل طبقه عمل می کند. بعلاوه، روند نگاشت کاهش نیازمند حداقل هزینه محاسباتی برای پردازش مجموعه داده های بزرگ است. |