زمان تخمینی مطالعه:‌ 2 دقیقه

سرعت کم اشتراک داده در MapReduce


MapReduce به صورت گسترده برای پردازش و تولید دیتاست های بزرگ با موازی سازی و الگوریتم های توزیع شده روی یک خوشه استفاده می شود.

این امکان به کاربران اجازه می داد با استفاده از مجموعه سطح بالای عملیات محاسبات موازی بنویسند بدون داشتن نگرانی درباره توزیع پذیری کار و تحمل پذیری خطا.

متاسفانه ، در بیشتر فریم ورک های موجود ، تنها راه برای استفادده مجدد از داده بین محاسبه کننده ها ( مثال : بین دو MapReduce Jobs ) نوشتن آن داده روی یک سیستم حافظه خارجی ثابت بود ( مثل : HDFS ) با اینکه این فریم ورک تعداد زیادی انتزاع ( Abstractions ) برای دسترسی به منابع خوشه های محاسبه کننده فراهم کرده است ، کاربران هنوز چیزهای بیشتری می خواهند.

هم برنامه های تکراری و هم برنامه های تعاملی نیاز دارند تا اشتراک داده بین کارها موازی را سریع تر انجام دهند.

اشتراک داده ها در MapReduce در موارد تکثیر ( Replication )، موازی سازی ( Serialization ) و ورودی و خروجی دیسک ( Disk IO ) کند می باشد.

درباره سیستم حافظه ، اغلب برنامه های Hadoop ، بالای %90 زمان را صرف عملیات خواندن / نوشتن HDFS می کنند.


لطفا در راستای هرچه بهتر شدن کیفیت مطالب نظر خود را در رابطه با این سرفصل برای ما ارسال نمایید.