زمان تخمینی مطالعه:‌ 2 دقیقه

اشتراک داده با اسپارک RDD


اشتراک داده هنگام تکثیر ، موازی سازی و ورودی و خروجی دیسک در MapReduce کند می باشد.

اغلب برنامه های Hadoop بالای %90 زمان خود را صرف عملیات خواندن / نوشتن HDFS می کنند.

با شناسایی این مشکل ، محققان یک فریم ورک ویژه به نام "اسپارک آپاچی" را گسترش دادند.

ایده کلیدی اسپارک دیتاست های توزیع شده ارتجاعی ( RDD ) می باشد ، که محاسبات پردازشی داخل حافظه را فراهم می کند.

این به این معنی است که موقعیت حافظه را به عنوان یک شی بین کارها ( Jobs ) ذخیره می کند و این شی بین آن کارها به اشتراک گذاشته می شود.

اشتراک داده داخل حافظه بین 10 تا 100 برابر سریع تر از اشتراک داده در شبکه و دیسک می باشد.

در قسمت بعد متوجه می شویم که عملیات تکراری و تعاملی چطور در اسپارک RDD جا می گیرند.


لطفا در راستای هرچه بهتر شدن کیفیت مطالب نظر خود را در رابطه با این سرفصل برای ما ارسال نمایید.