زمان تخمینی مطالعه:‌ 2 دقیقه

دیتاست های توزیع شده ارتجاعی


مجموعه داده های توزیع شده ارتجاعی ( RDD ) از پایه ای ترین ساختار داده های اسپارک هستند.

RDD ها کالکشن توزیع شده و غیرقابل تغییر ( Immutable ) اشیاء هستند.

هر دیتاست ( DataSet ) در RDD به پارتیشن های منطقی تقسیم می شوند که می توانند در گره های مختلف خوشه محاسبه شوند.

RDD ها شامل هر شی از جاوا ، پایتون ، اسکالا و کلاس هایی که کاربر تعریف می کند ، می شوند.

معمولا RDD ، Read-Only ( فقط خواندنی ) بوده و مجموعه ای پارتیشن بندی شده از رکوردهاست.

RDD ها می توانند از طریق عملیات قطعی بر داده ها روی حافظه ثابت یا دیگر RDD ها ساخته شوند.

RDD ها کالکشن هایی از المان هایی هستند که Fault-Tolerant ( توانایی تحمل خطا ) داشته که می توانند به صورت موازی عمل کنند.

دو راه برای ساخت RDD ها وجود دارد :

1- موازی سازی کالکشن موجود دردرایو برنامه شما

2- ارجاع دادن یک دیتاست به سیستم حافظه خارجی مثل سیستم اشتراک فایل ، HDFS ، HBase یا هر منبع داده ای با فرمت ورودی HADoop .

اسپارک عملیات MapReduce را با استفاده از الگو ( Concept ) RDDها سریع تر و موثرتر می سازد.

بگذارید اول بحث کنیم که MapReduce ها چطور کار می کنند و چرا خیلی موثر و مفید نیستند.


لطفا در راستای هرچه بهتر شدن کیفیت مطالب نظر خود را در رابطه با این سرفصل برای ما ارسال نمایید.