زمان تخمینی مطالعه:‌ 2 دقیقه

بخش های اسپارک


درتصویر زیر بخش های مختلف اسپارک را مشاهده می کنید.

Apache Spark Core ( هسته ی اسپارک آپاچی ) :

هسته اسپارک یک موتور اجرایی عمومی اساسی برای پلتفرم اسپارک است که تمام امکانات دیگر روی آن ساخته شده است.

components of spark

بدین وسیله محاسبات داخل حافظه ( In-Memory ) فراهم می شود و مجموعه داده ها به سیستم های ذخیره خارجی ارجاع داده می شوند.

Spark SQL :

Spark SQL یک بخش روی هسته اسپارک است که داده های انتزاعی جدید ( New Data Abstraction ) که Schema RDD نامیده می شوند را معرفی می کند ، که پشتیبانی از داده های ساخت یافته ( Structured-Data ) و شبه ساخت یافته را فراهم می کند.

Spark Streaming :

Spark Streaming از قابلیت زمان بندی سریع هسته های اسپارک برای فراهم کردن آنالیزهای جریانی ( Streaming Analytics ) استفاده می کند.

Ingest ها داده رو به گروه های کوچک ( Mini-Batches ) و انتقالات RDD را روی آن گروه های کوچک داده فراهم می کند.

MLib ( Machine Learning Library ) :

MLib یک فریم ورک توزیع شده ماشین یادگیرنده روی اسپارک است زیرا معماری اسپارک بر پایه حافظه ( Memory Base ) و توزیع شده است.

MLib در اسپارک 9 برابر سریع تر از ورژن Disk-Base را Apache Mahout می باشد. ( قبل از این که Mahout اینترفیس اسپارک را بگیرد. )

GraphX :

Graphx یک فریم ورک پردازش گراف توزیع شده روی اسپارک است.

Graphx یک API برای محاسبه گراف Expressing فراهم می کند که توانایی مدل کردن گرافی که کابر تعریف می کند را با استفاده از Pregel Abstraction API را دارد.

علاوه بر این زمان اجرا را برای سطوح انتزاع بهینه می کند.


لطفا در راستای هرچه بهتر شدن کیفیت مطالب نظر خود را در رابطه با این سرفصل برای ما ارسال نمایید.