زمان تخمینی مطالعه:‌ 2 دقیقه

پوسته (shell) اسپارک


هسته ی اسپارک نقش اصلی را در این پروژه ایفا می کند، که وظیفه ی آن پخش وظایف ( task ) های توزیع شده ، زمان بندی و عملیات پایه ای I/O ( ورودی و خروجی ) است. اسپارک از ساختار داده ویژه ی خودش که به نام RDD شناخته می شود استفاده می کند که وظیفه آن جمع آوری منطقی داده تقسیم ( Partitioned ) شده بین ماشین ها است.

RDD ها به دو طریق ساخته می شوند ، نوع اول با ارجاع دیتاست ها درسیستم های حافظه خارجی و نوع دوم با اعمال تغییر حالت ( مثل : map ، fitter ، reducer ، join ) روی RDD های موجود.

سطح انتزاعی RDD از طریق language-integrated API ( API های وابسته به زبان ) مشخص می شود ، با این روش پیچیدگی های برنامه نویسی ساده تر می شود، چون تغییر RDD های برنامه ها راحت تر از تغییر مجموعه داده های محلی ( Local ) است.

پوسته اسپارک :

اسپارک دارای یک پوسته تعاملی است ، یک ابزار قوی برای آنالیز داده به صورت تعاملی ، که در زبان Python یا Scala موجود می باشد. اولین سطح انتزاع اسپارک مجموعه ای توزیع شده از آیتم هاست که به آن "دیتاست های توزیع شده ارتجاعی" ( RDD ) می گویند.

RDD ها یا با فرمت ورودی Hadoop ( مثل فایل های HDFS ) ، یا با تغییر دیگر RDDها ساخته می شوند.

بازکردن پوسته اسپارک ( Open Spark Shell ) :

برای باز کردن پوسته اسپارک از دستور زیر استفاده کنید:

$ Spark-shell

ساخت یک RDD ساده :

ابتدا یک RDD ساده از روی فایل متنی ( Text File ) می سازیم. با دستور زیر یک RDD ساده می سازیم.

Scala > val  inputfile  =  sc.textFile("input.text")

خروجی دستور بالا نوشته زیر است :

خروجی

inputfile: org.apache.spark.rdd.RDD[String] = input.txt MappedRDD[1] at textFile at :12

لطفا در راستای هرچه بهتر شدن کیفیت مطالب نظر خود را در رابطه با این سرفصل برای ما ارسال نمایید.