صفحه ی اصلی > اخبار و رویدادها > فناوری اطلاعات
فناوری اطلاعات
هادوپ (Hadoop) پلتفرمی جهت مدیریت کلان داده ها مشاهده در قالب PDF چاپ فرستادن به ایمیل
نوشته شده توسط محمد صالح شیردل   
دوشنبه, 20 اردیبهشت 1400 ساعت 02:46

هادوپ چیست؟

هادوپ یک نرم افزار کد باز (Open source) است که برای تقسیم بندی و توزیع فایل های متمرکز به کار می رود. هادوپ تحت لیسانس آپاچی (Apache) ارائه می شود.

alt

و یکی از محبوب ترین پلتفرم های تجزیه و تحلیل کلان داده به نام آپاچی هادوپ (Apache Hadoop) شناخته شده است. این پلتفرم، پایه بسیاری از تحقیقات جدی و جدید زمینه های گوناگون از جمله: تجزیه و تحلیل شبکه های اجتماعی، آنالیز سبد بازار، سیستم های پیشنهاد کننده، علوم زیستی مانند تجزیه و تحلیل گراف های پروتئینی و… را تشکیل می دهد.

هادوپ برای چه اهدافی کاربرد دارد؟

سیستم هادوپ در واقع برای ذخیره سازی و فراخوانی اطلاعات حجیم (در حد گیگابایت، ترابایت و یا حتی پتابایت) مورد استفاده قرار می گیرد. این اطلاعات می تواند شامل فایل و یا پردازش باشد. برای مثال چندی قبل شرکت یاهو که بزرگترین سیستم هادوپ را در اختیار دارد، موفق شد رقم ۲،۰۰۰،۰۰۰،۰۰۰،۰۰۰،۰۰۰ام عدد پی و چند رقم بعد و قبل آن را محاسبه کند !! جالب است بدانید که این عملیات که بر روی ۱۰۰۰ سرور صورت گرفته به مدت ۲۳ روز به طول انجامید، در حالی که اگر این عملیات را بر روی یک سیستم اجرا کنیم، حدود ۵۰۳ سال به طول خواهد انجامید !!

چه کسانی از هادوپ استفاده می کنند؟

اکثر کمپانی های بزرگ دنیا از قبیل AOL ،Facebook،Yahoo، IBM و ….. از این تکنولوژی استفاده می کنند. برای مثال شرکت یاهو با بیش از ۱۰۰،۰۰۰ هسته ی CPU در بیش از ۴۰،۰۰۰ سرور بزرگترین مجری سیستم هادوپ در دنیا محسوب می شود. بزرگترین کلاستر (Cluster) این شرکت شامل ۴۵۰۰ سرور می باشد که هر کدام دارای ۲ پردازشگر ۴ هسته ای، ۴ هارد دیسک ۱ ترابایتی و ۱۶ گیگابایت حافظه ی رم می باشند!

آخرین بروز رسانی در شنبه, 01 خرداد 1400 ساعت 00:23
 
کلان داده یا Big Data مشاهده در قالب PDF چاپ فرستادن به ایمیل
نوشته شده توسط محمد صالح شیردل   
دوشنبه, 20 اردیبهشت 1400 ساعت 01:15

برای این که بفهمیم بیگ دیتا چیست، خوب است اول نگاهی به مفهوم دیتا یا داده بیندازیم. داده یا Data ، مقادیر، کاراکترها یا سمبل‌هایی است که پردازش‌های کامپیوتری بر روی آن‌ها انجام می‌شود. داده‌های می‌توانند به شکل سیگنال‌های الکتریکی ذخیره شوند یا انتقال یابند. همچنین دیتا را می‌توانیم بر روی دیسک‌های مغناطیسی، نوری یا مکانیکی ذخیره کنیم. بیگ دیتا یا کلان داده نیز همان دیتاست فقط در ابعاد و مقادیر خیلی خیلی بزرگ! کلان داده در حقیقت دیتایی بسیار حجیم است که در طول زمان به صورت نمایی بزرگ می‌شود. بیگ دیتا آنقدر بزرگ است که هیچ یک از ابزارهای سنتی مدیریت داده، قادر به نگهداری یا پردازش بهینه آن نیستند.

کلان داده (Big Data) اصطلاحی است که حجم زیادی از داده‌ها را توصیف می‌کند – چه ساختاری و چه غیر ساختاری – که روز به روز به مقدار آن اضافه میشود.

اما مقدار داده مهم نیست کاری که سازمان‌ها با این داده‌های مهم انجام می‌دهند حائز اهمیت است. کلان داده‌ها (big data) را می‌توان برای بینش‌هایی که منجر به تصمیم گیری بهتر و حرکت‌های استراتژیک تجاری می‌شوند، تجزیه و تحلیل کرد.

استفاده از Big Data این روزها توسط شرکت‌ها برای پیشی گرفتن از همتایان خود رایج شده است. در بیشتر صنایع، رقبای موجود و تازه واردان به طور یکسان از استراتژی‌های حاصل از داده‌های تجزیه و تحلیل شده برای رقابت، نوآوری و جذب ارزش استفاده می‌کنند.


alt



Big Data به سازمان‌ها کمک می‌کند تا فرصت‌های رشد جدید و دسته بندی‌های کاملاً جدیدی از شرکت‌ها را ایجاد کنند. این شرکت‌ها اطلاعات کافی در مورد محصولات و خدمات، خریداران و تأمین کنندگان، ترجیحات و علایق مصرف کننده دارند که می‌توانند تجزیه و تحلیل دقیقی روی آن‌ها انجام دهند.

بیگ دیتا یا کلان داده در سه فرم کلی زیر یافت می‌شود:

  • داده‌های ساختارمند (structured)
  • داده‌های بی‌ساختار (unstructured)
  • داده‌های شبه ساختارمند (semi-structured)

داده ساختارمند یا structured data

هر داده‌ای که بتوان آن را با فرم مشخصی ذخیره‌سازی، بازیابی و پردازش کرد، داده ساختارمند نام دارد.

داده‌هایی که در یک پایگاه داده رابطه‌ای (relational database) ذخیره می‌شود، معمولا از نوع داده‌های ساختارمند هستند.


داده بی ساختار یا unstructured data

هر داده‌‌ای با فرم و ساختار نامعین و نامشخص، داده بی‌‌ساختار نام دارد. داده‌‌های بی‌‌ساختار، علاوه بر پیچیدگی‌‌های مربوط به حجم داده‌‌ها، پیچیدگی‌‌های مختلفی در زمینه پردازش و استخراج اطلاعات از آن دارد. منابع داده‌‌‌ای ناهمگون که ترکیبی از انواع مختلف داده مانند دیتای تصویری، متنی، ویدیویی و … هستند، مثالی از داده‌‌‌های بی‌‌‌ساختار به حساب می‌‌‌آیند. سازمان‌‌‌ها معمولا حجم عظیمی از داده‌‌‌‌‌های مختلف دارند؛ اما بی‌‌‌ساختاری این داده‌‌‌ها باعث شده که نتوانند استفاده درستی از آن‌‌‌های کنند. صفحه سرچ گوگل، مثالی از داده بی‌‌‌ساختار است

داده شبه ساختارمند یا semi-structured data

داده‌‌‌های شبه ساختارمند در واقع ترکیبی از هر دو نوع داده‌‌‌ی ساختارمند و بی‌‌‌ساختار هستند. در حقیقت، این داده‌‌‌ها فرم خاصی دارند ولی به شکل جدول (مانند داده‌‌‌های ساختارمند) در نمی‌‌‌آیند. مثالی از داده شبه ساختارمند، یک فایل XML است.


مفهوم 3vدر Big Data

در حالی که اصطلاح “کلان داده” نسبتاً جدید است، عمل جمع آوری و ذخیره سازی حجم زیادی از اطلاعات برای تجزیه و تحلیل نهایی از گذشته وجود داشته است. در اوایل دهه 2000 وقتی داگ لنی، تحلیلگر صنعت، تعریف اصلی جریان کلان داده‌ها (big data) را به عنوان 3V (volume,variety,velocity) بیان کرد، این مفهوم بیشتر از پیش مورد توجه قرار گرفت:


alt

حجم (volume):

سازمان‌ها داده‌ها را از منابع مختلف، از جمله معاملات تجاری، رسانه‌های اجتماعی و اطلاعات دریافت شده از داده‌های حسگرها و… جمع آوری می‌کنند. در گذشته، ذخیره این اطلاعات یک مشکل بزرگ بود .

اما فناوری‌های جدید (مانند Hadoop) کار را آسان تر کرده است. نام “داده بزرگ” خود به اندازه بسیار بزرگی مربوط می‌شود. اندازه داده‌ها در تعیین مقدار داده‌ها بسیار مهم است. همچنین، اینکه آیا داده خاصی می‌تواند به عنوان یک داده بزرگ در نظر گرفته شود یا خیر، به حجم داده بستگی دارد. از این رو، “حجم” یکی از ویژگی‌هایی است که باید در هنگام پرداختن به “کلان داده‌ها (big data)” مورد توجه قرار گیرد.

سرعت(velocity):

تولید داده‌ها با سرعتی بی سابقه انجام می‌شود و باید به موقع با آنها برخورد شود. این اصطلاح به سرعت تولید داده‌ها اشاره دارد. اینکه سرعت تولید و پردازش داده‌ها برای پاسخگویی به خواسته‌ها چیست، پتانسیل واقعی موجود در داده‌ها را تعیین می‌کند.

ای فاکتور با سرعتی که داده‌ها از منابعی مانند فرآیندهای تجاری، گزارش برنامه‌ها، شبکه‌ها و سایت‌های رسانه‌های اجتماعی، حسگرها، دستگاه‌های تلفن همراه و … تولید می‌شوند، سرو کار دارد. جریان داده‌ها به شکلی گسترده و مداوم در حال پیشروی میباشد.

تنوع(variety):

داده‌ها در انواع قالب‌ها وجود دارد – از مجموعه داده‌های ساختاریافته مانند داده‌های عددی در پایگاه‌های داده سنتی تا اسناد متنی بدون ساختار مانند ایمیل، ویدئو، صدا، داده‌های مربوط به سهام و معاملات مالی.

تنوع به منابع ناهمگن و ماهیت داده‌ها اعم از ساختاریافته و ساختارنیافته اشاره دارد. درگذشته، صفحات وب و پایگاه داده‌ها تنها منابع داده ای بودند که توسط اکثر برنامه‌ها مورد توجه قرار گرفتند. اکنون داده‌هایی به صورت ایمیل، عکس، فیلم، PDF، صدا و … نیز در برنامه‌های تجزیه و تحلیل در نظر گرفته شده اند. این تنوع داده‌های ساختار نیافته مسائل خاصی را برای ذخیره سازی، استخراج و تجزیه و تحلیل داده‌ها به وجود می‌آورد.

کلام آخر:

هادوپ (Hadoop) فرآیندی جهت مدیریت کلان داده ها




آخرین بروز رسانی در شنبه, 01 خرداد 1400 ساعت 00:24
 


در باره ما

در باره ما

آخرین نظرات

آخرین نظرات

آدرس

آدرس