منو
  • Big Data و Data Analytics
  • بهینه سازی موتورهای جستجو محمد زند

Big Data و Data Analytics

Big Data و Data Analytics: Big Data و Data Analytics

Big Data و Data Analytics
تصویر استاد - آقاي دكتر عبدالحسين صراف زاده
سوال: Big Data و Data Analytics
توسط استاد - آقاي دكتر عبدالحسين صراف زاده - شنبه، 9 دي 1391، 12:25 ق.ظ
  Big Data و همچنین Data Analytics از زمینه‌های جدید در بازار کار کامپیوتر و از تخصص‌های مطلوب و کمیاب است. پیش بینی‌ میشود که در آینده نزدیک خلا قابل ملاحظه ای‌ در این زمینه در بازار کار به وجود بیاید. آشنایی شما با این زمینه ها به چه میزانی‌ است؟ چرا به این تخصص‌ها نیاز است و برای چه کاربردهایی‌؟
تصویر سوگل ربيعي ساوجي
پاسخ: سوال: Big Data و Data Analytics
توسط سوگل ربيعي ساوجي - شنبه، 9 دي 1391، 09:55 ق.ظ
 

سلام

عبارت Big Data مدت‌ها است که برای اشاره به حجم‌هاي عظیمی از داده‌‌ها که توسط سازمان‌های بزرگی مانند گوگل یا ناسا ذخیره و تحلیل مي‌شوند مورد استفاده قرار مي‌گیرد. اما به تازگي، این عبارت بیشتر برای اشاره به مجموعه‌­های داده‌اي بزرگی استفاده مي‌شود که به قدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاه‌هاي داده سنتي و معمولي قابل مدیریت نیستند. مشکلات اصلي در کار با این نوع داده‌‌ها مربوط به برداشت و جمع‌آوری، ذخیره‌سازی، جست‌وجو، اشتراک‌گذاری، تحلیل و نمایش آن‌ها است. این مبحث، به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا مي‌کند که با استفاده از تحلیل حجم‌هاي بیشتری از داده‌ها، مي‌توان تحلیل‌هاي بهتر و پيشرفته‌تري را برای مقاصد مختلف، از جمله مقاصد تجاری، پزشکی‌ و امنیتی، انجام داد و نتایج مناسب‌تری را دریافت‌کرد.

حجم داده‌هاي ذخیره‌شده در مجموعه‌هاي داده‌اي Big Data، عموماً به‌خاطر تولید و جمع‌آوری داده‌‌ها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشی‌هاي موبایل، حسگرهای محیطی، لاگ نرم‌افزارهای مختلف، دوربین‌ها، میکروفون‌ها، دستگاه‌هاي تشخیص RFID، شبکه‌هاي حسگر بی‌سیم وغيره با سرعت خیره‌کننده‌اي در حال افزایش است، بطوریکه در هر روز، 2,5 کوادریلیارد بایت (هر کوادریلیارد برابر 1027 است) داده در حال تولید است. نکته جالب توجه در این زمینه آن است که 90 درصد داده‌هايي که اکنون در اختیار ما است، تنها در 2 سال اخیر تولید شده است!

یکی از مهم‌ترین مسائل مرتبط با داده‌هاي عظیم، مشکل بودن کار با آن‌ها به وسیله پایگاه‌هاي داده‌اي رابطه‌اي و بسته‌هاي نرم‌افزاری تصویرنگاری داده‌‌ها و نرم‌افزارهای آماری رومیزی است. چراکه این داده‌ها، برای پردازش‌شدن در یک زمان معقول به نرم‌افزارهای به شدت موازی شده با قابلیت اجرا روی ده‌ها، صدها یا هزاران سرور نیاز دارند. البته مفهوم Big Data برای شرکت‌ها و سازمان‌های مختلف تعابیر متفاوتی دارد و هر کدام، بسته به کاربرد و نیازمندی‌هایی که دارند، در حجمی خاص و با شرایطی خاص به روش‌هاي جدیدی برای آسان‌کردن کار با این نوع داده‌‌ها روی مي‌آورند. از این‌رو است که Big Data برای بعضی سازمان‌ها، تنها صدها‌گیگابایت حجم دارد در حالیکه برای برخی، ده‌ها و صدها ترابایت یا حتی مضاربي از اگزابایت و زتابایت از انواع داده‌‌هاي عظيم محسوب مي‌شوند.

یکی از بهترین تعابیری که در زمینه توصیف و تبیین Big Data و چالش‌هاي پیش روی آن به‌کار رفته است، ایده دوگ‌ليني (Doug Laney) در گزارش سال 2001 مؤسسه META group (اکنون گارتنر) بود که در آن عنوان شده است داده‌‌ها در سه بُعد مختلف در حال رشد هستند. این سه بعد عبارتند از حجم، سرعت و تنوع داده‌‌ها که روز به روز، نرخ رشد آن‌ها با سرعتی باور نکردنی افزایش مي‌یابد. به همین دلیل، توصیف Big Data تنها با حجم‌هاي عظیم و نحوه مدیریت آن‌ها کار درستی نیست و باید دیگر جنبه‌هاي این مفهوم مهم و کلیدی را نیز در نظر گرفت. بر این اساس، با توجه به افزایش روز افزون استفاده از تجهیزات تولید یا جمع‌آوری داده‌‌ها و همچنین روی آوردن تعداد بیشتری از شرکت‌ها و افراد به شکل‌های جدیدی از زندگی دیجیتالی، اهمیت مفهوم Big Data و نحوه برنامه‌ریزی و تعیین راهبردهاي مناسب برای بهره‌برداری صحیح از آن، دو چندان شده و نیاز به توسعه ابزارها و امکانات مناسب برای مدیریت بهتر آن‌ها بیش از پیش مشخص مي‌شود.

"داده‌هاي عظیم برای پردازش‌شدن در یک زمان معقول به نرم‌افزارهای به شدت موازی‌شده با قابلیت اجرا روی ده‌ها، صدها یا هزاران سرور نیاز دارند"

تصویر سوگل ربيعي ساوجي
پاسخ: سوال: Big Data و Data Analytics
توسط سوگل ربيعي ساوجي - شنبه، 9 دي 1391، 09:48 ق.ظ
 

داده‌هاي عظیم به فناوري‌هاي پیشرفته‌اي برای پردازش‌شدن به روشی کارآمد و در زمانی معقول نیاز دارند. فناوري‌هايي که به‌طور عمومي در این زمینه استفاده مي‌شوند شامل مواردی مانند پایگاه‌هاي داده با قابلیت پردازش موازی عظیم MPP (سرنامMassively Parallel Processing Databases )، گریدهای داده‌کاوی، سیستم‌هاي‌فایلی توزیع شده، پلتفرم‌هاي پردازش ابری، اینترنت و همچنین سیستم‌هاي ذخیره‌سازی مقیاس‌پذیر هستند. راه‌حل‌هاي MPP بطور عمومي امکان مدیریت‌داده‌هايي در حجم پتابایت را نیز فراهم‌ می‌کنند. اما نکته قابل توجه در زمینه Big Data، آن است که استفاده‌کنندگان عملی از تحلیل‌های داده‌هاي عظیم، دشمن اصلی سیستم‌هاي ذخیره‌سازی اشتراکی هستند!

 

تأثیر حجم‌عظیم داده‌‌ها و نیاز به پیدا‌کردن روش‌هايي برای مدیریت آن‌ها، باعث شده است تا نیاز به متخصصان مدیریت اطلاعات در شرکت‌های بزرگ به‌شدت افزایش‌یافته و شرکت‌هایی نظیر IBM، Microsoft و SAP بیش از 15 میلیارد دلار در این زمینه سرمایه‌گذاری کنند. این صنعت، به خودی خود ارزشی بالغ بر صد میلیارد دلار داشته و هر ساله با تجربه نرخ رشد ده درصد، با سرعتی دو برابر کل تجارت نرم‌افزار پیشرفت مي‌کنند. این روزها مفهوم Big Data مورد توجه قرار گرفته است چراکه ما هم اکنون در جهانی زندگی مي‌کنیم که به شدت به استفاده از فناوري‌هاي داده محور روی آورده است. در سطح دنیا بیش از 4,6 میلیارد تلفن همراه وجود دارد و تعدادي حدود يک تا دو میلیارد از آن‌ها به اینترنت متصل هستند. بر همین اساس، هر روز تعداد بیشتری از افراد به جمع تولید‌کنندگان و استفاده‌کنندگان داده‌ها اضافه مي‌شوند و بر‌اساس پیش‌بینی‌هاي سیسکو، حجم کل ترافیک در سال 2013 به حجم 667 اگزابایت خواهد رسید!

تصویر محمد قليزاده
Re: سوال: Big Data و Data Analytics
توسط محمد قليزاده - شنبه، 9 دي 1391، 11:13 ق.ظ
 


بزرگ‌داده (Big data) اصطلاحی است که به مجموعه داده‌هایی اطلاق می‌شود که مدیریت، کنترل و پردازش آنها فراتر از توانایی ابزارهای نرم‌افزاری در یک زمان قابل تحمل و مورد انتظار است. مقیاس بزرگ‌داده، به طور مداوم در حال رشد از محدوده چند ۱۰ ترابایت به چندین پتابایت، در یک مجموعه داده‌ واحد است. نـــمونه‌هایی از بزرگ‌داده، گــزارش‌های وبی، RFIDها، شبکه‌های حسگر، شبکه‌های اجتماعی، متون و اسناد اینترنتی، نمایه‌های جستجوهای اینترنتی، نجوم، مدارک پزشکی، آرشیو عکس، آرشیو ویديو، پژوهش‌های زمین‌شناسی و تجارت در مقیاس بزرگ هستند و هم‌اکنون عصر بزرگ‌داده تازه آغاز شده است.

. بزرگ داده خواستار تجدید نظر بزرگی است: رشد بی امان داده‌ها به پدیده‌ای منجر شده که امروز از آن به «بزرگ داده» یاد می‌شود. این روند، چالشی بزرگ برای کارایی و بودجه پیش روی شرکت‌ها خواهد گذاشت.

۲. تجزیه و تحلیلهای پیشرفته و آیندهنگر: تحلیل‌های پیشرفته، روند تصمیم‌گیری را به مرحله‌ای فراتر از شکل‌های ابتدایی و ناقص کنونی خواهد برد، مانند پردازش تحلیلی برخط (OLAP)

۳. حرکت فناوری اطلاعات به سوی کسب و کار کاربران: mashupها، برنامه‌های کابردی و خوراک‌های بیشتر کاربران در بیشتر وسایل کامپیوتری باعث تولید داده می‌شود.

۴. سرویسهای مبتنی بر ابر بیشتر: بیشتر شرکت‌ها تمامی سرویس‌های ابرگونه‌ فناوری اطلاعات خود را روی ابر، بسته‌بندی و مجازی‌سازی می‌کنند. همانند سرویس‌هایی که به سراسر سازمان‌های گوناگون و بخش‌های آنها و حتی به شرکای خارج ارايه می‌شود.

۵. داده به عنوان سرویس: با رشد خدمات مبتنی بر ابر خصوصی، انتظار می‌رود که رویکردهای «داده به عنوان سرویس» (DaaS) در مدیریت داده‌های سازمانی، گسترش یابد.

۶. مدیریت ارشد دادهها و مدیریت فرآیند کسب و کار.

۷.کسب درآمد از داده: ممکن است ارزش بزرگی در بزرگ داده وجود داشته باشد، اما سوالی که بسیاری از شرکت‌های در سال پیش رو با آن دست و پنجه نرم خواهند کرد این است که چگونه این ارزش را در بزرگ داده‌ها پیدا و استخراج کنند؟

۸. ظهور دادههای بدون ساختار و اینترنت در سازمانها: سال‌هاست سازمان‌ها تلاش کرده‌اند با داده‌های ساخت‌نیافته همانند پرونده‌های گرافیکی یا ویديو دست و پنجه نرم کنند. به این ملغمه داده‌های مبتنی بر وب یا داده‌های اجتماعی را هم اضافه کنید.

۹. فروشگاههای دادهها: فروشندگان برنامه هم‌اکنون از طریق شرکت اپل و دیگر فروشندگان در حال ارايه‌ مدل عملی برای ارايه و توزیع داده به سازمان‌ها هستند.

۱۰. چندبستری و چندمهارتی: به عنوان یک کارشناس این را در نظر داشته باشید: «فروشگاه‌های یک بستری، به نادری یک قطعه یخ در صحرا، در حال کمیاب شدن هستند»

http://www.osnews.ir/fa/177-id.html.
تصویر الهام شفيعي نيك ابادي
پاسخ: سوال: Big Data و Data Analytics
توسط الهام شفيعي نيك ابادي - شنبه، 9 دي 1391، 12:01 ب.ظ
 

به کارگیری داده های بزرگ و تحلیل آنها در سازمان

داده های بزرگ و علم تحلیل داده ها در سازمان های قرن بیست و یکم به اولویت نخست سازمان ها تبدیل شده اند. این دو مقوله به همراه یکدیگر ارتقای شیوه انجام کار به وسیله بسیاری از سازمان ها و ایجاد بهبود های عملکردی بی سابقه ای را به ارمغان آورده اند که آخرین بار در جنبش بازطراحی فرآیندهای کلیدی در دهه ۱۹۹۰ دیده شد.

 

این مقولات، نوید تحولی همچون بازمهندسی فرآیندهای کسب وکار را به سازمان ها می دهند. بنابراین، می توان گفت که این ابزارها و فناوری ها میدان تازه ای را برای کسب مزیت رقابتی پیش روی سازمان ها گشوده اند.

اما امروزه بسیاری از مدیران درباره چگونگی حرکت به جلو در این زمینه دچار تردید هستند. آنها مطمئن نیستند که سازمان شان برای پذیرفتن این تغییر آمادگی لازم را داشته باشد. در واقع بسیاری از سازمان ها در به کارگیری قابلیت های کنونی خود در تحلیل داده ها نیز تاکنون ناکام بوده اند.

در این نوشتار، دیوید کورت یکی از مدیران مکنزی راه حرکت به جلو را در قالب نکاتی بیان می دارد که اخیرا در مقاله ای مشترک با دومینیک بارتون مدیرعامل موسسه جهانی مکنزی در مجله مطالعات کسب وکار هاروارد (HBR) نیز ذکر شده است.

کورت پیشنهاد می کند که سازمان ها بهتر است برتصمیماتی بزرگ متمرکز شوند که داده ها و مدل های بهتری را برای بهبود نتایج به ارمغان می آورند. مدیران همچنین باید سازمان های خود را به گونه ای متحول کنند که مدیران اجرایی بدون هراس از ابزارهای تازه استفاده نمایند. گفت وگوی زیر در سپتامبر ۲۰۱۲ با کورت انجام شده است.

 

● جلب توجه رهبران

داده های بزرگ و علم تحلیل چندسالی است که مورد توجه رهبران سازمان ها قرار گرفته اند. اما علت این توجه در حال تغییر است. چند سال پیش من بر این باور بودم که «ما مطمئنا باید با این حجم عظیم از اطلاعاتی که در دست داریم کاری انجام دهیم». اما هم اکنون دغدغه و پرسش من این است: «من رقبای خود را می بینم که از این مزایا استفاده کرده اند و حس می کنم که در حال عقب ماندن از رقابت هستم».

اگر به مزایایی که افراد از به کارگیری داده ها و تحلیل آنها کسب می کنند توجه کنید درمی یابید که تفاوتی که از این امر ایجاد می شود تفاوت کمی نیست و نمی توان از آن چشم پوشید. زیرا کاربرد این فناوری ها بسیار گسترده است و می تواند در نواحی مختلفی همچون خدمات مشتریان، بخش بندی بازار، مدیریت موجودی کالا مثمر ثمر باشند. به همین علت است که دغدغه اصلی ما در این زمینه به این صورت خواهد بود: «من عقب مانده ام و این عقب ماندگی را دوست ندارم».

از من پرسیده شد که «داده های بزرگ برای چه کسب وکاری سودمند است؟» پاسخ من این بود که همه و همه می توانند از آن استفاده کنند. سازمان هایی همچون گوگل، آمازون، و بلومبرگ نمونه های موفقی از سازمان های مبتنی بر داده ها هستند. اما اینکه کسب وکار شما وابستگی مستقیمی به داده ها نداشته باشد لزوما بدان معنا نیست که علم تحلیل به درد شما نخورد. نکته کلیدی در اینجا آن است که بر تصمیمات بزرگی که برای آنها نیازمند داده های بزرگ هستید متمرکز شوید. اگر توانایی شما در پیش بینی و بهینه سازی بالاتر رود، سودآوری سازمان شما یقینا بیشتر خواهد شد.

 

● یافتن پاسخ های بهتر

من به تازگی به کارگیری علم تحلیل داده ها را در بسیاری از کسب وکارها دیده ام. بگذارید ابتدا بر تلاش هایی که برای انجام بهتر کارها با مشتریان از طریق استفاده از داده ها انجام می گیرد متمرکز شوم. برای مثال شرکت های هواپیمایی می توانند از آن برای قیمت گذاری بلیت های خود در پروازهای مختلف در روزهای مختلف هفته استفاده کنند، یک بانک می تواند برای بررسی بهترین راه های ارائه خدمات به مشتریان از طریق ۴ یا ۵ کانالی که دارد استفاده کند و... . این که به مشتریان اجازه دهید از شما سوال کنند و بهترین پاسخ ها را دریافت نمایند با استفاده از علم تحلیل داده ها فعلیت می یابد. این ها فوایدی هستند که در سمت مشتریان قرار دارند. اما در سمت تولید و عملیات، همان شرکت هواپیمایی را در نظر آورید که زمانبندی خود را با استفاده از این علم انجام می دهد، یا یک شرکت خرده فروشی که بین هزینه های انبارداری و هزینه های حمل و نقل خود از این طریق توازن بهینه ای را ایجاد می کند. مدیران اجرایی باید توانایی استفاده از ظرفیت های این علم را داشته باشند.

 

● ایجاد تغییر در سازمان

در اینجا این پرسش به اذهان متبادر می شود که فرمول یا عامل کلیدی موفقیت در به کارگیری علم تحلیل داده ها چیست؟ تجربه ما نشان می دهد (و من در این باره با بیش از صد مدیر گفت و گو کرده ام) که سه عامل عمده در این باره اهمیت دارد: داده ها، مدل سازی و ایجاد تحول. داده ها یعنی استفاده خلاقانه از اطلاعات درونی و بیرونی کسب وکار برای کسب دیدگاهی فراگیرتر نسبت به آنچه واقعا در حال وقوع است. مدل سازی عبارت است از: به کارگیری این داده ها در جهت پیش بینی و بهینه سازی بهتر.

سومین عامل موفقیت ایجاد تحول در سازمان برای استفاده از مزایای این داده ها در قالب مدل هایی است که با دقت و هوشمندی تدوین شده اند. این مرحله برای مدیران با استفاده از ابزارهایی نسبتا ساده و قابل فهم صورت می گیرد. این مرحله در واقع دشوارترین مرحله در به کارگیری تحلیل داده ها است.

من همواره مسائل موجود در این عرصه را به دو دسته کوتاه مدت و میان مدت تقسیم می کنم. مساله کوتاه مدت آن است که اگر شما مدل تازه ای را برای بهینه سازی یا پیش بینی طراحی کرده اید، چگونه مدیران اجرایی را به استفاده از آن وامی دارید؟ این کار همواره نیازمند ابزارهایی ساده و آموزش آنها به مدیران و کارهایی از این دست خواهد بود. یک چالش میان مدت هم وجود دارد که عبارت است از «چگونگی ارتقا سازمان برای استفاده از این ابزارها در مقیاس گسترده.

بنابراین، مساله آن است که چگونه می توان موجودی را ساخت که من آن را «ورزشکار چالاک دوبعدی» می نامم.

تصور کنید ما به یک خرده فروشی (سوپرمارکت) می رویم و با خریداران آن ملاقات می کنیم، یا به یک سازمان مبتنی بر فناوری یا یک سازمان تولیدکننده کالاهای مصرفی می رویم و با افرادی که تصمیم گیری های مربوط به قیمت گذاری یا زمان بندی تولید را انجام می دهند دیدار کنیم. در این جاها به افرادی نیاز داریم که آشنایی کاملی با سازمان داشته باشند. آنها باید بتوانند به راحتی از فنون تحلیل داده ها استفاده کنند. اگر توان استفاده از علم تحلیل داده ها را داشته باشید، اما فاقد درک کاملی از کسب وکار خود باشید تصمیم گیری های ساده انگارانه ای به عمل خواهید آورد. در سوی مقابل، اگر سازمان و کسب وکار خود را به خوبی بشناسید، اما فاقد توان استفاده از علم تحلیل داده ها باشید در واقع پول زیادی را روی میز رها کرده اید که رقبای شما به راحتی از آن استفاده می کنند و شما از آن محروم می مانید. بنابراین، چالش سازمان های امروزی این است که چگونه به یک ورزشکار چالاک دوبعدی تبدیل شوند و چگونگی کسب استعداد فنی لازم را بفهمند و به سمت آن حرکت کنند.

 

● اجرای داده های بزرگ

برای پیاده سازی مزایای داده های بزرگ باید چندین کار را به انجام برسانید. نخستین کار آن است که باید متمرکز باشید. به عنوان نمونه، یک مدیر قیمت گذاری کالا یا یک خریدار در خرده فروشی را در نظر بگیرید. هر دوی آنها ۲۲ کار را باید انجام دهند. نکته مهم آن است که این دو نباید سعی کنند همه ۲۲ کار را تغییر دهند؛ بلکه باید بر تغییر تنها دو یا سه کار متمرکز شوند. برای کسب موفقیت در تحلیل داده ها باید بر بخشی از تصمیم متمرکز شوید و از اینرو بر آنجایی تمرکز کنید که بهترین اثر مثبت اقتصادی را بر کسب وکار دارد.

نکته دوم آن است که شما باید یک ابزار پشتیبانی از تصمیم گیری به وجود آورید که برای کاربر فهمیدنی و قابل اعتماد باشد. به محض اینکه شما این ابزار را ساده و قابل فهم سازید، کارکنان استفاده از آن را آغاز می کنند و تصمیم گیری های بهتری به عمل می آورند. به عنوان مثال، اگر شما در شرکت خود ۱۰۰ هزار نفر نیروی انسانی داشته باشید که تنها ۱۴ نفر از آنها شیوه به کارگیری داده ها را بدانند به تغییر پایدار دست نخواهید یافت.

شما ممکن است هم اکنون به ۱۰۰ هزار نیرو نیاز نداشته باشید؛ اما ممکن است به این تعداد نیرو در آینده نزدیک نیاز پیدا کنید. اگر سازمان شما چنین ظرفیتی داشته باشد باید استفاده از تحلیل داده ها را با فرآیندهای سازمان درآمیزید، معیارهای ارزیابی را به درستی تدوین کنید و مطمئن شوید که قابلیت استفاده از ظرفیت های داده های بزرگ را در شرکت خود ایجاد خواهید کرد.

http://www.aftabir.com/articles/view/applied_sciences/management/c12_1353358511p1.php/

تصویر فاطمه ملكي زاده
پاسخ: سوال: Big Data و Data Analytics
توسط فاطمه ملكي زاده - شنبه، 9 دي 1391، 02:27 ب.ظ
  با سلام
دوستان زحمت کشیدن وتعرفی از big data(داده های بزرگ) ارائه دادن.
واما ابزار ها و کاربرد این داده ها:

ابزارهایی مانند هادوپ (Hadoop) که بدون تردید جزء موفق‌ترین نمونه‌های پیاده‌سازی شده از تفکر NoSQL محسوب می‌شود.

تمامی فعالان این عرصه بر مزایا و منافع این رویکرد تمرکز‌کرده و با مشارکت شرکت‌های‌ مانند یاهو و بنیاد آپاچی پروژه‌هایی مانند Hadoop، MangoDB، Cassandra، CouchDB و بسیاری از پروژه‌هاي دیگر، در جهت حل مسائل مرتبط با «داده بزرگ» پا به عرصه حیات بگذارند. رویکردی که بدون کمترین تردیدی در سال 2012 و سال‌های بعد از آن، در مرکز توجه بسیاری از شرکت‌های تولید‌کننده‌پایگاه‌های داده مانند اوراکل، مایکروسافت و دیگران خواهد بود.

علاوه بر مایکروسافت و اوراکل دیگر صاحب ‌نامان این حوزه همچون آی‌بی‌ام (عرضه كننده محصولاتی مانند Info Sphere BigInsight و Info Sphere Streams) و همچنین شرکت EMC (با مجموعه ابزارهای Greenplum شامل Database، HD و Chorus) حرکت خود را به سمت فراهم آوردن مکانیزم‌های مورد نیاز برای پردازش داده‌های بزرگ آغاز کرده‌اند

http://www.shabakeh-mag.com/article.aspx?id=1006348
تصویر مريم برزوئي
پاسخ: سوال: Big Data و Data Analytics
توسط مريم برزوئي - شنبه، 9 دي 1391، 02:58 ب.ظ
 

با سلام خدمت استاد گرامی و دوستان

Big Data ، به مجموعه‌هایی از داده گفته می‌شود که نرخ رشد آن‌ها بسیار بالابوده و در مدت زمان کوتاهی، شامل چنان حجمی از اطلاعات می‌شوند که دریافت، ذخیره‌سازی،جست‌وجو، تحلیل، بازیابی و همچنین تصویرسازی آن‌ها با ابزارهای مدیریت داده موجودغیر قابل انجام خواهد بود. آنچه حائز اهمیت است، اين است که برخلاف گذشته، مفهوم داده بزرگ تنها مختص به حوزه آکادمیک و حل مسائل علمی مانند شبیه‌سازی‌های پیچیده فیزیکی، تحقیقات زیست محیطی، هواشناسی و مانند آن نبوده و بسیاری از سازمان‌ها وشرکت‌هاي بزرگ در سال‌های آینده با مشکلات مربوط به داده‌های انبوه غیرساخت‌یافته يا همان Big Data مواجه خواهند بود.بطور مثال چهل میلیارد تصویر بارگذاری شده درتنها یکی از شبکه‌های اجتماعی، ثبت تراکنش‌های یک میلیون مشتری در هر ساعت درفروشگاه‌های زنجیره‌ای والمارت به‌منظور تحلیل علایق و عادت‌های خرید مشتریان باحجمی بالغ بر 2,5 پتابایت می باشد.

این رویکرد به‌جزابزار و روش، به سخت‌افزارها و پلتفرم‌های پر قدرت و قابل اعتماد نیاز داشته و ایندر شرایطی است که بسیاری از سازمان‌ها و شرکت‌ها، حتی در صورتی که توان مالی خریدچنین تجهیزاتی را در اختیار داشته باشند، از حیث مدیریت، نگه‌داری و به‌روزرسانی وبسیاری مسائل و مشکلات مرتبط با آن، رغبت چندانی به آن نخواهند داشت.این المان‌هایتصمیم‌گیری به‌ ظاهر متناقض، در عمل ما را به یاد سرویس‌های قابل ارائه در قالبمحاسبات ابری ( CloudComputing ) انداخته و این نکته را به‌ ذهن متبادر می‌سازد که نیاز به حجم انبوهی از ماشین‌های سرویس‌دهنده و توان پردازشی فوق‌العاده بالا در کنار عدمدرگیر شدن با مسائل فنی مرتبط با زیرساخت‌های مذکور، سالهای آتی را به مکانی برایقدرت‌نمایی انواع سرویس‌های ابری تبديل كرده و بسیاری از شرکت‌ها به سمت استفادهاز آن سوق خواهند یافت.

یکی از راههای تحلیل بزرگ دادهها بکارگیری هادوپ می باشد،که مسائلی را هدف گرفته که یافتن پاسخ آن‌ها، به تحلیل كل داده‌هاي موجود در سیستم نياز دارد. به‌عنوان مثال، در تحلیل متن یا پردازش تصاویر نیاز است تا هر رکورد اطلاعاتی خوانده شده و براساس محتوای دیگر رکوردهای مشابه تفسیر شود. هادوپ عملیات روی داده‌هاي بسیار بزرگ و حجیم رابا مقیاس‌دهی افقی ( ScaleOut ) پردازش­‌ها روی تعداد بسیار زیادی از سرورها و با استفاده از روش MapReduce به انجام مي‌رساند. توجه به این مفهوم در چند سال اخیر به آن دلیل است که مقیاس‌دهی عمودی ( ScaleUp ) یا استفاده از یک سرور منفرد اما بسیار قوی، بسیار پر هزینه ومحدود کننده است. در اصل، در حال حاضر و آینده قابل پیش بینی ما، هیچ سرور منفردمناسبی برای پردازش حجم‌هاي بسیار زیادي از داده‌ها در زمان قابل قبول وجود نداردو به همین دلیل، تمام توجه‌ها به سمت شکستن سربار عملیات پردازش روی ماشین‌هاي کوچک‌تر، ارزان‌تر و با قابلیت نگه‌داری بالاتر جلب شده است. با استفاده از این مفهوم، مي‌توان با افزایش یا کاهش تعداد سرورهای فعال در یک مجموعه توان‌پردازشی را به میزان دلخواه کم یا زیاد‌كرد و همچنين، از امکان جایگزینی ماشین‌هاي معیوببا ماشین‌هاي سالم نیز بهره برد. استفاده از این قابلیت، اما به قابلیت مقياس‌دهی افقی پردازش‌هاي مورد‌نظر و امکان اجرای موازی آن‌ها نیزبستگی دارد. با استفاده ازروش MapReduce ، هادوپ یک پردازش را شکسته و پردازش‌هاي کوچک‌تر را به سرورهای مختلف ارسال مي‌کند تا هر کدام پردازش مربوط به خود را به اتمام برسانند. سپس،هادوپ نتایج هر کدام را دریافت کرده و در فایل‌هایی مي‌نویسد که ممکن است به‌عنوان ورودی به پله‌هاي جدیدی از MapReduce ارسال شوند. تکنیک MapReduce در آغاز توسط دو تن از مهندسان گوگل و برای ایندکس کردن در کاربردهای مربوط به جست‌وجوی وب معرفی شد و بعدها توسط بسیاری از پروژه‌ها مورد استفاده قرار‌گرفت.در بحث جست‌وجو، تابع Map پارامترهای جست‌وجو پذیر هر صفحه وب را پیدا کرده و تابع Reduce این داده ها را به‌عنوان ورودی دریافت کرده و تعداد بارهایی را که پارامترهای مذکور دراین صفحه استفاده شده‌اند، به دست مي‌آورد.

http://www.shabakeh-mag.com/Article.aspx?id=1007003
تصویر عليرضا مرداني كمالي
پاسخ: سوال: Big Data و Data Analytics
توسط عليرضا مرداني كمالي - شنبه، 9 دي 1391، 05:07 ب.ظ
  با سلام و تشكر از همه دوستان
بنده در ابتداي ترم در مورد اين مبحث مقاله مفصلي از مجله شبكه را در فروم قراردادم كه پیشنهاد می کنم دوستان نگاهی به آن داشته باشند. شما می توانید این مقاله را از لینک http://lms.mehralborz.com/mod/forum/discuss.php?d=11899 و در 3 بخش دریافت کنید. امیدوارم مفید باشد.

تصویر مريم تكلوبيغش
پاسخ: سوال: Big Data و Data Analytics
توسط مريم تكلوبيغش - شنبه، 9 دي 1391، 05:53 ب.ظ
  باسلام وخسته نباشید
همانطورکه دوستان فرمودن بزرگ‌داده (Big data) مجموعه داده‌هایی ست که مدیریت و کنترل آنها بیشتر از توانایی ابزارهای نرم‌افزاری است.درادامه صحبت های دوستان پیشنهادمیکنم مطالبی که درسایت زیردرموردسيستم‌هاي فايلي در عصر Big Dataعنوان شده رومطالعه کنن
http://www.shabakeh-mag.com/Article.aspx?id=1006939
http://www.shabakeh-mag.com/Article.aspx?id=1006940
وبه کارگیری داده ها ی بزرگ(
Data Analytics) دریه سازمان :

http://mba-farda.mihanblog.com/post/347
تصویر مسلم ايرانمنش
پاسخ: سوال: Big Data و Data Analytics
توسط مسلم ايرانمنش - شنبه، 9 دي 1391، 10:17 ب.ظ
 

با سلام خدمت استاد و دوستان گرامی

از آنجای که یک شکل جالب در اینترنت پیدا کردم گفت برای شما هم بزارم فکر می کنم دوستان مطلب را کامل بیان کردند.


تصویر مسلم ايرانمنش
پاسخ: سوال: Big Data و Data Analytics
توسط مسلم ايرانمنش - شنبه، 9 دي 1391، 10:23 ب.ظ
  با
تصویر الهام عطاري
پاسخ: سوال: Big Data و Data Analytics
توسط الهام عطاري - يکشنبه، 10 دي 1391، 01:14 ب.ظ
 

با سلام

رشد فوق‌العاده سریع حجم داده‌ها، اگرچه به‌خودی خود فرآیند ذخیره‌سازی، بازیابی و تحلیل اطلاعات را دشوار و مواجهه با آن را نیازمند ایجاد ابزارهایی جدید می‌کند، اما آنچه بحث داده و مکانیزم‌های مدیریتی آن را در پایان سال 2011 به‌چالش‌کشیده و به‌نوعی رویکرد اصلی‌سال آینده میلادی را در حوزه پایگاه‌های داده مشخص می‌سازد، آگاهی از این حقیقت است که نزدیک به نود درصد از کل داده‌های ذخیره‌شده در جهان دیجیتال، به نوعي غیر ساخت‌یافته (Unstructured Data) هستند و این موضوع ما را با مفهومی به‌نام «داده بزرگ» یا Big Data روبه‌رومی‌سازد.


در یک تعریف ساده و به‌دور از پیچیدگی‌های فنی، «داده بزرگ»، به مجموعه‌هایی از داده (datasets) گفته می‌شود که نرخ رشد آن‌ها بسیار بالا بوده و در مدت زمان کوتاهی، شامل چنان حجمی از اطلاعات می‌شوند که دریافت، ذخیره‌سازی، جست‌وجو، تحلیل، بازیابی و همچنین تصویرسازی آن‌ها با ابزارهای مدیریت داده موجود غیر قابل انجام خواهد بود. آنچه حائز اهمیت است، اين است که برخلاف گذشته، مفهوم داده بزرگ تنها مختص به حوزه آکادمیک و حل مسائل علمی مانند شبیه‌سازی‌های پیچیده فیزیکی، تحقیقات زیست محیطی، هواشناسی و مانند آن نبوده و بسیاری از سازمان‌ها و شرکت‌هاي بزرگ در سال‌های آینده با مشکلات مربوط به داده‌های انبوه غیرساخت‌یافته يا همان Big Data مواجه خواهند بود.


شواهد فراوانی در اثبات این ادعا وجود دارند که از آن میان می‌توان به چهل میلیارد تصویر بارگذاری شده در تنها یکی از شبکه‌های اجتماعی، ثبت تراکنش‌های یک میلیون مشتری در هر ساعت در فروشگاه‌های زنجیره‌ای والمارت به‌منظور تحلیل علایق و عادت‌های خرید ایشان با حجمی بالغ بر 2,5 پتابایت (هر پتابايت برابر يك هزار ترابايت) و در یک کلام تولید 75 درصد از کل «داده بزرگ» توسط افراد و کاربران معمولی به میزان 1,35 زتابایت (هر زتابايت برابر یک هزار اگزابایت) اشاره کرد. این در حالی است که بر‌اساس تحقیقات به‌عمل آمده، حجم داده‌های موجود در جهان در سال 2012، چهل درصد افزایش یافته و به عددی بالغ بر 2,52 زتابایت خواهد رسید!


پرواضح است که چنین حجمی از داده نیازمندی‌های خاص خود را داشته و ابزارهای مختص به‌خود را می‌طلبد. ابزارهایی مانند هادوپ (Hadoop) که بدون تردید جزء موفق‌ترین نمونه‌های پیاده‌سازی شده از تفکر NoSQL حسوب می‌شود. جنبش No SQL که در ابتدا با هدف جایگزینی پایگاه‌های رابطه‌ای و با شعار پایان رابطه‌ای‌ها (No SQL) خود را معرفی‌کرد، با مقاومت بزرگان و پشتیبانان مکانیزم‌های رابطه‌ای مواجه شد. مقاومتی که باعث شد تا این جنبش نوپا به‌درستی دست از سماجت برداشته و خود را به‌عنوان راه حلی مناسب برای مسائلی که پایگاه‌های داده رابطه‌ای در حل آن با دشواری مواجه هستند، مطرح کند و شعار «نه فقط رابطه‌ای» (Not only SQL) را برای خود برگزیند.


این تغییر رویکرد، شرایط لازم را فراهم آورد تا تمامی فعالان این عرصه از موافق و مخالف بر مزایا و منافع این رویکرد تمرکز‌کرده و با مشارکت شرکت‌های‌قابل احترامی مانند یاهو و بنیاد آپاچی پروژه‌هایی مانند Hadoop، MangoDB، Cassandra، CouchDB و بسیاری از پروژه‌هاي دیگر، در جهت حل مسائل مرتبط با «داده بزرگ» پا به عرصه حیات بگذارند. رویکردی که بدون کمترین تردیدی در سال 2012 و سال‌های بعد از آن، در مرکز توجه بسیاری از شرکت‌های تولید‌کننده‌پایگاه‌های داده مانند آی‌بی‌ام، اوراکل، مایکروسافت و دیگران خواهد بود.


در واقع اگر بخواهیم با موشکافی بیشتری این حرکت جمعی به‌سوی تولید ابزارهای مدیریت داده‌های حجیم را مورد بررسی قرار دهیم باید این نکته را در نظر داشته باشیم که تقریباً تمامی این شرکت‌ها یا محصولاتی را (اغلب مبتنی بر کتابخانه هادوپ) روانه بازار‌کرده‌اند یا مراحل آماده‌سازی نهایی آن را سپری می‌کنند. به‌عنوان مثال، شرکت مایکروسافت در کنفرانس سالیانه PASS 2011 و درست یک هفته پس از آن‌که شرکت اوراکل از عرضه Big Data Appliance با توانایی پردازش داده‌های ساخت‌یافته و غیر ساخت‌یافته مبتنی بر هادوپ خبر داد، به‌طور رسمی پشتیبانی از پردازش «داده بزرگ» مبتنی بر این کتابخانه نرم‌افزاری را در SQL Server 2012 اعلام کرد. نکته جالب توجه آن‌که این شرکت پا را فراتر از پایگاه‌های رابطه‌ای گذاشته و وعده پشتیبانی از پردازش‌های مورد‌نیاز داده‌های حجیم و غیر ساخت‌یافته را روی سیستم‌عامل Windows Server 2012 و معادل مبتنی‌بر ابر آن، یعنی Windows Azure را به علاقه‌مندان محصولات خود داد.


علاوه بر مایکروسافت و اوراکل دیگر صاحب ‌نامان این حوزه همچون آی‌بی‌ام (عرضه كننده محصولاتی مانند Info Sphere BigInsight و Info Sphere Streams) و همچنین شرکت EMC (با مجموعه ابزارهای Greenplum شامل Database، HD و Chorus) حرکت خود را به سمت فراهم آوردن مکانیزم‌های مورد نیاز برای پردازش داده‌های بزرگ آغاز کرده‌اند و شکی نیست که در سال آینده نیز با تمام توان و به‌منظور کسب سهم بیشتری از این بازار رو به گسترش، تلاش‌کرده و شاهد ورود ابزارهای پردازشی فراوانی در این حوزه خواهیم بود.

 

25 نظر

  • محمد زند / 10 شب / 5 دی 1395, / جواب

    ارسال آرشیو محتوا

    • محمد زند / 10 شب / 5 دی 1395, / جواب

      محتوای ارسالی از آرشیو 1393

به صفحه اول خوش آمدید