بزرگ دادهها (Big Data) چه هستند و انواع و کاربردهای آنها کدام است؟
همانگونه که اطلاع دارید چند روزی است که فیسبوک به متا که مخفف متاورس است تغییر نام داده است.
در حالی که برخی این اقدام فیسبوک را یک کار استراتژیک توصیف میکنند، اما واقعیت این است که مدیران فیسبوک به چیزی فراتر از نیازهای روزمره انسانها فکر میکنند. آنها به دنبال ترسیم آیندهای هستند که همه چیزی شکل و بوی مجازی به خود خواهد گرفت، درست مثل فیلم دونده تیغه که دنیای کاملاً مجازی را به تصویر میکشد و حتی هنگامی که مشغول صحبتکردن با افراد مختلف هستید، آنها یک روبات یا نسخهای شبیهسازی شده از یک ماهیت فیزیکی هستند. ماهیتی که در پسزمینه تمامی این فناوریها قرار دارد اطلاعات است. اطلاعاتی که بسیار گسترده هستند و به نام بزرگ دادهها آنها را میشناسیم و توسط فناوریهایی مثل یادگیری ماشین و دادهکاوی استفاده میشوند. در این مقاله قصد داریم به طور کلی با ماهیت بزرگ دادهها آشنا شویم.
بزرگ دادهها چیستند؟
بزرگ دادهها (Big Data) به مجموعهای از دادهها اشاره دارد با گذشت زمان حجم آنها به طور تصاعدی بیشتر میشود. این دادهها حجیم و پیچیده هستند، بهطوریکه ابزارهای سنتی قادر به مدیریت، پردازش و ذخیرهسازی دادهها نیستند. به طور کلی، مفهوم بزرگ دادهها به تنوع و رشد تصادف و پر سرعت دادهها اشاره دارد. بر همین اساس، بزرگ دادهها به گروههای مختلفی تقسیم شدهاند.
دادهها در دنیای بزرگ دادهها میتوانند ساختارمند یا بدون ساختار باشند، اما این نوع و حجم داده نیستند که اهمیت دارند، بلکه مهم، کارهایی است که سازمانها قادر به انجام آنها با بزرگ دادهها هستند. بزرگ دادهها را میتوان برای به دست آوردن بینش در ارتباط با تجزیه و تحلیلهای استراتژیک به خدمت گرفت. این بینش باعث کیفی تصمیمگیریها شده و باعث میشود سازمانها تصمیمات راهبردی کارآمدتری را اتخاذ کنند.
انواع بزرگ دادهها
با توجه به اهمیت مفاهیم مربوط به بزرگ دادهها بهتر است با انواع مختلف آنها آشنا شویم. به طور معمول، بزرگ دادهها به گروههای زیر تقسیم میشوند:
دادههای ساختاریافته (Structured Data): به دادههایی اشاره دارد که ساختار مناسبی دارند و برای بهکارگیری در پروژههای بزرگ مناسب هستند. به طور مثال، دادههای موجود در بانکهای اطلاعات، فایلهای اکسل و صفحات گسترده همگی در گروه دادههای ساختاریافته طبقهبندی میشوند.
دادههای نیمه ساختاریافته (Semi-Structured Data): دادههایی هستند که ساختار رسمی مدلهای داده مرتبط با پایگاه دادههای رابطهای یا سایر اشکال جداول دادهها تطابق چندانی با آنها ندارد. البته دقت کنید که دادههای نیمه ساختاریافته حاوی برچسبهایی برای جداسازی عناصر معنایی و اجرای سلسله مراتبی رکوردها و فیلدهای دادهای هستند. به طور مثال، دادههای موجود در ایمیلها، فایلهای گزارش و اسناد ورد در گروه دادههای نیمه ساختاریافته قرار میگیرند.
دادههای بدون ساختار (Unstructured Data): دادههایی هستند که به شکل گستردهای در فضای مجازی در دسترس قرار دارند و فاقد هرگونه انسجام و ساختاری هستند که در ارتباط با بانکهای اطلاعاتی شاهد آن هستیم. به بیان دقیقتر، در حالی که دادههای بدون ساختار دارای ساختار داخلی هستند، اما از الگوهای مدیریت منسجم یا مدلهای دادهای پیروی نمیکنند. به طور کلی این دادهها فاقد ساختار هستند. از نمونههای بارز این دادهها باید به فایلهای تصویری، صوتی و ویدئویی اشاره کنیم که همگی فاقد ساختار منسجم مرسوم هستند.
بزرگ دادهها چه ویژگیهایی دارند؟
به طور معمول بزرگ دادهها مجموعهای از سنجهها و پارامترهای مختلف دارند که رویکردهای مختلف تجزیه و تحلیل بزرگ دادهها را شرح میدهند. بااینحال، بزرگ دادهها به دلیل داشتن ویژگیهای زیر داده شهرت پیدا کردهاند:
سرعت رشد دادهها (Velocity): در اینجا واژه سرعت به معنای مدت زمانی است که صرف پردازش داده میشود که یکی از فاکتورهای مهم در ارتباط با بزرگ دادهها است. ویژگی سرعت پارامترهایی مثل میزان تغییر، انفجارهای فعالیت (Activity Bursts) و پیوند مجموعه دادههای ورودی را شامل میشود.
حجم دادهها (Volume): این سنجه با واحد اندازهگیری دادهها مرتبط است که بر مبنای گیگابایت، زتا بایت (Zettabytes) و یوتا بایت (Yottabytes) نشان داده میشوند. باتوجهبه روندهای دنیای فناوری کاملاً مشخص است که در آینده حجم دادهها به میزان قابل توجهی افزایش پیدا میکند.
تنوع دادهها (Variety): تنوع به وجود انواع مختلف بزرگ دادهها اشاره دارد. تنوع یکی از بزرگترین نگرانیهایی کارشناس فناوری اطلاعات است، زیرا این ویژگی روی عملکرد تأثیرگذار است. در چنین شرایطی کارشناسان باید از طریق بهکارگیری مکانیزمهای سازماندهی مناسب به فکر مدیریت باشند.
ارزش دادهها (Value): به مزیت رقابتی اشاره دارد که در اختیار سازمانها قرار میدهد. به طور مثال، آیا دادهها با اهداف شرکت مطابقت دارند، آیا این دادهها سازمان را در جهت ارتقا و شکوفایی سوق میدهند، در واقع، ویژگی ارزش یکی از مهمترین خصلتهای بزرگ دادهها است.
صحت دادهها (Veracity): به میزان دقت و قابل اعتماد بودن دادهها اشاره دارد. اگر صحت دادهها پایین باشد، مدلها نتایج ضعیف یا اشتباهی را ارائه میکنند.
اعتبار دادهها (Validity): در ارتباط با صحت مفهوم دیگری به نام اعتبار نیز وجود دارد که بیانگر این موضوع است که دادهها تا چه میزان منطبق، معتبر و همسو با اهداف هستند.
نوسان (Volatility): بزرگ دادهها دائماً در حال تغییر هستند، بهطوریکه ممکن است دادههایی که در امروز از یک منبع جمعآوری شدهاند با دادههای فردا تفاوت زیادی داشته باشند. این تغییرپذیری دادهها نوسان نامیده میشود و بر همسوسازی دادهها تأثیر منفی میگذارد.
نمایش (Visualization): از ویژگی مذکور برای نشاندادن بینشهای آماده شده توسط بزرگ دادهها از طریق بهکارگیری رابطهای بصری مثل نمودارها و گرافها استفاده میشود.
بزرگ دادهها چه مزیتهای رقابتی دارند؟
در یک دهه گذشته، بزرگ دادهها به یکی از حوزههای محبوب صنعت فناوری اطلاعات تبدیل شدهاند، زیرا مزایای بالقوهای در اختیار سازمانها قرار میدهند. از جمله این مزایا باید به بهبود تجربه مشتری، مدیریت ریسک، توسعه محصول و ایجاد نوآوری، تصمیمگیری بهتر و سریعتر، کمپینهای متمرکز و هدفمند، شبکههای تأمینکننده گسترده، تشخیص کلاهبرداری، کاهش هزینههای سازمان و افزایش بهرهوری و درآمد اشاره کرد.
بزرگ دادهها چه معایبی دارند؟
با وجود مزایای بالقوهای که بزرگ دادها در حوزههایی مثل دیجیتال مارکتینگ دارند، بااینحال، معایب خاص خود را نیز دارند از جمله این معایب باید به کمبود دادههای با کیفیت، تغییرات بسیار سریع، نیاز به سختافزار مخصوص، مشکلات مربوط به ادغام با سیستمهای قدیمی و مخاطرات امنیتی اشاره کرد. نظرسنجی که مؤسسه Syncsort انجام داده نشان میدهد، اولین چالش کار با بزرگ دادهها، کیفیت دادهها و نحوه بررسی آنها است. قبل از آن که دانشمندان علم داده بتوانند به تحلیل بزرگ دادهها بپردازند، ابتدا باید از دقت، میزان مرتبط بودن دادهها و مناسببودن قالب آنها اطمینان حاصل کنند. این کار باعث میشود روند گزارشدهی کند شود، اما بررسی مسائل مربوط به کیفیت داده ضروری است. اگر کیفیت دادهها بررسی نشوند، ممکن است بینشهای حاصل از تحلیل دادهها بیارزش تلقی شوند یا مشکلات عدیدهای برای سازمان به وجود آورد. به طور معمول اطلاعات مربوط به سازمانها در سامانهها و برنامههای مختلفی ذخیرهسازی شدهاند. یکپارچهسازی این منابع دادهای متفاوت و ناهمگون و انتقال دادهها در مکانی که قرار است استفاده شود، زمانبر و هزینهبر است. یکی دیگر از مسائل مهم در این زمینه زیرساخت فناوری اطلاعات است. سازمانها به سختافزارهای مناسب برای پشتیبانی از تحلیل بزرگدادهها نیاز دارند، زیرا فضای ذخیرهسازی برای نگهداری دادهها، پهنای باند شبکه برای انتقال دادهها به سیستمهای تحلیلکننده و محاسبه منابع برای انجام این تحلیلها همگی به هزینههای زیادی نیاز دارد. برخی شرکتها برای حل این مشکلات به سراغ راهحلهای ابر محور رفتهاند، اما مکانیزمهای ابری قادر به حل تمامی مشکلات نیستند.
چه روشهایی برای تحلیل بزرگدادهها وجود دارد؟
به طور معمول متخصصان از چهار روش برای تحلیل بزرگدادهها استفاده میکنند که تجزیهوتحلیل توصیفی (Descriptive)، تجزیهوتحلیل تشخیصی (Diagnostic)، تجزیهوتحلیل پیشبینیکننده (Predictive) و تجزیهوتحلیل تجویزی (Prescriptive) نام دارند.
تجزیهوتحلیل توصیفی: تجزیهوتحلیل توصیفی یک روش سودمند برای کشف الگوها در بخش خاصی از مجموعه مشتریان است. ضمن آنکه با استفاده از روش تحلیل توصیفی امکان سادهکردن دادهها وجود دارد و حتی این امکان وجود دارد که دادههای گذشته را به شکل خواندنی خلاصهسازی کرد. در روش فوق روندها جزئیات بیشتری ارائه میشود و بهعنوان یک ابزار کمکی برای ایجاد گزارشهایی مانند گزارش درآمد یک شرکت، سود، فروش و سایر موارد به کار میرود. آمار خلاصه (Summary Statistics)، خوشهبندی (Clustering) و قواعد وابستگی (Association Rule) همگی جز روشهای تجزیهوتحلیل توصیفی هستند و برای تحلیل سبد بازار استفاده میشوند.
تجزیهوتحلیل تشخیصی: برای تشخیص مشکل استفاده میشود. به بیان دقیقتر، در روش فوق بینشی دقیق و عمیق در مورد علت اصلی مشکل ارائه میشود. اگر دانشمندان داده (Data Scientist) در نظر داشته باشند، دلایل پنهان یک اتفاق خاص را درک کنند از روش فوق استفاده میکنند. از روشهای زیرمجموعه روش تشخصی باید به تکنیک شکستن مسئله (Drill Down)، دادهکاوی، بازیابی دادهها (Data Recovery)، تحلیل رویگردانی دلیل (Churn Reason Analysis) و تجزیهوتحلیل نمرات سلامت مشتری (Health Score Analysis) اشاره کرد.
تجزیهوتحلیل پیشبینیکننده: در روش فوق سعی در پیشبینی حوادث آینده است. این اتفاقات ممکن است مواردی مثل روندهای بازار، روندهای مصرفکننده و سایر رویدادهای مرتبط با بازار باشند. این تجزیهوتحلیل با بهکارگیری دادههای گذشته و زمان حال برای پیشبینی وقایع استفاده میشود. تجزیهوتحلیل پیشگویانه یکی از رایجترین نوع تحلیلهای تجاری است. علاوه بر کاربرد تجزیهوتحلیل پیشگویانه برای ارائهدهندگان خدمات، این روش تحلیلی برای مصرفکنندگان نیز کاربرد دارد. در روش مذکور پس از پیگیری فعالیتهای گذشته و تعیین نقطه مبنا، کارهایی پیشبینی میشوند که باید در آینده انجام شوند. در روش مذکور از مدلهای دادهکاوی، هوش مصنوعی و یادگیری ماشین برای تحلیل دادههای جاری و پیشبینی اتفاقات احتمالی در سناریوهای خاص استفاده میشود.
تجزیهوتحلیل تجویزی: یکی دیگر از روشهای کارآمد در حوزه بزرگدادهها است. تجزیهوتحلیل تجویزی گام پس از تجزیهوتحلیل پیشگویانه است. در روش فوق، ابتدا اقدامات احتمالی در نظر گرفته شده و بررسی میشوند و در ادامه بر اساس نتایج تحلیلهای تجویزی و پیشگویانه یک مجموعهدادههای معین، پیشنهادها ارائه میشوند. تجزیهوتحلیل تجویزی از ادغام دادهها و قوانین تجاری مختلف پدید میآید و اجازه میدهد دادهها هم بهصورت داخلی یعنی از طریق ورودیهای سازمانی و هم بهصورت خارجی یعنی از طریق بینش شبکههای اجتماعی جمعآوری شوند.
مدل 3V در حوزه بزرگدادهها چیست؟
در مدل 3V، سه سنجه مهم بزرگدادهها بررسی شده و با کمک این مدل، اساس کار بزرگدادهها مشخص میشود. بهعبارتدیگر، از طریق بهکارگیری سه ویژگی مدل V3، نحوه ارزیابی بزرگدادهها و تفاوتهای عمده میان بزرگدادهها و دادههای سنتی مشخص میشوند. به طور معمول، مدل V3 سه ویژگی شاخص به شرح زیر دارد:
حجم (Volume): همانگونه که اشاره شد از ویژگیهای شاخص بزرگدادهها است. آمارها نشان میدهند روزانه حدود 5.2 کوینتیلیون (Quintillion) بایت داده ایجاد میشود که ۱۰به توان ۱۸است. به این ترتیب، داشتن دادهها با حجم ترابایت یا پتابایت در دستگاههای ذخیرهسازی و سرورهای برخی از شرکتها دیگر عجیب نیست.
سرعت: رشد و افزایش دادهها و به دنبال آن، نقش برجسته و مهم دادهها در دنیای کسبوکار باعث تغییر دیدگاهها نسبت به دادهها شده است. در واقع، همزمان با تغییر الگوی جمعآوری دادهها، این امکان است که از دادهها به عنوان یک ابزار کمکی استفاده شود. در مدل ۳V مفهوم سرعت (Velocity) برای اندازهگیری میزان سرعت ورود دادهها استفاده میشود. برخی از دادهها بلادرنگ (Real-time) و برخی به شکل دستهای وارد میشوند. با توجه به اینکه سرعت انتقال دادهها در هر پلتفرمی تفاوت دارد، مهم است که بدون داشتن همه حقایق و ارقام، اعمالی همچون تعمیم، کاستن یا نتیجهگیری سریع انجام نشوند.
تنوع (Variety): در گذشته دادهها یک مرتبه از مکانی جمعآوری و در یک قالب خاص ارائه میشدند. این دادهها به شکل فایلهای پایگاه داده و فایلهای اکسل، اکسس و CSV بودند. امروزه دادهها به شکلهای غیر رایج مثل ویدئو، متن، فایل pdf و گرافیک در شبکههای اجتماعی و از طریق فناوریهایی مانند دستگاههای پوشیدنی (Wearable Devices) تولید یا جمعآوری میشوند. درحالیکه دادهها با چنین قالبهایی بسیار کاربردی و مفید هستند، اما برای تحلیل و مدیریت دادههای ورودی به مهارتهای تحلیلی بیشتری نیاز است و به دنبال آن، کار بیشتری باید انجام شود. تنوع به چارچوبهای مختلفی اشاره دارد که دادهها در قالب آنها پدید میآیند. به طور مثال، تصاویر، ویدئوها، فایلهای صوتی، ایمیلها، اسناد، کتابها، ارائهها و توییتهای توییتر همگی داده هستند.
بزرگدادهها چه کاربردی دارند؟
همانگونه که اشاره شد، بزرگدادهها از حوزههای تأثیرگذار صنعت فناوری اطلاعات هستند. به همین دلیل در صنایع مختلفی کاربرد دارند. از جمله این صنایع باید به بانکداری و اوراق بهادار، دیجیتال مارکتینگ، ارتباطات، رسانه و سرگرمی، حوزه بهداشت و سلامت، سیستمهای آموزشی، تولید و منابع طبیعی، خدمات دولتی، خدمات بیمه، خردهفروشی و عمدهفروشی، حملونقل و انرژی و خدمات اشاره کرد.
چرا بزرگدادهها اهمیت دارند؟
تحلیل بزرگدادهها انقلاب بزرگی در زمینه فناوری اطلاعات ایجاد کرده است. بهطوری که عملکرد شرکتهای مختلف از طریق تحلیل دادهها بهبود پیدا میکند. اصلیترین عامل در این زمینه همانگونه که اشاره شد سه ویژگی کلیدی بزرگدادهها یعنی حجم، سرعت و تنوع بالا و در ادامه تکنیکهای تحلیلی مختلف مثل یادگیری ماشین دادهکاوی، پردازش زبان طبیعی و آمار است. از طریق بهکارگیری بزرگدادهها میتوان عملیات مختلفی در یک پلتفرم واحد انجام داد. به طور مثال، امکان ذخیرهسازی ترابایتهایی از دادهها، پیشپردازش و مصورسازی آنها با کمک چند ابزار بزرگ دادهها وجود دارد. برای تحلیل دادهها برای کسب و کار باید اعمالی مانند استخراج داده (Data Extraction)، آمادهسازی داده و ترکیب آنها انجام شوند.
کلام آخر
در مجموع باید بگوییم که تحلیل بزرگ دادهها به سازمانها اجازه میدهد با دادههای خود به شکل کارآمدتری کار کنند و این دادهها را برای شناسایی فرصتهای جدید به کار گیرند. امروزه تکنیکها و الگوریتمهای متفاوتی برای پیشبینی دادهها وجود دارند که برای موفقیت آینده شرکت میتوان از آنها استفاده کرد، بهطوری که به خطدهی استراتژیهای تجاری و سودآوری بیشتر کمک فراوانی کنند.
منبع: shabakemag