داده های بزرگ اصطلاحی است که به نوعی از مجموعه داده های بسیار بزرگ یا بیش از حد پیچیده برای برنامه های پردازش داده های سنتی اشاره دارد، با ویژگی هایی نظیر حجم زیاد ، سرعت بالا یا تنوع زیاد.

داده‌های بزرگ به عنوان تجزیه و تحلیل پیشگویانه شناخته شده است. تجزیه و تحلیل پست‌های توییتر و فیس‌بوک، جستجوهای eBay، پیگیری‌های GPS و دستگاه‌های خودپرداز، نمونه‌ای از داده‌های بزرگ هستند. همچنین با توجه به این نکته که ترافیک سریع و در حال رشد داده های تلفن همراه، ترافیک محاسبات ابری و همچنین توسعه سریع فناوری هایی مانند هوش مصنوعی (AI) و اینترنت اشیاء (IoT) در افزایش حجم و پیچیدگی مجموعه داده ها نقش دارند بسیار حایز اهمیت است.
ابزارهای پیشرفته تحلیلی مانند داده کاوی به استخراج ارزش داده ها و تولید بینش جدید تجاری کمک می کنند. ارزش بازار جهانی داده های بزرگ و تجزیه و تحلیل تجارت در سال 2018، نزدیک به 169 میلیارد دلار آمریکا رسید و پیش بینی می شود در سال 2022 به ارزشی معادل 274 میلیارد دلار دست یابد. براساس یک پژوهش از نوامبر 2018 ، 45 درصد از متخصصان صنعت تحقیقات بازار از داده های بزرگ استفاده کرده اند.
انتظار می رود بازار بزرگ داده های جهانی تا سال 2027 به 103 میلیارد دلار آمریکا برسد، یعنی بیش از دو برابر اندازه بازار پیش بینی شده آن در سال 2018.  همچنین بخش نرم افزار با سهم 45 درصد تا سال 2027 به بزرگ ترین بخش بازار داده های بزرگ تبدیل خواهد شد.

مشخصات بیگ دیتا یا داده های بزرگ


حجم
نام بیگ دیتا خود نشان دهنده ی بزرگ بودن اندازه داده است. اندازه داده ها نقش بسیار مهمی در تعیین ارزش اطلاعات ایفا می کند. همچنین، اینکه داده های خاص می توانند در واقع به عنوان یک بیگ دیتا یا داده بزرگ محسوب شوند یا نه، به حجم داده بستگی دارد. از این رو حجم، یکی از ویژگی هایی است که باید در هنگام برخورد با بیگ دیتا مورد توجه قرار گیرد.


تنوع
ویژگی بعدی بیگ دیتا یا داده های بسیار بزرگ تنوع آنهاست.  تنوع، به منابع ناهمگون و ماهیت داده ها، هم ساختار یافته و هم غیر ساختاریافته اشاره دارد. در گذشته، صفحات گسترده و پایگاه های اطلاعاتی تنها منابع اطلاعاتی بودند که توسط بسیاری از نرم افزارها در نظر گرفته می شد. در حال حاضر، داده ها در قالب ایمیل، عکس، ویدئو، دستگاه های مانیتورینگ، فایل های PDF، فایل های صوتی و غیره نیز در برنامه های تجزیه و تحلیل مورد توجه قرار گرفته است. این تنوع داده های ساختار یافته، مسایل خاصی را برای ذخیره سازی، استخراج و تجزیه و تحلیل داده ها نشان می دهد.


سرعت
این ویژگی به سرعت تولید داده ها اشاره دارد. این که داده ها چقدر سریع تولید و پردازش می شوند تا نیازها را برآورده کنند، پتانسیل واقعی داده ها را تعیین می کند. سرعت داده های بزرگ با سرعت جریان داده ها از منابع مانند فرآیندهای کسب و کار، log های کاربرد، شبکه ها و سایت های اجتماعی، حسگرها، دستگاه های تلفن همراه و غیره سرو کار دارد. جریان داده ها گسترده و پیوسته است.


تغییرپذیری
این به ناهماهنگی که می تواند توسط داده ها در زمان نشان داده می شود اشاره می کند، در نتیجه مانع از پردازش و مدیریت موثر داده ها می شود.