بزرگ داده‌‌ها یا داده‌ها کدامیک بهتر است؟

adminآخرین به روز رسانی: ۳۰ تیر ۱۴۰۳

۰ ۲ زمان تقریبی مطالعه ۶ دقیقه

اگر از شما سؤال کنند یک سیب بزرگ دوست دارید یا یک سیب کوچک، کدام‌یک را انتخاب می‌کنید، بدون شک سیب بزرگ را انتخاب می‌کنید، چرا سیب بزرگ‌تر را انتخاب می‌کنید؟

به خاطر داده‌ها، از طریق نگاه کردن به سیب‌هایی که در گذشته در فروشگاه‌ها دیده‌اید. نکته اینجا است که داده‌های بیشتر فقط دیدِ وسیع‌تر ارائه نمی‌کنند، بلکه داده‌های بیشتر به ما اجازه می‌دهند شناخت دقیق‌تر به دست آوریم و اجازه می‌دهند متفاوت ببینیم.

احتمالاً همۀ شما واژۀ بزرگ داده‌ها را شنیده‌اید. امروزه اعتیاد زیادی نسبت به این واژه به وجود آمده و همگان درباره آن صحبت می‌کنند، زیرا بزرگ داده‌ها به ابزار بسیار مهمی برای پیشرفت جامعه تبدیل شده‌اند. در گذشته، ما به داده‌های کوچک نگاه می‌کردیم و فکر می‌کردیم چطور می‌شود که دنیا را درک کرد و حالا ما حجم عظیمی از این داده‌ها را داریم که خیلی بیشتر از آن چیزی است که در گذشته داشته‌ایم. نکته‌ای که امروزه متوجه می‌شویم این است که وقتی مقدار زیادی داده داریم، اساساً قادر به انجام کارهایی هستیم که با داشتن داده‌های کم قادر به انجام آن‌ها نبودیم.

نکته جدید در مورد بزرگ داده‌ها چیست؟ برای پاسخ به این سؤال به این فکر کنید که اطلاعات در گذشته به چه شکلی بودند؟ در سال ۱۹۰۸، روی جزیرۀ کِرِت، باستان شناسان لوحی رُسی کشف کردند. عمر آن را ۲۰۰۰ سال قبل از میلاد تخمین زدند، یعنی ۴۰۰۰ سال. نوشته‌هایی روی این لوح هست، اما اِشرافی به معانی‌اش نداریم. کاملاً یک رازه. اما نکته این است که اطلاعات 4000 سال پیش به این شکل بودند. جامعه اطلاعات را به این شکل نگهداری و منتقل می‌کرد.

امروز می‌توانیم اطلاعات بیشتری را ذخیره کنیم، بیشتر از گذشته. جستجوی آن‌ها راحت‌تر شده، و کپی کردن، پردازش و به اشتراک‌گذاری داده‌ها ساده‌تر از قبل شده است. ما می‌توانیم دوباره از این اطلاعات برای مصارفی که وقتی مشغول جمع‌آوری داده‌ها بودیم و حتی تصورش را هم نمی‌کردیم استفاده کنیم. به همین منوال، داده‌‌ها تغییر کردند و از حالت ایستا به پویا تغییر شکل دادند. به طور مثال، لوح مکشوفه از کِرِت چهارهزار ساله، سنگین است، ظرفیت زیادی ندارد و اطلاعات آن متغیر نیست. ‌در حالی که امروزه می‌توانید اطلاعات چند گیگابایتی را روی یک حافظه به ابعاد ناخن با سرعت بالا کپی کرده و انتقال دهید.

یکی از دلایل وجود خیل اطلاعات امروز جمع‌آوری چیزهایی است که ما همیشه اطلاعات را روی آن‌ها جمع می‌کردیم. دلیل دیگر این که ما چیزهایی جمع‌آوری می‌کنیم که همیشه جنبۀ اطلاعاتی داشته‌اند، اما هرگز به قالب داده تبدیل نشده‌اند و ما آن‌ها را به داده تبدیل می‌کنیم. برای مثال به موقعیت جغرافیایی فکر کنید. مثلاً مارتین لوثِر. اگر بخواهیم بدانیم سال ۱۵۰۰ مارتین لوثر کجا بوده، باید همیشه دنبالش می‌کردیم، شاید با یک قلم پر و یک دوات تا ثبتش کنیم. اما فکر کنید امروز چگونه است. می‌دانید در جایی، احتمالاً در پایگاه دادۀ یک شرکت مخابراتی، صفحه گسترده یا حداقل پایگاه داده‌ای وجود دارد که اطلاعات را ذخیره می‌کند. همۀ مکان‌هایی که آنجا بوده را می‌دانیم. اگر تلفن همراه داشته باشید، و تلفن شما جی.پی.اس داشته باشد، یا حتی نداشته باشد، اطلاعات شما را ذخیره می‌کند. به این ترتیب، موقعیت جغرافیایی به داده تبدیل می‌شود.

حالا برای مثال به موردِ حالت بدن فکر کنید. ‌حالتی که الان نشسته‌اید. حالتی که شما نشستید، حالتی که شما نشستید، حالتی نیست که همیشه می‌نشینید. اگر حسگری به شما و صندلی‌هایی که روی آن نشسته بودید متصل بود، می‌توانستیم نموداری مختص شما ایجاد کنم. چیزی شبیه اثر انگشت! ولی اثر انگشت شما نیست.

این کار چه فایده‌ای دارد؟ محققان در توکیو از این اطلاعات به عنوان یک دستگاه ضد سرقت خودرو استفاده می‌کنند. به این شکل که دزد پشت فرمان می‌نشیند، سعی می‌کند خودرو رو بدزد و خودرو تشخیص می‌دهد که راننده، ذی‌صلاح نیست و ممکن است موتور خاموش بشود تا شما کلمه عبور را روی داشبورد وارد کنید و بگویید “هی! من مجوز رانندگی دارم”. عالی است.

ارزش داده‌ها بزرگ چیست؟

خوب، کمی فکر کنید. اطلاعات بیشتری دارید. می‌توانید کارهایی انجام دهید که قبلاً نمی‌توانستید. یکی از تأثیرگذارترین جاهایی که این مفهوم کاربردی است در حوزه یادگیری ماشین است. یادگیری ماشین، شاخه‌ای از هوش مصنوعی است که خود شاخه‌ای از علوم رایانه است. ایدۀ کلی به این شکل است که به جای آموزش رایانه برای کاری، ما خیلی ساده، داده‌ها را کنار مشکل قرار می‌دهیم و به رایانه می‌گویم، خودت مسئله را حل کن. دانستن منشأ این مسئله، به درکش کمک می‌کند. در سال ۱۹۵۰، یک دانشمند رایانه در آی.بی.ام به نام آرتور ساموئل به چکِرز علاقه داشت و برنامه‌ای برایش نوشت تا بتواند مقابل رایانه بازی کند. او بازی کرد و برد، زیرا رایانه، تنها حرکت‌های قانونی را می دانست. آرتور ساموئل چیز دیگر می‌دانست. آرتور ساموئل استراتژی می‌دانست. پس یک برنامۀ تکمیلی در کنارش نوشت که پشت زمینه کار کند و این احتمال رو بسنجد که بعد از هر حرکت ترکیب مهره‌های صفحه، به سمت برد یا باخت خواهند رفت. او با رایانه بازی می‌کرد و بازهم برد. سپس آرتور ساموئل رایانه را به گونه‌ای آموزش داد که با خودش بازی کند و داده‌های بیشتر جمع کند. وقتی دقت پیش‌بینی بالا رفت، آرتور ساموئل بازگشت و دومرتبه با رایانه بازی کرد و این مرتبه باخت. این اتفاق چند مرتبه تکرار شد و باعث شد تا آرتور ساموئل ماشینی ابداع کند که از او در توانایی سبقت بگیرد و عملکردی بهتر از او پیدا کند.

این ایدۀ یادگیری ماشین به همه جا رفت. فکر می‌کنید ماشین‌های بدون راننده از کجا پدید آمدند؟ آیا ما جامعه‌ای هستیم که تمام قوانین جاده رو به نرم‌افزار بدهیم؟ قطعاً این‌گونه نیست! آیا حافظه‌ها بهتر هستند؟ الگوریتم‌ها سریع‌تر هستند، پردازنده‌ها بهتر هستند؟ نه! همۀ اینها مهم‌اند، اما پاسخ ما نیستند. پاسخ این است که ما ماهیت مسئله رو تغییر دادیم. ماهیت مسئله رو از این که سعی کنیم آشکارا و به جزء به رایانه بگیم که چطور رانندگی کنه، به این شکل تغییر دادیم: این مقدار اطلاعات در مورد خودرو هست. خودت حلش کن. خودت بفهم که این چراغ راهنماییه که چراغ راهنما قرمزه و نه سبز، که این یعنی باید بایستی و جلو نری.

یادگیری ماشین، پایۀ بسیاری از کارهای آنلاین ما است. موتورهای جستجو، الگوریتم شخصی‌سازی آمازون، مترجم رایانه‌ای، سیستم‌های تشخیص صدا. محققین اخیراً به مسئلۀ بافت‌برداری پرداختند، بافت‌های سرطانی. آن‌ها از رایانه خواستند که با مشاهدۀ داده‌ها و میزان نجات بررسی کند که آیا در واقع سلول‌ها سرطانی‌اند یا نه و مطمئناً، با افزودن داده به آن، به الگوریتم یادگیریِ ماشین، ماشین قادر بود به شناساییِ ۱۲ تا از بهترین نشانه‌های پیش‌بینی که نمونۀ سلول‌های سرطان پستان واقعاً سرطانی‌اند. مسئله: دایرۀ المعارف پزشکی تنها ۹ تای آنان را می‌شناخت. سه تا از ویژگی‌ها، آن‌هایی بودند که مردم نیازی به پیدا کردن آن‌ها نداشتند، اما ماشین آنها را پیدا کرد.

ابعاد تاریکی هم برای دادۀ بزرگ وجود دارد. زندگی‌مان را بهبود می‌بخشد، اما مشکلاتی هم هست، که باید به آنها آگاه باشیم. اولی، ایده ایست که شاید برای این پیش‌بینی‌ها مجازات شویم! به طور مثال، پلیس برای مقاصدش از آن استفاده کند. کمی شبیه فیلم “گزارش اقلیت”. امروزه واژۀ پیش‌بینیِ پلیسی هست یا جرم‌شناسی الگوریتمی که اگر داده‌های زیادی داشته باشیم، مثلاً محل وقوع جرم‌های پیشین، می‌دانیم گشت‌ها را به کجا اعزام کنیم. به نظر منطقی است، اما مشکل این است که مسئله به دادۀ موقعیت ختم نمی شه و به مسائل فردی وارد خواهد شد. چرا از ریزنمرات فردی در دوران دبیرستان استفاده نکنیم؟ شاید باید از این حقایق استفاده کنیم که آیا بیکارند یا نه، اعتبار بانکی‌شان، رفتار وب گردی آن‌ها آیا تا دیروقت بیدارند. دست بندشان، اگر قادر به تشخیص بیوشیمی باشد، تصورات تهاجمی‌شان را نشان خواهد داد. می‌شود الگوریتم‌هایی داشته باشیم که تقریباً کارهایمان را پیش‌بینی کنند و ممکنه قبل از ارتکاب جرم دستگیر شویم. حریم خصوصی، چالش اصلی در عصر دادۀ کوچک بود. در دورۀ دادۀ بزرگ، چالش، حفاظت از اختیار است، انتخاب اخلاقی، ارادۀ انسان وکالت انسان.

مشکل دیگری هم هست: ‌بزرگ داده‌ها ما را بیکار می‌کنند. ‌در قرن حاضر ‌بزرگ داده‌ها و الگوریتم‌ها به مصاف کارمندان و کار حرفه‌ای می‌روند. به همان ترتیب که اتوماسیون کارخانه ها و خطوط تولید در قرن بیستم به مصاف کارگران رفتند. مثلاً تکنسین آزمایشگاه که زیر میکروسکوپ نمونۀ سرطانی می‌بیند و نتیجه می‌گیرد که آیا سرطانی است یا نه. شخص به دانشگاه رفته. شخص املاک می‌خره. او رای می‌دهد. او در جامعه ذینفع است و شغل اون شخص، مثل همۀ ناوگانِ حرفه‌ای‌ها مانند اون شخص، خواهند فهمید که شغلشان کاملاً تغییر کرده یا کاملاً از بین رفته. ما دوست داریم اینگونه فکر کنیم که فناوری بعد از مدتی ایجاد شغل می‌کنه بعد از مدت کوتاه یا موقت جابجایی و این برای ارجاع به انقلاب صنعتی که با اون زندگی می‌کنیم، درسته چون دقیقاً همونیه که اتفاق افتاده. اما چیزی رو در اون آنالیز فراموش کردیم: دسته‌ای از مشاغل هستند که به راحتی از بین می‌رن و بر نمی‌گردند. پس باید دقت کنیم و بزرگ داده‌ها را برای خواسته هامون به کار بگیریم، خواسته‌های انسانی‌مون. باید ارباب این فناوری باشیم، نه بنده‌اش. ما هنوز در ابتدای عصر بزرگ داده‌ها هستیم و صادقانه بگوییم، خیلی خوب نیستیم در ادارۀ داده‌هایی که امروز می‌تونیم جمع کنیم. شرکت‌ها داده‌های زیادی جمع می‌کنند و از آن‌ها استفادۀ نادرست هم می‌کنند، باید این قسمت رو بهبود بدیم و این زمان‌بر است. کمی مشابه چالشی که انسان اولیه با آتش داشت. این یک ابزار است. اما ابزاری که بر اثر استفادۀ نادرست، ما را به آتش می کشد. ‌واقعیت این است که بزرگ داده‌ها روند زندگی، روند کارمان و روند تفکرمان را متحول خواهند کرد. به ما کمک می‌کنند در مدیریت سوابق‌مان در هدایت زندگیِ راضی و خوشحالی باشیم

منبع: مجله شبکه