اگر از شما سؤال کنند یک سیب بزرگ دوست دارید یا یک سیب کوچک، کدامیک را انتخاب میکنید، بدون شک سیب بزرگ را انتخاب میکنید، چرا سیب بزرگتر را انتخاب میکنید؟
به خاطر دادهها، از طریق نگاه کردن به سیبهایی که در گذشته در فروشگاهها دیدهاید. نکته اینجا است که دادههای بیشتر فقط دیدِ وسیعتر ارائه نمیکنند، بلکه دادههای بیشتر به ما اجازه میدهند شناخت دقیقتر به دست آوریم و اجازه میدهند متفاوت ببینیم.
احتمالاً همۀ شما واژۀ بزرگ دادهها را شنیدهاید. امروزه اعتیاد زیادی نسبت به این واژه به وجود آمده و همگان درباره آن صحبت میکنند، زیرا بزرگ دادهها به ابزار بسیار مهمی برای پیشرفت جامعه تبدیل شدهاند. در گذشته، ما به دادههای کوچک نگاه میکردیم و فکر میکردیم چطور میشود که دنیا را درک کرد و حالا ما حجم عظیمی از این دادهها را داریم که خیلی بیشتر از آن چیزی است که در گذشته داشتهایم. نکتهای که امروزه متوجه میشویم این است که وقتی مقدار زیادی داده داریم، اساساً قادر به انجام کارهایی هستیم که با داشتن دادههای کم قادر به انجام آنها نبودیم.
نکته جدید در مورد بزرگ دادهها چیست؟ برای پاسخ به این سؤال به این فکر کنید که اطلاعات در گذشته به چه شکلی بودند؟ در سال ۱۹۰۸، روی جزیرۀ کِرِت، باستان شناسان لوحی رُسی کشف کردند. عمر آن را ۲۰۰۰ سال قبل از میلاد تخمین زدند، یعنی ۴۰۰۰ سال. نوشتههایی روی این لوح هست، اما اِشرافی به معانیاش نداریم. کاملاً یک رازه. اما نکته این است که اطلاعات 4000 سال پیش به این شکل بودند. جامعه اطلاعات را به این شکل نگهداری و منتقل میکرد.
امروز میتوانیم اطلاعات بیشتری را ذخیره کنیم، بیشتر از گذشته. جستجوی آنها راحتتر شده، و کپی کردن، پردازش و به اشتراکگذاری دادهها سادهتر از قبل شده است. ما میتوانیم دوباره از این اطلاعات برای مصارفی که وقتی مشغول جمعآوری دادهها بودیم و حتی تصورش را هم نمیکردیم استفاده کنیم. به همین منوال، دادهها تغییر کردند و از حالت ایستا به پویا تغییر شکل دادند. به طور مثال، لوح مکشوفه از کِرِت چهارهزار ساله، سنگین است، ظرفیت زیادی ندارد و اطلاعات آن متغیر نیست. در حالی که امروزه میتوانید اطلاعات چند گیگابایتی را روی یک حافظه به ابعاد ناخن با سرعت بالا کپی کرده و انتقال دهید.
یکی از دلایل وجود خیل اطلاعات امروز جمعآوری چیزهایی است که ما همیشه اطلاعات را روی آنها جمع میکردیم. دلیل دیگر این که ما چیزهایی جمعآوری میکنیم که همیشه جنبۀ اطلاعاتی داشتهاند، اما هرگز به قالب داده تبدیل نشدهاند و ما آنها را به داده تبدیل میکنیم. برای مثال به موقعیت جغرافیایی فکر کنید. مثلاً مارتین لوثِر. اگر بخواهیم بدانیم سال ۱۵۰۰ مارتین لوثر کجا بوده، باید همیشه دنبالش میکردیم، شاید با یک قلم پر و یک دوات تا ثبتش کنیم. اما فکر کنید امروز چگونه است. میدانید در جایی، احتمالاً در پایگاه دادۀ یک شرکت مخابراتی، صفحه گسترده یا حداقل پایگاه دادهای وجود دارد که اطلاعات را ذخیره میکند. همۀ مکانهایی که آنجا بوده را میدانیم. اگر تلفن همراه داشته باشید، و تلفن شما جی.پی.اس داشته باشد، یا حتی نداشته باشد، اطلاعات شما را ذخیره میکند. به این ترتیب، موقعیت جغرافیایی به داده تبدیل میشود.
حالا برای مثال به موردِ حالت بدن فکر کنید. حالتی که الان نشستهاید. حالتی که شما نشستید، حالتی که شما نشستید، حالتی نیست که همیشه مینشینید. اگر حسگری به شما و صندلیهایی که روی آن نشسته بودید متصل بود، میتوانستیم نموداری مختص شما ایجاد کنم. چیزی شبیه اثر انگشت! ولی اثر انگشت شما نیست.
این کار چه فایدهای دارد؟ محققان در توکیو از این اطلاعات به عنوان یک دستگاه ضد سرقت خودرو استفاده میکنند. به این شکل که دزد پشت فرمان مینشیند، سعی میکند خودرو رو بدزد و خودرو تشخیص میدهد که راننده، ذیصلاح نیست و ممکن است موتور خاموش بشود تا شما کلمه عبور را روی داشبورد وارد کنید و بگویید “هی! من مجوز رانندگی دارم”. عالی است.
ارزش دادهها بزرگ چیست؟
خوب، کمی فکر کنید. اطلاعات بیشتری دارید. میتوانید کارهایی انجام دهید که قبلاً نمیتوانستید. یکی از تأثیرگذارترین جاهایی که این مفهوم کاربردی است در حوزه یادگیری ماشین است. یادگیری ماشین، شاخهای از هوش مصنوعی است که خود شاخهای از علوم رایانه است. ایدۀ کلی به این شکل است که به جای آموزش رایانه برای کاری، ما خیلی ساده، دادهها را کنار مشکل قرار میدهیم و به رایانه میگویم، خودت مسئله را حل کن. دانستن منشأ این مسئله، به درکش کمک میکند. در سال ۱۹۵۰، یک دانشمند رایانه در آی.بی.ام به نام آرتور ساموئل به چکِرز علاقه داشت و برنامهای برایش نوشت تا بتواند مقابل رایانه بازی کند. او بازی کرد و برد، زیرا رایانه، تنها حرکتهای قانونی را می دانست. آرتور ساموئل چیز دیگر میدانست. آرتور ساموئل استراتژی میدانست. پس یک برنامۀ تکمیلی در کنارش نوشت که پشت زمینه کار کند و این احتمال رو بسنجد که بعد از هر حرکت ترکیب مهرههای صفحه، به سمت برد یا باخت خواهند رفت. او با رایانه بازی میکرد و بازهم برد. سپس آرتور ساموئل رایانه را به گونهای آموزش داد که با خودش بازی کند و دادههای بیشتر جمع کند. وقتی دقت پیشبینی بالا رفت، آرتور ساموئل بازگشت و دومرتبه با رایانه بازی کرد و این مرتبه باخت. این اتفاق چند مرتبه تکرار شد و باعث شد تا آرتور ساموئل ماشینی ابداع کند که از او در توانایی سبقت بگیرد و عملکردی بهتر از او پیدا کند.
این ایدۀ یادگیری ماشین به همه جا رفت. فکر میکنید ماشینهای بدون راننده از کجا پدید آمدند؟ آیا ما جامعهای هستیم که تمام قوانین جاده رو به نرمافزار بدهیم؟ قطعاً اینگونه نیست! آیا حافظهها بهتر هستند؟ الگوریتمها سریعتر هستند، پردازندهها بهتر هستند؟ نه! همۀ اینها مهماند، اما پاسخ ما نیستند. پاسخ این است که ما ماهیت مسئله رو تغییر دادیم. ماهیت مسئله رو از این که سعی کنیم آشکارا و به جزء به رایانه بگیم که چطور رانندگی کنه، به این شکل تغییر دادیم: این مقدار اطلاعات در مورد خودرو هست. خودت حلش کن. خودت بفهم که این چراغ راهنماییه که چراغ راهنما قرمزه و نه سبز، که این یعنی باید بایستی و جلو نری.
یادگیری ماشین، پایۀ بسیاری از کارهای آنلاین ما است. موتورهای جستجو، الگوریتم شخصیسازی آمازون، مترجم رایانهای، سیستمهای تشخیص صدا. محققین اخیراً به مسئلۀ بافتبرداری پرداختند، بافتهای سرطانی. آنها از رایانه خواستند که با مشاهدۀ دادهها و میزان نجات بررسی کند که آیا در واقع سلولها سرطانیاند یا نه و مطمئناً، با افزودن داده به آن، به الگوریتم یادگیریِ ماشین، ماشین قادر بود به شناساییِ ۱۲ تا از بهترین نشانههای پیشبینی که نمونۀ سلولهای سرطان پستان واقعاً سرطانیاند. مسئله: دایرۀ المعارف پزشکی تنها ۹ تای آنان را میشناخت. سه تا از ویژگیها، آنهایی بودند که مردم نیازی به پیدا کردن آنها نداشتند، اما ماشین آنها را پیدا کرد.
ابعاد تاریکی هم برای دادۀ بزرگ وجود دارد. زندگیمان را بهبود میبخشد، اما مشکلاتی هم هست، که باید به آنها آگاه باشیم. اولی، ایده ایست که شاید برای این پیشبینیها مجازات شویم! به طور مثال، پلیس برای مقاصدش از آن استفاده کند. کمی شبیه فیلم “گزارش اقلیت”. امروزه واژۀ پیشبینیِ پلیسی هست یا جرمشناسی الگوریتمی که اگر دادههای زیادی داشته باشیم، مثلاً محل وقوع جرمهای پیشین، میدانیم گشتها را به کجا اعزام کنیم. به نظر منطقی است، اما مشکل این است که مسئله به دادۀ موقعیت ختم نمی شه و به مسائل فردی وارد خواهد شد. چرا از ریزنمرات فردی در دوران دبیرستان استفاده نکنیم؟ شاید باید از این حقایق استفاده کنیم که آیا بیکارند یا نه، اعتبار بانکیشان، رفتار وب گردی آنها آیا تا دیروقت بیدارند. دست بندشان، اگر قادر به تشخیص بیوشیمی باشد، تصورات تهاجمیشان را نشان خواهد داد. میشود الگوریتمهایی داشته باشیم که تقریباً کارهایمان را پیشبینی کنند و ممکنه قبل از ارتکاب جرم دستگیر شویم. حریم خصوصی، چالش اصلی در عصر دادۀ کوچک بود. در دورۀ دادۀ بزرگ، چالش، حفاظت از اختیار است، انتخاب اخلاقی، ارادۀ انسان وکالت انسان.
مشکل دیگری هم هست: بزرگ دادهها ما را بیکار میکنند. در قرن حاضر بزرگ دادهها و الگوریتمها به مصاف کارمندان و کار حرفهای میروند. به همان ترتیب که اتوماسیون کارخانه ها و خطوط تولید در قرن بیستم به مصاف کارگران رفتند. مثلاً تکنسین آزمایشگاه که زیر میکروسکوپ نمونۀ سرطانی میبیند و نتیجه میگیرد که آیا سرطانی است یا نه. شخص به دانشگاه رفته. شخص املاک میخره. او رای میدهد. او در جامعه ذینفع است و شغل اون شخص، مثل همۀ ناوگانِ حرفهایها مانند اون شخص، خواهند فهمید که شغلشان کاملاً تغییر کرده یا کاملاً از بین رفته. ما دوست داریم اینگونه فکر کنیم که فناوری بعد از مدتی ایجاد شغل میکنه بعد از مدت کوتاه یا موقت جابجایی و این برای ارجاع به انقلاب صنعتی که با اون زندگی میکنیم، درسته چون دقیقاً همونیه که اتفاق افتاده. اما چیزی رو در اون آنالیز فراموش کردیم: دستهای از مشاغل هستند که به راحتی از بین میرن و بر نمیگردند. پس باید دقت کنیم و بزرگ دادهها را برای خواسته هامون به کار بگیریم، خواستههای انسانیمون. باید ارباب این فناوری باشیم، نه بندهاش. ما هنوز در ابتدای عصر بزرگ دادهها هستیم و صادقانه بگوییم، خیلی خوب نیستیم در ادارۀ دادههایی که امروز میتونیم جمع کنیم. شرکتها دادههای زیادی جمع میکنند و از آنها استفادۀ نادرست هم میکنند، باید این قسمت رو بهبود بدیم و این زمانبر است. کمی مشابه چالشی که انسان اولیه با آتش داشت. این یک ابزار است. اما ابزاری که بر اثر استفادۀ نادرست، ما را به آتش می کشد. واقعیت این است که بزرگ دادهها روند زندگی، روند کارمان و روند تفکرمان را متحول خواهند کرد. به ما کمک میکنند در مدیریت سوابقمان در هدایت زندگیِ راضی و خوشحالی باشیم
منبع: مجله شبکه
اگر ین مطلب براتون مفید بود پیشنهاد میکنم مقاله “استفاده از هوش مصنوعی در مراکز داده” را مطلعه کنید