یکی از مهمترین وظایف متخصصان هوش مصنوعی و یادگیری ماشین جمعآوری و تحلیل دادهها است. این کار هر در تعریف ورودیهای مدل و…
چگونه دادهها را جمعآوری و تحلیل کنیم؟
یکی از مهمترین وظایف متخصصان هوش مصنوعی و یادگیری ماشین جمعآوری و تحلیل دادهها است. این کار هر در تعریف ورودیهای مدل و هم در بهدستآوردن معیار ارزیابی برای آزمایشها نیاز است. در سادهترین تعریف، جمعآوری دادهها فرایند بهدستآوردن دادهها درباره پدیده موردمطالعه است.
روشهای مختلفی برای کسب دادهها وجود دارد. در برخی موارد، دادهها در اسناد قالببندی شده در دسترس قرار دارند و مسئله در واقع پیداکردن و دسترسی به آنها است. در موارد دیگر، دادهها با استفاده از پرسشنامهها، بررسیهای میدانی و آزمایشهای فیزیکی به دست میآید. در پروژههای جامع و بزرگتر، مثل مدلهای شهری یا اقتصادی، دادههای موردنیاز را میتوان از اسناد موجود و معتبر به دست آورد. منابع داده رایج برای برخی مدلها گزارشهای سرشماری، چکیده آمار منتشر شده توسط ارگانهای دولتی و منابعی ازایندست است. در پروژههای مربوط به سیستمهای تجاری، یکی از منابع باارزش دادهها اسناد حسابداری و مهندسی شرکتها است. این اسناد گاه برای بهدستآوردن تخمین تقاضا برای محصول، هزینه تولید و دیگر دادههای مرتبط مفید هستند. بااینحال، باید دقت کنید که تنها نقطه شروع هستند. پرسشنامهها و بررسیهای میدانی نیز روشهایی بالقوه برای بهدستآوردن دادههای مرتبط با پروژههای صنعتی هستند. با ظهور سامانههای جمعآوری دادههای آنلاین و مستمر، کسب دادهها به فرایندی نیمهپیوسته تبدیل شده، زیرا بهراحتی دادهها در پایگاهداده یا اسناد کامپیوتری به شکل ساختیافته در دسترس قرار میگیرند. به طور معمول، آزمایشهای فیزیکی پر هزینه و زمانبر هستند، زیرا مستلزم اندازهگیری، ثبت و ویرایش دادهها هستند. علاوه بر این در برنامهریزی این نوع آزمایشها باید دقت زیادی به خرج دهید تا اطمینان حاصل کنید شرایط آزمایش توصیفکننده شرایط واقعی است و دادهها بهدرستی ثبت شدهاند.
بااینحال، در برخی موارد، ممکن است دادههای در دسترس نباشد یا بودجه موجود یا ماهیت سیستم مانع از انجام آزمایش شود. یک مثال روشن در این زمینه طرح پیشنهادی مکانیابی در یک خط مونتاژ است. یک روش کسب دادهها در چنین سناریوهایی، استفاده از دادههای متقارن یا از پیش در دسترس است. در روش مذکور، برآوردهای مدتزمانهای فعالیت با استفاده از جداول دادههای استاندارد انجام میشود. روش دیگر استفاده از دادهها بهدستآمده از فعالیتهای مشابه یا همتراز است.
در هر دو حالت، جمعآوری دادهها برای تعریف ورودهای مدل و جمعآوری دادهها برای ارزیابی عملکرد سیستم با استفاده از مدل، ما مشکلی به نام تبدیل دادهها خام به شکل قابلاستفاده را روبروی خود مشاهده میکنیم. به همین دلیل روشهایی که برای خلاصهسازی یا توصیف مشخصهای مهم مجموعهای از دادههای طراحی شده برای ما اهمیت دارد. این روشها دادهها را در ازای حذف مقداری از اطلاعات خلاصه میکنند.
گروهبندی دادهها
یک روش برای تبدیل دادهها به شکلی که پردازش آنها را سادهتر میکند اشاره دارد. گروهبندی دادهها به شکل دستهها و مجموعههای کوچکتر انجام میشود. در ادامه دادهها با جدولبندی و تعیین گروهی که باید در آن قرار گیرند خلاصه میشوند. این نوع جدول را جدول توزیع فراوانی نیز مینامند. جدولی که توصیف خوبی از اطلاعات ارائه میکند. انواع مختلفی از جدول توزیع فراوانی وجود دارد که برای نمایش دادههای گروهبندی شده مفید هستند. یک نوع از آنها فراوانیهای تجمعی است که از به هم افزودن متوالی فراوانیها در جدول فراوانی به دست میآید.
متخصصان هوش مصنوعی ابزار دیگری به نام توزیع فراوانی در اختیار دارند که از طریق تقسیم مقدار دادهها به مجموعه کل به دست میآید. جداول توزیع فراوانی هنگام مقایسه دو یا چند توزیع آماری مفید هستند. توزیع فراوانی و تجمعی گاهی برای افزایش تفسیرپذیری دادهها به شکل تصویری نشان داده میشود. متداولتر نوع ارائه تصویری، هیستوگرام است که فراوانیهای هر دو گروه را به شکل مستطیلهای که طولشان نشانگر فراوانی گروه است نشان میدهد.
نکاتی مهم در زمان تهیه جدول توزیع فراوانی
ابتدا باید تعداد گروهها و حدهای بالا و پایین برای هر گروه را مشخص کنید. این انتخابها به ماهیت و کاربرد نهایی دادهها بستگی دارد.
تا جایی که ممکن است عرض گروهها برابر در نظر بگیرید. البته در این زمینه استثناهایی نیاز وجود دارد.
فواصل گروهها نباید رویهم منطبق باشند و هر نقطه از اطلاعات باید تنها به یک گروه مرتبط باشد.
به طور معمول حداقل 5 و حداکثر 20 گروه استفاده شود.
برآورد پارامتر
اگر مجموعهای از دادهها شامل تمام مشاهدات ممکن از متغیر تصادفی هستند از آن با عنوان جمعیت (Population) نامبرده میشود و اگر تنها شامل بخشی از مشاهدات باشند بهعنوان نمونه (Sample) از آن نامبرده میشود. روش دیگر برای خلاصهسازی مجموعهای از دادهها درنظرگرفتن دادهها بهعنوان نمونهای است که برای تخمین پارامترهای جمعیت مربوطه از آن استفاده میشود. از پارامترهای مربوط به جمعیت که بیشتر از همه استفاده میشوند باید به میانگین یا مقیاس مرکزیت و واریانس که مقیاس پراکندگی است اشاره کرد. در برآورد پارامترهای جمعیت از طریق دادههای نمونه باید به دو نکته مهم دقت کنید. اول آنکه ما به ثبت نمونه و فقط به مقدار هر مشاهده بدون توجه به زمان آن میپردازیم. آماری که از ثبت نمونههای مستقل از زمان به دست میآید به آمار بر پایه مشاهده معروف هستند. نکته دوم برای متغیرهایی است که مقادیر آنها باتوجهبه زمان تعریف شدهاند.
تخمین توزیع
درحالیکه خواص توزیعهای فرضی به مدلساز کمک میکند توزیع فرضی مناسبی را انتخاب کند، اما بهتر است که این فرض با یک یا چند آزمون آزمایش شود. آزمونهای کای – مربع (Chi-square) و کالمگروف اسمیرنوف (Kolmogorov Smirnov) آزمونهای شناخته شده در این زمینه هستند.
مدل شبیهسازی
برای تهیه مدل شبیهسازی، مدلساز باید چارچوب ذهنی برای توصیف سیستم انتخاب کند. این چارچوب یا دورنما توصیفکننده نگرش کلی است که در آن روابط کارکردی سیستم را میتوان مشاهده و توصیف کرد. مدلهای سیستمها را میتوان به دو گروه با تغییرات گسسته و تغییرات پیوسته تقسیم کرد. دو اصطلاح مذکور به مدل و نه به سیستم واقعی مرتبط هستند. هر سیستم را میتوان به شکل تغییرات گسسته و به شکل تغییرات پیوسته مدل کرد. در بیشتر شبیهسازیها، زمان مهمترین متغیر مستقل است و دیگر متغیرهای شبیهسازی، تابعی از زمان و متغیرهای وابسته هستند. در بحث شبیهسازی، گسسته و پیوسته توصیفکننده رفتار متغیرهای وابسته هستند. در شبیهسازی گسسته، متغیرهای وابسته در مقاطع ویژهای از زمان که زمانهای رخداد نام دارد تغییر میکنند. در چنین مدلهایی، متغیر زمان، بسته به اینکه متغیرهای وابسته در هر نقطه از زمان بتوانند اتفاق افتند یا در مقاطعی ویژه از زمان رخ دهند پیوسته یا گسسته هستند.
در شبیهسازی پیوسته، متغیرهای وابسته مدل ممکن است در طول زمان شبیهسازی به طور دایم تغییر کنند. اگر مقادیر متغیرهای سیستم فقط در بازههای زمانی مشخصی در دسترس باشند، شبیهسازی از نظر زمان به شکل گسسته انجام میشود و اگر مقادیر متغیرهای سیستم در هر لحظه از زمان در دسترس باشند شبیهسازی از نظر زمان به شکل پیوسته است. البته حالت دیگری نیز وجود دارد که به نام شبیهسازی ترکیبی از آن نامبرده میشود. در این روش متغیرهای وابسته مدل ممکن است به طور گسسته، پیوسته یا پیوسته با پرشهای گسسته تغییر کنند. در اینجا متغیر زمان ممکن است پیوسته یا گسسته باشد.
منبع: Shabakeh-mag