چگونه داده‌ها را جمع‌آوری و تحلیل کنیم؟

adminآخرین به روز رسانی: ۱۹ اردیبهشت ۱۴۰۳

۰ ۳ زمان تقریبی مطالعه ۴ دقیقه

آن چه در این محتوا میخوانید پنهان

1 گروه‌بندی داده‌ها

2 نکاتی مهم در زمان تهیه جدول توزیع فراوانی

یکی از مهم‌ترین وظایف متخصصان هوش مصنوعی و یادگیری ماشین جمع‌آوری و تحلیل داده‌ها است. این کار هر در تعریف ورودی‌های مدل و هم در به‌دست‌آوردن معیار ارزیابی برای آزمایش‌ها نیاز است. در ساده‌ترین تعریف، جمع‌آوری داده‌ها فرایند به‌دست‌آوردن داده‌ها درباره پدیده موردمطالعه است.

روش‌های مختلفی برای کسب داده‌ها وجود دارد. در برخی موارد، داده‌ها در اسناد قالب‌بندی شده در دسترس قرار دارند و مسئله در واقع پیداکردن و دسترسی به آن‌ها است.

در موارد دیگر، داده‌ها با استفاده از پرسش‌نامه‌ها، بررسی‌های میدانی و آزمایش‌های فیزیکی به دست می‌آید. در پروژه‌های جامع و بزرگ‌تر، مثل مدل‌های شهری یا اقتصادی، داده‌های موردنیاز را می‌توان از اسناد موجود و معتبر به دست آورد.

منابع داده رایج برای برخی مدل‌ها گزارش‌های سرشماری، چکیده آمار منتشر شده توسط ارگان‌های دولتی و منابعی ازاین‌دست است. در پروژه‌های مربوط به سیستم‌های تجاری، یکی از منابع باارزش داده‌ها اسناد حسابداری و مهندسی شرکت‌ها است.

این اسناد گاه برای به‌دست‌آوردن تخمین تقاضا برای محصول، هزینه تولید و دیگر داده‌های مرتبط مفید هستند. بااین‌حال، باید دقت کنید که تنها نقطه شروع هستند. پرسش‌نامه‌ها و بررسی‌های میدانی نیز روش‌هایی بالقوه برای به‌دست‌آوردن داده‌های مرتبط با پروژه‌های صنعتی هستند.

با ظهور سامانه‌های جمع‌آوری داده‌های آنلاین و مستمر، کسب داده‌ها به فرایندی نیمه‌پیوسته تبدیل شده، زیرا به‌راحتی داده‌ها در پایگاه‌داده یا اسناد کامپیوتری به شکل ساخت‌یافته در دسترس قرار می‌گیرند. به طور معمول، آزمایش‌های فیزیکی پر هزینه و زمان‌بر هستند، زیرا مستلزم اندازه‌گیری، ثبت و ویرایش داده‌ها هستند.

علاوه بر این در برنامه‌ریزی این نوع آزمایش‌ها باید دقت زیادی به خرج دهید تا اطمینان حاصل کنید شرایط آزمایش توصیف‌کننده شرایط واقعی است و داده‌ها به‌درستی ثبت شده‌اند.

بااین‌حال، در برخی موارد، ممکن است داده‌های در دسترس نباشد یا بودجه موجود یا ماهیت سیستم مانع از انجام آزمایش شود. یک مثال روشن در این زمینه طرح پیشنهادی مکان‌یابی در یک خط مونتاژ است. یک روش کسب داده‌ها در چنین سناریوهایی، استفاده از داده‌های متقارن یا از پیش در دسترس است.

در روش مذکور، برآوردهای مدت‌زمان‌های فعالیت با استفاده از جداول داده‌های استاندارد انجام می‌شود. روش دیگر استفاده از داده‌ها به‌دست‌آمده از فعالیت‌های مشابه یا هم‌تراز است.

در هر دو حالت، جمع‌آوری داده‌ها برای تعریف ورود‌های مدل و جمع‌آوری داده‌ها برای ارزیابی عملکرد سیستم با استفاده از مدل، ما مشکلی به نام تبدیل داده‌ها خام به شکل قابل‌استفاده را روبروی خود مشاهده می‌کنیم.

به همین دلیل روش‌هایی که برای خلاصه‌سازی یا توصیف مشخص‌های مهم مجموعه‌ای از داده‌های طراحی شده برای ما اهمیت دارد. این روش‌ها داده‌ها را در ازای حذف مقداری از اطلاعات خلاصه می‌کنند.

گروه‌بندی داده‌ها

یک روش برای تبدیل داده‌ها به شکلی که پردازش آن‌ها را ساده‌تر می‌کند اشاره دارد. گروه‌بندی داده‌ها به شکل دسته‌ها و مجموعه‌های کوچک‌تر انجام می‌شود. در ادامه داده‌ها با جدول‌بندی و تعیین گروهی که باید در آن قرار گیرند خلاصه می‌شوند. این نوع جدول را جدول توزیع فراوانی نیز می‌نامند.

جدولی که توصیف خوبی از اطلاعات ارائه می‌کند. انواع مختلفی از جدول توزیع فراوانی وجود دارد که برای نمایش داده‌های گروه‌بندی شده مفید هستند. یک نوع از آن‌ها فراوانی‌های تجمعی است که از به هم افزودن متوالی فراوانی‌ها در جدول فراوانی به دست می‌آید.

متخصصان هوش مصنوعی ابزار دیگری به نام توزیع فراوانی در اختیار دارند که از طریق تقسیم مقدار داده‌ها به مجموعه کل به دست می‌آید. جداول توزیع فراوانی هنگام مقایسه دو یا چند توزیع آماری مفید هستند.

توزیع فراوانی و تجمعی گاهی برای افزایش تفسیر‌پذیری داده‌ها به شکل تصویری نشان داده می‌شود. متداول‌تر نوع ارائه تصویری، هیستوگرام است که فراوانی‌های هر دو گروه را به شکل مستطیل‌های که طولشان نشانگر فراوانی گروه است نشان می‌دهد.

نکاتی مهم در زمان تهیه جدول توزیع فراوانی

ابتدا باید تعداد گروه‌ها و حدهای بالا و پایین برای هر گروه را مشخص کنید. این انتخاب‌ها به ماهیت و کاربرد نهایی داده‌ها بستگی دارد. تا جایی که ممکن است عرض گروه‌ها برابر در نظر بگیرید. البته در این زمینه استثناهایی نیاز وجود دارد.

فواصل گروه‌ها نباید روی‌هم منطبق باشند و هر نقطه از اطلاعات باید تنها به یک گروه مرتبط باشد. به طور معمول حداقل 5 و حداکثر 20 گروه استفاده شود.

برآورد پارامتر

اگر مجموعه‌ای از داده‌ها شامل تمام مشاهدات ممکن از متغیر تصادفی هستند از آن با عنوان جمعیت (Population) نام‌برده می‌شود و اگر تنها شامل بخشی از مشاهدات باشند به‌عنوان نمونه (Sample) از آن نام‌برده می‌شود. روش دیگر برای خلاصه‌سازی مجموعه‌ای از داده‌ها درنظرگرفتن داده‌ها به‌عنوان نمونه‌ای است که برای تخمین پارامترهای جمعیت مربوطه از آن استفاده می‌شود. از پارامترهای مربوط به جمعیت که بیشتر از همه استفاده می‌شوند باید به میانگین یا مقیاس مرکزیت و واریانس که مقیاس پراکندگی است اشاره کرد. در برآورد پارامترهای جمعیت از طریق داده‌های نمونه باید به دو نکته مهم دقت کنید. اول آنکه ما به ثبت نمونه و فقط به مقدار هر مشاهده بدون توجه به زمان آن می‌پردازیم. آماری که از ثبت نمونه‌های مستقل از زمان به دست می‌آید به آمار بر پایه مشاهده معروف هستند. نکته دوم برای متغیرهایی است که مقادیر آن‌ها باتوجه‌به زمان تعریف شده‌اند.

تخمین توزیع

درحالی‌که خواص توزیع‌های فرضی به مدل‌ساز کمک می‌کند توزیع فرضی مناسبی را انتخاب کند، اما بهتر است که این فرض با یک یا چند آزمون آزمایش شود. آزمون‌های کای – مربع (Chi-square) و کالمگروف اسمیرنوف (Kolmogorov Smirnov) آزمون‌های شناخته شده در این زمینه هستند.

مدل شبیه‌سازی

برای تهیه مدل شبیه‌سازی، مدل‌ساز باید چارچوب ذهنی برای توصیف سیستم انتخاب کند. این چارچوب یا دورنما توصیف‌کننده نگرش کلی است که در آن روابط کارکردی سیستم را می‌توان مشاهده و توصیف کرد. مدل‌های سیستم‌ها را می‌توان به دو گروه با تغییرات گسسته و تغییرات پیوسته تقسیم کرد.

دو اصطلاح مذکور به مدل و نه به سیستم واقعی مرتبط هستند. هر سیستم را می‌توان به شکل تغییرات گسسته و به شکل تغییرات پیوسته مدل کرد. در بیشتر شبیه‌سازی‌ها، زمان مهم‌ترین متغیر مستقل است و دیگر متغیرهای شبیه‌سازی، تابعی از زمان و متغیرهای وابسته هستند.

در بحث شبیه‌سازی، گسسته و پیوسته توصیف‌کننده رفتار متغیرهای وابسته هستند. در شبیه‌سازی گسسته، متغیرهای وابسته در مقاطع ویژه‌ای از زمان که زمان‌های رخداد نام دارد تغییر می‌کنند.

در چنین مدل‌هایی، متغیر زمان، بسته به این‌که متغیرهای وابسته در هر نقطه از زمان بتوانند اتفاق افتند یا در مقاطعی ویژه از زمان رخ دهند پیوسته یا گسسته هستند.

در شبیه‌سازی پیوسته، متغیرهای وابسته مدل ممکن است در طول زمان شبیه‌سازی به طور دایم تغییر کنند. اگر مقادیر متغیرهای سیستم فقط در بازه‌های زمانی مشخصی در دسترس باشند، شبیه‌سازی از نظر زمان به شکل گسسته انجام می‌شود و اگر مقادیر متغیرهای سیستم در هر لحظه از زمان در دسترس باشند شبیه‌سازی از نظر زمان به شکل پیوسته است. البته حالت دیگری نیز وجود دارد که به نام شبیه‌سازی ترکیبی از آن نام‌برده می‌شود.

در این روش متغیرهای وابسته مدل ممکن است به طور گسسته، پیوسته یا پیوسته با پرش‌های گسسته تغییر کنند. در اینجا متغیر زمان ممکن است پیوسته یا گسسته باشد.

منبع: Shabakeh-mag