هوش مصنوعی

چگونه هوش مصنوعی را با استفاده از scikit-learn پیاده‌سازی کنیم؟

در این مطلب قصد داریم یکی از قدرتمندترین ابزارهای قابل‌استفاده در پایتون را برای پیاده‌سازی هوش مصنوعی در کوتاه‌ترین زمان به کار ببریم و شما را با اصول کلی طراحی در این زمینه آشنا کنیم.

دانشمندان داده از هوش مصنوعی (AI) برای انجام طیف وسیعی از کارها استفاده می‌کنند. در حال حاضر، سیستم‌های کنترلی قادر به کاهش مصرف انرژی ساختمان‌ها هستند، توصیه‌هایی برای خرید لباس یا تماشای فیلم‌ها و سریال‌ها ارائه می‌دهند، به بهبود شیوه‌های کشاورزی و آبیاری کم می‌کنند و حتی قادر به هدایت خودروها هستند. دانستن نحوه استفاده از این ابزارها به شما کمک می‌کند تا بتوانید چالش‌های فنی مهم دیگر جامعه را حل کنید.

خوشبختانه شروع به کار باهوش مصنوعی برای افرادی که از قبل با پایتون و تجزیه‌وتحلیل داده‌ها کار کرده‌اند، چندان دشوار نیست. شما می‌توانید از بسته قدرتمند scikit-learn برای انجام فرایندهای سخت برنامه‌نویسی استفاده کنید.

scikit-learn چیست؟

scikit-learn یک بسته پایتون است که برای تسهیل استفاده از الگوریتم‌های یادگیری ماشین و هوش مصنوعی طراحی شده است. بسته فوق شامل الگوریتم‌هایی است که برای طبقه‌بندی، رگرسیون و خوشه‌بندی، جنگل‌های تصادفی و الگوریتم‌های ارتقا شیب استفاده می‌شود. این بسته نرم‌افزاری به‌گونه‌ای طراحی شده است که تعامل خوبی با سایر بسته‌های رایج علمی دارد. علی‌رغم این‌که به طور خاص برای کار با پانداس طراحی نشده، اما با پانداس ارتباط خوبی دارد.

علاوه بر این، scikit-learn شامل ابزارهای مفیدی برای تسهیل استفاده از الگوریتم‌های یادگیری ماشین است. طراحی و توسعه گذرگاه‌های انتقال داده مورداستفاده در یادگیری ماشین که دقت یک سیستم در پیش‌بینی‌ها را به شکل قابل‌توجهی بهتر می‌کنند، مستلزم تقسیم‌بندی داده‌ها به مجموعه‌های آموزشی و آزمایشی و امتیازدهی به الگوریتم‌ها برای تعیین نحوه عملکرد خوب آن‌ها و متمایز ساختن مدل‌های مناسب و غیر مناسب از یکدیگر است. رابط کاربری scikit-learn شامل ابزارهایی برای انجام همه این وظایف است.

اسکیت‌لرن چگونه کار می‌کند؟

توسعه و آزمایش الگوریتم‌های یادگیری اسکیت را می‌توان به سه مرحله کلی زیر تقسیم کرد:

مدل را با استفاده از مجموعه‌داده‌های موجود و توصیف پدیده‌هایی که برای پیش‌بینی مدل نیاز دارید، آموزش دهید.

مدل را با مجموعه‌داده‌های دیگر آزمایش کنید تا از عملکرد خوب آن اطمینان حاصل کنید.

از مدل برای پیش‌بینی پدیده‌ها استفاده کنید.

رابط برنامه‌نویسی برنامه کاربردی scikit-learn دستوراتی را برای انجام هر یک از این مراحل با فراخوانی یک تابع واحد ارائه می‌دهد. همه الگوریتم‌های یادگیری اسکیت از تابع یکسان برای این فرایند استفاده می‌کنند، بنابراین اگر با اصول اولیه آشنا شوید قادر به استفاده از آن در پروژه‌های دیگر هستید. آن را برای یک نفر یاد بگیرید، آن را برای همه یاد می‌گیرید.

فراخوانی تابع برای آموزش الگوریتم یادگیری اسکیت تابع .fit() است که برای آموزش هر مدل باید تابع فوق را فراخوانی کنید و دو مؤلفه از مجموعه داده‌های آموزشی را به آن انتقال دهید. دو مؤلفه عبارت‌اند از مجموعه داده x، داده‌هایی که ویژگی‌های مجموعه داده را توصیف می‌کند و داده y که اشاره به اطلاعاتی دارد که اهداف سیستم را توصیف می‌کند (ویژگی‌ها (Features) و اهداف (Targets) از اصطلاحات یادگیری ماشین هستند که در اصل به معنی داده x و y هستند). الگوریتم سپس یک مدل ریاضی ایجاد می‌کند که توسط الگوریتم انتخاب شده و در ادامه پارامترهای مدل را به‌گونه‌ای تعیین می‌کند که تا حد ممکن با داده‌های آموزشی ارائه شده مطابقت داشته باشند. در مرحله بعد پارامترها را در مدل ذخیره می‌کند و به شما این امکان را می‌دهد تا نسخه مناسب مدل را در صورت نیاز برای پروژه خود فراخوانی کنید.

تابع آزمایش هماهنگی مدل .score() نام دارد. برای استفاده از این تابع، باید آن را فراخوانی کنید و مجموعه داده x که نمایانگر ویژگی‌ها و مجموعه‌داده y که بیانگر اهداف است را ارسال می‌کنید. نکته مهمی که باید در این بخش به آن دقت کنید این است که از مجموعه‌داده متفاوتی به نام مجموعه‌داده‌های آزمایشی، برای آموزش مدل استفاده کنید. وقتی یک مدل بر مبنای داده‌های تمرینی ارزش‌گذاری می‌شود، احتمالاً نمره بسیار خوبی خواهد گرفت، زیرا از نظر ریاضی مجبور است با آن مجموعه‌داده مطابقت داشته باشد. آزمایش واقعی این است که مدل چگونه روی مجموعه‌داده‌های مختلف عملکرد خوبی داشته باشند، زیرا قرار است روی مجموعه‌داده‌های واقعی عملکرد خوبی داشته باشد. هنگام فراخوانی تابع .score() بسته اسکیت‌لرن مقدار r² را برمی‌گرداند تا نشان دهد مدل چگونه مجموعه‌داده‌های ارائه شده y را با استفاده از مجموعه داده ارائه شده x پیش‌بینی کرده است.

با استفاده از تابع .predict() بسته فوق می‌توانید خروجی یک سیستم را با توجه به ورودی‌های ارائه شده پیش‌بینی کنید. نکته مهم دیگری که باید به آن دقت کنید این است که فرایند فوق را تنها پس از نصب مدل انجام دهید. در اینجا یک فرایند برازش انجام می‌شود که نشان می‌دهد چگونه نحوه تطابق مدل با مجموعه‌داده را مدیریت کنید؛ بنابراین اگر این کار را انجام ندهید، مدل پیش‌بینی ارزشمندی ارائه نمی‌کند. هنگامی که کارهای مربوطه انجام شد، در ادامه می‌توانید یک مجموعه داده x را به تابع .predict() انتقال دهید تا مدل یک مجموعه داده y پیش‌بینی شده را به عنوان خروجی باز گرداند. به این ترتیب می‌توانید نحوه رفتار سیستم در آینده را پیش‌بینی کنید.

این سه تابع عملکرد پایه و اصلی واسط برنامه‌نویسی کاربردی اسکیت‌لرن را شکل می‌دهند و به شما کمک می‌کنند از هوش مصنوعی برای حل مشکلات فنی استفاده کنید.

چگونه می‌توان مجموعه داده‌های آموزشی و آزمایشی ایجاد کرد؟

ایجاد مجموعه داده‌های آموزش جداگانه و آزمایشی یکی از مهم‌ترین بخش‌های آموزش مدل‌های هوش مصنوعی است. بدون انجام این کار، نمی‌توانیم مدلی ایجاد کنیم که با سیستمی که سعی در پیش‌بینی آن داریم مطابقت داشته باشد و علاوه بر این، نمی‌توان صحت پیش‌بینی‌های انجام گرفته را تأیید کرد. خوشبختانه، اسکیت‌لرن یک ابزار مفید برای تسهیل این فرایند آماده کرده است. این ابزار train_test_split() نام دارد.

Train_test_split() دقیقاً همان کاری را انجام می‌دهد که از نامش پیدا است. تابع فوق مجموعه داده دریافتی را به مجموعه داده‌های آموزشی و آزمایشی تقسیم می‌کند. توسعه‌دهندگان می‌توانند از ابزار فوق برای ساخت مجموعه داده‌های مورد نیاز خود استفاده کنند تا مطمئن شوند مدل طراحی شده به درستی قادر به پیش‌بینی است. در اینجا باید یک مجموعه داده در اختیار train_test_split قرار دهید و مجموعه داده‌های آموزشی و آزمایش مورد نیاز را آماده کنید. در ادامه مجموعه داده را به مجموعه داده‌های آموزشی و آزمایشی که می‌توانید برای توسعه مدل خود استفاده کنید، تقسیم می‌کند.

هنگام استفاده از تابع فوق باید به چند نکته توجه کرد. اول این‌که train_test_split ماهیتی تصادفی دارد. به بیان دقیق‌تر، تابع فوق اگر چند مرتبه داده‌های ورودی یکسانی را اجرا کند، مجموعه داده‌های آموزشی و آزمایشی یکسانی را بر نمی‌گرداند. اگر می‌خواهید دقت مدل را آزمایش کنید، رویکرد فوق مناسب است، اما اگر بخواهید بارها و بارها از یک مجموعه داده مشابه در مدل استفاده کنید، ممکن است چندان جالب نباشد. برای آن‌که اطمینان حاصل کنید در هر مرتبه اجرا نتیجه یکسانی را دریافت می‌کنید پیشنهاد می‌کنم از پارامتر random_state استفاده کنید. تنظیم حالت تصادفی آن را مجبور می‌کند که هر بار که از آن استفاده می‌کنید از همان هسته تصادفی استفاده کند و تقسیمات داده یکسانی را ارائه دهد. بیشتر توسعه‌دهندگان هنگام استفاده از random_state آن را روی مقدار 42 تنظیم می‌کنند.

وقتی این ابزارها با هم ترکیب می‌شوند چگونه کار می‌کنند؟

در مجموع، این ابزارها یک رابط کاربری ساده برای ساخت و استفاده از ابزارهای یادگیری اسکیت ایجاد می‌کنند. بهتر است برای درک بهتر موضوع از مثال مدل خطی رگرسیون اسکیت‌لرن استفاده کنیم.

برای پیاده‌سازی این فرایند باید ابزارهای موردنیاز برای انجام این کار را فراخوانی کنید. آن‌ها شامل مدل اسکیت‌لرن، تابع train_test_split() و پانداس برای فرآیند تجزیه و تحلیل داده‌ها است. توابع به شرح زیر استفاده می‌شوند:

from scikit-learn.linear_model import LinearRegression

from scikit-learn.model_selection import train_test_split

import pandas as pd

اکنون می‌توانیم از مجموعه داده‌ای برای آموزش و آزمایش مدل استفاده کنیم. اکنون باید مشابه با دستور زیر از مجموعه داده‌ای که در اختیار دارید در ارتباط با مدلی که قصد ایجاد آن را دارید استفاده کنید.

data = pd.read_csv('Hamid_Reza_Taebi.csv', index_col = 0)

در ادامه باید تقسیم داده‌های مجموعه به داده‌های X و y را انجام دهید و خصلت‌هایی که به دنبال ارزیابی آن‌ها هستید را در قالب ستون‌هایی مشخص کنید. در این مورد نیز مهم است که مجموعه داده‌های خود را فیلتر کنید، به‌گونه‌ای که فقط در لحظه از داده‌ها استفاده کند. اگر این مرحله را نادیده بگیریم، مدل غیر خطی را به یک مدل خطی تبدیل می‌کنید و مدل با شکست روبرو می‌شود.

منبع:Shabakeh-mag

مقالات مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا