آشنایی با یادگیری ماشین آنلاین و یادگیری تقویتی عمیق

adminآخرین به روز رسانی: ۳۰ فروردین ۱۴۰۳

۰ ۱۴ زمان تقریبی مطالعه ۶ دقیقه

آن چه در این محتوا میخوانید پنهان

1 یادگیری ماشین آنلاین

2 توضیح کوتاهی در ارتباط با یادگیری ماشین

3 تفاوت یادگیری دسته‌ای و آنلاین

یادگیری ماشین آنلاین حوزه‌ای از یادگیری ماشین است که شامل یک خانواده مهم از تکنیک‌های یادگیری است که برای یادگیری مدل‌ها بر روی داده‌های لحظه ای طراحی شده‌است.

یادگیری ماشین آنلاین، نقاط ضعف یادگیری ماشین را برطرف می‌کند که در آن پارامترهای یادگیری مدل می‌تواند فوراً و به‌طور مؤثر توسط یک یادگیرنده برخط

هنگامی که داده‌های آموزشی جدید وارد می‌شوند، به روزرسانی شود. علاوه بر این، الگوریتم‌های یادگیری ماشین برخط به دلیل فهم آسان به راحتی قابل پیاده‌سازی می‌باشند.

یادگیری ماشین آنلاین

یادگیری ماشین آنلاین یکی از زیرمجموعه‌های اصلی حوزه یادگیری ماشین است. به‌طور معمول، بیشتر مدل‌های یادگیری ماشین، از داده‌های از قبل گردآوری شده که درون بانک‌های اطلاعات و انباره‌های داده ذخیره‌سازی شده‌اند به عنوان ورودی استفاده می‌کنند. این مدل‌ها پس از آن‌که ورودی موردنظر را دریافت کردند در ادامه به شکل مستمر روی این مجموعه داده‌ها پردازش‌هایی انجام می‌دهند.

این مدل سنتی یادگیری ماشین است، با این‌حال روشن دیگری نیز وجود دارد که یادگیری آنلاین نام دارد و ماشین به شیوه دیگری داده‌های ورودی خود را دریافت می‌کند. در یادگیری ماشین داده‌های ورودی باید قالب مشخصی داشته باشند و از قبل گردآوری شده باشند تا بتوان مدل مورد نظر را روی این مجموعه داده‌ها آموزش داد.

این روش ساخت مدل‌ها در بیشتر حوزه‌ها استفاده می‌شوند، با این حال مشکلی که روش فوق دارد این است که قابلیت آموزش لحظه‌ای مدل فراهم نیست و باید تا انتهای زمانی که داده‌ها گرفته می‌شوند صبر شود و پس از جمع‌آوری کامل داده‌ها فرآیند آموزش مدل را آغاز کرد که به لحاظ زمانی فرآیندی طولانی است.

برای حل این مشکل فرضیه یادگیری ماشین آنلاین ارائه شد که توانایی آموزش لحظه‌ای مدل در تعامل با داده‌های لحظه‌ای را دارد.

توضیح کوتاهی در ارتباط با یادگیری ماشین

یادگیری ماشین نقش مهمی در تجزیه و تحلیل داده‌های مدرن و برنامه‌هایهوش مصنوعیدارد. الگوهای یادگیری ماشین اغلب در یک یادگیری گروهی کار می‌کنند که در آن یک مدل توسط برخی از الگوریتم‌های یادگیری بر روی کل داده‌ها یک بار آموزش داده می‌شوند و سپس مدل آموزش داده شده بر روی داده‌های جدید مورد ارزیابی قرار می‌گیرد.

امروزه با افزایش حجم داده‌ها، کاربرد یادگیری ماشین به دلیل محدودیت در حافظه پردازشی محدودتر می‌شوند، به ویژه هنگامی که داده‌های به صورت برخط رشد و توسعه می‌یابند.

ایجاد یادگیری ماشین مقیاس پذیر برای داده‌های حجیم و همچنین یادگیری برای داده‌های لحظه ای در هوش مصنوعی تبدیل به یک چالش بزرگ شده‌است. یادگیری ماشین آنلاین در زمینه‌های مختلف از جمله ی داده کاوی، آمار، بهینه‌سازی، ریاضی کاربردی، هوش مصنوعی و علوم داده استفاده می‌شود.

تفاوت یادگیری دسته‌ای و آنلاین

تفاوت این دو دسته یادگیری را می‌توان با یک مثال ساده توضیح داد. فرض کنید یک دانش آموز می‌خواهد آمار و احتمالات را فرا بگیرد. در نوع اول یادگیری، این دانش‌آموز می‌تواند یک مجموعه کتابِ آمار و احتمالات را تهیه کند، چند بار بخواند و یاد بگیرد.

بعد از این‌که از این مجموعه کتابِ آمار، یادگیریِ خود را انجام داد، دیگر مطلبِ جدیدی یادنگیرد و از این به بعد فقط از دانسته‌های خود استفاده کند. این نوعی یادگیری، یادگیریِ دسته‌ای(Batch Learning) است. اما یادگیریِ دوم یا همان یادگیریِ آنلاین (Online Learning) مانندِ این است که این دانش‌آموز ابتدا کتاب‌های خود را مطالعه کند و از آن‌ها یاد بگیرد و سپس در حین استفاده از دانسته‌های خود، هر گاه کتاب جدیدی در حوزهٔ آمار و احتمالات مشاهده کرد،تهیه کرده و با خواندنِ آن، یادگیریِ خود را تجدید کند و بهبود ببخشد.

داده‌هایی که معمولاً در دوره داده‌کاوی، دوره طبقه‌بندی و دوره خوشه‌بندی، داده‌هایی از نوع دسته ای(Batch) بودند به این معنی که در زمانِ یادگیری(Train)، تمامی داده‌ها در اختیار الگوریتم بودند و الگوریتم به هر نحوی می‌توانست بر روی داده‌ها عملیاتِ یادگیری را انجام دهد. اما نوع دیگری از یادگیری نیز وجود دارد.

برخی اوقات داده‌ها به صورت جریان‌داده می‌آیند یا اینکه نیاز دارند به صورت مرتب یادگرفته شوند. همان‌طور که گفتیم یادگیریِ دسته‌ای مانند این است که شما یک کتاب دارید و باید این کتاب را یاد بگیرید چون فردا امتحان دارید. تمام منبع شما همین کتاب است و در واقع تمامیِ داده‌ها را در اختیار دارید (یعنی یادگیری دسته‌ای یا همانBatch Learning دارید).

اما فرض کنید در مسیر زندگی قرار دارید و روزانه با اطلاعات جدیدی که به شما داده می‌شود می‌بایستی هر روز چیزهای جدید را یادگرفته و به دانش قبلیِ خود اضافه کنید.

این موردِ دوم یادگیریِ برخط یا همانOnline Learning است، یعنی هنگامی که تمامی داده‌ها در حالِ حاضر موجود نیستند. در یادگیریِ برخط یک مدل ساخته می‌شود و بعد با رسیدن داده‌های جدیدتر، این مدل به‌روزرسانی می‌شود.

مدل یادگیری بر خط یا همانOnline Learning دو مزیت اساسی دارد:

۱. با این روش می‌توان داده‌هایی با حجم بسیار بالا را آموزش داد. برای مثال داده‌هایی که به دلیل حجم بالای خود در حافظه جا نمی‌شوند.

۲. تغییراتی که ممکن است در ذات داده‌ها به وجود بیاید با این روش پوشش داده می‌شود. فرض کنید گوگل برای سیستمِ ایمیلِ خود یک الگوریتم توسعه داده باشد که ایمیل‌های هرزنامهرا به صورت هوشمند با الگوریتم‌های یادگیری‌ماشین تشخیص بدهد. همان‌طور که حدس می‌زنید محتوای ایمیل‌های هرزنامه مدام در حال تغییر است و انسان‌هایی که ایمیل‌های هرزنامه می‌فرستند هر روز خود را در مقابل این الگوریتم‌های گوگل، بهینه می‌کنند.

پس الگوریتمِ تشخیص ایمیلِ هرزنامه در گوگل می‌تواند به شکل آنلاین یادگیری را انجام دهد تا بتواند ایمیل‌هایی را در گذرِ زمان تغییر کرده‌اند و هرزنامه هستند یاد بگیرد. در واقع یادگیریِ الگوریتم، با تغییر محتوا و شکل ایمیل‌های هرزنامه، بروز می‌شود.

بردار پشتیبان برخط

همانند روش‌های یادگیری ماشین، تکنیک‌های یادگیری برخط می‌تواند برای حل وظایف مختلف در طیف گسترده‌ای از دامنه‌های کاربردی در دنیای واقعی استفاده شود. مثال‌هایی از وظایف یادگیری برخط عبارتند از:

نظارت بر وظایف یادگیری: الگوریتم‌های یادگیری برخط را برای وظایف یادگیری تحت نظارت توسعه داده شده‌است. یکی از شایع‌ترین وظایف، طبقه‌بندی است که هدف آن پیش‌بینی گروهی برای یک نمونه داده جدید است که بر اساس مشاهدات نمونه‌های آموزش داده شده‌است که برچسب‌های دسته‌بندی شده آنها ارائه می‌شود.

به عنوان مثال، یک کار متداول مطالعه شده در یادگیری برخط، طبقه‌بندی دوتایی برخط است (به عنوان مثال، فیلتر کردن ایمیل‌های هرزنامه) که تنها شامل دو دسته می‌شود (“ایمیل‌های هرزنامه” و “غیرهرزنامه”)؛ سایر انواع وظایف طبقه‌بندی نظارت شده عبارتند از طبقه‌بندی چند کلاس، طبقه‌بندی چند لایه و طبقه‌بندی چند نمونه ای و غیره.

یادگیری تقویتی

یادگیری تقویت عمیق Deep reinforcement learning زیرمجموعه ای از یادگیری ماشین است که یادگیری تقویت(RL) و یادگیری عمیق را ترکیب می‌کند. RL مشکل یادگیری یک عامل محاسباتی را در نظر می‌گیرد تا با استفاده از آزمون و خطا تصمیم بگیرد. Deep RL یادگیری عمیق در راه حل را در بر می‌گیرد، به نمایندگان اجازه می‌دهد تا از داده‌های ورودی بدون ساختار، بدون مهندسی دستی فضاهای حالت تصمیم بگیرند.

الگوریتم‌های Deep RL می‌توانند ورودی‌های بسیار بزرگی (مثلاً هر پیکسل ارائه شده روی صفحه در یک بازی ویدیویی) را بگیرند و تصمیم بگیرند که برای بهینه‌سازی یک هدف چه کارهایی انجام دهند (مثلاً به حداکثر رساندن امتیاز بازی).

یادگیری تقویت عمیق برای مجموعه متنوعی از برنامه‌ها از جمله رباتیک، بازی‌های ویدیویی، پردازش زبان طبیعی، بینایی رایانه ای، آموزش، حمل و نقل، امور مالی و مراقبت‌های بهداشتی مورد استفاده قرار گرفته‌است اما محدود به آنها نمی‌شود.

یادگیری عمیق

یادگیری عمیق نوعی یادگیری ماشینی است که با به کارگیری یک شبکه عصبی مجموعه ای از ورودی‌ها را از طریق شبکه عصبی مصنوعی به مجموعه ای از خروجی‌ها تبدیل می کند. نشان داده شده‌است که روشهای یادگیری عمیق، اغلب با استفاده از یادگیری نظارت شده با مجموعه داده‌های برچسب دار، وظایفی را حل می‌کنند که شامل پردازش داده‌های ورودی خام پیچیده و با ابعاد بالا مانند تصاویر، با مهندسی ویژگی دستی کمتر نسبت به روش‌های قبلی است، و توانایی پیشرفت قابل توجهی در چندین زمینه از جمله کامپیوتر بینایی و پردازش زبان طبیعی دارد.

در سویی دیگری یادگیری تقویتی قرار دارد که فرآیندی است که در آن یک عامل یاد می‌گیرد از طریق آزمون و خطا تصمیم‌گیری کند. این مشکل اغلب از نظر ریاضی به عنوان یک فرایند تصمیم‌گیری مارکوف(MDP) مدل‌سازی می‌شود،

الگوریتم‌ها

تکنیک‌های مختلفی جهت آموزش سیاست‌ها برای حل وظایف با الگوریتم‌های یادگیری تقویت عمیق وجود دارد که هرکدام مزایای خاص خود را دارند. در بالاترین سطح، تمایزی بین یادگیری تقویتی مبتنی بر مدل و بدون مدل وجود دارد که به این موضوع اشاره دارد که آیا الگوریتم سعی در یادگیری یک مدل پیش رو از پویایی محیط دارد.

در الگوریتم‌های یادگیری تقویت عمیق مبتنی بر مدل، یک مدل پیش رو از پویایی محیط، معمولاً با یادگیری نظارت شده با استفاده از یک شبکه عصبی تخمین زده می‌شود. سپس، اقدامات با استفاده از کنترل پیش‌بینی مدل با استفاده از مدل آموخته شده بدست می‌آیند. از آنجا که پویایی واقعی محیط معمولاً از پویایی آموخته شده جدا می‌شود، نماینده هنگام انجام اقدامات در محیط، غالباً دوباره برنامه‌ریزی می‌کند.

اقدامات انتخاب شده ممکن است با استفاده از روشهای مونت کارلو مانند روش آنتروپی متقابل یا ترکیبی از یادگیری مدل با روشهای بدون مدل بهینه شود.

در الگوریتم‌های یادگیری تقویت عمیق بدون مدل، یادگیری بدون مدل‌سازی صریح پویایی انجام می‌شود. یک خط مشی را می‌توان برای به حداکثر رساندن بازده با برآورد مستقیم شیب خط مشی بهینه‌سازی کرد اما از واریانس بالایی رنج می‌برد، و استفاده از آن را با تقریب عملکرد درRL عمیق غیر عملی می‌کند.

الگوریتم‌های بعدی برای یادگیری با ثبات تر ساخته شده‌اند و به‌طور گسترده استفاده می‌شوند. کلاس دیگری از الگوریتم‌های یادگیری تقویت عمیق بدون مدل، متکی به برنامه‌نویسی پویا، الهام گرفته از یادگیری تفاوت زمانی و یادگیریQ است.