ریچارد س. ساتون: پیشگام یادگیری تقویتی

ریچارد س. ساتون (Richard S. Sutton) یکی از چهره‌های برجسته و تأثیرگذار در حوزه یادگیری ماشین، به ویژه یادگیری تقویتی است. او به عنوان استاد دانشگاه آلبرتا شناخته می‌شود و سهم بسزایی در توسعه نظریه‌ها و الگوریتم‌های یادگیری تقویتی داشته است. ساتون به همراه اندرو بارто، کتابی کلاسیک با عنوان "مقدمه‌ای بر یادگیری تقویتی" (Reinforcement Learning: An Introduction) تألیف کرده‌اند که به عنوان مرجع اصلی در این حوزه شناخته می‌شود. تحقیقات او در زمینه یادگیری تقویتی، به ویژه در حوزه‌های مدل‌سازی یادگیری، الگوریتم‌های Q-learning و سلسله مراتب یادگیری، بسیار تأثیرگذار بوده است. سهم او در پیشرفت یادگیری تقویتی و کاربرد آن در حوزه‌های مختلفی مانند رباتیک، بازی‌های کامپیوتری و اقتصاد، او را به یکی از پیشگامان این حوزه تبدیل کرده است.

او در مقاله تلخ ترین درس به ما یادآوری می‌کند که در حوزه هوش مصنوعی، تکیه بر دانش قبلی و سعی در شبیه‌سازی تفکر انسانی، در بلندمدت محدودیت‌هایی ایجاد می‌کند. در عوض، استفاده از روش‌های کلی و قدرتمندی مانند جستجو و یادگیری، همراه با بهره‌گیری از قدرت محاسبات رو به رشد، می‌تواند به پیشرفت‌های چشمگیری منجر شود.

در ادامه ترجمه مقاله را برای شما آورده‌ایم.

تلخ‌ترین درس

ریچ ساتون ۱۳ مارس ۲۰۱۹

بزرگ‌ترین درسی که می‌توان از ۷۰ سال تحقیق در هوش مصنوعی آموخت این است که روش‌های کلی که از محاسبات بهره می‌برند، در نهایت مؤثرترین روش‌ها هستند و آن هم با فاصله زیاد. دلیل اصلی این امر قانون مور، یا به طور کلی‌تر، کاهش هزینه واحد محاسبات به صورت نمایی است. بیشتر تحقیقات هوش مصنوعی به این صورت انجام شده است که گویی محاسبات در دسترس عامل ثابت است (در این صورت، بهره‌برداری از دانش انسانی یکی از تنها راه‌های بهبود عملکرد خواهد بود)، اما در مدت زمانی کمی طولانی‌تر از یک پروژه تحقیقاتی معمولی، محاسبات بسیار بیشتری به طور اجتناب‌ناپذیر در دسترس قرار می‌گیرد. به دنبال بهبودی که در کوتاه مدت تفاوت ایجاد کند، محققان به دنبال بهره‌برداری از دانش انسانی خود در مورد حوزه (domain) هستند، اما تنها چیزی که در درازمدت اهمیت دارد، بهره‌برداری از محاسبات است. این دو وماً نباید در تضاد با یکدیگر باشند، اما در عمل تمایل دارند که باشند. زمانی که صرف یکی می‌شود، زمانی است که صرف دیگری نمی‌شود. تعهدات روانشناختی برای سرمایه‌گذاری در یکی از این دو رویکرد وجود دارد. و رویکرد دانش انسانی تمایل دارد که روش‌ها را به گونه‌ای پیچیده کند که آنها را برای بهره‌برداری از روش‌های کلی که از محاسبات بهره می‌برند، کمتر مناسب می‌کند.

نمونه‌های زیادی از یادگیری دیرهنگام محققان هوش مصنوعی از این درس تلخ وجود دارد و بررسی برخی از برجسته‌ترین آنها آموزنده است.

در شطرنج کامپیوتری، روش‌هایی که در سال ۱۹۹۷ قهرمان جهان، کاسپاروف را شکست دادند، بر اساس جستجوی عظیم و عمیق (massive, deep search) بودند. در آن زمان، این موضوع با ناامیدی اکثر محققان شطرنج کامپیوتری که روش‌هایی را دنبال می‌کردند که از درک انسانی از ساختار خاص شطرنج بهره می‌برد، روبرو شد. زمانی که یک رویکرد ساده‌تر مبتنی بر جستجو با سخت‌افزار و نرم‌افزار ویژه بسیار مؤثرتر ثابت شد، این محققان شطرنج مبتنی بر دانش انسانی بازیکنان خوبی نبودند. آنها گفتند که جستجوی "brute force" ممکن است این بار پیروز شده باشد، اما این یک استراتژی کلی نبود و به هر حال اینطور نبود که مردم شطرنج بازی کنند. این محققان می‌خواستند روش‌هایی مبتنی بر ورودی انسان پیروز شوند و وقتی چنین نشد ناامید شدند.

الگوی مشابهی از پیشرفت تحقیقات در بازی Go کامپیوتری دیده شد، فقط با تأخیر ۲۰ ساله دیگر. تلاش‌های اولیه عظیمی برای جلوگیری از جستجو با استفاده از دانش انسانی یا ویژگی‌های خاص بازی انجام شد، اما همه این تلاش‌ها بی‌ربط یا بدتر از آن، هنگامی که جستجو به طور مؤثر در مقیاس بزرگ اعمال شد، ثابت شد. همچنین استفاده از یادگیری از طریق بازی خودکار (learning by self play) برای یادگیری تابع ارزش (value function) مهم بود (همانطور که در بسیاری از بازی‌های دیگر و حتی در شطرنج بود، اگرچه یادگیری نقش بزرگی در برنامه ۱۹۹۷ که برای اولین بار یک قهرمان جهان را شکست داد، نداشت). یادگیری از طریق بازی خودکار و یادگیری به طور کلی، مانند جستجو است زیرا امکان استفاده از محاسبات عظیم را فراهم می‌کند. جستجو و یادگیری دو کلاس مهم‌ترین تکنیک‌ها برای استفاده از مقادیر عظیمی از محاسبات در تحقیقات هوش مصنوعی هستند. در بازی Go کامپیوتری، مانند شطرنج کامپیوتری، تلاش اولیه محققان به سمت استفاده از درک انسانی (به طوری که به جستجوی کمتری نیاز باشد) هدایت شد و تنها بسیار بعدتر موفقیت بسیار بیشتری با پذیرش جستجو و یادگیری حاصل شد.

در تشخیص گفتار، رقابت اولیه‌ای در دهه ۱۹۷۰ با حمایت DARPA برگزار شد. شرکت‌کنندگان شامل میزبان روش‌های خاصی بودند که از دانش انسانی - دانش کلمات، واج‌ها، دستگاه صوتی انسان و غیره - استفاده می‌کردند. از سوی دیگر، روش‌های جدیدتری وجود داشتند که ماهیت آماری بیشتری داشتند و بر اساس مدل‌های مارکوف پنهان (Hidden Markov Models یا HMMs) محاسبات بسیار بیشتری انجام می‌دادند. باز هم، روش‌های آماری بر روش‌های مبتنی بر دانش انسانی غلبه کردند. این منجر به تغییر عمده‌ای در تمام پردازش زبان طبیعی (Natural Language Processing یا NLP) شد، به تدریج در طول دهه‌ها، جایی که آمار و محاسبات بر این حوزه تسلط یافتند. ظهور اخیر یادگیری عمیق (Deep Learning) در تشخیص گفتار آخرین گام در این مسیر ثابت است. روش‌های یادگیری عمیق حتی کمتر به دانش انسانی متکی هستند و از محاسبات بسیار بیشتری همراه با یادگیری بر روی مجموعه‌های آموزشی عظیم استفاده می‌کنند تا سیستم‌های تشخیص گفتار به طرز چشمگیری بهتری تولید کنند. همانطور که در بازی‌ها، محققان همیشه سعی می‌کردند سیستم‌هایی بسازند که به روشی کار کنند که محققان فکر می‌کردند ذهن خودشان کار می‌کند - آنها سعی می‌کردند آن دانش را در سیستم‌های خود قرار دهند - اما این در نهایت ضد تولید (counterproductive) و هدر دادن عظیمی از وقت محققان ثابت شد، زمانی که از طریق قانون مور، محاسبات عظیمی در دسترس قرار گرفت و وسیله‌ای برای استفاده خوب از آن پیدا شد.

در بینایی کامپیوتری، الگوی مشابهی وجود داشته است. روش‌های اولیه بینایی را به عنوان جستجوی لبه‌ها یا استوانه‌های تعمیم‌یافته یا از نظر ویژگی‌های SIFT تصور می‌کردند. اما امروزه همه اینها کنار گذاشته شده است. شبکه‌های عصبی مدرن یادگیری عمیق فقط از مفاهیم پیچش (convolution) و انواع خاصی از عدم تغییر استفاده می‌کنند و عملکرد بسیار بهتری دارند.

این یک درس بزرگ است. به عنوان یک حوزه، ما هنوز آن را به طور کامل یاد نگرفته‌ایم، زیرا همچنان در حال مرتکب شدن همان نوع اشتباهات هستیم. برای دیدن این موضوع و مقاومت مؤثر در برابر آن، باید جذابیت این اشتباهات را درک کنیم. باید درس تلخی را بیاموزیم که ساختن چگونگی فکر کردن ما در درازمدت کار نمی‌کند. درس تلخ مبتنی بر مشاهدات تاریخی است که

۱) محققان هوش مصنوعی اغلب سعی کرده‌اند دانش را در عوامل خود بسازند،

۲) این همیشه در کوتاه‌مدت کمک می‌کند و برای محقق شخصاً رضایت‌بخش است، اما

۳) در درازمدت به فلات (plateaus) می‌رسد و حتی مانع پیشرفت بیشتر می‌شود، و

۴) پیشرفت‌های بزرگ در نهایت با رویکرد مخالف مبتنی بر مقیاس‌بندی محاسبات با جستجو (search) و یادگیری (learning) می‌رسد.

موفقیت نهایی با تلخی همراه است و اغلب به طور ناقص هضم می‌شود، زیرا این موفقیت بر روی یک رویکرد انسان‌محور مورد علاقه است.

یک چیز که باید از درس تلخ آموخت، قدرت عظیم روش‌های همه منظوره (general purpose methods)، روش‌هایی است که با افزایش محاسبات همچنان مقیاس می‌شوند، حتی زمانی که محاسبات در دسترس بسیار زیاد می‌شود. دو روشی که به نظر می‌رسد به طور دلخواه با این روش مقیاس می‌شوند جستجو و یادگیری هستند.

دومین نکته کلی که باید از درس تلخ آموخت این است که محتوای واقعی ذهن‌ها فوق‌العاده، غیرقابل جبران پیچیده است. ما باید تلاش برای یافتن راه‌های ساده برای فکر کردن در مورد محتوای ذهن‌ها را متوقف کنیم، مانند راه‌های ساده برای فکر کردن در مورد فضا، اشیاء، عوامل متعدد یا تقارن‌ها (symmetries). همه اینها بخشی از دنیای خارج دلخواه و ذاتاً پیچیده هستند. آنها چیزی نیستند که باید ساخته شوند، زیرا پیچیدگی آنها بی‌پایان است. در عوض، ما باید فقط متا روش‌هایی (meta-methods) را بسازیم که بتوانند این پیچیدگی دلخواه را پیدا کنند و ضبط کنند. برای این روش‌ها ضروری است که بتوانند تقریب‌های خوبی (good approximations) پیدا کنند، اما جستجوی آنها باید توسط روش‌های ما باشد، نه توسط خود ما. ما می‌خواهیم عوامل هوش مصنوعی که بتوانند مانند ما کشف کنند، نه آنهایی که حاوی آنچه ما کشف کرده‌ایم هستند. ساختن اکتشافات ما فقط دیدن چگونگی انجام فرآیند کشف را دشوارتر می‌کند.

نکات مهم مقاله

در کل نکات مهم این مقاله شامل سه مورد زیر است:

  • اهمیت روش‌های کلی: روش‌هایی مانند جستجو و یادگیری، به دلیل قابلیت تعمیم‌پذیری و مقیاس‌پذیری، اهمیت ویژه‌ای در هوش مصنوعی دارند.
  • پیچیدگی ذهن انسان: پیچیدگی ذهن انسان بسیار فراتر از آن است که بتوان آن را به سادگی مدل‌سازی کرد.
  • اهمیت متا روش‌ها: متا روش‌ها به ما امکان می‌دهند تا روش‌های جدیدی برای کشف و یادگیری ایجاد کنیم.

در صورتی که تمایل به دریافت جزئیات بیشتری هستید، می‌توانید این دو ویدیو را دنبال کنید:

شروع زودهنگام امتحانات دانشگاه

تلخ‌ترین درس در هوش مصنوعی از ریچ ساتون

یادگیری ,محاسبات ,روش‌های ,دانش ,انسانی ,جستجو ,دانش انسانی ,یادگیری تقویتی ,بسیار بیشتری ,یادگیری عمیق ,قانون مور، ,محاسبات بسیار بیشتری
مشخصات
آخرین جستجو ها