ریچارد س. ساتون: پیشگام یادگیری تقویتی
ریچارد س. ساتون (Richard S. Sutton) یکی از چهرههای برجسته و تأثیرگذار در حوزه یادگیری ماشین، به ویژه یادگیری تقویتی است. او به عنوان استاد دانشگاه آلبرتا شناخته میشود و سهم بسزایی در توسعه نظریهها و الگوریتمهای یادگیری تقویتی داشته است. ساتون به همراه اندرو بارто، کتابی کلاسیک با عنوان "مقدمهای بر یادگیری تقویتی" (Reinforcement Learning: An Introduction) تألیف کردهاند که به عنوان مرجع اصلی در این حوزه شناخته میشود. تحقیقات او در زمینه یادگیری تقویتی، به ویژه در حوزههای مدلسازی یادگیری، الگوریتمهای Q-learning و سلسله مراتب یادگیری، بسیار تأثیرگذار بوده است. سهم او در پیشرفت یادگیری تقویتی و کاربرد آن در حوزههای مختلفی مانند رباتیک، بازیهای کامپیوتری و اقتصاد، او را به یکی از پیشگامان این حوزه تبدیل کرده است.
او در مقاله تلخ ترین درس به ما یادآوری میکند که در حوزه هوش مصنوعی، تکیه بر دانش قبلی و سعی در شبیهسازی تفکر انسانی، در بلندمدت محدودیتهایی ایجاد میکند. در عوض، استفاده از روشهای کلی و قدرتمندی مانند جستجو و یادگیری، همراه با بهرهگیری از قدرت محاسبات رو به رشد، میتواند به پیشرفتهای چشمگیری منجر شود.
در ادامه ترجمه مقاله را برای شما آوردهایم.
تلخترین درس
ریچ ساتون ۱۳ مارس ۲۰۱۹
بزرگترین درسی که میتوان از ۷۰ سال تحقیق در هوش مصنوعی آموخت این است که روشهای کلی که از محاسبات بهره میبرند، در نهایت مؤثرترین روشها هستند و آن هم با فاصله زیاد. دلیل اصلی این امر قانون مور، یا به طور کلیتر، کاهش هزینه واحد محاسبات به صورت نمایی است. بیشتر تحقیقات هوش مصنوعی به این صورت انجام شده است که گویی محاسبات در دسترس عامل ثابت است (در این صورت، بهرهبرداری از دانش انسانی یکی از تنها راههای بهبود عملکرد خواهد بود)، اما در مدت زمانی کمی طولانیتر از یک پروژه تحقیقاتی معمولی، محاسبات بسیار بیشتری به طور اجتنابناپذیر در دسترس قرار میگیرد. به دنبال بهبودی که در کوتاه مدت تفاوت ایجاد کند، محققان به دنبال بهرهبرداری از دانش انسانی خود در مورد حوزه (domain) هستند، اما تنها چیزی که در درازمدت اهمیت دارد، بهرهبرداری از محاسبات است. این دو وماً نباید در تضاد با یکدیگر باشند، اما در عمل تمایل دارند که باشند. زمانی که صرف یکی میشود، زمانی است که صرف دیگری نمیشود. تعهدات روانشناختی برای سرمایهگذاری در یکی از این دو رویکرد وجود دارد. و رویکرد دانش انسانی تمایل دارد که روشها را به گونهای پیچیده کند که آنها را برای بهرهبرداری از روشهای کلی که از محاسبات بهره میبرند، کمتر مناسب میکند.
نمونههای زیادی از یادگیری دیرهنگام محققان هوش مصنوعی از این درس تلخ وجود دارد و بررسی برخی از برجستهترین آنها آموزنده است.
در شطرنج کامپیوتری، روشهایی که در سال ۱۹۹۷ قهرمان جهان، کاسپاروف را شکست دادند، بر اساس جستجوی عظیم و عمیق (massive, deep search) بودند. در آن زمان، این موضوع با ناامیدی اکثر محققان شطرنج کامپیوتری که روشهایی را دنبال میکردند که از درک انسانی از ساختار خاص شطرنج بهره میبرد، روبرو شد. زمانی که یک رویکرد سادهتر مبتنی بر جستجو با سختافزار و نرمافزار ویژه بسیار مؤثرتر ثابت شد، این محققان شطرنج مبتنی بر دانش انسانی بازیکنان خوبی نبودند. آنها گفتند که جستجوی "brute force" ممکن است این بار پیروز شده باشد، اما این یک استراتژی کلی نبود و به هر حال اینطور نبود که مردم شطرنج بازی کنند. این محققان میخواستند روشهایی مبتنی بر ورودی انسان پیروز شوند و وقتی چنین نشد ناامید شدند.
الگوی مشابهی از پیشرفت تحقیقات در بازی Go کامپیوتری دیده شد، فقط با تأخیر ۲۰ ساله دیگر. تلاشهای اولیه عظیمی برای جلوگیری از جستجو با استفاده از دانش انسانی یا ویژگیهای خاص بازی انجام شد، اما همه این تلاشها بیربط یا بدتر از آن، هنگامی که جستجو به طور مؤثر در مقیاس بزرگ اعمال شد، ثابت شد. همچنین استفاده از یادگیری از طریق بازی خودکار (learning by self play) برای یادگیری تابع ارزش (value function) مهم بود (همانطور که در بسیاری از بازیهای دیگر و حتی در شطرنج بود، اگرچه یادگیری نقش بزرگی در برنامه ۱۹۹۷ که برای اولین بار یک قهرمان جهان را شکست داد، نداشت). یادگیری از طریق بازی خودکار و یادگیری به طور کلی، مانند جستجو است زیرا امکان استفاده از محاسبات عظیم را فراهم میکند. جستجو و یادگیری دو کلاس مهمترین تکنیکها برای استفاده از مقادیر عظیمی از محاسبات در تحقیقات هوش مصنوعی هستند. در بازی Go کامپیوتری، مانند شطرنج کامپیوتری، تلاش اولیه محققان به سمت استفاده از درک انسانی (به طوری که به جستجوی کمتری نیاز باشد) هدایت شد و تنها بسیار بعدتر موفقیت بسیار بیشتری با پذیرش جستجو و یادگیری حاصل شد.
در تشخیص گفتار، رقابت اولیهای در دهه ۱۹۷۰ با حمایت DARPA برگزار شد. شرکتکنندگان شامل میزبان روشهای خاصی بودند که از دانش انسانی - دانش کلمات، واجها، دستگاه صوتی انسان و غیره - استفاده میکردند. از سوی دیگر، روشهای جدیدتری وجود داشتند که ماهیت آماری بیشتری داشتند و بر اساس مدلهای مارکوف پنهان (Hidden Markov Models یا HMMs) محاسبات بسیار بیشتری انجام میدادند. باز هم، روشهای آماری بر روشهای مبتنی بر دانش انسانی غلبه کردند. این منجر به تغییر عمدهای در تمام پردازش زبان طبیعی (Natural Language Processing یا NLP) شد، به تدریج در طول دههها، جایی که آمار و محاسبات بر این حوزه تسلط یافتند. ظهور اخیر یادگیری عمیق (Deep Learning) در تشخیص گفتار آخرین گام در این مسیر ثابت است. روشهای یادگیری عمیق حتی کمتر به دانش انسانی متکی هستند و از محاسبات بسیار بیشتری همراه با یادگیری بر روی مجموعههای آموزشی عظیم استفاده میکنند تا سیستمهای تشخیص گفتار به طرز چشمگیری بهتری تولید کنند. همانطور که در بازیها، محققان همیشه سعی میکردند سیستمهایی بسازند که به روشی کار کنند که محققان فکر میکردند ذهن خودشان کار میکند - آنها سعی میکردند آن دانش را در سیستمهای خود قرار دهند - اما این در نهایت ضد تولید (counterproductive) و هدر دادن عظیمی از وقت محققان ثابت شد، زمانی که از طریق قانون مور، محاسبات عظیمی در دسترس قرار گرفت و وسیلهای برای استفاده خوب از آن پیدا شد.
در بینایی کامپیوتری، الگوی مشابهی وجود داشته است. روشهای اولیه بینایی را به عنوان جستجوی لبهها یا استوانههای تعمیمیافته یا از نظر ویژگیهای SIFT تصور میکردند. اما امروزه همه اینها کنار گذاشته شده است. شبکههای عصبی مدرن یادگیری عمیق فقط از مفاهیم پیچش (convolution) و انواع خاصی از عدم تغییر استفاده میکنند و عملکرد بسیار بهتری دارند.
این یک درس بزرگ است. به عنوان یک حوزه، ما هنوز آن را به طور کامل یاد نگرفتهایم، زیرا همچنان در حال مرتکب شدن همان نوع اشتباهات هستیم. برای دیدن این موضوع و مقاومت مؤثر در برابر آن، باید جذابیت این اشتباهات را درک کنیم. باید درس تلخی را بیاموزیم که ساختن چگونگی فکر کردن ما در درازمدت کار نمیکند. درس تلخ مبتنی بر مشاهدات تاریخی است که
۱) محققان هوش مصنوعی اغلب سعی کردهاند دانش را در عوامل خود بسازند،
۲) این همیشه در کوتاهمدت کمک میکند و برای محقق شخصاً رضایتبخش است، اما
۳) در درازمدت به فلات (plateaus) میرسد و حتی مانع پیشرفت بیشتر میشود، و
۴) پیشرفتهای بزرگ در نهایت با رویکرد مخالف مبتنی بر مقیاسبندی محاسبات با جستجو (search) و یادگیری (learning) میرسد.
موفقیت نهایی با تلخی همراه است و اغلب به طور ناقص هضم میشود، زیرا این موفقیت بر روی یک رویکرد انسانمحور مورد علاقه است.
یک چیز که باید از درس تلخ آموخت، قدرت عظیم روشهای همه منظوره (general purpose methods)، روشهایی است که با افزایش محاسبات همچنان مقیاس میشوند، حتی زمانی که محاسبات در دسترس بسیار زیاد میشود. دو روشی که به نظر میرسد به طور دلخواه با این روش مقیاس میشوند جستجو و یادگیری هستند.
دومین نکته کلی که باید از درس تلخ آموخت این است که محتوای واقعی ذهنها فوقالعاده، غیرقابل جبران پیچیده است. ما باید تلاش برای یافتن راههای ساده برای فکر کردن در مورد محتوای ذهنها را متوقف کنیم، مانند راههای ساده برای فکر کردن در مورد فضا، اشیاء، عوامل متعدد یا تقارنها (symmetries). همه اینها بخشی از دنیای خارج دلخواه و ذاتاً پیچیده هستند. آنها چیزی نیستند که باید ساخته شوند، زیرا پیچیدگی آنها بیپایان است. در عوض، ما باید فقط متا روشهایی (meta-methods) را بسازیم که بتوانند این پیچیدگی دلخواه را پیدا کنند و ضبط کنند. برای این روشها ضروری است که بتوانند تقریبهای خوبی (good approximations) پیدا کنند، اما جستجوی آنها باید توسط روشهای ما باشد، نه توسط خود ما. ما میخواهیم عوامل هوش مصنوعی که بتوانند مانند ما کشف کنند، نه آنهایی که حاوی آنچه ما کشف کردهایم هستند. ساختن اکتشافات ما فقط دیدن چگونگی انجام فرآیند کشف را دشوارتر میکند.
نکات مهم مقاله
در کل نکات مهم این مقاله شامل سه مورد زیر است:
- اهمیت روشهای کلی: روشهایی مانند جستجو و یادگیری، به دلیل قابلیت تعمیمپذیری و مقیاسپذیری، اهمیت ویژهای در هوش مصنوعی دارند.
- پیچیدگی ذهن انسان: پیچیدگی ذهن انسان بسیار فراتر از آن است که بتوان آن را به سادگی مدلسازی کرد.
- اهمیت متا روشها: متا روشها به ما امکان میدهند تا روشهای جدیدی برای کشف و یادگیری ایجاد کنیم.
در صورتی که تمایل به دریافت جزئیات بیشتری هستید، میتوانید این دو ویدیو را دنبال کنید: