2025年4月13日日曜日

Grokking Deep Reinforcement Learning

Grokking Deep Reinforcement Learning

著者:Miguel Morales
発行:2020年11月10日
Reinforcement Learning、つまり「強化学習」は5年ほど前に買った本を読んだが、当時のプロジェクト自体が強化学習を必要としなくなったので、中途半端にしか読んでいない。その後、3年ほど前に「ガッツリと強化学習」のプロジェクトを担当したが、シミュレーションがメインで、強化学習部分は付属のライブラリを使い、強化学習を突っ込んで学ぶ機会はなかった。

そして今回、今後の仕事には「強化学習は必須」と考え、5年前の本に加えて新たに2冊を手に入れて学習を再開した。3冊の内容をざっと眺めて、「読み物としても面白い」との印象を抱いた本書を選んだ。

毎日は取り組めなかったが、ほぼ1日で1章を読んで、概ね二週間で読んだ。今回の目的は「強化学習を俯瞰する」としたので、細かく理解した訳ではないが、その目的は達成したと思う。実際、読み物としても面白く、この分野の魅力が十分に伝わった。

本書は2020年出版で、今では Python ライブラリも新しくなっている上、そもそも Gym の環境が今とは違う:

当初は、Gymnasium 環境でサンプルコードを動かそうとして、いくつか上手くいったが、完全に動かすには時間を要すると判断し、Docker 環境で「そのまま実行」。

「2020年のコード」と言っても、すごく良く書かれていることに感心。例えば、本書で解説した数式がダイレクトに実装されている点など非常に良い。そして、段階的にアルゴリズムが改良される様も良いし、何といっても「同じ条件で実行したアルゴリズムの比較が、非常に視覚的」なのが素晴らしい。例えば次は Chapter 6. Improving agents’ behaviors から、4つのアルゴリズムの評価:
こんな風に、章末には "Tally It Up" として同様のアルゴリズムの評価が示される。

「かなり丁寧で親切な本だな」の印象は、完全に動作するコードだけじゃなく、本書の全体を通じて感じる。例えば、Chapter 7Achieving goals more effectively and efficiently の序盤で、すでに学んだ用語が手法と併せて、今回新たに学ぶ用語等を解説:
こんな風に、別の視点で繰り返しての説明は非常に良い。

強化学習に限らずだが、特定の分野では、似た概念であるが用途や目的が違う手法はたくさんある。その違いを知ることが全体の正しい理解につながる。また、そうしないと「正しく使う」ことはできない。

今後、本書を再三再度読み返すことになるだろう。

最後に、本書が「読み物としても面白い」例を一つ挙げる。次は、P.425Chapter 13. What is AGI, again? から:
Certain AI researchers say their goal is to create AI systems that perceive, learn, think, and even feel emotions like humans do. Machines that learn, think, feel, and perhaps even look like people, are most definitely an exciting thought. Other researchers have a more practical approach; they don’t necessarily want an AI that thinks like humans unless thinking like a human is a requirement for making a good lunch. And perhaps emotions are what make a great cook, who knows.

ある AI 研究者は、彼らの目標は、人間のように認識し、学習し、考え、さらには感情を感じる AI システムを作り出すことだと言っています。学習し、考え、感じ、そしておそらくは人間の外見のような機械は、非常に魅力的な考えだ。別の研究者たちは、より現実的なアプローチを取っています。彼らは、人間のように考えることが美味しい昼食を作る要件でない限り、必ずしも人間のように考える AI を求めていません。そして、もしかしたら感情こそが素晴らしい料理人を作るものなのかもしれない、それは誰にもわからないけれど。

0 件のコメント:

コメントを投稿