遠い
MIT ニュース オフィスの Web サイトでダウンロードできる画像は、クリエイティブ コモンズ表示、非営利、改変禁止ライセンスに基づいて、非営利団体、報道機関、および一般の人々に提供されています。 提供された画像は、サイズに合わせてトリミングする以外に変更することはできません。 画像を複製する場合はクレジットラインを使用する必要があります。 以下に提供されていない場合は、画像のクレジットを「MIT」に記載してください。
前の画像 次の画像
サッカー場で 2 つのチームが対峙しているところを想像してください。 プレイヤーは目的を達成するために協力したり、利害が対立する他のプレイヤーと競争したりすることができます。 それがゲームの仕組みです。
人間と同じように効果的に競争し協力することを学習できる人工知能エージェントを作成することは、依然として難しい問題です。 主要な課題は、AI エージェントが他のエージェント全員が同時に学習しているときに、他のエージェントの将来の行動を予測できるようにすることです。
この問題は複雑であるため、現在のアプローチは近視眼的になる傾向があります。 エージェントはチームメイトや競合他社の次の動きを推測することしかできないため、長期的にはパフォーマンスの低下につながります。
MIT、MIT-IBM Watson AI Lab などの研究者は、AI エージェントに先見の明を与える新しいアプローチを開発しました。 彼らの機械学習フレームワークにより、協力的または競合的な AI エージェントは、次のいくつかのステップだけでなく、時間が無限に近づくにつれて他のエージェントが何をするかを検討することができます。 その後、エージェントは、他のエージェントの将来の行動に影響を与えるために自分の行動を適宜適応させ、長期的な最適な解決策に到達します。
このフレームワークは、密林の中で道に迷ったハイカーを見つけるために協力する自律型ドローンのグループや、交通量の多い高速道路を走行する他の車両の将来の動きを予測して乗客の安全を守る自動運転車などに利用できる可能性がある。
「AI エージェントが協力または競合している場合、最も重要なのは、それらの動作が将来のある時点でいつ収束するかということです。途中で多くの一時的な動作が発生しますが、長期的にはあまり重要ではありません。この収束した動作に到達することは、これは私たちが本当に重視していることであり、それを可能にする数学的な方法ができました」と、MIT 情報意思決定システム研究所 (LIDS) の大学院生であり、このフレームワークを説明する論文の主著者である Dong-Ki Kim 氏は述べています。
上級著者はジョナサン P. ハウです。彼はリチャード C. マクローリン航空宇宙学教授であり、MIT-IBM ワトソン AI ラボのメンバーです。 共著者には、MIT-IBM Watson AI Lab、IBM Research、Mila-Quebec Artificial Intelligence Institute、オックスフォード大学のメンバーが含まれます。 この研究は神経情報処理システム会議で発表される予定です。
エージェントが増えると問題も増える
研究者らは、マルチエージェント強化学習として知られる問題に焦点を当てました。 強化学習は、AI エージェントが試行錯誤によって学習する機械学習の形式です。 研究者は、エージェントの目標達成に役立つ「良い」行動に対して報酬を与えます。 エージェントは、最終的にタスクのエキスパートになるまで、その報酬を最大化するように行動を適応させます。
しかし、多くの協力的または競合するエージェントが同時に学習すると、事態はますます複雑になります。 エージェントが仲間のエージェントの今後のステップや、自分の行動が他のエージェントにどのような影響を与えるかを検討するにつれて、問題を効率的に解決するには多大な計算能力が必要になります。 他のアプローチが短期のみに焦点を当てているのはこのためです。
「AI はゲームの終わりについて本当に考えたいと思っていますが、ゲームがいつ終わるかはわかりません。AI は、遠い将来の時点で勝つことができるように、自分の行動を無限に適応させ続ける方法を考える必要があります。私たちの論文は本質的に、AI が無限について考えることを可能にする新しい目標を提案しています」とキム氏は言います。
しかし、無限をアルゴリズムに組み込むことは不可能であるため、研究者らは、エージェントが自分の行動が他のエージェントの行動と収束する将来の点、つまり平衡点に焦点を当てるようにシステムを設計しました。 平衡点はエージェントの長期的なパフォーマンスを決定し、マルチエージェント シナリオでは複数の平衡点が存在する可能性があります。 したがって、有効なエージェントは、エージェントの観点から望ましい均衡に達するように、他のエージェントの将来の行動に積極的に影響を与えます。 すべてのエージェントが互いに影響し合う場合、それらは研究者が「能動的平衡」と呼ぶ一般概念に収束します。
彼らが開発した機械学習フレームワークは、FURTHER (平均的な報酬でアクティブな影響を完全に強化するという意味) として知られており、エージェントが他のエージェントと対話するときに自分の行動を適応させてこのアクティブな均衡を達成する方法を学習できるようになります。
さらに、2 つの機械学習モジュールを使用してこれを実行します。 1 つ目の推論モジュールを使用すると、エージェントは、以前のアクションのみに基づいて、他のエージェントの将来の行動と、エージェントが使用する学習アルゴリズムを推測できます。
この情報は強化学習モジュールに入力され、エージェントはこれを使用して自分の行動を適応させ、報酬を最大化する方法で他のエージェントに影響を与えます。
「課題は無限について考えることでした。それを可能にするためにさまざまな数学ツールを使用し、実際に機能させるためにいくつかの仮定を立てる必要がありました」とキム氏は言います。
長期的には勝つ
彼らは、相撲スタイルで戦う一対のロボットや、25 人のエージェントからなる 2 つのチームを互いに戦わせる戦闘など、いくつかの異なるシナリオで、他のマルチエージェント強化学習フレームワークに対するアプローチをテストしました。 どちらの場合も、FURTHER を使用した AI エージェントがより頻繁にゲームに勝利しました。
彼らのアプローチは分散型であるため、つまりエージェントが独立してゲームに勝つ方法を学習することを意味し、エージェントを制御するために中央コンピューターを必要とする他の方法よりも拡張性が高いとキム氏は説明します。
研究者らはゲームを使用してアプローチをテストしましたが、FURTHER はあらゆる種類のマルチエージェント問題に取り組むために使用できる可能性があります。 たとえば、多くの相互作用する権利の行動や利益が時間の経過とともに変化する状況において、健全な政策を開発しようとしている経済学者によって適用される可能性があります。
経済学は、キムが特に熱心に勉強している分野の 1 つです。 同氏はまた、アクティブ均衡の概念をさらに深く掘り下げ、さらなる枠組みの強化を続けたいと考えている。
この研究には、MIT-IBM Watson AI Lab から資金の一部が提供されています。
前の項目 次の項目
エージェントが増えると問題も増える 長期的には勝利