ここのところエージェントについての話題が尽きません。OpenAIはResponses APIとAgents SDK、AnthropicはMCP、GoogleはAgent Development KitとAgent Engine UIなど、各社がエージェント開発のためのツールを提供し始めています。
We're launching new tools to help developers build reliable and powerful AI agents. 🤖🔧
Timestamps:
01:54 Web search
02:41 File search
03:22 Computer use
04:07 Responses API
10:17 Agents SDK pic.twitter.com/vY514tdmDz— OpenAI Developers (@OpenAIDevs) March 11, 2025
これらのツールは、これまでのステートレスなLLMアプリケーションから、より高度な状態と自律的な判断力を持ったエージェントを構築できるようにすることを目指しています。
と、通り一遍の紹介から始めてみましたが、「エージェント」という言葉は今日非常に多義的であり、文脈によって意味が大きく変わります。前回エージェントという言葉が流行ったのは2023年だったのですが、少し間を置いての再登場です。
当時のエージェントと今日のエージェントでは何が変わったのでしょうか。言葉の多義性の理由は、こうした短期間での変遷と共に、エージェントという言葉がバズワード化していることにあります。今回はエージェントという言葉の定義を振り返りながら、ここ数年でのエージェントという言葉の変遷と、現在のAI文脈におけるエージェントの位置づけを整理してみたいと思います。
1980年代から存在していたソフトウェア開発の「エージェント」
ソフトウェア開発の文脈においてエージェントという言葉は古くから存在しています。1980年代には、ソフトウェアが単に受動的に命令を実行するのではなく自律的かつ能動的にユーザを支援することを目指す「ソフトウェアエージェント」パラダイムが台頭しました。
従来のソフトウェアが受動的に指示を待つ存在だったのに対し、エージェントは自ら判断し行動するプロアクティブなアシスタントとして構想されたのです。
1990年代になると、「知的エージェント (Intelligent Agent)」というパラダイムがAI研究の主流概念として確立されました。知的エージェントとは「環境を知覚してその成功率を最大化する行動をとるシステム」と定義され、この定義では特定の問題を解くプログラムから人間や企業組織まで、目的指向で行動する主体は全てエージェントとみなされます。
すなわちAI研究は「知的エージェントの研究」であると再定義され、従来の「人間の知能の模倣」という枠を越えてあらゆる知的振る舞いの実現が目標とされました。このパラダイムシフトにより、研究者は各自バラバラの課題や手法に取り組んでいても、いずれそれらを統合して汎用エージェントアーキテクチャを構築できるという共通理解が醸成されました。
もっとも、この黎明期におけるエージェントはまだ概念的な域を出ず、実装技術も未成熟でした。1980~90年代に実際に開発された「エキスパートシステム」は、専門家の知識を元にしたルールベースのプログラムでした。
エキスパートシステムは特定領域では優れた性能を示したものの、環境からの入力に応じて能動的に振る舞うことはできませんでした。こうしたルールベースのエージェントは、あくまでも入力情報を元に条件分岐し、結果的に知的エージェントのように振る舞っているだけと言えます。エキスパートシステムは定型的な問題には強いものの、予期しない入力に対しては柔軟性を欠き、新たな知識を自律的に学習することも困難でした。
LLMによるエージェントの模索が始まったが…
2010年ごろからGPUの進歩とともにAI開発はディープラーニングが主流になります。自然言語処理では、Transformerアーキテクチャの登場により、文脈を理解し、より自然な言語生成が可能になりました。
これが皆さんご存じのLLM(大規模言語モデル)の登場につながります。ルールベースではなく、事前に学習していない情報に対しても「それらしい」応答を返すことができるようになったのです。
「それらしい」と「それ」の間にある不気味の谷は依然として存在しますが、2022年にはChatGPTが登場し、ほとんどの用途において「それらしい」で事足りる、ということに人類が気づくとともに、AIは広く受け入れられるようになりました。
そうした背景の中、LLMによるエージェントの模索が始まります。2023年、AutoGPTやBabyAGIなどのプロジェクトが登場し、エージェントの研究や開発が盛んに行われました。
Exciting #AutoGPT news: release 0.4.0 is here! Features include: file reading, commands customization, enhanced testing, and more. Update on our GitHub page: https://t.co/sjlSLV99UX We can't wait to see what you create! #AI #TechUpdates pic.twitter.com/jQZdYDcLgw
— AutoGPT (@Auto_GPT) June 5, 2023
We have a community of over 100 engineers, builders, AI/AGI researchers in our private Discord shaping the future BabyAGI. DM us a short pitch about yourself and what you are doing to gain access. pic.twitter.com/2pG28CuqH4
— BabyAGI (@babyAGI_) April 18, 2023
AutoGPTは、与えられた目標に対して自律的にタスクを分割し、実行する能力を持つエージェントのプロトタイプでした。一方、BabyAGIは、より高度な推論能力を持つエージェントの実験的な実装でした。こうしたムーブメントは、エージェントという概念の未来を感じさせるには十分なものでしたが、LLMであることによる制約もありました。
LLMが扱えるのは、基本的にテキストに還元できるタスクです。例えば、Webを検索する、情報を収集する、集めた情報を分析し文章を生成する、などなど、こうしたタスクは基本的にはテキストに還元できます。
当時のエージェントではFunction Callingなどの機能を用いて、LLMに対して外部のAPIを呼び出すことを試みました。例えば、Web検索を行うためのAPIを呼び出し、その結果をLLMに渡して分析させる、といった具合です。
あるいはコマンドラインで呼び出せるプログラムもまた、キーボード操作を再現することで実行でき、結果をテキストとしてLLMに渡すことができます。これにより、LLMはあたかも自律的にタスクを遂行しているかのように振る舞うことができました。
しかし、皆さんも普段行っているプレゼン資料や企画コンテの作成など、一見してテキストに還元できなさそうな業務も多いのではないでしょうか。端的に言えば、PCのキーボードを使って操作することはテキストに還元しやすいですが、マウスやトラックパッドの操作が介在するタスクはテキストに還元しづらいのです。
本来であればこうしたアプリケーションにも、テキストで入出力できるAPIが存在すれば話は早かったのですが、当時のアプリケーションは必ずしもそうではありませんでした。2023年当時のエージェントの流れは、この辺りの制約を乗り越える前に下火になってしまったように思います。
2025年の「エージェント」ができることは?
今年に入り、エージェントは再度注目を集めています。ここにはいくつかの要因が考えられますが、まずは2024年に登場したマルチモーダルLLMの進化が大きいと考えられます。マルチモーダルLLMは、テキストだけでなく画像や音声など、複数のモダリティを統合して処理することが可能です。
従来の「エージェント」と、現在の「エージェント」との違いについては次回、さらに詳しく述べていきたいと思います。
