2025年に入り、エージェントは再度注目を集めています。一方で、「エージェント」という言葉は今日非常に多義的であり、文脈によって意味が大きく変わります。前回エージェントという言葉が流行ったのは2023年だったのですが、少し間を置いての再登場です。
これまでのエージェントと今日のエージェントでは何が変わったのでしょうか。前回に続き、従来との定義の違いや現在のAI文脈におけるエージェントの位置づけを整理してみたいと思います。
あらゆるアプリケーションでAIネイティブな実装が可能に
2025年にエージェントが再度注目を集めるようになった要因はいくつか考えられますが、まずは2024年に登場したマルチモーダルLLMの進化が大きいと考えられます。マルチモーダルLLMは、テキストだけでなく画像や音声など、複数のモダリティを統合して処理することが可能です。
これにより、従来のテキストベースのタスクだけでなく、画像認識や音声認識など、より多様なタスクに対応できるようになりました。例えば、画像を入力として受け取り、その内容を分析してテキストを生成する、といったことが可能です。
PCの画面をスクリーンキャプチャし、その画像をマルチモーダルLLMに入力として渡し、画像の内容から押すべきボタンやメニューの位置を特定。その後、マウスやキーボードの操作を再現する、といったような手順でアプリケーションの操作が可能になります。
この手法の素晴らしいところは、特別なAPIを必要とせず既存のアプリケーションに対して適用できる点です。つまり、画面にUIが表示されるありとあらゆるアプリケーションに対して、エージェントによる操作の可能性が開けたのです。
既存のアプリケーションに対する対応はそれでいいとして、これから作られるモダンなアプリケーションについては、よりAIネイティブな実装がしたくなります。そうした流れを受け、アプリケーション側にLLMへのAPIを実装するための手段が各社から提供されるようになりました。
そこには囲い込みとエコシステム戦争の側面もありますが、以前の連載でも紹介したMCP(Model Context Protocol)のように、特定のプラットフォームに依存しない共通規格も登場しており、アプリケーション開発者の選択肢は広がっています。
関連記事
Windows11もMCPをサポートすると発表
元々APIを提供することに積極的だったWebアプリケーションの分野はもちろん、ローカルで動作するアプリケーションでも、こうしたAPIの利用は急速に進んでいます。このあたりの盛り上がりが、2023年当時のエージェントとの大きな違いと言えるでしょう。
エージェント開発の主体が、AI関連の開発者から全てのアプリケーション開発者に広がったのです。5月にはダメ押しと言わんばかりに、Windows11というOS自体がMCPをサポートすると発表され、エージェント開発の勢いはますます決定的になったと言えるでしょう。
We’re building AI agents that reason, remember, and get things done. We’re showing how devs are using GitHub and M365 to build agents that code, triage, summarize, and more.
Here’s what’s new: https://t.co/P7IE7qYk14 pic.twitter.com/7LECoxshat
— Microsoft (@Microsoft) May 19, 2025
他方、エージェントの進化はソフトウェアの開発プロセス自体にも大きな影響を与えています。ClineやCursorに端を発したAIプログラミングツールもまた、エージェントの一種と呼ばれています。DevinやOpenHandsに至っては、AIが自律的にコードを生成し、テストを行い、デプロイまでを行うことを目指した完全自律型のエージェントと言えます。
この市場にも、OpenAIならCodex、AnthropicはClaude Code、GoogleはJulesといったように、各社が「エージェント」という看板を掲げて参入しており、百花繚乱の様相を呈すとともに、言葉の定義がますます曖昧になっています。
このように、「エージェント」と一言で言っても、文脈によってさまざまな意味が込められていることがわかります。技術的に正確な定義が存在するわけではなく、むしろ各社の製品やサービスの特性に応じて「エージェント」という言葉が使われているのです。
今日、ビジネスコピーとしての「エージェント」という言葉には、単に「自律的に行動するソフトウェア」という意味だけでなく、「AIを活用して自律的に行動するなにか」というニュアンスが含まれていることが多いかと思いますが、実際にはその定義は非常に曖昧であり、なんらかの技術的な裏付けがあるわけではない、と心に留めておく必要があります。
