2025年も止まらない「AIエージェント」開発、主体が全アプリケーションに拡大

岡田太一（sync.dev Technical Director/Visualization Artist）

更新日2025.11.25 / 公開日2025.6.6

URLをコピーしました！

2025年に入り、エージェントは再度注目を集めています。一方で、「エージェント」という言葉は今日非常に多義的であり、文脈によって意味が大きく変わります。前回エージェントという言葉が流行ったのは2023年だったのですが、少し間を置いての再登場です。

これまでのエージェントと今日のエージェントでは何が変わったのでしょうか。

に続き、従来との定義の違いや現在のAI文脈におけるエージェントの位置づけを整理してみたいと思います。

あらゆるアプリケーションでAIネイティブな実装が可能に

2025年にエージェントが再度注目を集めるようになった要因はいくつか考えられますが、まずは2024年に登場したマルチモーダルLLMの進化が大きいと考えられます。マルチモーダルLLMは、

テキストだけでなく画像や音声など、複数のモダリティを統合して処理することが可能

です。

これにより、従来のテキストベースのタスクだけでなく、画像認識や音声認識など、より多様なタスクに対応できるようになりました。例えば、画像を入力として受け取り、その内容を分析してテキストを生成する、といったことが可能です。

PCの画面をスクリーンキャプチャし、その画像をマルチモーダルLLMに入力として渡し、画像の内容から押すべきボタンやメニューの位置を特定。その後、マウスやキーボードの操作を再現する、といったような手順でアプリケーションの操作が可能になります。

この手法の素晴らしいところは、特別なAPIを必要とせず既存のアプリケーションに対して適用できる点です。つまり、

画面にUIが表示されるありとあらゆるアプリケーションに対して、エージェントによる操作の可能性が開けた

のです。

既存のアプリケーションに対する対応はそれでいいとして、これから作られるモダンなアプリケーションについては、よりAIネイティブな実装がしたくなります。そうした流れを受け、アプリケーション側にLLMへのAPIを実装するための手段が各社から提供されるようになりました。

そこには囲い込みとエコシステム戦争の側面もありますが、以前の連載でも紹介したMCP（Model Context Protocol）のように、特定のプラットフォームに依存しない共通規格も登場しており、アプリケーション開発者の選択肢は広がっています。

生成AI時代のテクニカルディレクション

岡田太一（sync.dev Technical Director/Visualization Artist）

CG会社のDigital Artist からキャリアを開始。ポストプロダクションを経て、現在はビジュアルクリエイティブ領域にてテクニカルディレクションを担当。得意な分野は映像編集、ビデオ信号とリアルタイム合成、トラッキング関連など。2022年から『ブレーン』で連載中。

岡田太一（sync.dev Technical Director/Visualization Artist）

この記事の感想を
教えて下さい。

この記事の感想を教えて下さい。

URLをコピーしました！