2025年に入り、エージェントは再度注目を集めています。一方で、「エージェント」という言葉は今日非常に多義的であり、文脈によって意味が大きく変わります。前回エージェントという言葉が流行ったのは2023年だったのですが、少し間を置いての再登場です。
これまでのエージェントと今日のエージェントでは何が変わったのでしょうか。
に続き、従来との定義の違いや現在のAI文脈におけるエージェントの位置づけを整理してみたいと思います。
あらゆるアプリケーションでAIネイティブな実装が可能に
2025年にエージェントが再度注目を集めるようになった要因はいくつか考えられますが、まずは2024年に登場したマルチモーダルLLMの進化が大きいと考えられます。マルチモーダルLLMは、
テキストだけでなく画像や音声など、複数のモダリティを統合して処理することが可能
です。
これにより、従来のテキストベースのタスクだけでなく、画像認識や音声認識など、より多様なタスクに対応できるようになりました。例えば、画像を入力として受け取り、その内容を分析してテキストを生成する、といったことが可能です。
PCの画面をスクリーンキャプチャし、その画像をマルチモーダルLLMに入力として渡し、画像の内容から押すべきボタンやメニューの位置を特定。その後、マウスやキーボードの操作を再現する、といったような手順でアプリケーションの操作が可能になります。
