OpenAIがリリースしたとされる次世代AIモデル「GPT-5.4」が、OSレベルでコンピューターを直接操作する新機能を搭載し、注目を集めている。この機能により、AIは人間のように画面を認識し、ブラウザーや各種アプリケーションを操作できるという。
OSネイティブの操作機能
GPT-5.4は、OpenAIの主にモデルとして初めて、OSネイティブのコンピューター操作機能を内蔵したとみられる。従来のモデルは主に質問応答に特化していたが、GPT-5.4は画面上のブラウザー、ボタン、入力欄などを直接認識し、一連の操作を自律的に実行できるとされる。
この機能は、AIがコンピューターの画面を視覚的に理解し、人間が行うのと同じようにマウスカーソルの移動やクリック、キーボード入力などを模倣するものだ。これにより、これまで手動で行っていた多くのPC作業をAIに任せられる可能性が生まれる。
API不要のアプリケーション連携
この新機能の最大の特徴は、API(Application Programming Interface)を介さずにアプリケーションを操作できる点にある。通常、外部システムが特定のアプリケーションと連携するには、提供されている公式APIを利用する必要がある。
しかし、一部の技術系メディアによると、GPT-5.4はAPIが公開されていないアプリケーションでも直接操作できると報じられている。例えば、メッセージングアプリ「WeChat(WeChat(微信))」を、公式APIを使わずに起動し、メッセージを送信するなどの操作が可能になるという。
自動化の新たな地平
GPT-5.4が持つとされるコンピューター操作能力は、AIによるタスク自動化の可能性を大きく広げるものだ。画面を視覚的に認識して人間と同様の操作を行うことで、これまで自動化が難しかった複雑な業務もAIに代替させられる未来が現実味を帯びてきた。
この技術が確立されれば、ソフトウェアのテスト、データ入力、顧客サポート対応など、多岐にわたる分野で革命的な生産性向上が期待される。
日本への影響と今後の展望
OpenAIの「GPT-5.4」がOSレベルでコンピューターを直接操作する機能は、日本企業にとって二つの明確な影響をもたらす。第一に、人件費高騰に直面する日本の製造業やサービス業における生産性向上への貢献である。例えば、これまで手作業で行われていたソフトウェアのテストや、多言語対応が必要なデータ入力といった定型業務をGPT-5.4に代替させることで、人件費の高い国内での事業継続性を高めることが可能となる。特に、APIを介さずに「WeChat」のような中国製アプリケーションまで直接操作できる点は、中国市場向けの業務プロセス自動化において、日本のIT投資負担を軽減する機会を提供する。
第二に、この技術は、日本企業が長年培ってきた特定の専門職種、特に事務職や一部のITエンジニアリング職における雇用構造の再編を加速させるリスクがある。GPT-5.4が画面を視覚的に認識し、マウスカーソルの移動やクリック、キーボード入力などを自律的に行う能力は、これまで人間が行ってきた多くのPC作業をAIに置き換えることを意味する。これにより、企業は業務効率化の恩恵を受ける一方で、国内の雇用市場に大きな影響を与える可能性があり、人材のリスキリングや新たな職務創出への投資が喫緊の課題となる。