gpt-realtimeとは？｜音声で“即会話”できる最新AIの全貌と実践ユースケース

2025.09.01生成AI

1. gpt-realtimeとは？

gpt-realtimeは、OpenAI が 2025 年 8 月 28 日に発表した最新の音声対話特化モデル。同時にRealtime API の一般提供（GA）が開始され、開発者や企業はWebRTC での超低遅延の音声会話や電話（SIP）連携まで、クラウド上の 1 つの API で実現できるようになりました。画像入力や MCP（Model Context Protocol）サーバー連携も追加され、音声エージェントの実務活用が一段と加速します。

2. どこが新しい？— 機能アップデートの要点

より自然で表情豊かな音声
新モデルは抑揚・速度・感情の指示に細かく従えるよう最適化。新音声「Cedar」「Marin」も追加され、聞き心地と没入感が向上しました。
理解力・指示追従・ツール呼び出しの精度向上
内部評価では、オーディオ推論系ベンチマークで前モデル（2024 年 12 月）を大きく上回るスコアを記録。長めの番号読み上げや多言語切替にも強く、実運用での信頼性がアップ。
MCP（外部ツール群）を“そのまま”音声から使える
セッション設定でリモート MCP サーバーの URL を渡すだけ。長時間の処理は非同期ツール呼び出しにより、会話を止めずに進められます。
画像入力が会話に統合
音声・テキストに加え画像（スクショ等）を会話の文脈に挿入可能。ユーザーが「この画面、どこを押せばいい？」と尋ねる体験を自然に実装できます。
電話（SIP）連携の公式サポート
公衆電話網や PBX とつながるSIP サポートで、“通話ボット”の内製がシンプルに。
データガバナンス
EU データレジデンシ対応やエンタープライズ向けプライバシーコミットメントも明示。業務導入時の法令順守に配慮されています。

3. 仕組みと導入イメージ

従来は「音声 → 文字起こし（ASR）→LLM→ 音声合成（TTS）」の複数モデル連結が一般的でしたが、Realtime API は単一モデルで音声入出力を直接扱うため、遅延が減り、声のニュアンスも保たれやすいのが特長です。ブラウザではWebRTCで双方向ストリーミング、サーバー間ではWebSocketの選択肢が用意されています。

簡単な構成イメージ：

フロント（Web/モバイル）：マイク入力を WebRTC で送信、モデル音声を即時再生
エージェント：MCP 経由で社内システム・外部 API を呼び出し、結果を会話に反映
電話窓口：SIP 接続で受発信、待ち時間や転送の自動化まで拡張可能
LiveKit 等のメディア基盤を併用すれば、WebRTC↔WebSocket 変換や割込み処理も容易に構築できます。

4. 料金・提供状況

gpt-realtime の一般提供（GA）に伴い、前世代プレビュー比で20%値下げ。料金は音声入力トークン 100 万あたり$32（キャッシュ時$0.40）、音声出力トークン 100 万あたり$64。長時間の会話向けにコンテキストの賢い切り詰めも提供され、総コストの抑制が可能です（詳細は公式の料金表を参照）。

5. 実践ユースケース集（業務別）

5-1. コンタクトセンター（電話/チャットの統合応対）

SIP 対応で既存 PBX と直結。本人確認 → 要件把握 → 手続き起動まで、MCP 連携の関数呼び出しで自動化。繁忙時の着信分散や一次切り分けの自動化に効果的。

5-2. EC・不動産・保険の会話ナビゲーション

新モデルは複雑な指示追従が強化され、条件の言い換え・途中変更にも自然に対応。Zillow の実例のように、ライフスタイル条件で物件絞り込み→与信目安の案内などまで一連の対話で完了。

5-3. 店舗・キオスクの音声コンシェルジュ

WebRTC で即応、画像入力で商品棚やレシートの読み取りもサポート。レジ業務の質問対応や観光案内などの無人案内に向く。

5-4. フィールドサポート／社内ヘルプデスク

スマホから現場の写真を送って口頭相談。MCP でチケット発行・在庫照会・作業手順提示を自動化し、対話を止めない非同期ツール呼び出しが効く。

5-5. 語学学習・研修

発音・抑揚・速度の細かな指示が通るため、講師のような口調で練習相手に。中途割込みに強い会話体験を実現。

6. 導入のポイント：体験品質・安全性・運用

会話の“体験設計”が命
目標応答時間（例：~300ms 以内の応答開始）を KPI に設定。WebRTC 採用、STUN/TURN の最適化、ネットワーク条件（無線/有線）を検証しましょう。Azure OpenAI でも WebRTC/WS 双方を案内しており、要件に応じた使い分けが現実的です。
音声モデル前提の“プロンプト作法”
「声色・速度・言い回し・禁止事項」を開発者メッセージで明示。再利用可能なプロンプト機能を使うと、複数の窓口やシナリオで統一品質を保てます。
安全・プライバシー
使用ポリシーとエンタープライズ向けプライバシー、EU データレジデンシの整備が公表されています。顧客と AI の会話であることの明示も求められます。
既存基盤との連携
LiveKit などのメディア基盤は、WebRTC↔WebSocket 橋渡しや割込み処理に有用。段階導入に向きます。

7. よくある質問（FAQ）

Q. ブラウザだけで動かせますか？
A. はい。WebRTCでブラウザから直接セッションを張れます。サーバー to サーバーはWebSocketも選択可能です。

Q. これまでの「gpt-4o realtime preview」と何が違う？
A. 一般提供（GA）となり、音声品質・指示追従・ツール呼び出しが強化。SIP や画像入力、MCP 連携、再利用プロンプト、非同期関数呼び出しなど本番運用向けの新機能がまとめて入りました。価格も前世代比で 20%値下げされています。

Q. 電話システムとつなげるのは難しい？
A. SIP サポートが追加され、PBX/外線との橋渡しがシンプルになりました。既存の番号・IVR に段階的に音声 AI を導入できます。

8. まとめ

gpt-realtimeは、音声で人間並みの自然な会話を可能にする OpenAI の最新モデル。
Realtime API が GAとなり、WebRTC・SIP 通話・画像入力・MCP 連携など、実運用に必要な機能一式が揃いました。
料金は入出力トークン課金で、前世代より 20%低価格。長時間会話のコスト最適化も配慮済み。

OpenBridge では、電話窓口の自動応対、コールセンターの一次受け、店舗・現場の対話 UI、社内ヘルプデスクなど、gpt-realtime を活用した“すぐ実装できる”導入支援を提供しています。要件整理から体験設計、MCP/外部 API 連携、検証運用までワンストップでご相談ください。

この記事を書いた人

OpenBridge株式会社

AIシステム開発チーム

最新のAI技術と豊富な開発経験を活かし、高品質なAIシステムを提供する専門チームです。