目次


1. InternVL3.5ってどんなモデル?

まず最初に、InternVL3.5は「マルチモーダル」と呼ばれる AI です。
これはつまり、テキストだけじゃなく画像も一緒に理解できるのが大きな特徴。たとえば、表やグラフが入った PDF を渡したり、スクリーンショットをアップロードしたりすると、その内容を読んで説明してくれるんです。

一方、GPT-OSSは OpenAI が公開した最新のオープンソース LLM で、基本的にはテキスト専用。文章の理解や推論力に強く、しかもツールを呼び出して作業を進められるのがポイントです。

両者は似たような「ローカルで動かせる AI」ですが、InternVL3.5 =見ることもできる AIGPT-OSS =考えることが得意な AIと覚えるとイメージしやすいでしょう。


2. InternVL3.5の特徴

Qwen

InternVL3.5 には、他のモデルにはない魅力がたくさんあります。

  • 画像+テキストを同時に処理
    たとえば「この写真の中で安全装置はどこ?」と質問すると、ちゃんと画像を見ながら説明してくれます。従来のテキスト専用 AI では不可能だったやりとりです。

  • 高度な推論力
    「Cascade RL」という手法で学習されていて、数字の入った問題や複雑な指示にもしっかり対応できるよう工夫されています。

  • 高速で効率的
    大きな画像を入力すると処理が重くなりがちですが、InternVL3.5 には「ViR」という仕組みがあり、解像度をうまく調整して無駄な計算を減らします。また「DvD」という工夫で、画像処理と文章処理を別の GPU に分けて同時進行できるので、処理速度も向上しています。

  • モデルサイズの選択肢が豊富
    小さめの 8B クラスから超大型モデルまでラインナップされているので、試しやすいところから本格導入まで段階的に使えます。


3. GPT-OSSとの違いを比較表でチェック

両者の特徴をまとめると次のようになります。

項目InternVL3.5GPT-OSS
モダリティ画像+テキストテキストのみ
得意分野図表・スクショ・写真の理解、視覚情報を絡めた QA複雑な推論、ツール実行、テキスト処理
モデルサイズ8B〜大規模まで複数展開20B と 120B
処理効率の工夫ViR(解像度調整)、DvD(GPU 分散)MoE(必要な部分だけ活性化して効率化)
ライセンスオープンソース(条件はモデルごとに異なる)Apache 2.0(商用利用可)
推奨用途マニュアルの画像理解、帳票要約、UI レビュー社内ナレッジ QA、長文推論、業務フロー自動化
最低限の PC 要件8B モデルなら GPU 12〜16GB20B モデルなら GPU 16GB
大規模運用マルチ GPU で画像処理分担A100/H100 級 GPU 推奨

こうして並べてみると、InternVL3.5 は見る力GPT-OSS は考える力に特化していることがはっきり分かります。


4. 実際にどう使える?具体的なユースケース

✅ 工場や現場でのマニュアル検索

紙のマニュアルやスキャン PDF を読み込ませて、「この手順はどの部品に対応してる?」と画像付きで質問。InternVL3.5 なら図や写真を見ながら答えてくれるので、現場の作業効率が大幅にアップします。

✅ 医療や会計の帳票要約

数値が多い表やスキャンされた書類をまとめたいときに便利。InternVL3.5 はグラフや表を理解した上で要約してくれるので、レビューのスピードが格段に上がります。

✅ アプリや Web サイトの UI レビュー

スクリーンショットを渡して「どこが分かりづらい?」と聞けば、デザインの改善点を提案。アクセシビリティの視点での指摘も可能です。

✅ 社内ナレッジ検索(テキスト中心)

文章だけの社内文書や FAQ 検索なら GPT-OSS が最適。20B モデルは比較的軽量なので、オンプレ環境でも導入しやすいです。

✅ 業務フローの自動化

GPT-OSS はツールを呼び出せるので、社内システムと組み合わせて「問い合わせを受けたらチケットを発行」「在庫を確認して返答」なども可能になります。


5. 動かすためのPCスペック目安

導入時に一番気になるのが「どのくらいの PC が必要か?」という点ですよね。ざっくり目安をまとめました。

利用シーンモデル最低限快適に動かす目安
個人で試す(画像 QA)InternVL3.5-8BGPU 12〜16GB / RAM 32GBGPU 24GB / RAM 64GB
画像を多く扱う業務用InternVL3.5 大規模マルチ GPU(2 枚以上)A6000×2 以上
社内 FAQ や文書検索GPT-OSS 20BGPU 16GB / RAM 32GBGPU 24GB / RAM 64GB
高度な推論業務GPT-OSS 120BA100 80GB 以上H100 やクラウド GPU

量子化(モデルを軽くする工夫)を使えば、もう少し小さい GPU でも試すことは可能です。


6. 導入のステップと気をつけたいこと

  1. まずは小さなモデルで試す
    InternVL3.5 なら 8B モデル、GPT-OSS なら 20B モデルから始めるのがおすすめ。PC1 台で試せる規模なので PoC に最適です。

  2. 用途ごとに使い分ける

    • 画像を含むデータを扱うなら InternVL3.5
    • テキストだけの業務なら GPT-OSS
  3. セキュリティ対策を忘れない
    社内データを使う場合は、アクセス制御やログ管理、個人情報のマスキングが必須です。

  4. パフォーマンスを観測する
    応答の速さや精度を KPI としてモニタリング。遅延が出やすい場合はマルチ GPU やクラウド環境を検討しましょう。


7. まとめ

  • InternVL3.5は「画像も一緒に理解して欲しい」人におすすめ。製造・医療・教育など“見る力”が必要な場面で強みを発揮します。
  • GPT-OSSは「複雑な文章を正しく理解して、自動化にもつなげたい」人に向いています。社内 FAQ や業務フローを効率化したいならこちらが ◎。
  • 最適解は両方を組み合わせること。画像処理は InternVL3.5、言語処理やツール連携は GPT-OSS と分担させれば、幅広い業務で活躍できます。

OpenBridge では、ローカル LLM 選定〜RAG/ツール連携の設計、導入・運用まで一気通貫で支援します。
ユースケースや社内データの状況を教えていただければ、最小構成の PoC プランもその場でご提案します。