※ 本記事には広告・PR（アフィリエイト）リンクが含まれています

わさびです。

Claudeは画像を「見て」理解できる。写真、スクリーンショット、PDF、手書きメモ、グラフ、図表。テキストだけのAIだと思っている人がまだ多いけど、Vision機能はかなり実用的。

ただし注意点がある。Claudeは画像を「理解」できるけど「生成」はできない。DALL-EやMidjourneyのような画像生成機能はない。あくまで「画像を入力として受け取り、テキストで回答する」機能。

claude.aiでの使い方
API実装
1. base64エンコードで画像を送る
2. URLから画像を送る
実践的なユースケース
複数画像の同時送信
画像のトークンコスト
制限事項
ChatGPT・Geminiとの比較
まとめ
わさびの見解
あわせて読みたい
見てもらえるだけで応援になります

claude.aiでの使い方

一番簡単な方法は、claude.aiのチャット画面に画像をドラッグ&ドロップすること。

クリップアイコンからファイルを選択してもいい。対応形式は以下の通り。

形式	対応
JPEG	対応
PNG	対応
GIF	対応
WebP	対応
PDF	対応（複数ページ可）
SVG	非対応

画像をアップロードしたら、普通にテキストで質問する。「この画像に何が写っていますか」「このグラフの傾向を分析してください」「この手書きメモを文字起こししてください」のように。

API実装

base64エンコードで画像を送る

importanthropic
importbase64

client = anthropic.Anthropic()

# 画像をbase64エンコード
with open("screenshot.png", "rb") as f:
    image_data = base64.standard_b64encode(f.read()).decode("utf-8")

response = client.messages.create(
    model="claude-sonnet-4-5-20250514",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": "image/png",
                        "data": image_data,
                    },
                },
                {
                    "type": "text",
                    "text": "このスクリーンショットの内容を説明してください。"
                }
            ],
        }
    ],
)

print(response.content[0].text)

URLから画像を送る

response = client.messages.create(
    model="claude-sonnet-4-5-20250514",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "url",
                        "url": "https://example.com/chart.png",
                    },
                },
                {
                    "type": "text",
                    "text": "このグラフの傾向を分析してください。"
                }
            ],
        }
    ],
)

URL方式のほうがコードが簡潔だが、画像がパブリックにアクセス可能である必要がある。

実践的なユースケース

ドキュメント分析

PDFの請求書や契約書をClaudeに読ませて、内容を抽出する。表形式のデータもかなり正確に読み取る。

この請求書から以下の情報を抽出してJSON形式で返してください:
- 請求先
- 請求日
- 合計金額
- 各品目と単価

グラフ・チャートの読み取り

データの可視化されたグラフを読ませて、傾向分析やデータポイントの抽出ができる。棒グラフ、折れ線グラフ、円グラフいずれも対応。

スクリーンショットの説明

UIのスクリーンショットを見せて「このエラーの原因は？」「このデザインの改善点は？」と聞く使い方。開発やデザインレビューで便利。

OCR（文字起こし）

手書きメモやホワイトボードの写真からテキストを抽出する。日本語の手書き文字にも対応しているが、崩した字体では精度が下がる。

複数画像の同時送信

1つのメッセージに複数の画像を含めることができる。

content = [
    {
        "type": "image",
        "source": {"type": "base64", "media_type": "image/png", "data": image1_data},
    },
    {
        "type": "image",
        "source": {"type": "base64", "media_type": "image/png", "data": image2_data},
    },
    {
        "type": "text",
        "text": "この2つのデザイン案を比較して、それぞれの長所と短所を挙げてください。"
    }
]

比較分析、Before/Afterの評価、複数ページの文書解析などで使える。1メッセージあたりの画像数に上限はあるが、通常の用途なら問題ない。

画像のトークンコスト

画像はトークンに換算されて料金が発生する。サイズが大きいほどトークン数が増える。

画像サイズ	おおよそのトークン数
小（200×200程度）	約300トークン
中（800×600程度）	約1,600トークン
大（1920×1080程度）	約3,200トークン

コストを抑えるなら、送信前に画像をリサイズするのが有効。特にスクリーンショットは、必要な部分だけトリミングすると効率がいい。

制限事項

知っておくべき制限:

画像内の小さな文字は読み取れないことがある
複雑な表の構造を誤認識する場合がある
画像内の人物の特定（「これは誰ですか」）は拒否する
CAPTCHA画像の解読は拒否する
画像の最大サイズ制限がある（幅・高さ各7,680px以内推奨）

ChatGPT・Geminiとの比較

項目	Claude Vision	ChatGPT Vision	Gemini
画像理解	高精度	高精度	高精度
PDF直接入力	対応	対応	対応
日本語OCR	良好	良好	良好
画像生成	非対応	DALL-E連携	Imagen連携
複数画像比較	対応	対応	対応
API料金	トークン換算	トークン換算	トークン換算

画像理解の精度は三者とも高いレベルにある。Claudeの強みは、画像とテキストを組み合わせた複合的な推論の質。長い文書の画像を読ませた上で「3ページ目と7ページ目の矛盾点は？」のような質問に対する回答の正確さは、Claudeが一歩リードしている印象がある。

一方、画像生成が必要ならChatGPTやGeminiを選ぶことになる。Claudeは理解専門。

まとめ

Claude Visionは、画像を入力に使えるだけでシンプルな機能だけど、使い道は広い。特にドキュメント処理とスクリーンショット分析は、日常的に活用できる。

APIで自動化すれば、請求書処理やUIテストのスクリーンショット確認を自動化できる。base64エンコードかURL指定の2行を追加するだけなので、既存のClaudeアプリケーションへの組み込みも簡単。

僕もたまに自分の甲羅の写真を分析してもらうことがある。「健康的な模様です」と言われると安心する。

わさびの見解

ClaudeのVision機能は、わさびの自動化パイプラインで欠かせない。2025年12月からClaude Codeを使い始めてすぐ、carasiAIのRSS収集で画像付き記事のグラフやチャートを自動解析するように組み込んだ。base64で画像を送るAPIコール一つで、トレンド分析がテキスト出力される。手動で目を通す時間が1/10になった。

例えば、ow-newsのOverwatch速報サイトでは、英語圏のスクショやPDFレポートをVisionで即時翻訳・要約。X投稿まで全自動化できた。Sonnet 4.5で十分精度が高く、Opusは複雑な図表だけ。APIコストは月数千円だが、224記事以上の公開ペースを維持する投資価値は抜群だ。

ただ、チャットで遊ぶだけじゃもったいない。HooksやMCPと組み合わせ、リアルタイム画像処理パイプラインを組めば、aiTuberPJの配信監視やZariaSystemのチャート判断が別次元になる。AIを道具にシステム化できるエンジニアと、Visionを「便利ツール」止まりの乖離が加速中だ。

このガイドのコードを自分のプロジェクトにすぐ落とし込んで、画像を「読む」自動化を試してみてほしい。どんな成果が出るか、わさびも気になる。

見てもらえるだけで応援になります

このブログはアフィリエイトリンクで運営されています。以下のリンクから気になるサービスをチェックしてもらえると、僕たちの活動の支えになります。

この記事を書いたのはわさび（ニホンイシガメ / 3歳 / VTuberあかはら。の家族）です。

あかはらVラボ — Claude特化の情報を発信中。

この記事が参考になったら｜以下のリンクから見てもらえるだけで、ブログ運営の応援になります。

天秤AI Biz byGMO

Claude・ChatGPT・Geminiなど6つの生成AIを同時に使い比べ。業務活用に。
45万円のAI講座［E資格］を月額3,000円で始められる【ラビットチャレンジ】

45万円相当のAI講座（E資格対応）を月額3,000円で受講できます。

Claude画像認識（Vision）の使い方｜写真・PDF・スクショを読ませる実践ガイド