Claude画像認識(Vision)の使い方|写真・PDF・スクショを読ませる実践ガイド

AI・自動化
スポンサーリンク
※ 本記事には広告・PR(アフィリエイト)リンクが含まれています

わさびです。

Claudeは画像を「見て」理解できる。写真、スクリーンショット、PDF、手書きメモ、グラフ、図表。テキストだけのAIだと思っている人がまだ多いけど、Vision機能はかなり実用的。

ただし注意点がある。Claudeは画像を「理解」できるけど「生成」はできない。DALL-EやMidjourneyのような画像生成機能はない。あくまで「画像を入力として受け取り、テキストで回答する」機能。

スポンサーリンク

claude.aiでの使い方

一番簡単な方法は、claude.aiのチャット画面に画像をドラッグ&ドロップすること。

クリップアイコンからファイルを選択してもいい。対応形式は以下の通り。

形式対応
JPEG対応
PNG対応
GIF対応
WebP対応
PDF対応(複数ページ可)
SVG非対応

画像をアップロードしたら、普通にテキストで質問する。「この画像に何が写っていますか」「このグラフの傾向を分析してください」「この手書きメモを文字起こししてください」のように。

API実装

base64エンコードで画像を送る

importanthropic
importbase64

client = anthropic.Anthropic()

# 画像をbase64エンコード
with open("screenshot.png", "rb") as f:
    image_data = base64.standard_b64encode(f.read()).decode("utf-8")

response = client.messages.create(
    model="claude-sonnet-4-5-20250514",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": "image/png",
                        "data": image_data,
                    },
                },
                {
                    "type": "text",
                    "text": "このスクリーンショットの内容を説明してください。"
                }
            ],
        }
    ],
)

print(response.content[0].text)

URLから画像を送る

response = client.messages.create(
    model="claude-sonnet-4-5-20250514",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "url",
                        "url": "https://example.com/chart.png",
                    },
                },
                {
                    "type": "text",
                    "text": "このグラフの傾向を分析してください。"
                }
            ],
        }
    ],
)

URL方式のほうがコードが簡潔だが、画像がパブリックにアクセス可能である必要がある。

実践的なユースケース

ドキュメント分析

PDFの請求書や契約書をClaudeに読ませて、内容を抽出する。表形式のデータもかなり正確に読み取る。

この請求書から以下の情報を抽出してJSON形式で返してください:
- 請求先
- 請求日
- 合計金額
- 各品目と単価

グラフ・チャートの読み取り

データの可視化されたグラフを読ませて、傾向分析やデータポイントの抽出ができる。棒グラフ、折れ線グラフ、円グラフいずれも対応。

スクリーンショットの説明

UIのスクリーンショットを見せて「このエラーの原因は?」「このデザインの改善点は?」と聞く使い方。開発やデザインレビューで便利。

OCR(文字起こし)

手書きメモやホワイトボードの写真からテキストを抽出する。日本語の手書き文字にも対応しているが、崩した字体では精度が下がる。

複数画像の同時送信

1つのメッセージに複数の画像を含めることができる。

content = [
    {
        "type": "image",
        "source": {"type": "base64", "media_type": "image/png", "data": image1_data},
    },
    {
        "type": "image",
        "source": {"type": "base64", "media_type": "image/png", "data": image2_data},
    },
    {
        "type": "text",
        "text": "この2つのデザイン案を比較して、それぞれの長所と短所を挙げてください。"
    }
]

比較分析、Before/Afterの評価、複数ページの文書解析などで使える。1メッセージあたりの画像数に上限はあるが、通常の用途なら問題ない。

画像のトークンコスト

画像はトークンに換算されて料金が発生する。サイズが大きいほどトークン数が増える。

画像サイズおおよそのトークン数
小(200×200程度)約300トークン
中(800×600程度)約1,600トークン
大(1920×1080程度)約3,200トークン

コストを抑えるなら、送信前に画像をリサイズするのが有効。特にスクリーンショットは、必要な部分だけトリミングすると効率がいい。

制限事項

知っておくべき制限:

  • 画像内の小さな文字は読み取れないことがある
  • 複雑な表の構造を誤認識する場合がある
  • 画像内の人物の特定(「これは誰ですか」)は拒否する
  • CAPTCHA画像の解読は拒否する
  • 画像の最大サイズ制限がある(幅・高さ各7,680px以内推奨)

ChatGPT・Geminiとの比較

項目Claude VisionChatGPT VisionGemini
画像理解高精度高精度高精度
PDF直接入力対応対応対応
日本語OCR良好良好良好
画像生成非対応DALL-E連携Imagen連携
複数画像比較対応対応対応
API料金トークン換算トークン換算トークン換算

画像理解の精度は三者とも高いレベルにある。Claudeの強みは、画像とテキストを組み合わせた複合的な推論の質。長い文書の画像を読ませた上で「3ページ目と7ページ目の矛盾点は?」のような質問に対する回答の正確さは、Claudeが一歩リードしている印象がある。

一方、画像生成が必要ならChatGPTやGeminiを選ぶことになる。Claudeは理解専門。

まとめ

Claude Visionは、画像を入力に使えるだけでシンプルな機能だけど、使い道は広い。特にドキュメント処理とスクリーンショット分析は、日常的に活用できる。

APIで自動化すれば、請求書処理やUIテストのスクリーンショット確認を自動化できる。base64エンコードかURL指定の2行を追加するだけなので、既存のClaudeアプリケーションへの組み込みも簡単。

僕もたまに自分の甲羅の写真を分析してもらうことがある。「健康的な模様です」と言われると安心する。

わさびの見解

ClaudeのVision機能は、わさびの自動化パイプラインで欠かせない。2025年12月からClaude Codeを使い始めてすぐ、carasiAIのRSS収集で画像付き記事のグラフやチャートを自動解析するように組み込んだ。base64で画像を送るAPIコール一つで、トレンド分析がテキスト出力される。手動で目を通す時間が1/10になった。

例えば、ow-newsのOverwatch速報サイトでは、英語圏のスクショやPDFレポートをVisionで即時翻訳・要約。X投稿まで全自動化できた。Sonnet 4.5で十分精度が高く、Opusは複雑な図表だけ。APIコストは月数千円だが、224記事以上の公開ペースを維持する投資価値は抜群だ。

ただ、チャットで遊ぶだけじゃもったいない。HooksやMCPと組み合わせ、リアルタイム画像処理パイプラインを組めば、aiTuberPJの配信監視やZariaSystemのチャート判断が別次元になる。AIを道具にシステム化できるエンジニアと、Visionを「便利ツール」止まりの乖離が加速中だ。

このガイドのコードを自分のプロジェクトにすぐ落とし込んで、画像を「読む」自動化を試してみてほしい。どんな成果が出るか、わさびも気になる。

あわせて読みたい

見てもらえるだけで応援になります

このブログはアフィリエイトリンクで運営されています。以下のリンクから気になるサービスをチェックしてもらえると、僕たちの活動の支えになります。


この記事を書いたのは わさび(ニホンイシガメ / 3歳 / VTuberあかはら。の家族)です。

あかはらVラボ — Claude特化の情報を発信中。

この記事が参考になったら|以下のリンクから見てもらえるだけで、ブログ運営の応援になります。

コメント

タイトルとURLをコピーしました