Claude画像認識（Vision）の使い方｜写真・PDF・スクショを読ませる実践ガイド

Q: Claude Extended Thinkingとは何ですか？

Extended Thinking（拡張思考）は、Claudeが回答する前に内部で段階的に思考するモード。数学の計算、コードアーキテクチャ設計、多段推論など「考える時間が精度に直結するタスク」で効果が大きいです。APIで「thinking」パラメータを設定して有効にします。

Q: Extended ThinkingはAPIキーなしで使えますか？

claude.aiのチャット画面でOpus 4.6を選択すると、複雑な質問に対して自動的にExtended Thinkingが動作します。APIを使う場合はbudget_tokensパラメータを指定して有効化します。

Q: Extended Thinkingを使うとコストはどう変わりますか？

thinkingブロックのトークンが追加コストになります。Opus 4.6の場合、thinkingトークンは出力と同じ$25/100万トークンで課金されます。budget_tokensに10,000を指定して実際に8,000トークン思考した場合、その分の出力料金が上乗せされます。

わさび

Claude画像認識（Vision）の使い方｜写真・PDF・スクショを読ませる実践ガイド

AI・自動化

2026.03.04 2026.02.17

📋 Claude Code コマンド指示書（クリックで展開）

.claude/commands/ に保存して /コマンドで実行

---
description: "Claude画像認識（Vision）の使い方｜写真・PDF・スクショを読ませる実践ガイド"
---

# Claude画像認識（Vision）の使い方｜写真・PDF・スクショを読ませる実践ガイド

この指示書は https://akahara-vlab.com/claude-vision-guide/ の内容をClaude Codeコマンドとして実行するためのものです。

## 概要

Claude画像認識（Vision）の使い方を解説。写真、PDF、スクリーンショット、手書きメモの分析方法。API実装コード例とChatGPT・Geminiとの比較も。

## 使い方

1. このテキストを `.claude/commands/claude-vision-guide.md` に保存
2. Claude Codeで `/claude-vision-guide` と入力して実行

## 指示

上記の記事の知識をもとに、ユーザーの質問に回答してください。
記事URL: https://akahara-vlab.com/claude-vision-guide/

※ 平文なので中身を確認してから使ってください。安全性は目視で確認できます。

わさびです。

Claudeは画像を「見て」理解できる。写真、スクリーンショット、PDF、手書きメモ、グラフ、図表。テキストだけのAIだと思っている人がまだ多いけど、Vision機能はかなり実用的。

ただし注意点がある。Claudeは画像を「理解」できるけど「生成」はできない。DALL-EやMidjourneyのような画像生成機能はない。あくまで「画像を入力として受け取り、テキストで回答する」機能。

claude.aiでの使い方
API実装
1. base64エンコードで画像を送る
2. URLから画像を送る
実践的なユースケース
複数画像の同時送信
画像のトークンコスト
制限事項
ChatGPT・Geminiとの比較
まとめ
あわせて読みたい
見てもらえるだけで応援になります

claude.aiでの使い方

一番簡単な方法は、claude.aiのチャット画面に画像をドラッグ&ドロップすること。

クリップアイコンからファイルを選択してもいい。対応形式は以下の通り。

形式	対応
JPEG	対応
PNG	対応
GIF	対応
WebP	対応
PDF	対応（複数ページ可）
SVG	非対応

画像をアップロードしたら、普通にテキストで質問する。「この画像に何が写っていますか」「このグラフの傾向を分析してください」「この手書きメモを文字起こししてください」のように。

API実装

base64エンコードで画像を送る

importanthropic
importbase64

client = anthropic.Anthropic()

# 画像をbase64エンコード
with open("screenshot.png", "rb") as f:
    image_data = base64.standard_b64encode(f.read()).decode("utf-8")

response = client.messages.create(
    model="claude-sonnet-4-5-20250514",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": "image/png",
                        "data": image_data,
                    },
                },
                {
                    "type": "text",
                    "text": "このスクリーンショットの内容を説明してください。"
                }
            ],
        }
    ],
)

print(response.content[0].text)

URLから画像を送る

response = client.messages.create(
    model="claude-sonnet-4-5-20250514",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "url",
                        "url": "https://example.com/chart.png",
                    },
                },
                {
                    "type": "text",
                    "text": "このグラフの傾向を分析してください。"
                }
            ],
        }
    ],
)

URL方式のほうがコードが簡潔だが、画像がパブリックにアクセス可能である必要がある。

実践的なユースケース

ドキュメント分析

PDFの請求書や契約書をClaudeに読ませて、内容を抽出する。表形式のデータもかなり正確に読み取る。

この請求書から以下の情報を抽出してJSON形式で返してください:
- 請求先
- 請求日
- 合計金額
- 各品目と単価

グラフ・チャートの読み取り

データの可視化されたグラフを読ませて、傾向分析やデータポイントの抽出ができる。棒グラフ、折れ線グラフ、円グラフいずれも対応。

スクリーンショットの説明

UIのスクリーンショットを見せて「このエラーの原因は？」「このデザインの改善点は？」と聞く使い方。開発やデザインレビューで便利。

OCR（文字起こし）

手書きメモやホワイトボードの写真からテキストを抽出する。日本語の手書き文字にも対応しているが、崩した字体では精度が下がる。

複数画像の同時送信

1つのメッセージに複数の画像を含めることができる。

content = [
    {
        "type": "image",
        "source": {"type": "base64", "media_type": "image/png", "data": image1_data},
    },
    {
        "type": "image",
        "source": {"type": "base64", "media_type": "image/png", "data": image2_data},
    },
    {
        "type": "text",
        "text": "この2つのデザイン案を比較して、それぞれの長所と短所を挙げてください。"
    }
]

比較分析、Before/Afterの評価、複数ページの文書解析などで使える。1メッセージあたりの画像数に上限はあるが、通常の用途なら問題ない。

画像のトークンコスト

画像はトークンに換算されて料金が発生する。サイズが大きいほどトークン数が増える。

画像サイズ	おおよそのトークン数
小（200×200程度）	約300トークン
中（800×600程度）	約1,600トークン
大（1920×1080程度）	約3,200トークン

コストを抑えるなら、送信前に画像をリサイズするのが有効。特にスクリーンショットは、必要な部分だけトリミングすると効率がいい。

制限事項

知っておくべき制限:

画像内の小さな文字は読み取れないことがある
複雑な表の構造を誤認識する場合がある
画像内の人物の特定（「これは誰ですか」）は拒否する
CAPTCHA画像の解読は拒否する
画像の最大サイズ制限がある（幅・高さ各7,680px以内推奨）

ChatGPT・Geminiとの比較

項目	Claude Vision	ChatGPT Vision	Gemini
画像理解	高精度	高精度	高精度
PDF直接入力	対応	対応	対応
日本語OCR	良好	良好	良好
画像生成	非対応	DALL-E連携	Imagen連携
複数画像比較	対応	対応	対応
API料金	トークン換算	トークン換算	トークン換算

画像理解の精度は三者とも高いレベルにある。Claudeの強みは、画像とテキストを組み合わせた複合的な推論の質。長い文書の画像を読ませた上で「3ページ目と7ページ目の矛盾点は？」のような質問に対する回答の正確さは、Claudeが一歩リードしている印象がある。

一方、画像生成が必要ならChatGPTやGeminiを選ぶことになる。Claudeは理解専門。

まとめ

Claude Visionは、画像を入力に使えるだけでシンプルな機能だけど、使い道は広い。特にドキュメント処理とスクリーンショット分析は、日常的に活用できる。

APIで自動化すれば、請求書処理やUIテストのスクリーンショット確認を自動化できる。base64エンコードかURL指定の2行を追加するだけなので、既存のClaudeアプリケーションへの組み込みも簡単。

僕もたまに自分の甲羅の写真を分析してもらうことがある。「健康的な模様です」と言われると安心する。

あわせて読みたい

見てもらえるだけで応援になります

このブログはアフィリエイトリンクで運営されています。以下のリンクから気になるサービスをチェックしてもらえると、僕たちの活動の支えになります。

この記事を書いたのはわさび（ニホンイシガメ / 3歳 / VTuberあかはら。の家族）です。

あかはらVラボ — Claude特化の情報を発信中。

この記事が参考になったら｜以下のリンクから見てもらえるだけで、ブログ運営の応援になります。

45万円相当のAI講座（E資格対応）を月額3,000円で受講できます。
NordVPN

AI活用時のデータ保護に。VPNで通信を暗号化。