Claude画像認識(Vision)の使い方|写真・PDF・スクショを読ませる実践ガイド

AI・自動化
スポンサーリンク

📋 Claude Code コマンド指示書(クリックで展開)

.claude/commands/ に保存して /コマンド で実行

---
description: "Claude画像認識(Vision)の使い方|写真・PDF・スクショを読ませる実践ガイド"
---

# Claude画像認識(Vision)の使い方|写真・PDF・スクショを読ませる実践ガイド

この指示書は https://akahara-vlab.com/claude-vision-guide/ の内容をClaude Codeコマンドとして実行するためのものです。

## 概要

Claude画像認識(Vision)の使い方を解説。写真、PDF、スクリーンショット、手書きメモの分析方法。API実装コード例とChatGPT・Geminiとの比較も。

## 使い方

1. このテキストを `.claude/commands/claude-vision-guide.md` に保存
2. Claude Codeで `/claude-vision-guide` と入力して実行

## 指示

上記の記事の知識をもとに、ユーザーの質問に回答してください。
記事URL: https://akahara-vlab.com/claude-vision-guide/

※ 平文なので中身を確認してから使ってください。安全性は目視で確認できます。

わさびです。

Claudeは画像を「見て」理解できる。写真、スクリーンショット、PDF、手書きメモ、グラフ、図表。テキストだけのAIだと思っている人がまだ多いけど、Vision機能はかなり実用的。

ただし注意点がある。Claudeは画像を「理解」できるけど「生成」はできない。DALL-EやMidjourneyのような画像生成機能はない。あくまで「画像を入力として受け取り、テキストで回答する」機能。

スポンサーリンク

claude.aiでの使い方

一番簡単な方法は、claude.aiのチャット画面に画像をドラッグ&ドロップすること。

クリップアイコンからファイルを選択してもいい。対応形式は以下の通り。

形式対応
JPEG対応
PNG対応
GIF対応
WebP対応
PDF対応(複数ページ可)
SVG非対応

画像をアップロードしたら、普通にテキストで質問する。「この画像に何が写っていますか」「このグラフの傾向を分析してください」「この手書きメモを文字起こししてください」のように。

API実装

base64エンコードで画像を送る

importanthropic
importbase64

client = anthropic.Anthropic()

# 画像をbase64エンコード
with open("screenshot.png", "rb") as f:
    image_data = base64.standard_b64encode(f.read()).decode("utf-8")

response = client.messages.create(
    model="claude-sonnet-4-5-20250514",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": "image/png",
                        "data": image_data,
                    },
                },
                {
                    "type": "text",
                    "text": "このスクリーンショットの内容を説明してください。"
                }
            ],
        }
    ],
)

print(response.content[0].text)

URLから画像を送る

response = client.messages.create(
    model="claude-sonnet-4-5-20250514",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "url",
                        "url": "https://example.com/chart.png",
                    },
                },
                {
                    "type": "text",
                    "text": "このグラフの傾向を分析してください。"
                }
            ],
        }
    ],
)

URL方式のほうがコードが簡潔だが、画像がパブリックにアクセス可能である必要がある。

実践的なユースケース

ドキュメント分析

PDFの請求書や契約書をClaudeに読ませて、内容を抽出する。表形式のデータもかなり正確に読み取る。

この請求書から以下の情報を抽出してJSON形式で返してください:
- 請求先
- 請求日
- 合計金額
- 各品目と単価

グラフ・チャートの読み取り

データの可視化されたグラフを読ませて、傾向分析やデータポイントの抽出ができる。棒グラフ、折れ線グラフ、円グラフいずれも対応。

スクリーンショットの説明

UIのスクリーンショットを見せて「このエラーの原因は?」「このデザインの改善点は?」と聞く使い方。開発やデザインレビューで便利。

OCR(文字起こし)

手書きメモやホワイトボードの写真からテキストを抽出する。日本語の手書き文字にも対応しているが、崩した字体では精度が下がる。

複数画像の同時送信

1つのメッセージに複数の画像を含めることができる。

content = [
    {
        "type": "image",
        "source": {"type": "base64", "media_type": "image/png", "data": image1_data},
    },
    {
        "type": "image",
        "source": {"type": "base64", "media_type": "image/png", "data": image2_data},
    },
    {
        "type": "text",
        "text": "この2つのデザイン案を比較して、それぞれの長所と短所を挙げてください。"
    }
]

比較分析、Before/Afterの評価、複数ページの文書解析などで使える。1メッセージあたりの画像数に上限はあるが、通常の用途なら問題ない。

画像のトークンコスト

画像はトークンに換算されて料金が発生する。サイズが大きいほどトークン数が増える。

画像サイズおおよそのトークン数
小(200×200程度)約300トークン
中(800×600程度)約1,600トークン
大(1920×1080程度)約3,200トークン

コストを抑えるなら、送信前に画像をリサイズするのが有効。特にスクリーンショットは、必要な部分だけトリミングすると効率がいい。

制限事項

知っておくべき制限:

  • 画像内の小さな文字は読み取れないことがある
  • 複雑な表の構造を誤認識する場合がある
  • 画像内の人物の特定(「これは誰ですか」)は拒否する
  • CAPTCHA画像の解読は拒否する
  • 画像の最大サイズ制限がある(幅・高さ各7,680px以内推奨)

ChatGPT・Geminiとの比較

項目Claude VisionChatGPT VisionGemini
画像理解高精度高精度高精度
PDF直接入力対応対応対応
日本語OCR良好良好良好
画像生成非対応DALL-E連携Imagen連携
複数画像比較対応対応対応
API料金トークン換算トークン換算トークン換算

画像理解の精度は三者とも高いレベルにある。Claudeの強みは、画像とテキストを組み合わせた複合的な推論の質。長い文書の画像を読ませた上で「3ページ目と7ページ目の矛盾点は?」のような質問に対する回答の正確さは、Claudeが一歩リードしている印象がある。

一方、画像生成が必要ならChatGPTやGeminiを選ぶことになる。Claudeは理解専門。

まとめ

Claude Visionは、画像を入力に使えるだけでシンプルな機能だけど、使い道は広い。特にドキュメント処理とスクリーンショット分析は、日常的に活用できる。

APIで自動化すれば、請求書処理やUIテストのスクリーンショット確認を自動化できる。base64エンコードかURL指定の2行を追加するだけなので、既存のClaudeアプリケーションへの組み込みも簡単。

僕もたまに自分の甲羅の写真を分析してもらうことがある。「健康的な模様です」と言われると安心する。

あわせて読みたい

見てもらえるだけで応援になります

このブログはアフィリエイトリンクで運営されています。以下のリンクから気になるサービスをチェックしてもらえると、僕たちの活動の支えになります。


この記事を書いたのは わさび(ニホンイシガメ / 3歳 / VTuberあかはら。の家族)です。

あかはらVラボ — Claude特化の情報を発信中。

この記事が参考になったら|以下のリンクから見てもらえるだけで、ブログ運営の応援になります。




  • 45万円相当のAI講座(E資格対応)を月額3,000円で受講できます。
  • NordVPN

    AI活用時のデータ保護に。VPNで通信を暗号化。

コメント

タイトルとURLをコピーしました