わさびです。
Claudeは画像を「見て」理解できる。写真、スクリーンショット、PDF、手書きメモ、グラフ、図表。テキストだけのAIだと思っている人がまだ多いけど、Vision機能はかなり実用的。
ただし注意点がある。Claudeは画像を「理解」できるけど「生成」はできない。DALL-EやMidjourneyのような画像生成機能はない。あくまで「画像を入力として受け取り、テキストで回答する」機能。
claude.aiでの使い方
一番簡単な方法は、claude.aiのチャット画面に画像をドラッグ&ドロップすること。
クリップアイコンからファイルを選択してもいい。対応形式は以下の通り。
| 形式 | 対応 |
|---|---|
| JPEG | 対応 |
| PNG | 対応 |
| GIF | 対応 |
| WebP | 対応 |
| 対応(複数ページ可) | |
| SVG | 非対応 |
画像をアップロードしたら、普通にテキストで質問する。「この画像に何が写っていますか」「このグラフの傾向を分析してください」「この手書きメモを文字起こししてください」のように。
API実装
base64エンコードで画像を送る
importanthropic
importbase64
client = anthropic.Anthropic()
# 画像をbase64エンコード
with open("screenshot.png", "rb") as f:
image_data = base64.standard_b64encode(f.read()).decode("utf-8")
response = client.messages.create(
model="claude-sonnet-4-5-20250514",
max_tokens=1024,
messages=[
{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/png",
"data": image_data,
},
},
{
"type": "text",
"text": "このスクリーンショットの内容を説明してください。"
}
],
}
],
)
print(response.content[0].text)
URLから画像を送る
response = client.messages.create(
model="claude-sonnet-4-5-20250514",
max_tokens=1024,
messages=[
{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "url",
"url": "https://example.com/chart.png",
},
},
{
"type": "text",
"text": "このグラフの傾向を分析してください。"
}
],
}
],
)
URL方式のほうがコードが簡潔だが、画像がパブリックにアクセス可能である必要がある。
実践的なユースケース
ドキュメント分析
PDFの請求書や契約書をClaudeに読ませて、内容を抽出する。表形式のデータもかなり正確に読み取る。
この請求書から以下の情報を抽出してJSON形式で返してください:
- 請求先
- 請求日
- 合計金額
- 各品目と単価
グラフ・チャートの読み取り
データの可視化されたグラフを読ませて、傾向分析やデータポイントの抽出ができる。棒グラフ、折れ線グラフ、円グラフいずれも対応。
スクリーンショットの説明
UIのスクリーンショットを見せて「このエラーの原因は?」「このデザインの改善点は?」と聞く使い方。開発やデザインレビューで便利。
OCR(文字起こし)
手書きメモやホワイトボードの写真からテキストを抽出する。日本語の手書き文字にも対応しているが、崩した字体では精度が下がる。
複数画像の同時送信
1つのメッセージに複数の画像を含めることができる。
content = [
{
"type": "image",
"source": {"type": "base64", "media_type": "image/png", "data": image1_data},
},
{
"type": "image",
"source": {"type": "base64", "media_type": "image/png", "data": image2_data},
},
{
"type": "text",
"text": "この2つのデザイン案を比較して、それぞれの長所と短所を挙げてください。"
}
]
比較分析、Before/Afterの評価、複数ページの文書解析などで使える。1メッセージあたりの画像数に上限はあるが、通常の用途なら問題ない。
画像のトークンコスト
画像はトークンに換算されて料金が発生する。サイズが大きいほどトークン数が増える。
| 画像サイズ | おおよそのトークン数 |
|---|---|
| 小(200×200程度) | 約300トークン |
| 中(800×600程度) | 約1,600トークン |
| 大(1920×1080程度) | 約3,200トークン |
コストを抑えるなら、送信前に画像をリサイズするのが有効。特にスクリーンショットは、必要な部分だけトリミングすると効率がいい。
制限事項
知っておくべき制限:
- 画像内の小さな文字は読み取れないことがある
- 複雑な表の構造を誤認識する場合がある
- 画像内の人物の特定(「これは誰ですか」)は拒否する
- CAPTCHA画像の解読は拒否する
- 画像の最大サイズ制限がある(幅・高さ各7,680px以内推奨)
ChatGPT・Geminiとの比較
| 項目 | Claude Vision | ChatGPT Vision | Gemini |
|---|---|---|---|
| 画像理解 | 高精度 | 高精度 | 高精度 |
| PDF直接入力 | 対応 | 対応 | 対応 |
| 日本語OCR | 良好 | 良好 | 良好 |
| 画像生成 | 非対応 | DALL-E連携 | Imagen連携 |
| 複数画像比較 | 対応 | 対応 | 対応 |
| API料金 | トークン換算 | トークン換算 | トークン換算 |
画像理解の精度は三者とも高いレベルにある。Claudeの強みは、画像とテキストを組み合わせた複合的な推論の質。長い文書の画像を読ませた上で「3ページ目と7ページ目の矛盾点は?」のような質問に対する回答の正確さは、Claudeが一歩リードしている印象がある。
一方、画像生成が必要ならChatGPTやGeminiを選ぶことになる。Claudeは理解専門。
まとめ
Claude Visionは、画像を入力に使えるだけでシンプルな機能だけど、使い道は広い。特にドキュメント処理とスクリーンショット分析は、日常的に活用できる。
APIで自動化すれば、請求書処理やUIテストのスクリーンショット確認を自動化できる。base64エンコードかURL指定の2行を追加するだけなので、既存のClaudeアプリケーションへの組み込みも簡単。
僕もたまに自分の甲羅の写真を分析してもらうことがある。「健康的な模様です」と言われると安心する。
あわせて読みたい
見てもらえるだけで応援になります
このブログはアフィリエイトリンクで運営されています。以下のリンクから気になるサービスをチェックしてもらえると、僕たちの活動の支えになります。
この記事を書いたのは わさび(ニホンイシガメ / 3歳 / VTuberあかはら。の家族)です。
あかはらVラボ — Claude特化の情報を発信中。
この記事が参考になったら|以下のリンクから見てもらえるだけで、ブログ運営の応援になります。

45万円相当のAI講座(E資格対応)を月額3,000円で受講できます。- NordVPN

AI活用時のデータ保護に。VPNで通信を暗号化。



コメント