AIで画像を翻訳する方法

Updated June 20, 2025
Gazo honyaku - Smartcat blog
Smartcat covers all your language needs with AI translation, AI content generation and AI human workflows.

テキストは画像内に頻繁に表示されます——道路標識、製品ラベル、書類、メニュー、スクリーンショットなどです。テキストが異なる言語で書かれている場合、その言語を母語としない閲覧者は、画像が伝えようとしている内容を理解するのに苦労する可能性があります。今日のAIモデルは、テキスト、音声、動画にわたるより高度で多様なデータ処理能力へと進化しています。[1]

今日のAIは、画像翻訳の方法に革命をもたらし、世界中の視聴者に向けた多言語対応を瞬時に実現します。テキストが埋め込まれた画像の更新は煩雑です。 デザイナーは各バージョンを手作業で再作成する必要があり、生産性を低下させコストを増加させます。SmartcatのImage Translation Agentのようなソリューションは、翻訳と再作成プロセスを自動化するため、ブランドの一貫性を損なうことなく迅速に作業を進められます。

このガイドでは、画像内のテキストを認識・抽出・翻訳する全プロセス、使用するツール、正確な結果を得る方法について説明します。

主なポイント

  • 画像翻訳はOCR技術を用いて画像からテキストを抽出し、AIが言語を判別して元のレイアウトや文脈を保持したまま翻訳します。

  • Smartcat の Image Agent などの AI ソリューションは、画像ファイル内のテキストを検出して翻訳し、翻訳された内容をそのまま画像に再構築します。手作業によるデザイン作業は一切必要ありません。

  • 高品質で照明が適切、テキストが明瞭な画像が最良の翻訳結果をもたらすため、正確性を確保するには適切なファイル準備が不可欠です。

画像を翻訳するとはどういう意味か?

画像の翻訳とは、画像内に書かれたテキストを別の言語に変換することを意味します。画像そのもの、そのデザイン、色、形状などは翻訳されず、文字のみが翻訳対象となります。

この翻訳は光学式文字認識(OCR)技術を用いて行われています。OCRとは、画像ファイルから文字を検出し抽出するソフトウェアの一種です。

テキストが抽出されると、AI翻訳ツールがそれを目的の言語に翻訳します。このステップはOCRとは別ですが、同じワークフロー内で実行されることがよくあります。

人々は写真翻訳ツールを日常の様々な場面で利用しています。例えば:

  • ソーシャルグラフィック、インフォグラフィック、研修用ビジュアル内のテキストのローカライズ

  • 旅行中の外国の道路標識の読み取り

  • 他言語の製品ラベルの理解

  • 外国ウェブサイトのスクリーンショットの翻訳

  • 海外レストランのメニューの読み取り

  • スキャンした文書の編集可能な翻訳文への変換

  • 外国ウェブサイトのスクリーンショットの翻訳

  • 海外レストランのメニューの読み取り

  • スキャンした文書の編集可能な翻訳文への変換

  • 外国ウェブサイトのスクリーンショットの翻訳

  • 外国のウェブサイトのスクリーンショットを翻訳する

  • 国際的なレストランのメニューを読む

  • スキャンした文書を編集可能かつ翻訳可能なテキストに変換する

画像翻訳用にファイルを準備する方法

画像内のテキストを翻訳する前に、適切な準備を行うことで正確な結果を得られます。画像の品質は、テキストの認識精度と翻訳結果に直接影響します。

1. ファイルを整理して処理を高速化

複数の画像を扱う場合、適切な整理整頓は作業を円滑にし、ミスを防ぐのに役立ちます。

  • 日付と言語を含む明確なファイル名を使用してください (例:2025-06-11-japanese-sign.jpg)

  • 原画像と翻訳結果用のフォルダを別々に作成する

  • 類似した画像をまとめてグループ化する(メニュー類は1フォルダ、看板類は別フォルダ)

  • 大規模プロジェクトでは、画像や写真を効率的に翻訳するため、バッチ処理用の画像準備を行う

2. テキストが明確で読みやすいことを確認する

画像が鮮明であればあるほど、翻訳結果の精度が高まります。画質が悪いと、文字認識に誤りが生じることがよくあります。

画像解像度:高解像度の画像(少なくとも300 dpi)を使用すると、OCRによるテキスト検出精度が向上します。

照明とコントラスト:適切な照明と、テキストと背景の強いコントラストは認識率を向上させます。

テキストの位置:まっすぐで角度がついていないテキストがOCRシステムに最適です。

ファイル形式:JPG、PNG、PDFなどの標準形式は、翻訳ツールで広くサポートされています。

3. テキスト領域をトリミングしてフォーカスする

画像の不要な部分を削除することで、OCRシステムが重要な部分、つまりテキストに集中できるようになります。

  • 不要な背景要素を切り取る

  • テキストが端で切れないようにする

  • 画像に複数のテキスト領域がある場合は、それぞれ別々に処理することを検討する

  • 重要なテキストと重なる可能性のある透かしを削除または最小化する

画像内のテキストを翻訳する5つの手順

画像内のテキストを翻訳する方法:

  • 1

    Sign up for an AI translation tool like Smartcat’s Image Agent

  • 2

    Upload your image files and extract the text to be translated

  • 3

    Pick the languages you want to translate your text into

  • 4

    Translate and edit the text

  • 5

    Save and export the newly translated images

コンピューター、タブレット、スマートフォンいずれを使用する場合でも、画像からテキストを翻訳する手順はほぼ同じです。その方法は以下の通りです:

1. プラットフォームまたはツールを選択する

複数のプラットフォームが画像翻訳機能を提供しています。Smartcatは包括的なImage Agentを提供しており、画像テキスト翻訳をはじめ、他のコンテンツタイプにも対応しています。

画像翻訳ツールを選ぶ際には、以下の点を考慮してください:

  • 必要な言語(ツールによっては対応言語ペアが異なります)

  • 翻訳する画像の数

  • 翻訳結果を保存またはエクスポートする必要があるか

  • 翻訳時に元のレイアウトを維持したいか

2. 画像ファイルをアップロードして自動抽出する

画像のアップロードは通常、簡単です:

Smartcatのイメージエージェントは、PNG、JPG、JPEG、BMP、PCX、 JP2、JPC、JFIF、TIF、TIFF、GIFなど、幅広い画像フォーマットを変換します。非対応フォーマットの場合は、アップロード前に変換できます。画像ソースからの翻訳時、ファイルサイズ制限は通常1画像あたり10~20MB程度です。

3. 翻訳する言語を選択する

アップロード後、システムにどの言語を扱うかを指定する必要があります:

  • ソース言語(画像内の言語)を選択するか、自動検出を使用してください

  • ターゲット言語(翻訳先の言語)を選択してください

  • 必要に応じて複数の言語への一括翻訳が可能です

代表的な言語ペアには、日本語から韓国語、中国語から英語、スペイン語からフランス語、ギリシャ語からイタリア語、ポルトガル語からスペイン語などが挙げられます。SmartcatのImage Agentは280以上の言語をサポートしています。

4. 翻訳と編集

言語を選択すると、システムは画像を次の2段階で処理します:

  1. OCRが画像からテキストを抽出してコピーします

  2. AI翻訳がテキストをターゲット言語に変換します

多くのツールでは、翻訳前に抽出されたテキストを表示し、OCRエラーを修正できるようにします。これにより、最終的な翻訳品質が向上します。

Smartcatのイメージエージェントには、以下のような使いやすい機能が含まれています:

  • 組み込み編集機能:フォントファミリー、書式、色、サイズ、配置、テキストボックスのサイズを変更可能

  • 単一または一括画像アップロード:画像を個別またはバッチ処理で処理可能

  • 翻訳ゾーン(例:ロゴ)の「非表示」機能

サポート対象:

10種類以上の一般的な画像ファイル形式50種類以上のフォント
どんな色でも
  • 280以上の言語

画像のライブプレビューを編集する

Smartcatのイメージエージェントでは、画像が希望の言語に翻訳された後、そのライブプレビューを編集することも可能です。

5. 翻訳した画像を保存またはエクスポートする

翻訳後、通常は次のことができます:

  • 翻訳テキストを元の画像と並べて表示

  • 翻訳をテキストまたは文書形式でダウンロード

  • 翻訳テキストを元の位置に重ねたオーバーレイ画像を保存

  • 結果をメールまたはリンクで共有

画像翻訳における複雑なフォントとレイアウトの処理

すべての画像が簡単に翻訳できるわけではありません。特定の要素は、最高の翻訳システムでさえも課題をもたらします。

装飾フォント:装飾的または芸術的なフォントは、OCRシステムを混乱させることが多い。フォントが標準的で明瞭であればあるほど、認識精度は向上する。手書き文字は特に認識が難しいが、現代のAIは手書き文字の認識能力を高めつつある。

グラフィック内のテキスト:テキストがデザイン要素やロゴの一部である場合、OCRが背景から分離するのに苦労することがあります。このような場合、一部のテキストを手動で入力する必要があるかもしれません。

複数列: 列や複雑なレイアウトを持つ文書は、順番通りに読み取られない可能性があります。システムは各列を個別に読み取るのではなく、列間を飛び移る場合があります。

混合言語:複数の言語を含む画像は翻訳システムを混乱させる可能性があります。例えば、英語と日本語の両方のテキストが記載された製品ラベルは、各部分が正しく翻訳されるよう特別な処理が必要になる場合があります。

これらの課題に対処するには:

  • 可能な限り高品質な画像を使用してください

  • 複雑な画像はよりシンプルな部分に切り分けてみてください

  • 翻訳前に抽出したテキストを確認してください

  • 特殊なレイアウトには手動での調整が必要になる場合がありますので、その準備をしておいてください

画像を他の言語に翻訳する際のベストプラクティス

ブランド固有の用語集を維持する

用語集とは、重要な用語とその承認済み訳語の一覧です。企業や組織にとって、これは翻訳されたすべてのコンテンツにおける一貫性を維持するのに役立ちます。

ブランド名、製品名、専門用語を含む画像を翻訳する際、用語集を使用することでこれらの用語が常に正しく処理されます。例えば、製品名は通常すべての言語で同じままですが、説明的な用語は翻訳されます。

Smartcatでは、画像翻訳を含むすべての翻訳プロジェクトで利用できる用語集を作成・維持できます。 システムが用語集内の用語を検出すると、承認済み翻訳を自動的に適用します。

品質保証には人間によるレビューを活用する

従来は貴重な人的資源を消費していた反復的な業務は、現在ではインテリジェントな自動化ソリューションによって処理可能です。これにより、チームは戦略的計画立案、顧客関係管理、イノベーションといった高付加価値活動に集中できるようになります。[2]

AI翻訳は劇的に向上していますが、人間の校閲者による結果の確認は依然として価値があります——特に重要なコンテンツにおいてはなおさらです。

レビュアーは次のことができます:

  • 翻訳に影響したOCRエラーを検出し修正する

  • 翻訳が画像の文脈に合致していることを確認する

  • 対象言語でより自然に聞こえるよう表現を調整する

  • 翻訳全体でブランドの声とスタイルを維持する

プラットフォームに共同編集者を招待し、画像翻訳の編集を依頼できます。プロジェクトに追加できる共同編集者数に制限はなく、Smartcatでは追加ユーザー席の料金は発生しません。

Smartcatプラットフォーム内のマーケットプレイスを通じて、プロの校閲者を雇うことも可能です。これは世界最大級の審査済み専門家ネットワーク(50万人以上)の一つです。彼らは翻訳されたコンテンツの正確性を確認します。

翻訳の一貫性を確認し、調整する

画像からテキストを翻訳した後、結果を確認することで品質と一貫性を確保できます。これはビジネスや専門的なコンテンツにおいて特に重要です。

翻訳された画像を確認する際に注目すべき点は以下の通りです:

正確性の確認:翻訳されたテキストと原文を比較し、すべての内容が正しく捕捉され翻訳されていることを確認してください。

用語の一貫性:特定用語が、すべての画像およびその他のコンテンツにおいて同じ方法で翻訳されていることを確認してください。

書式設定の問題:翻訳において数字、日付、特殊文字が正しく表示されていることを確認してください。

文化的適切性:翻訳が対象読者の文化的背景に合致していることを確認してください。

このプロセスには、簡単なチェックリストが役立ちます:

  • 画像内のテキストは全て翻訳に含まれていますか?

  • ブランド名や製品名は正しく処理されていますか?

  • 日付、数字、測定単位は対象国の形式に準拠していますか?

  • 翻訳は画像に示された文脈に合っていますか?

  • 翻訳は対象文化圏の人にとって意味を成しますか?

すべての翻訳を一つのシステムにまとめて管理

画像翻訳を含むあらゆる翻訳ニーズに単一のプラットフォームを利用することには、いくつかの利点があります:

  • すべてのコンテンツタイプで一貫した用語

  • 時間の経過とともに改善される共有翻訳メモリ

  • より容易なプロジェクト管理と進捗追跡

  • 多様な例によるAIシステムの学習効果向上

画像翻訳が文書、ウェブサイト、その他のコンテンツ翻訳と同じシステム内で処理される場合、AI技術はより賢く、より高速になります。ある形式から学んだことを他の形式に応用でき、全体的な品質が向上します。

AIベースのグローバルコンテンツプラットフォームでスケールアップ

AIベースのグローバルコンテンツプラットフォームで事業を拡大する

複数の言語でコンテンツを扱う企業や組織にとって、画像翻訳はより大きな課題の一部に過ぎないことが多い。統合的なアプローチにより、あらゆるコンテンツタイプで一貫性を維持できる。2023年には、AIが労働に与える影響を評価した複数の研究が実施され、AIによって作業者のタスク遂行速度が向上し、成果物の品質が改善されることが示唆された。[3]

Smartcatのイメージエージェントは、画像ファイル内のテキストを280以上の言語に翻訳します。レイアウト、デザインの整合性、ブランドの声はそのまま維持されます。

SmartcatのAIエージェントに期待できること:

Smartcatは専門家が開発したAIエージェントを活用し、コンテンツ作成、翻訳、ローカライゼーションを自動化。これにより、グローバルチームが世界中のあらゆる市場で一貫性のある高品質なコンテンツをより迅速に展開できるよう支援します。

  • ワンステップソリューション:オリジナルデザインを維持し、280以上の言語でネイティブに見える画像を提供します。

  • スピードと精度:AI翻訳が単一または一括画像プロジェクトを瞬時に処理し、ブランドメッセージを維持します。

  • 常に学習するあなたのブランド:当社のAIはブランドの声と専門家のフィードバックに継続的に適応し、全コンテンツで一貫した翻訳を保証します。

  • 完全なクリエイティブコントロール:組み込みツールでプラットフォームを切り替えずに翻訳済み画像を微調整可能。

  • AIと人間のキュレーション:AIの効率性と専門家の監視を融合し、品質を確保しながらワークフローを加速。

AIベースのグローバルコンテンツプラットフォームは、画像翻訳を以下のコンテンツワークフローと連携させます:

  • ウェブサイトのローカライズ

  • 文書翻訳

  • マーケティング資料

  • 製品説明

  • カスタマーサポートコンテンツ

Smartcatのような単一プラットフォームを利用することで、チームは画像内のテキストを翻訳しながら、他のコンテンツタイプも同時に処理できます。この統合されたアプローチにより、すべての資料において用語、スタイル、ブランドボイスの一貫性が確保されます。

Babbelのローカライゼーションチームは、プラットフォーム間のコピー&ペーストや、ベンダー選定・支払いの手間といった手作業を排除する、より効率的で一元化された翻訳およびローカライゼーション手法が必要だと判断しました。 包括的なオールインワンのSmartcatエンタープライズ言語AIプラットフォームを活用することで、ワークフローの効率化を実現し、より短時間で多言語コンテンツを増加させることができました。

SmartcatのAIエージェントは、あらゆるプロジェクトから学習し、画像やその他すべてのコンテンツの翻訳品質を継続的に向上させます。この学習は言語やコンテンツタイプを超えて行われ、強力なフィードバックループを形成することで、時間の経過とともに結果を高めていきます。

画像テキストの翻訳によるコンテンツのローカライズ

画像翻訳に関するよくある質問

画質は翻訳の正確性にどのように影響しますか?

画像品質は、OCRシステムがテキストを認識できる精度に直接影響します。高解像度、良好な照明、テキストと背景の明確なコントラストが、より正確なテキスト抽出と優れた翻訳につながります。

画像内の手書きテキストは確実に翻訳できるか?

手書きのテキストは翻訳可能ですが、正確性は文字の整然さと明瞭さに依存します。現代のOCRシステムは判読可能な手書き文字に対応できますが、筆記体や乱れた文字では結果が完璧でない場合があります。

スクリーンショットのテキストを翻訳するにはどうすればよいですか?

スクリーンショットのテキストを翻訳するには、スクリーンショットを画像ファイル(PNGまたはJPG)として保存し、画像翻訳ツールにアップロードします。言語を選択し、翻訳を実行してください。スクリーンショットはデジタルで明瞭なテキストを含むため、通常は良好な結果が得られます。

OCRと画像翻訳の違いは何ですか?

OCR(光学式文字認識)は画像から文字を抽出する技術であり、画像翻訳はその文字を抽出した上で翻訳する一連のプロセスを指します。OCRは画像翻訳における最初の段階に過ぎません。

複数の画像を異なる言語で同時に翻訳するにはどうすればよいですか?

ほとんどの画像翻訳プラットフォームでは一括処理が可能です。Smartcatワークスペースでは、複数の画像をアップロードし、各画像のソース言語を選択(または自動検出を使用)、ターゲット言語を選択して、すべてを一度に処理できます。これにより、多数の画像を扱う際の時間を節約できます。

画像翻訳にはどのファイル形式が最適ですか?

画像翻訳には、JPG、PNG、PDFなどの一般的な画像形式が最適です。これらの形式は、ファイルサイズを管理可能な範囲に保ちつつ、テキストの明瞭さを維持します。SVGなどのベクター形式は、すべての翻訳ツールで動作しない場合があります。

スキャンした文書からテキストを翻訳できますか?

はい、スキャンした文書も他の画像と同じプロセスで翻訳できます。複数ページの文書の場合、PDF全体をアップロードできるプラットフォームもあれば、各ページを個別に処理する必要があるプラットフォームもあります。

画像内の専門的な内容に対するAI翻訳の精度はどの程度か?

専門的なコンテンツにおけるAI翻訳の精度は、システムの学習データに依存します。修正データから学習し用語集を利用するシステムは、技術用語、法律用語、業界固有の用語において一般的に優れた性能を発揮します。

参考文献:

  1. メイヤー、ハンナほか「職場におけるスーパーエージェンシー:AIの潜在能力を解き放つためのエンパワーメント」 マッキンゼー・アンド・カンパニー, マッキンゼー・アンド・カンパニー, 2025年1月28日, www.mckinsey.com/capabilities/mckinsey-digital/our-insights/superagency-in-the-workplace-empowering-people-to-unlock-ais-full-potential-at-work.

  2. ナガラジャン、プラカシュ。「インテリジェントオートメーションがコスト削減に与える影響」。インテグラ、2024年5月8日、 integranxt.com/blog/impact-of-intelligent-automation-on-cost-savings/

  3. 「2024年AIインデックスレポート:スタンフォード大学ハイ研究所」 ホームページ, hai.stanford.edu/ai-index/2024-ai-index-report. 2025年6月17日アクセス。

💌

ニュースレターを購読する

メールアドレス *