Wordに変換できないPDFでもテキスト文字の抽出は可能【画像でもOK】

YUKAlog-【悪用厳禁】どんなサイトでも文字コピーは可能です
人事系の職場にある悩みネタ。

「なんかさー、このPDF文字とれないんだけど。。」
「えー、この配布資料をテキストに打ち直すの??」

Googleドキュメントで画像から文字をスキャンできますよ!

→ Googleドキュメントを使って解決です。

Googleドキュメントは画像文字(.jpg)やPDF文字(.pdf)をテキスト化してくれます。

  • スキャナーでとったファイル → 画像PDFか画像jpgです。
  • ワードでPDF化したファイル → 文字のせPDFです。
  • スマホで撮影した本の中身 → 文字が見える画像jpgです。

これらを、

  1. Googleドライブに投入して、
  2. Googleドキュメントで開く。

あとは自動的にテキスト化してくれます。

・pdfのテキストが認識できないじゃん!
・PDFのテキスト抽出ができないじゃん!
・このPDFってOCRの埋め込み文字がない!
・画像でテキスト化された文字を抜きたい!
・pdfをテキスト化したい。しかもオンラインで!
・pdfの文字認識をフリーソフトでやっつけたい!
・pdfの文字起こしをやらねばならないのだが・・・。
こんなん全部解決しますよ。

コピるだけ!まじすごい。
画像で手順案内しますね。

以下は説明のために、ブログの画面スクショを使いました。
画面スクショ = 画像 = 写真 です。
※なのでテキスト文字なんかのっかってないです。
※グーグルが自動でOCRスキャンしてます。

Googleドライブで画像から文字をスキャン

作業手順。

文字を抜きたいファイルを用意する

手順①:Googleドライブへアップロード

手順②:Googleドライブで右クリック(ドキュメントで開く)

手順③:画像が自動的にスキャンされテキスト文字化。

文字をコピー!(ワードなどに貼り付けでおしまい)

手順を画像で確認していきます。

手順①:Googleドライブへスクショ画像をアップロード

お手持ちのGoogleアカウントでログインして「googleドライブ」を開きます。

先程のキャプチャした写真をGoogleドライブにアップロードします。

手順②:Googleドライブ上で右クリック

対象のファイル上で右クリックします。
対象のファイル上で右クリックします。

手順②:アプリで開く → Googleドキュメントを選択

アプリで開く → Googleドキュメントを選択

手順③:画像がスキャンされ、文字が抽出されます

画像がスキャンされ、文字が抽出されます
この文字はテキストスタイルなのでコピー可能。
かなり高性能なOCRです。

※HTMLを理解しててchromeを使えばサイトデザインは全部パクれます・・・。

Googleのツールを使って文字が取れるなら、HTMLで作られたデザインパーツも画像も何もかも取れるんじゃない?
と思いまして、chromeで実験してみたところ、やっぱりできました!

第して「フィッシングサイトは簡単に作ることができます」編です(悪用厳禁)。

※詐欺被害にあわないよう、裏の手口を理解するためにどうぞ。怖いくらい簡単です。
詐欺被害に会わぬよう、怪しいメールは開かない。気をつけましょう!
【悪用厳禁】どんなサイトでも文字コピーは可能です

※リンク先はサイトを画像にして文字を抜く方法が書かています。HTMLはソースをまるっとコピーしたら、まったく同じデザインのサイトがつくれます。使い方説明は割愛します。フィッシングには気をつけましょう!

いつもありがとうございます。