内容
PDF ファイルのスプレッドシートから Microsoft Excel シートにデータを転送する作業は、常に「楽しい」ものです。 特に、FineReader などの高価な認識ソフトウェアを持っていない場合はなおさらです。 通常、直接コピーしても良い結果にはなりません。 コピーしたデータをシートに貼り付けた後、それらはおそらく XNUMX つの列に「くっつく」でしょう。 そのため、ツールを使用して骨の折れる方法で分離する必要があります 列ごとのテキスト タブから 且つ (データ — テキストから列へ).
もちろん、コピーはテキスト層がある PDF ファイルに対してのみ可能です。つまり、紙から PDF にスキャンしたばかりのドキュメントでは、原則として機能しません。
でも、そんなに悲しくないですよね^^
Office 2013 または 2016 を使用している場合は、追加のプログラムを使用しなくても、数分で PDF から Microsoft Excel にデータを転送できます。 そして、Word と Power Query がこれに役立ちます。
たとえば、欧州経済委員会の Web サイトからの一連のテキスト、数式、および表を含むこの PDF レポートを見てみましょう。
…そしてExcelでそれを引き出してみてください。最初のテーブルを言ってください:
行こう!
ステップ 1. Word で PDF を開く
何らかの理由で知っている人はほとんどいませんが、2013 年以降、Microsoft Word は PDF ファイル (スキャンしたもの、つまりテキスト レイヤーのないものも含む) を開いて認識できるようになりました。 これは完全に標準的な方法で行われます。Word を開いて、 ファイル – 開く (ファイル — 開く) をクリックし、ウィンドウの右下隅にあるドロップダウン リストで PDF 形式を指定します。
次に、必要なPDFファイルを選択してクリックします Open (Open). Word は、この文書に対して OCR を実行してテキストにすることを通知します。
同意すると、数秒で PDF が Word で編集用に開かれます。
もちろん、デザイン、スタイル、フォント、ヘッダー、フッターなどはドキュメントから部分的にはみ出しますが、これは私たちにとって重要ではありません。テーブルからのデータのみが必要です。 原則として、この段階では、認識されたドキュメントから表を単に Word にコピーし、それを Excel に貼り付けるだけで十分です。 うまくいくこともありますが、より多くの場合、あらゆる種類のデータの歪みにつながります。たとえば、私たちの場合のように、数値が日付に変わったり、テキストのままになったりする可能性があります. PDF は区切り記号以外を使用します。
ですから、手抜きをするのではなく、すべてをもう少し複雑にしましょう。
ステップ 2: ドキュメントを Web ページとして保存する
受信したデータを (Power Query 経由で) Excel に読み込むには、Word のドキュメントを Web ページ形式で保存する必要があります。この形式は、この場合、Word と Excel の間の一種の共通項です。
これを行うには、メニューに移動します ファイル – 名前を付けて保存 (ファイル — 名前を付けて保存) またはキーを押します F12 キーボードと開いたウィンドウで、ファイルの種類を選択します XNUMX つのファイル内の Web ページ (ウェブページ — 単一ファイル):
保存後、拡張子が mhtml のファイルを取得する必要があります (エクスプローラーにファイル拡張子が表示されている場合)。
ステージ 3. Power Query を使用してファイルを Excel にアップロードする
作成された MHTML ファイルを Excel で直接開くことができますが、まず、PDF のすべてのコンテンツをテキストと不要なテーブルの束と共に一度に取得します。セパレーター。 したがって、Power Query アドインを使用して Excel へのインポートを行います。 これは完全に無料のアドオンで、ほぼすべてのソース (ファイル、フォルダー、データベース、ERP システム) からデータを Excel にアップロードし、受信したデータをあらゆる方法で変換して目的の形状に変換できます。
Excel 2010-2013 をお持ちの場合は、Microsoft の公式 Web サイトから Power Query をダウンロードできます。インストール後にタブが表示されます。 パワークエリ. Excel 2016 以降をお持ちの場合は、何もダウンロードする必要はありません。すべての機能は既定で Excel に組み込まれており、タブに配置されています。 且つ (日にち) グループで ダウンロードして変換 (取得 & 変換).
だから私たちはどちらかのタブに行きます 且つ、またはタブで パワークエリ そしてチームを選択 データを取得するには or クエリの作成 – ファイルから – XML から. XML ファイルだけでなく可視化するには、ウィンドウの右下隅にあるドロップダウン リストのフィルターを次のように変更します。 すべてのファイル (すべてのファイル) MHTML ファイルを指定します。
インポートが正常に完了しないことに注意してください。 Power Query は XML を想定していますが、実際には HTML 形式を使用しています。 したがって、表示される次のウィンドウで、Power Query が認識できないファイルを右クリックして、その形式を指定する必要があります。
その後、ファイルが正しく認識され、ファイルに含まれるすべてのテーブルのリストが表示されます。
[データ] 列のセルの白い背景 (テーブルという単語ではありません) でマウスの左ボタンをクリックすると、テーブルの内容を表示できます。
目的のテーブルが定義されたら、緑色の単語をクリックします 表 –そして、その内容に「陥る」:
その内容を「くしでとかす」には、いくつかの簡単な手順を実行する必要があります。つまり、次のとおりです。
- 不要な列を削除します (列ヘッダーを右クリックします – 削除します)
- ドットをコンマに置き換えます (列を選択し、右クリック – 値の置き換え)
- ヘッダーの等号を削除します (列を選択し、右クリック – 値の置き換え)
- 一番上の行を削除します (ホーム – 行を削除 – トップ行を削除)
- 空行を削除する (ホーム – 行を削除 – 空行を削除)
- 最初の行をテーブル ヘッダーに上げます (ホーム – 最初の行を見出しとして使用する)
- フィルターを使用して不要なデータを除外する
テーブルが通常の形になったら、次のコマンドでシートにアンロードできます。 閉じてダウンロード (クローズ&ロード) on メイン タブ。 そして、私たちはすでに作業できるような美しさを得るでしょう:
- Power Query を使用して列をテーブルに変換する
- スティッキー テキストを列に分割する