Nhập dữ liệu từ PDF sang Excel qua Power Query

Nhiệm vụ chuyển dữ liệu từ bảng tính trong tệp PDF sang trang tính Microsoft Excel luôn "thú vị". Đặc biệt nếu bạn không có phần mềm nhận dạng đắt tiền như FineReader hoặc thứ gì đó tương tự. Sao chép trực tiếp thường không dẫn đến bất cứ điều gì tốt, bởi vì. sau khi dán dữ liệu đã sao chép vào trang tính, chúng rất có thể sẽ "dính vào nhau" thành một cột. Vì vậy, sau đó chúng sẽ phải được tách biệt một cách cẩn thận bằng một công cụ Văn bản theo cột từ tab Ngày (Dữ liệu - Văn bản thành Cột).

Và tất nhiên, việc sao chép chỉ có thể thực hiện được đối với những tệp PDF có lớp văn bản, tức là với một tài liệu vừa được quét từ giấy sang PDF, điều này về nguyên tắc sẽ không hoạt động.

Nhưng nó không quá buồn, thực sự 🙂

Nếu bạn có Office 2013 hoặc 2016, thì trong vài phút mà không cần các chương trình bổ sung, bạn hoàn toàn có thể chuyển dữ liệu từ PDF sang Microsoft Excel. Và Word và Power Query sẽ giúp chúng ta trong việc này.

Ví dụ: hãy lấy báo cáo PDF này với một loạt văn bản, công thức và bảng từ trang web của Ủy ban Kinh tế Châu Âu:

Nhập dữ liệu từ PDF sang Excel qua Power Query

… Và cố gắng rút ra khỏi nó trong Excel, hãy nói bảng đầu tiên:

Nhập dữ liệu từ PDF sang Excel qua Power Query

Đi nào!

Bước 1. Mở PDF trong Word

Vì một số lý do mà ít người biết, nhưng kể từ năm 2013, Microsoft Word đã học cách mở và nhận dạng các tệp PDF (ngay cả những tệp được quét, tức là không có lớp văn bản!). Điều này được thực hiện theo cách hoàn toàn tiêu chuẩn: mở Word, nhấp vào Mở tập tin (Mở tập tin) và chỉ định định dạng PDF trong danh sách thả xuống ở góc dưới bên phải của cửa sổ.

Sau đó, chọn tệp PDF chúng tôi cần và nhấp vào Mở (Mở). Word cho chúng ta biết rằng nó sẽ chạy OCR trên tài liệu này để gửi văn bản:

Nhập dữ liệu từ PDF sang Excel qua Power Query

Chúng tôi đồng ý và trong vài giây nữa, chúng tôi sẽ thấy tệp PDF của mình đã được mở để chỉnh sửa trong Word:

Nhập dữ liệu từ PDF sang Excel qua Power Query

Tất nhiên, thiết kế, phong cách, phông chữ, đầu trang và chân trang, v.v. sẽ phần nào bay khỏi tài liệu, nhưng điều này không quan trọng đối với chúng tôi - chúng tôi chỉ cần dữ liệu từ các bảng. Về nguyên tắc, ở giai đoạn này, bạn chỉ cần sao chép bảng từ tài liệu được nhận dạng sang Word và chỉ cần dán nó vào Excel. Đôi khi nó hoạt động, nhưng thường xuyên hơn nó dẫn đến tất cả các loại biến dạng dữ liệu - ví dụ, các số có thể chuyển thành ngày tháng hoặc vẫn là văn bản, như trong trường hợp của chúng tôi, bởi vì. PDF sử dụng dấu phân tách:

Nhập dữ liệu từ PDF sang Excel qua Power Query

Vì vậy, chúng ta đừng cắt góc, mà hãy làm cho mọi thứ phức tạp hơn một chút, nhưng phải.

Bước 2: Lưu tài liệu dưới dạng trang web

Để sau đó tải dữ liệu đã nhận vào Excel (thông qua Power Query), tài liệu của chúng ta trong Word cần được lưu ở định dạng trang web - trong trường hợp này, định dạng này là mẫu số chung giữa Word và Excel.

Để thực hiện việc này, hãy chuyển đến menu Tệp - Lưu dưới dạng (Tệp - Lưu dưới dạng) hoặc bấm phím F12 trên bàn phím và trong cửa sổ mở ra, hãy chọn loại tệp Trang web trong một tệp (Trang web - Một tệp):

Nhập dữ liệu từ PDF sang Excel qua Power Query

Sau khi lưu, bạn sẽ nhận được một tệp có phần mở rộng mhtml (nếu bạn thấy phần mở rộng tệp trong Explorer).

Giai đoạn 3. Tải tệp lên Excel qua Power Query

Bạn có thể mở trực tiếp tệp MHTML đã tạo trong Excel, nhưng trước tiên, chúng tôi sẽ nhận được, trước tiên, tất cả nội dung của PDF cùng một lúc, cùng với văn bản và một loạt các bảng không cần thiết, và thứ hai, chúng tôi sẽ lại mất dữ liệu do không chính xác dải phân cách. Do đó, chúng tôi sẽ thực hiện nhập vào Excel thông qua bổ trợ Power Query. Đây là một tiện ích bổ sung hoàn toàn miễn phí mà bạn có thể tải dữ liệu lên Excel từ hầu hết mọi nguồn (tệp, thư mục, cơ sở dữ liệu, hệ thống ERP) và sau đó biến đổi dữ liệu nhận được theo mọi cách có thể, tạo cho nó hình dạng mong muốn.

Nếu bạn có Excel 2010-2013, thì bạn có thể tải xuống Power Query từ trang web chính thức của Microsoft - sau khi cài đặt, bạn sẽ thấy một tab Truy vấn nguồn. Nếu bạn có Excel 2016 hoặc mới hơn, thì bạn không cần tải xuống bất kỳ thứ gì - tất cả các chức năng đã được tích hợp sẵn trong Excel theo mặc định và nằm trên tab Ngày (Ngày) trong nhóm Tải xuống và chuyển đổi (Nhận và chuyển đổi).

Vì vậy, chúng tôi đi đến tab Ngàyhoặc trên tab Truy vấn nguồn và chọn một đội Để lấy dữ liệu or Tạo truy vấn - Từ tệp - Từ XML. Để hiển thị không chỉ các tệp XML, hãy thay đổi các bộ lọc trong danh sách thả xuống ở góc dưới bên phải của cửa sổ thành Tất cả các file (Tất cả các tệp) và chỉ định tệp MHTML của chúng tôi:

Nhập dữ liệu từ PDF sang Excel qua Power Query

Xin lưu ý rằng quá trình nhập sẽ không hoàn tất thành công, bởi vì. Power Query mong đợi XML từ chúng tôi, nhưng chúng tôi thực sự có một định dạng HTML. Do đó, trong cửa sổ tiếp theo xuất hiện, bạn sẽ cần phải nhấp chuột phải vào tệp không thể hiểu được Power Query và chỉ định định dạng của nó:

Nhập dữ liệu từ PDF sang Excel qua Power Query

Sau đó, tệp sẽ được nhận dạng chính xác và chúng ta sẽ thấy danh sách tất cả các bảng mà nó chứa:

Nhập dữ liệu từ PDF sang Excel qua Power Query

Bạn có thể xem nội dung của các bảng bằng cách nhấp chuột trái trên nền trắng (không phải trong từ Bảng!) Của các ô trong cột Dữ liệu.

Khi bảng mong muốn được xác định, hãy nhấp vào từ màu xanh lá cây Bàn - và bạn "rơi vào" nội dung của nó:

Nhập dữ liệu từ PDF sang Excel qua Power Query

Nó vẫn phải thực hiện một vài bước đơn giản để "lược" nội dung của nó, cụ thể là:

  1. xóa các cột không cần thiết (nhấp chuột phải vào tiêu đề cột - Hủy bỏ)
  2. thay dấu chấm bằng dấu phẩy (chọn cột, nhấp chuột phải vào - Thay thế các giá trị)
  3. loại bỏ các dấu bằng trong tiêu đề (chọn cột, nhấp chuột phải vào - Thay thế các giá trị)
  4. loại bỏ dòng trên cùng (Trang Chủ - Xóa các dòng - Xóa các dòng trên cùng)
  5. xóa các dòng trống (Trang chủ - Xóa dòng - Xóa dòng trống)
  6. nâng hàng đầu tiên lên tiêu đề bảng (Trang chủ - Sử dụng dòng đầu tiên làm tiêu đề)
  7. lọc ra dữ liệu không cần thiết bằng bộ lọc

Khi bảng được đưa về dạng bình thường, nó có thể được dỡ xuống trang tính bằng lệnh đóng và tải xuống (Đóng & Tải) on Chính chuyển hướng. Và chúng ta sẽ có được vẻ đẹp như vậy mà chúng ta đã có thể làm việc:

Nhập dữ liệu từ PDF sang Excel qua Power Query

  • Chuyển đổi một cột thành một bảng với Power Query
  • Tách văn bản cố định thành các cột

Bình luận