Đọc nhiều tệp pdf trong python

Là một ngôn ngữ cấp cao, được giải thích với cú pháp tương đối dễ dàng, Python hoàn hảo ngay cả đối với những người không có kinh nghiệm lập trình trước đó. Các thư viện Python phổ biến được tích hợp tốt và cung cấp giải pháp để xử lý các nguồn dữ liệu phi cấu trúc như Pdf và có thể được sử dụng để làm cho nó hợp lý và hữu ích hơn

PDF là một trong những phương tiện kỹ thuật số quan trọng nhất và được sử dụng rộng rãi. dùng để trình bày và trao đổi tài liệu. Các tệp PDF chứa thông tin hữu ích, liên kết và nút, trường biểu mẫu, âm thanh, video và logic nghiệp vụ

1- Tại sao Python để xử lý PDF

Như bạn đã biết, quá trình xử lý PDF thuộc phân tích văn bản

Hầu hết các khung hoặc Thư viện phân tích văn bản chỉ được thiết kế bằng Python. Điều này mang lại đòn bẩy cho phân tích văn bản. Một điều nữa là bạn không bao giờ có thể xử lý pdf trực tiếp trong các khung hiện có của Học máy hoặc Xử lý ngôn ngữ tự nhiên. Trừ khi họ đang chứng minh giao diện rõ ràng cho điều này, trước tiên chúng ta phải chuyển đổi pdf thành văn bản

2- Thư viện Python để xử lý PDF

Là một nhà khoa học dữ liệu, bạn có thể không dính vào định dạng dữ liệu

PDF là nguồn dữ liệu tốt, hầu hết các tổ chức chỉ phát hành dữ liệu của họ ở dạng PDF

Khi AI ngày càng phát triển, chúng ta cần nhiều dữ liệu hơn để dự đoán và phân loại; . Trên thực tế, việc xử lý PDF hơi khó khăn nhưng chúng tôi có thể tận dụng API bên dưới để làm cho việc này trở nên dễ dàng hơn

Trong phần này, chúng ta sẽ khám phá Thư viện Python PDF hàng đầu

Công cụ khai thác PDF

PDFMiner là công cụ trích xuất thông tin từ tài liệu PDF. Không giống như các công cụ liên quan đến PDF khác, nó tập trung hoàn toàn vào việc lấy và phân tích dữ liệu văn bản. PDFMiner cho phép một người có được vị trí chính xác của văn bản trong một trang, cũng như các thông tin khác như phông chữ hoặc dòng. Nó bao gồm một trình chuyển đổi PDF có thể chuyển đổi các tệp PDF thành các định dạng văn bản khác [chẳng hạn như HTML]. Nó có một trình phân tích cú pháp PDF mở rộng có thể được sử dụng cho các mục đích khác ngoài phân tích văn bản

PyPDF2

PyPDF2 là một thư viện PDF thuần Python có khả năng chia tách, hợp nhất với nhau, cắt xén và chuyển đổi các trang của tệp PDF. Nó cũng có thể thêm dữ liệu tùy chỉnh, tùy chọn xem và mật khẩu vào tệp PDF. Nó có thể truy xuất văn bản và siêu dữ liệu từ các tệp PDF cũng như hợp nhất toàn bộ tệp lại với nhau

pdfrw

pdfrw là một thư viện Python và tiện ích đọc và ghi các tệp PDF

  • Phiên bản 0. 4 đã được thử nghiệm và hoạt động trên Python 2. 6, 2. 7, 3. 3, 3. 4, 3. 5 và 3. 6
  • Các hoạt động bao gồm tập hợp con, hợp nhất, xoay, sửa đổi siêu dữ liệu, v.v.
  • Trình phân tích cú pháp Python PDF thuần túy nhanh nhất hiện có
  • Đã được sử dụng trong nhiều năm bởi một máy in trong sản xuất trước khi in
  • Có thể được sử dụng với rst2pdf để tái tạo hình ảnh vector một cách trung thực
  • Có thể được sử dụng độc lập hoặc kết hợp với reportlab để sử dụng lại các tệp PDF hiện có trong tệp PDF mới
  • được cấp phép

đá phiến

Slate là gói Python giúp đơn giản hóa quá trình trích xuất văn bản từ tệp PDF. Nó phụ thuộc vào gói PDFMiner

3- Môi trường thiết lập

Bước 1. Chọn phiên bản Python để cài đặt từ Python. tổ chức

Bước 2. Tải xuống trình cài đặt thực thi Python

Bước 3. Chạy trình cài đặt thực thi

Bước 4. Xác minh Python đã được cài đặt trên Windows

Bước 5. Xác minh Pip đã được cài đặt

Bước 6. Thêm đường dẫn Python vào biến môi trường [Tùy chọn]

Bước 7. Cài đặt phần mở rộng Python cho IDE của bạn

Tôi đang làm việc với Python 3. 7 trong mã phòng thu trực quan. Để biết thêm thông tin về cách thiết lập môi trường của bạn và chọn trình thông dịch python của bạn để bắt đầu mã hóa bằng Mã VS, hãy kiểm tra Bắt đầu với Python trong tài liệu Mã VS

Bước 7. Bây giờ bạn sẽ có thể thực thi các tập lệnh python với IDE của mình

Bước 8. Cài đặt pdfminer. sáu

pip install pdfminer.six

Bước 9. Cài đặt PyPDF2

pip install PyPDF2

Xong. Bây giờ, bạn có thể bắt đầu xử lý tài liệu pdf với python

4- Giải pháp trích xuất văn bản tài liệu Pdf nhiều và lớn

Giải pháp trích xuất văn bản PDF dựa trên ba bước chính

  • Hợp nhất nhiều tài liệu PDF lớn và lớn thành một tài liệu Pdf duy nhất
  • Tách Tài liệu PDF đã Hợp nhất thành một bộ tài liệu [tách từng trang]
  • Xử lý các tài liệu được chia nhỏ và Trích xuất văn bản

Phiên bản đầy đủ của giải pháp đề xuất được phát hành trên Github

Vui lòng kiểm tra nó qua

Kho lưu trữ Forking và Starring là cách tốt nhất để hỗ trợ dự án

ahmed khemiri 95/PDF-Text Extract

Trích xuất văn bản nhiều tài liệu PDF bằng Python — Python 3. 7 Với tư cách là Nhà khoa học dữ liệu, Bạn không được dính vào định dạng dữ liệu. PDF…

github. com

Nếu bạn có bất kỳ phản hồi, nhận xét hoặc thông tin chi tiết thú vị nào muốn chia sẻ về bài viết của tôi, vui lòng liên hệ với tôi trên kênh truyền thông xã hội LinkedIn của tôi

Chủ Đề