Làm cách nào để trích xuất PDF thành văn bản Python?
Tiết lộ. Bài đăng này có thể chứa các liên kết liên kết, nghĩa là khi bạn nhấp vào liên kết và mua hàng, chúng tôi sẽ nhận được hoa hồng Show Vào thời điểm này, các công ty quy mô vừa và lớn có lượng lớn tài liệu PDF được sử dụng hàng ngày. Trong số đó có hóa đơn, biên lai, tài liệu, báo cáo, v.v. Trong hướng dẫn này, bạn sẽ học cách trích xuất văn bản từ tài liệu PDF bằng Python bằng thư viện PyMuPDF Hướng dẫn này giải quyết vấn đề khi văn bản không được quét, tôi. e. , không phải hình ảnh trong PDF. Nếu bạn muốn trích xuất văn bản từ hình ảnh trong tài liệu PDF, hướng dẫn này là dành cho bạn Để bắt đầu, chúng ta cần cài đặt PyMuPDF
Mở một tệp Python mới và hãy nhập các thư viện
PyMuPDF có tên là 0 khi nhập bằng Python, vì vậy hãy ghi nhớ điều đóVì chúng ta sẽ tạo một tập lệnh Python để trích xuất văn bản từ tài liệu PDF, nên chúng ta phải sử dụng mô-đun argparse để phân tích các tham số đã truyền trong dòng lệnh. Hàm sau phân tích cú pháp các đối số và thực hiện một số xử lý
Đầu tiên, chúng tôi đã tạo trình phân tích cú pháp của mình bằng cách sử dụng 1Và thêm các tham số sau
Thứ hai, chúng tôi mở 0 để viết vào nếu 7 được chỉ định. Nếu không, một tệp sẽ nằm trong từ điển 0Cuối cùng, chúng tôi trả về các biến cần thiết. Tài liệu PDF, tệp đầu ra và danh sách số trang Tiếp theo, hãy tạo một hàm chấp nhận các tham số trên và trích xuất văn bản từ tài liệu PDF tương ứng
Chúng tôi lặp đi lặp lại trên các trang; . Cuối cùng, chúng tôi đóng các tập tin Hãy tập hợp mọi thứ lại với nhau và chạy các chức năng
Tuyệt vời, hãy thử trích xuất văn bản từ tất cả các trang của tệp này và ghi từng trang vào một tệp văn bản
đầu ra
Nó hoạt động hoàn hảo. Đây là các tập tin đầu ra
Chúng tôi cũng có thể in trong bảng điều khiển thay vì lưu nó vào tệp bằng cách không đặt tùy chọn 5
Hoặc lưu tất cả văn bản của tài liệu PDF vào một tệp văn bản
Tệp đầu ra sẽ xuất hiện trong thư mục hiện tại Phần kết luậnĐược rồi, đó là nó cho hướng dẫn này. Như đã đề cập trước đó, bạn luôn có thể trích xuất văn bản từ hướng dẫn tài liệu PDF được quét nếu tài liệu của bạn được quét (i. e. , dưới dạng hình ảnh và không thể được chọn trong trình đọc PDF của bạn) Ngoài ra, bạn có thể sắp xếp lại và đánh dấu văn bản trong tệp PDF của mình. Dưới đây là một số hướng dẫn PDF liên quan khác Hoặc bạn có thể khám phá tất cả chúng tại đây Kiểm tra mã hoàn chỉnh ở đây Cuối cùng, nếu bạn là người mới bắt đầu và muốn học Python, tôi khuyên bạn nên tham gia khóa học Python For Everyone Coursera, trong đó bạn sẽ học được nhiều điều về Python. Bạn cũng có thể xem trang tài nguyên và khóa học của chúng tôi để xem các tài nguyên Python mà tôi đề xuất về các chủ đề khác nhau Cách dễ nhất để trích xuất văn bản từ PDF bằng Python là gì?Công cụ chúng tôi đang sử dụng trong hướng dẫn này là PDF Plumber, một gói mã nguồn mở của python, rất tuyệt vời, đơn giản và mạnh mẽ. . Nhập mô-đun của bạn. pip cài đặt pdfplumber -qimport pdfplumber. . open('đường dẫn/đến/thư mục'). trang[ ]. trích_văn() Làm cách nào chúng tôi có thể trích xuất văn bản cụ thể từ PDF bằng Python?Đối tượng trang có chức năng extractText() để trích xuất văn bản từ trang pdf.
Làm cách nào để trích xuất văn bản từ hình ảnh PDF bằng Python?Python trích xuất văn bản từ hình ảnh hoặc pdf. . mở tệp PDF bằng cây đũa phép / imagemagick chuyển đổi PDF sang hình ảnh đọc từng hình ảnh một và trích xuất văn bản bằng pytesseract/tesseract-ocr |