Làm cách nào để chuyển đổi tệp pdf sang python?

Trong bài viết này, tôi sẽ giới thiệu một số gói python có thể được sử dụng để chuyển đổi pdf sang các định dạng hữu ích khác. Vì có rất nhiều trang web trực tuyến mà chúng tôi có thể sử dụng, nên khi bắt đầu nghiên cứu, mọi người sẽ không thoải mái khi tải tác phẩm của mình lên bất kỳ trang web ngẫu nhiên nào, do lo ngại về quyền riêng tư

CHUYỂN PDF SANG VĂN BẢN

PDF ĐỂ ĐÁNH DẤU

PDF TO XML

PDF SANG HTML

PDF SANG HÌNH ẢNH

PDF SANG CSV

Chuyển PDF sang văn bản

Tên gói hàng. pdf2docx

Installation Code: pip install pdf2docx

Cách sử dụng

$ pdf2docx --help

NAME
    pdf2docx - Run the pdf2docx parser.

SYNOPSIS
    pdf2docx PDF_FILE 

DESCRIPTION
    Run the pdf2docx parser.

POSITIONAL ARGUMENTS
    PDF_FILE
        PDF filename to read from

FLAGS
    --docx_file=DOCX_FILE
        DOCX filename to write to
    --start=START
        first page to process, starting from zero
    --end=END
        last page to process, starting from zero
    --pages=PAGES
        range of pages
    --multi_processing=MULTI_PROCESSING

NOTES
    You can also use flags syntax for POSITIONAL ARGUMENTS

Theo phạm vi trang

$ pdf2docx test.pdf test.docx --start=5 --end=10

Theo số trang

$ pdf2docx test.pdf test.docx --pages=5,7,9

đa xử lý

$ pdf2docx test.pdf --multi_processing=True

PDF sang Markdown

Tên gói hàng. pdf-to-markdown 0. 1. 0

Installation Code: pip install pdf-to-markdown

Cách sử dụng

pdf2md 

PDF to XML

Tên gói hàng. pypdf2xml 0. 3

Installation Code: pip install pypdf2xml

Cách sử dụng

________số 8

PDF sang Html

Phân tích các tệp PDF thành các cây giống như HTML

Tên gói hàng. pdftotree 0. 4. 1

Installation Code: pip install pdftotree

phụ thuộc

Bạn sẽ cần cài đặt Bộ công cụ Python3

$ pdf2docx --help

NAME
    pdf2docx - Run the pdf2docx parser.

SYNOPSIS
    pdf2docx PDF_FILE 

DESCRIPTION
    Run the pdf2docx parser.

POSITIONAL ARGUMENTS
    PDF_FILE
        PDF filename to read from

FLAGS
    --docx_file=DOCX_FILE
        DOCX filename to write to
    --start=START
        first page to process, starting from zero
    --end=END
        last page to process, starting from zero
    --pages=PAGES
        range of pages
    --multi_processing=MULTI_PROCESSING

NOTES
    You can also use flags syntax for POSITIONAL ARGUMENTS
0

Cài đặt

Để cài đặt gói này từ PyPi

$ pdf2docx --help

NAME
    pdf2docx - Run the pdf2docx parser.

SYNOPSIS
    pdf2docx PDF_FILE 

DESCRIPTION
    Run the pdf2docx parser.

POSITIONAL ARGUMENTS
    PDF_FILE
        PDF filename to read from

FLAGS
    --docx_file=DOCX_FILE
        DOCX filename to write to
    --start=START
        first page to process, starting from zero
    --end=END
        last page to process, starting from zero
    --pages=PAGES
        range of pages
    --multi_processing=MULTI_PROCESSING

NOTES
    You can also use flags syntax for POSITIONAL ARGUMENTS
1

Cách sử dụngpdftotree dưới dạng gói Python

$ pdf2docx --help

NAME
    pdf2docx - Run the pdf2docx parser.

SYNOPSIS
    pdf2docx PDF_FILE 

DESCRIPTION
    Run the pdf2docx parser.

POSITIONAL ARGUMENTS
    PDF_FILE
        PDF filename to read from

FLAGS
    --docx_file=DOCX_FILE
        DOCX filename to write to
    --start=START
        first page to process, starting from zero
    --end=END
        last page to process, starting from zero
    --pages=PAGES
        range of pages
    --multi_processing=MULTI_PROCESSING

NOTES
    You can also use flags syntax for POSITIONAL ARGUMENTS
2

pdftotree

Đây là tiện ích dòng lệnh chính được cung cấp cùng với gói Python này. Điều này lấy một tệp PDF làm đầu vào và tạo ra một biểu diễn dữ liệu giống như HTML

$ pdf2docx --help

NAME
    pdf2docx - Run the pdf2docx parser.

SYNOPSIS
    pdf2docx PDF_FILE 

DESCRIPTION
    Run the pdf2docx parser.

POSITIONAL ARGUMENTS
    PDF_FILE
        PDF filename to read from

FLAGS
    --docx_file=DOCX_FILE
        DOCX filename to write to
    --start=START
        first page to process, starting from zero
    --end=END
        last page to process, starting from zero
    --pages=PAGES
        range of pages
    --multi_processing=MULTI_PROCESSING

NOTES
    You can also use flags syntax for POSITIONAL ARGUMENTS
3

giải nén_tables

Công cụ này đào tạo một mô hình học máy để trích xuất các bảng. Mô hình đầu ra có thể được sử dụng làm đầu vào cho

$ pdf2docx test.pdf test.docx --start=5 --end=10
7

$ pdf2docx --help

NAME
    pdf2docx - Run the pdf2docx parser.

SYNOPSIS
    pdf2docx PDF_FILE 

DESCRIPTION
    Run the pdf2docx parser.

POSITIONAL ARGUMENTS
    PDF_FILE
        PDF filename to read from

FLAGS
    --docx_file=DOCX_FILE
        DOCX filename to write to
    --start=START
        first page to process, starting from zero
    --end=END
        last page to process, starting from zero
    --pages=PAGES
        range of pages
    --multi_processing=MULTI_PROCESSING

NOTES
    You can also use flags syntax for POSITIONAL ARGUMENTS
4

  • Định dạng danh sách PDF

    Danh sách các tệp PDF chỉ đơn giản là một tên tệp trên mỗi dòng. Ví dụ

    $ pdf2docx --help
    
    NAME
        pdf2docx - Run the pdf2docx parser.
    
    SYNOPSIS
        pdf2docx PDF_FILE 
    
    DESCRIPTION
        Run the pdf2docx parser.
    
    POSITIONAL ARGUMENTS
        PDF_FILE
            PDF filename to read from
    
    FLAGS
        --docx_file=DOCX_FILE
            DOCX filename to write to
        --start=START
            first page to process, starting from zero
        --end=END
            last page to process, starting from zero
        --pages=PAGES
            range of pages
        --multi_processing=MULTI_PROCESSING
    
    NOTES
        You can also use flags syntax for POSITIONAL ARGUMENTS
    
    5

  • Định dạng tệp sự thật cơ bản

    Sự thật cơ bản được định dạng để phản ánh Danh sách PDF. Nghĩa là, dòng đầu tiên của tệp sự thật cơ bản cung cấp nhãn cho tài liệu đầu tiên trong danh sách PDF tương ứng. Các nhãn có dạng các bộ dữ liệu được phân tách bằng dấu chấm phẩy chứa các giá trị

    $ pdf2docx test.pdf test.docx --start=5 --end=10
    
    8. Ví dụ

    $ pdf2docx --help
    
    NAME
        pdf2docx - Run the pdf2docx parser.
    
    SYNOPSIS
        pdf2docx PDF_FILE 
    
    DESCRIPTION
        Run the pdf2docx parser.
    
    POSITIONAL ARGUMENTS
        PDF_FILE
            PDF filename to read from
    
    FLAGS
        --docx_file=DOCX_FILE
            DOCX filename to write to
        --start=START
            first page to process, starting from zero
        --end=END
            last page to process, starting from zero
        --pages=PAGES
            range of pages
        --multi_processing=MULTI_PROCESSING
    
    NOTES
        You can also use flags syntax for POSITIONAL ARGUMENTS
    
    6

Một phương pháp để gắn nhãn các bảng này là sử dụng DocumentAnnotation, cho phép bạn chọn các vùng bảng trong trình duyệt web của mình và tạo tệp hộp giới hạn

Tập dữ liệu mẫu. Giấy tờ cổ sinh vật học

Toàn bộ tài liệu và nhãn sự thật căn cứ có thể tải về tại đây. PaleoDocs. Bạn có thể đào tạo một mô hình học máy để trích xuất các vùng bảng bằng cách tải xuống bộ dữ liệu này và giải nén nó vào một thư mục có tên là

$ pdf2docx test.pdf test.docx --start=5 --end=10
9, sau đó chạy lệnh bên dưới. Kiểm tra kỹ xem các đường dẫn trong lệnh có khớp với bất cứ nơi nào bạn đã tải xuống dữ liệu không

$ pdf2docx --help

NAME
    pdf2docx - Run the pdf2docx parser.

SYNOPSIS
    pdf2docx PDF_FILE 

DESCRIPTION
    Run the pdf2docx parser.

POSITIONAL ARGUMENTS
    PDF_FILE
        PDF filename to read from

FLAGS
    --docx_file=DOCX_FILE
        DOCX filename to write to
    --start=START
        first page to process, starting from zero
    --end=END
        last page to process, starting from zero
    --pages=PAGES
        range of pages
    --multi_processing=MULTI_PROCESSING

NOTES
    You can also use flags syntax for POSITIONAL ARGUMENTS
7

Mô hình kết quả của lệnh ví dụ này sẽ được lưu dưới dạng

$ pdf2docx test.pdf test.docx --pages=5,7,9
0

PDF sang hình ảnh

Tên gói hàng. pdf2hình ảnh 1. 14. 0

$ pdf2docx --help

NAME
    pdf2docx - Run the pdf2docx parser.

SYNOPSIS
    pdf2docx PDF_FILE 

DESCRIPTION
    Run the pdf2docx parser.

POSITIONAL ARGUMENTS
    PDF_FILE
        PDF filename to read from

FLAGS
    --docx_file=DOCX_FILE
        DOCX filename to write to
    --start=START
        first page to process, starting from zero
    --end=END
        last page to process, starting from zero
    --pages=PAGES
        range of pages
    --multi_processing=MULTI_PROCESSING

NOTES
    You can also use flags syntax for POSITIONAL ARGUMENTS
8

Cài đặt thế nào

$ pdf2docx --help

NAME
    pdf2docx - Run the pdf2docx parser.

SYNOPSIS
    pdf2docx PDF_FILE 

DESCRIPTION
    Run the pdf2docx parser.

POSITIONAL ARGUMENTS
    PDF_FILE
        PDF filename to read from

FLAGS
    --docx_file=DOCX_FILE
        DOCX filename to write to
    --start=START
        first page to process, starting from zero
    --end=END
        last page to process, starting from zero
    --pages=PAGES
        range of pages
    --multi_processing=MULTI_PROCESSING

NOTES
    You can also use flags syntax for POSITIONAL ARGUMENTS
9

các cửa sổ

Người dùng Windows sẽ phải xây dựng hoặc tải xuống poppler cho Windows. Tôi khuyên dùng phiên bản @oschwartz10612 là phiên bản cập nhật nhất. Sau đó, bạn sẽ phải thêm thư mục

$ pdf2docx test.pdf test.docx --pages=5,7,9
1 vào PATH hoặc sử dụng
$ pdf2docx test.pdf test.docx --pages=5,7,9
2 trong
$ pdf2docx test.pdf test.docx --pages=5,7,9
3

Mac

Người dùng Mac sẽ phải cài đặt poppler cho Mac

Linux

Hầu hết các bản phân phối đều có

$ pdf2docx test.pdf test.docx --pages=5,7,9
4 và
$ pdf2docx test.pdf test.docx --pages=5,7,9
5. Nếu chúng chưa được cài đặt, hãy tham khảo trình quản lý gói của bạn để cài đặt
$ pdf2docx test.pdf test.docx --pages=5,7,9
6

Bạn có thể trích xuất dữ liệu từ PDF sang Python không?

Có một số thư viện Python mà bạn có thể trích xuất dữ liệu từ tệp PDF . Ví dụ: bạn có thể sử dụng thư viện PyPDF2 để trích xuất văn bản từ các tệp PDF trong đó văn bản ở dạng tuần tự hoặc được định dạng. e. trong dòng hoặc hình thức. Bạn cũng có thể trích xuất các bảng trong tệp PDF thông qua thư viện Camelot.

Python có thể làm việc với các tệp PDF không?

Bạn có thể làm việc với tệp PDF có sẵn bằng Python bằng cách sử dụng gói PyPDF2 . PyPDF2 là gói Python thuần túy mà bạn có thể sử dụng cho nhiều loại thao tác PDF khác nhau.

Chủ Đề