Trong bài viết này, tôi sẽ giới thiệu một số gói python có thể được sử dụng để chuyển đổi pdf sang các định dạng hữu ích khác. Vì có rất nhiều trang web trực tuyến mà chúng tôi có thể sử dụng, nên khi bắt đầu nghiên cứu, mọi người sẽ không thoải mái khi tải tác phẩm của mình lên bất kỳ trang web ngẫu nhiên nào, do lo ngại về quyền riêng tư
CHUYỂN PDF SANG VĂN BẢN
PDF ĐỂ ĐÁNH DẤU
PDF TO XML
PDF SANG HTML
PDF SANG HÌNH ẢNH
PDF SANG CSV
Chuyển PDF sang văn bản
Installation Code: pip install pdf2docx
Cách sử dụng
$ pdf2docx --help
NAME
pdf2docx - Run the pdf2docx parser.
SYNOPSIS
pdf2docx PDF_FILE
DESCRIPTION
Run the pdf2docx parser.
POSITIONAL ARGUMENTS
PDF_FILE
PDF filename to read from
FLAGS
--docx_file=DOCX_FILE
DOCX filename to write to
--start=START
first page to process, starting from zero
--end=END
last page to process, starting from zero
--pages=PAGES
range of pages
--multi_processing=MULTI_PROCESSING
NOTES
You can also use flags syntax for POSITIONAL ARGUMENTS
Theo phạm vi trang$ pdf2docx test.pdf test.docx --start=5 --end=10
Theo số trang$ pdf2docx test.pdf test.docx --pages=5,7,9
$ pdf2docx test.pdf --multi_processing=True
PDF sang Markdown
Tên gói hàng. pdf-to-markdown 0. 1. 0Installation Code: pip install pdf-to-markdown
Cách sử dụng
pdf2md
PDF to XML
Tên gói hàng. pypdf2xml 0. 3Installation Code: pip install pypdf2xml
Cách sử dụng
________số 8
PDF sang Html
Phân tích các tệp PDF thành các cây giống như HTML
Tên gói hàng. pdftotree 0. 4. 1Installation Code: pip install pdftotree
phụ thuộcBạn sẽ cần cài đặt Bộ công cụ Python3
$ pdf2docx --help
NAME
pdf2docx - Run the pdf2docx parser.
SYNOPSIS
pdf2docx PDF_FILE
DESCRIPTION
Run the pdf2docx parser.
POSITIONAL ARGUMENTS
PDF_FILE
PDF filename to read from
FLAGS
--docx_file=DOCX_FILE
DOCX filename to write to
--start=START
first page to process, starting from zero
--end=END
last page to process, starting from zero
--pages=PAGES
range of pages
--multi_processing=MULTI_PROCESSING
NOTES
You can also use flags syntax for POSITIONAL ARGUMENTS
0Để cài đặt gói này từ PyPi
$ pdf2docx --help
NAME
pdf2docx - Run the pdf2docx parser.
SYNOPSIS
pdf2docx PDF_FILE
DESCRIPTION
Run the pdf2docx parser.
POSITIONAL ARGUMENTS
PDF_FILE
PDF filename to read from
FLAGS
--docx_file=DOCX_FILE
DOCX filename to write to
--start=START
first page to process, starting from zero
--end=END
last page to process, starting from zero
--pages=PAGES
range of pages
--multi_processing=MULTI_PROCESSING
NOTES
You can also use flags syntax for POSITIONAL ARGUMENTS
1Cách sử dụngpdftotree dưới dạng gói Python$ pdf2docx --help
NAME
pdf2docx - Run the pdf2docx parser.
SYNOPSIS
pdf2docx PDF_FILE
DESCRIPTION
Run the pdf2docx parser.
POSITIONAL ARGUMENTS
PDF_FILE
PDF filename to read from
FLAGS
--docx_file=DOCX_FILE
DOCX filename to write to
--start=START
first page to process, starting from zero
--end=END
last page to process, starting from zero
--pages=PAGES
range of pages
--multi_processing=MULTI_PROCESSING
NOTES
You can also use flags syntax for POSITIONAL ARGUMENTS
2pdftotreeĐây là tiện ích dòng lệnh chính được cung cấp cùng với gói Python này. Điều này lấy một tệp PDF làm đầu vào và tạo ra một biểu diễn dữ liệu giống như HTML
$ pdf2docx --help
NAME
pdf2docx - Run the pdf2docx parser.
SYNOPSIS
pdf2docx PDF_FILE
DESCRIPTION
Run the pdf2docx parser.
POSITIONAL ARGUMENTS
PDF_FILE
PDF filename to read from
FLAGS
--docx_file=DOCX_FILE
DOCX filename to write to
--start=START
first page to process, starting from zero
--end=END
last page to process, starting from zero
--pages=PAGES
range of pages
--multi_processing=MULTI_PROCESSING
NOTES
You can also use flags syntax for POSITIONAL ARGUMENTS
3giải nén_tablesCông cụ này đào tạo một mô hình học máy để trích xuất các bảng. Mô hình đầu ra có thể được sử dụng làm đầu vào cho
$ pdf2docx test.pdf test.docx --start=5 --end=10
7$ pdf2docx --help
NAME
pdf2docx - Run the pdf2docx parser.
SYNOPSIS
pdf2docx PDF_FILE
DESCRIPTION
Run the pdf2docx parser.
POSITIONAL ARGUMENTS
PDF_FILE
PDF filename to read from
FLAGS
--docx_file=DOCX_FILE
DOCX filename to write to
--start=START
first page to process, starting from zero
--end=END
last page to process, starting from zero
--pages=PAGES
range of pages
--multi_processing=MULTI_PROCESSING
NOTES
You can also use flags syntax for POSITIONAL ARGUMENTS
4Định dạng danh sách PDF
Danh sách các tệp PDF chỉ đơn giản là một tên tệp trên mỗi dòng. Ví dụ
5$ pdf2docx --help NAME pdf2docx - Run the pdf2docx parser. SYNOPSIS pdf2docx PDF_FILE DESCRIPTION Run the pdf2docx parser. POSITIONAL ARGUMENTS PDF_FILE PDF filename to read from FLAGS --docx_file=DOCX_FILE DOCX filename to write to --start=START first page to process, starting from zero --end=END last page to process, starting from zero --pages=PAGES range of pages --multi_processing=MULTI_PROCESSING NOTES You can also use flags syntax for POSITIONAL ARGUMENTS
Định dạng tệp sự thật cơ bản
Sự thật cơ bản được định dạng để phản ánh Danh sách PDF. Nghĩa là, dòng đầu tiên của tệp sự thật cơ bản cung cấp nhãn cho tài liệu đầu tiên trong danh sách PDF tương ứng. Các nhãn có dạng các bộ dữ liệu được phân tách bằng dấu chấm phẩy chứa các giá trị
8. Ví dụ$ pdf2docx test.pdf test.docx --start=5 --end=10
6$ pdf2docx --help NAME pdf2docx - Run the pdf2docx parser. SYNOPSIS pdf2docx PDF_FILE DESCRIPTION Run the pdf2docx parser. POSITIONAL ARGUMENTS PDF_FILE PDF filename to read from FLAGS --docx_file=DOCX_FILE DOCX filename to write to --start=START first page to process, starting from zero --end=END last page to process, starting from zero --pages=PAGES range of pages --multi_processing=MULTI_PROCESSING NOTES You can also use flags syntax for POSITIONAL ARGUMENTS
Một phương pháp để gắn nhãn các bảng này là sử dụng DocumentAnnotation, cho phép bạn chọn các vùng bảng trong trình duyệt web của mình và tạo tệp hộp giới hạn
Tập dữ liệu mẫu. Giấy tờ cổ sinh vật học
Toàn bộ tài liệu và nhãn sự thật căn cứ có thể tải về tại đây. PaleoDocs. Bạn có thể đào tạo một mô hình học máy để trích xuất các vùng bảng bằng cách tải xuống bộ dữ liệu này và giải nén nó vào một thư mục có tên là
$ pdf2docx test.pdf test.docx --start=5 --end=10
9, sau đó chạy lệnh bên dưới. Kiểm tra kỹ xem các đường dẫn trong lệnh có khớp với bất cứ nơi nào bạn đã tải xuống dữ liệu không$ pdf2docx --help
NAME
pdf2docx - Run the pdf2docx parser.
SYNOPSIS
pdf2docx PDF_FILE
DESCRIPTION
Run the pdf2docx parser.
POSITIONAL ARGUMENTS
PDF_FILE
PDF filename to read from
FLAGS
--docx_file=DOCX_FILE
DOCX filename to write to
--start=START
first page to process, starting from zero
--end=END
last page to process, starting from zero
--pages=PAGES
range of pages
--multi_processing=MULTI_PROCESSING
NOTES
You can also use flags syntax for POSITIONAL ARGUMENTS
7Mô hình kết quả của lệnh ví dụ này sẽ được lưu dưới dạng
$ pdf2docx test.pdf test.docx --pages=5,7,9
0PDF sang hình ảnh
Tên gói hàng. pdf2hình ảnh 1. 14. 0$ pdf2docx --help
NAME
pdf2docx - Run the pdf2docx parser.
SYNOPSIS
pdf2docx PDF_FILE
DESCRIPTION
Run the pdf2docx parser.
POSITIONAL ARGUMENTS
PDF_FILE
PDF filename to read from
FLAGS
--docx_file=DOCX_FILE
DOCX filename to write to
--start=START
first page to process, starting from zero
--end=END
last page to process, starting from zero
--pages=PAGES
range of pages
--multi_processing=MULTI_PROCESSING
NOTES
You can also use flags syntax for POSITIONAL ARGUMENTS
8Cài đặt thế nào$ pdf2docx --help
NAME
pdf2docx - Run the pdf2docx parser.
SYNOPSIS
pdf2docx PDF_FILE
DESCRIPTION
Run the pdf2docx parser.
POSITIONAL ARGUMENTS
PDF_FILE
PDF filename to read from
FLAGS
--docx_file=DOCX_FILE
DOCX filename to write to
--start=START
first page to process, starting from zero
--end=END
last page to process, starting from zero
--pages=PAGES
range of pages
--multi_processing=MULTI_PROCESSING
NOTES
You can also use flags syntax for POSITIONAL ARGUMENTS
9các cửa sổNgười dùng Windows sẽ phải xây dựng hoặc tải xuống poppler cho Windows. Tôi khuyên dùng phiên bản @oschwartz10612 là phiên bản cập nhật nhất. Sau đó, bạn sẽ phải thêm thư mục
$ pdf2docx test.pdf test.docx --pages=5,7,9
1 vào PATH hoặc sử dụng $ pdf2docx test.pdf test.docx --pages=5,7,9
2 trong $ pdf2docx test.pdf test.docx --pages=5,7,9
3MacNgười dùng Mac sẽ phải cài đặt poppler cho Mac
LinuxHầu hết các bản phân phối đều có
$ pdf2docx test.pdf test.docx --pages=5,7,9
4 và $ pdf2docx test.pdf test.docx --pages=5,7,9
5. Nếu chúng chưa được cài đặt, hãy tham khảo trình quản lý gói của bạn để cài đặt $ pdf2docx test.pdf test.docx --pages=5,7,9
6