Hướng dẫn how do i extract data from a pdf table in python? - làm cách nào để trích xuất dữ liệu từ bảng pdf trong python?
Show
Trích xuất dữ liệu từ các bảng trong PDF - Sử dụng một dòng duy nhất trong PythonTrong bài viết này, bạn sẽ tìm hiểu cách tốt nhất để trích xuất và xuất dữ liệu từ các bảng trong các tệp PDF sang CSV/Excel bằng Python.Ảnh của David Clode trên unplashTìm nạp các bảng từ các tệp PDF không còn là một nhiệm vụ khó khăn nữa, bạn có thể thực hiện việc này bằng một dòng duy nhất trong Python. Những gì bạn sẽ học
TabulaTabula là một trong những gói hữu ích không chỉ cho phép bạn xóa các bảng từ các tệp PDF mà còn chuyển đổi tệp PDF trực tiếp thành tệp CSV. Vậy hãy bắt đầu…1. Cài đặt thư viện Tabula-Pypip install tabula-py 2. Nhập thư viện Tabulaimport tabula 3. Đọc tệp PDFCho phép loại bỏ bản PDF này vào khung dữ liệu PANDAS.PDF into pandas Data Frame. Hình ảnh của Satya Ganeshfile1 = "https://nbviewer.jupyter.org/github/kuruvasatya/Scraping-Tables-from-PDF/blob/master/data1.pdf"table = tabula.read_pdf(file1,pages=1)table[0] Hãy xem đầu ra của đoạn mã trên được thực hiện trong Google Colabs Hình ảnh của Satya Ganesh4. Đọc một bảng trên một trang cụ thể của tệp PDF.Giả sử chúng ta cần loại bỏ tệp PDF này chứa nhiều trang trong đó.PDF FILE which contains multiple pages in it. Hình ảnh của Satya Ganeshimage bởi Satya Ganeshfile2 = "https://nbviewer.jupyter.org/github/kuruvasatya/Reading-Table-Data-From-PDF/blob/master/data.pdf"# To read table in first page of PDF file 5. Điều gì xảy ra nếu có nhiều bảng trên cùng một trang của tệp PDF?Giả sử chúng ta cần cạo 2 bảng này trên cùng một trang của tệp PDF. PDF file. Hình ảnh của Satya GaneshTo read multiple tables we need to add extra parametermultiple_tables = True -> Read multiple tables as independent tables 5.1. Đọc nhiều bảng là bảng độc lậpfile3 = "https://nbviewer.jupyter.org/github/kuruvasatya/Reading-Table-Data-From-PDF/blob/master/data3.pdf"tables = tabula.read_pdf(file3 ,pages=1, multiple_tables=True)print(tables[0])Image bởi Satya Ganeshimage của Satya Ganesh 5.2 Đọc nhiều bảng dưới dạng một bảngtables = tabula.read_pdf(file3 ,pages=1,multiple_tables=False)tables[0]Image bởi Satya Ganesh 6. Covert một tệp PDF trực tiếp vào tệp CSVChúng tôi có thể trực tiếp chuyển đổi tệp PDF chứa dữ liệu bảng trực tiếp sang tệp CSV bằng phương thức Convert_into () trong Thư viện Tabula.convert_into() method in tabula library. 1. Chuyển đổi bảng trong 1 trang của tệp PDF thành CSV# output just the first page tables in the PDF to a CSVtabula.convert_into("pdf_file_name", "Name_of_csv_file.csv") 2. Chuyển đổi tất cả bảng trong tệp PDF thành CSVtabula.convert_into("pdf_file_name","Name_of_csv_file.csv",all = True) Sự kết luậnTôi hy vọng bạn đã học được một cách tuyệt vời để cạo các bảng tệp PDF bằng một dòng duy nhất trong Python. Kiểm tra các bài viết liên quan của tôi Tài liệu tham khảoCảm ơn vì đã đọc 😃 Chúc một ngày tốt lànhChủ đề này là về cách trích xuất các bảng từ PDF Enter Python. Lúc đầu, hãy để thảo luận về những gì mà một tệp PDF? PDF (định dạng tài liệu di động) có thể là một định dạng tệp đã nắm bắt được tất cả thời tiết của một tài liệu in dưới dạng bitmap mà bạn chỉ có thể xem, điều hướng, in hoặc chuyển tiếp cho người khác. Các tệp PDF được tạo bằng Adobe Acrobat, Thí dụ : Giả sử một tệp pdf chứa một bảng
Và chúng tôi muốn đọc bảng này vào chương trình Python của chúng tôi. Vấn đề này có thể được giải quyết bằng cách sử dụng một số phương pháp. Hãy để thảo luận từng người một. Phương pháp 1: Sử dụng Tabula-Py Tabula-Py là một trình bao bọc Python đơn giản của Tabula-Java, có thể đọc các bảng trong PDF. Bạn có thể cài đặt thư viện Tabula-Py bằng lệnh. pip install tabula-py pip install tabulate Các phương pháp được sử dụng trong ví dụ là:
Tệp PDF được sử dụng ở đây là PDF. Python3import tabula 1 import tabula 2import tabula 3 import tabula 4import tabula 1 import tabula 6import tabula 3 import tabula 8import tabula 9file1 = "https://nbviewer.jupyter.org/github/kuruvasatya/Scraping-Tables-from-PDF/blob/master/data1.pdf"table = tabula.read_pdf(file1,pages=1)table[0]0 file1 = "https://nbviewer.jupyter.org/github/kuruvasatya/Scraping-Tables-from-PDF/blob/master/data1.pdf"table = tabula.read_pdf(file1,pages=1)table[0]1 file1 = "https://nbviewer.jupyter.org/github/kuruvasatya/Scraping-Tables-from-PDF/blob/master/data1.pdf"table = tabula.read_pdf(file1,pages=1)table[0]2223 file1 = "https://nbviewer.jupyter.org/github/kuruvasatya/Scraping-Tables-from-PDF/blob/master/data1.pdf"table = tabula.read_pdf(file1,pages=1)table[0]0 file1 = "https://nbviewer.jupyter.org/github/kuruvasatya/Scraping-Tables-from-PDF/blob/master/data1.pdf"table = tabula.read_pdf(file1,pages=1)table[0]5 file1 = "https://nbviewer.jupyter.org/github/kuruvasatya/Scraping-Tables-from-PDF/blob/master/data1.pdf"table = tabula.read_pdf(file1,pages=1)table[0]6 file1 = "https://nbviewer.jupyter.org/github/kuruvasatya/Scraping-Tables-from-PDF/blob/master/data1.pdf"table = tabula.read_pdf(file1,pages=1)table[0]7 file1 = "https://nbviewer.jupyter.org/github/kuruvasatya/Scraping-Tables-from-PDF/blob/master/data1.pdf"table = tabula.read_pdf(file1,pages=1)table[0]8 Output: Phương pháp 2: Sử dụng Camelot Camelot là một thư viện Python giúp trích xuất các bảng từ các tệp PDF. Bạn có thể cài đặt thư viện Camelot-Py bằng lệnh import tabula 0Các phương pháp được sử dụng trong ví dụ là:
Tệp PDF được sử dụng ở đây là PDF. Python3import tabula 3 file2 = "https://nbviewer.jupyter.org/github/kuruvasatya/Reading-Table-Data-From-PDF/blob/master/data.pdf"# To read table in first page of PDF file0 file2 = "https://nbviewer.jupyter.org/github/kuruvasatya/Reading-Table-Data-From-PDF/blob/master/data.pdf"# To read table in first page of PDF file1 file1 = "https://nbviewer.jupyter.org/github/kuruvasatya/Scraping-Tables-from-PDF/blob/master/data1.pdf"table = tabula.read_pdf(file1,pages=1)table[0]0 file2 = "https://nbviewer.jupyter.org/github/kuruvasatya/Reading-Table-Data-From-PDF/blob/master/data.pdf"# To read table in first page of PDF file3 file2 = "https://nbviewer.jupyter.org/github/kuruvasatya/Reading-Table-Data-From-PDF/blob/master/data.pdf"# To read table in first page of PDF file4 file2 = "https://nbviewer.jupyter.org/github/kuruvasatya/Reading-Table-Data-From-PDF/blob/master/data.pdf"# To read table in first page of PDF file5 file1 = "https://nbviewer.jupyter.org/github/kuruvasatya/Scraping-Tables-from-PDF/blob/master/data1.pdf"table = tabula.read_pdf(file1,pages=1)table[0]7 file2 = "https://nbviewer.jupyter.org/github/kuruvasatya/Reading-Table-Data-From-PDF/blob/master/data.pdf"# To read table in first page of PDF file7 file2 = "https://nbviewer.jupyter.org/github/kuruvasatya/Reading-Table-Data-From-PDF/blob/master/data.pdf"# To read table in first page of PDF file8 file2 = "https://nbviewer.jupyter.org/github/kuruvasatya/Reading-Table-Data-From-PDF/blob/master/data.pdf"# To read table in first page of PDF file9 Output: Tôi có thể trích xuất dữ liệu từ PDF bằng Python không?Thư viện Python phổ biến.. PDFMiner là một công cụ để trích xuất thông tin từ các tài liệu PDF. .... PYPDF2 là một thư viện PDF Python thuần túy có khả năng chia tách, hợp nhất với nhau, cắt xén và chuyển đổi các trang của các tệp PDF. .... Tabula-Py là một trình bao bọc Python đơn giản của Tabula-Java, có thể đọc bảng của PDF .. Làm cách nào để trích xuất dữ liệu từ bảng PDF?Đây là cách bạn có thể trích xuất các bảng từ tệp PDF bằng Excel:.. Mở bảng tính Excel của bạn .. Chuyển đến tab Dữ liệu .. Trong phần GET & Transform, nhấp vào GET dữ liệu .. Từ danh sách, chọn từ tệp và sau đó chọn từ PDF..... Chọn tệp PDF bạn muốn trích xuất các bảng từ .. Nhấp vào mở .. Làm cách nào để trích xuất một bảng từ hình ảnh PDF trong Python?Tôi sẽ đề nghị bạn trích xuất bảng bằng cách sử dụng tabula ... Sử dụng Tesseract để phát hiện vòng quay và hình ảnh Mogrify để sửa nó .. Sử dụng OpenCV để tìm và trích xuất bảng .. Sử dụng OpenCV để tìm và trích xuất từng ô từ bảng .. Làm thế nào để bạn trích xuất dữ liệu từ một bảng trong Python?Các bước để tìm nạp các hàng từ bảng cơ sở dữ liệu MySQL.. Kết nối với MySQL từ Python..... Xác định truy vấn chọn SQL..... Nhận đối tượng con trỏ từ kết nối..... Thực thi truy vấn chọn bằng phương thức Execute ()..... Trích xuất tất cả các hàng từ một kết quả..... Lặp lại mỗi hàng..... Đóng đối tượng đối tượng con trỏ và đối tượng cơ sở dữ liệu .. |