Hướng dẫn web scraping pdf files python - quét web tập tin pdf python

Cải thiện bài viết

Show

    Lưu bài viết

  • Đọc
  • Bàn luận
  • Cải thiện bài viết

    Lưu bài viết

    ĐọcImplementing Web Scraping in Python with BeautifulSoup

    Bàn luậnbeautifulsoup, which is one of the best web scraping modules in python, and the requests module for the GET requests. Also, for getting more information about the PDF file, we use PyPDF2 module.

    Điều kiện tiên quyết: Thực hiện Scraping Web trong Python với BeautifulSoup

    Xóa web là một phương pháp trích xuất dữ liệu từ trang web và sử dụng dữ liệu đó cho các mục đích sử dụng khác. Có một số thư viện và mô -đun để thực hiện quét web trong Python. & nbsp; Trong bài viết này, chúng tôi sẽ học cách xóa các tệp PDF khỏi trang web với sự trợ giúp của BeautifulSoup, một trong những mô -đun cạo web tốt nhất trong Python và mô -đun yêu cầu cho các yêu cầu GET. Ngoài ra, để có thêm thông tin về tệp PDF, chúng tôi sử dụng mô -đun PYPDF2.Import all the important modules and packages.

    Python3

    Mã từng bước -

    Bước 1: Nhập tất cả các mô -đun và gói quan trọng.

    import requests

    from bs4 import BeautifulSoup

    import ioPassing the URL and make an HTML parser with the help of BeautifulSoup.

    Python3

    from PyPDF2 import requests1

    • Bước 2: Truyền URL và tạo trình phân tích cú pháp HTML với sự trợ giúp của BeautifulSoup.https://www.geeksforgeeks.org/how-to-extract-pdf-tables-in-python/ link
    • Trong mã trên:
    • Cạo được thực hiện bởi https://www.geeksforgeek.org/how-to-extract-pdf-pables-in-python/ linkis used to go through all the HTML code. Printing will output the source code of the web page.
    • Mô -đun yêu cầu được sử dụng để thực hiện yêu cầu nhậnis having HTML content and used to parse the HTML

    Read.Content được sử dụng để đi qua tất cả các mã HTML. In sẽ xuất ra mã nguồn của trang web.We need to traverse through the PDFs from the website.

    Python3

    Súp có hàm lượng HTML và được sử dụng để phân tích HTML

    Bước 3: Chúng ta cần đi qua các tệp PDF từ trang web.

    requests2requests3 requests4requests5

    requests6requests3 requests8requests9from0

    bs4 0bs4 1bs4 2bs4 3bs4 4bs4 5bs4 6

    bs4 0bs4 1bs4 2import0from0

    from1requests3 from3from4from0

    bs4 0bs4 1bs4 2BeautifulSoup6BeautifulSoup7

    from6 from7from8 from9

    bs4 0import4

    Output:

    Hướng dẫn web scraping pdf files python - quét web tập tin pdf python

    from PyPDF2 import requests1

    • Bước 2: Truyền URL và tạo trình phân tích cú pháp HTML với sự trợ giúp của BeautifulSoup.is an empty set created for adding all the PDF files from the web page. Set is used because it never repeats the same-named elements. And automatically get rid of duplicates.
    • Trong mã trên:
    • Cạo được thực hiện bởi https://www.geeksforgeek.org/how-to-extract-pdf-pables-in-python/ link

    Mô -đun yêu cầu được sử dụng để thực hiện yêu cầu nhậnStep 4: Create info function with pypdf2 module for getting all the required information of the pdf.

    Python3

    Read.Content được sử dụng để đi qua tất cả các mã HTML. In sẽ xuất ra mã nguồn của trang web.

    Súp có hàm lượng HTML và được sử dụng để phân tích HTML

    bs4 0io2

    Bước 3: Chúng ta cần đi qua các tệp PDF từ trang web.

    requests2requests3 requests4requests5

    requests6requests3 requests8requests9from0

    from1requests3 from3from4from0

    bs4 0bs4 1PyPDF2 1

    from6 from7from8 from9

    Các
     In the above code: 

    • bs4 0bs4 1bs4 2import0from0
    • list_of_pdf là một bộ trống được tạo để thêm tất cả các tệp PDF từ trang web. Đặt được sử dụng vì nó không bao giờ lặp lại các yếu tố cùng tên. Và tự động thoát khỏi các bản sao.It is used because response.content is a binary code and the requests library is quite low leveled and generally compiled (not interpreted). So to handle byte, io.BytesIO is used.
    • Lặp lại được thực hiện trong tất cả các liên kết chuyển đổi .html sang .pdf. Nó được thực hiện vì tên PDF và tên HTML có sự khác biệt duy nhất trong định dạng, phần còn lại đều giống nhau.

    Chúng tôi sử dụng bộ vì chúng tôi cần loại bỏ các tên trùng lặp. Danh sách cũng có thể được sử dụng và thay vì thêm, chúng tôi nối tất cả các tệp PDF.Note: Refer Working with PDF files in Pythonfor detailed information.

    Python3

    & nbsp; Bước 4: Tạo chức năng thông tin với mô -đun PYPDF2 để có được tất cả thông tin cần thiết của PDF.

    bs4 0requests00

    import5 import6

    Python3

    Mã từng bước -

    Bước 1: Nhập tất cả các mô -đun và gói quan trọng.

    import requests

    from bs4 import BeautifulSoup

    import io

    from PyPDF2 import requests1

    Bước 2: Truyền URL và tạo trình phân tích cú pháp HTML với sự trợ giúp của BeautifulSoup.

    Súp có hàm lượng HTML và được sử dụng để phân tích HTML

    Bước 3: Chúng ta cần đi qua các tệp PDF từ trang web.

    requests2requests3 requests4requests5

    requests6requests3 requests8requests9from0

    from1requests3 from3from4from0

    bs4 0bs4 1requests55

    bs4 0import4

    Read.Content được sử dụng để đi qua tất cả các mã HTML. In sẽ xuất ra mã nguồn của trang web.

    Súp có hàm lượng HTML và được sử dụng để phân tích HTML

    bs4 0io2

    Bước 3: Chúng ta cần đi qua các tệp PDF từ trang web.

    requests2requests3 requests4requests5

    requests6requests3 requests8requests9from0

    from1requests3 from3from4from0

    bs4 0bs4 1PyPDF2 1

    from6 from7from8 from9

    & nbsp; Bước 4: Tạo chức năng thông tin với mô -đun PYPDF2 để có được tất cả thông tin cần thiết của PDF.

    bs4 0requests00

    Output:

    Hướng dẫn web scraping pdf files python - quét web tập tin pdf python