Trăn chuyển đổi pdf

Google Sheets API là một giao diện RESTful cho phép bạn đọc và sửa đổi dữ liệu của bảng tính. Các ứng dụng phổ biến nhất của API này bao gồm các tác vụ sau

  • Tạo bảng tính
  • Đọc và viết các giá trị ô bảng tính
  • Cập nhật định dạng bảng tính
  • Quản lý các trang tính được kết nối

Dưới đây là danh sách các thuật ngữ phổ biến được sử dụng trong API Trang tính

bảng tính

Đối tượng chính trong Google Trang tính có thể chứa nhiều trang tính, mỗi trang tính có thông tin có cấu trúc chứa trong các ô. Tài nguyên bảng tính đại diện cho mọi bảng tính và có giá trị spreadsheetId duy nhất, chứa các chữ cái, số, dấu gạch nối hoặc dấu gạch dưới. Bạn có thể tìm thấy ID bảng tính trong URL Google Trang tính

//docs.google.com/spreadsheets/d/spreadsheetId/edit#gid=0

Tờ giấy

Một trang hoặc tab trong bảng tính. Tài nguyên trang tính đại diện cho từng trang tính và có tiêu đề và giá trị số sheetId duy nhất. Bạn có thể tìm thấy ID trang tính trong URL Google Trang tính

//docs.google.com/spreadsheets/d/aBC-123_xYz/edit#gid=sheetId

Tế bào

Một trường văn bản hoặc dữ liệu riêng lẻ trong một trang tính. Các ô được sắp xếp theo hàng và cột và có thể được nhóm thành một phạm vi ô. Tài nguyên CellData đại diện cho từng ô nhưng không có giá trị ID duy nhất. Thay vào đó, tọa độ hàng và cột xác định các ô

ký hiệu A1

Cú pháp được sử dụng để xác định một ô hoặc phạm vi ô bằng một chuỗi chứa tên trang tính cộng với tọa độ ô bắt đầu và ô kết thúc bằng cách sử dụng các chữ cái cột và số hàng. Phương pháp này phổ biến và hữu ích nhất khi tham chiếu một phạm vi ô tuyệt đối

Hiển thị ví dụ

  • Sheet1!A1:B2 đề cập đến hai ô đầu tiên trong hai hàng trên cùng của Sheet1
  • Sheet1!A:A đề cập đến tất cả các ô trong cột đầu tiên của Sheet1
  • Sheet1!1:2 đề cập đến tất cả các ô trong hai hàng đầu tiên của Sheet1
  • Sheet1!A5:A đề cập đến tất cả các ô của cột đầu tiên của Trang tính 1, từ hàng 5 trở đi
  • A1:B2 đề cập đến hai ô đầu tiên trong hai hàng trên cùng của trang tính hiển thị đầu tiên
  • Sheet1 đề cập đến tất cả các ô trong Trang tính 1
  • //docs.google.com/spreadsheets/d/spreadsheetId/edit#gid=00 đề cập đến tất cả các ô trong cột đầu tiên của trang tính có tên "Trang tính tùy chỉnh của tôi. " Dấu nháy đơn là bắt buộc đối với tên trang tính có dấu cách, ký tự đặc biệt hoặc tổ hợp chữ và số
  • //docs.google.com/spreadsheets/d/spreadsheetId/edit#gid=01 đề cập đến tất cả các ô trong 'Trang tùy chỉnh của tôi'

Mẹo. Nếu có thể, hãy sử dụng các tên riêng biệt cho các đối tượng trong bảng tính của bạn. Ví dụ: A1 đề cập đến ô A1 trong trang tính hiển thị đầu tiên, trong khi 'A1' đề cập đến tất cả các ô trong trang tính có tên A1. Tương tự, Sheet1 đề cập đến tất cả các ô trong Sheet1. Tuy nhiên, nếu có một dải ô được đặt tên có tên là "Sheet1", thì Sheet1 đề cập đến dải ô đã đặt tên và 'Sheet1' đề cập đến trang tính

Ký hiệu R1C1

Cú pháp được sử dụng để xác định một ô hoặc phạm vi ô bằng một chuỗi chứa tên trang tính cộng với tọa độ ô bắt đầu và ô kết thúc bằng cách sử dụng số hàng và số cột. Phương pháp này ít phổ biến hơn ký hiệu A1, nhưng có thể hữu ích khi tham chiếu một dải ô tương ứng với vị trí của một ô nhất định

Hiển thị ví dụ

  • //docs.google.com/spreadsheets/d/spreadsheetId/edit#gid=02 đề cập đến hai ô đầu tiên trong hai hàng trên cùng của Trang tính 1
  • //docs.google.com/spreadsheets/d/spreadsheetId/edit#gid=03 đề cập đến hai ô đầu tiên trong hai hàng trên cùng của trang tính hiển thị đầu tiên
  • //docs.google.com/spreadsheets/d/spreadsheetId/edit#gid=04 đề cập đến ô có ba hàng bên dưới và một cột ở bên phải của ô hiện tại

Một ô hoặc phạm vi ô được xác định có tên tùy chỉnh để đơn giản hóa các tham chiếu trong toàn bộ ứng dụng. A đại diện cho một phạm vi được đặt tên

Một ô hoặc phạm vi ô đã xác định không thể sửa đổi. A đại diện cho một phạm vi được bảo vệ

Bước tiếp theo

  • Để tìm hiểu về cách phát triển bằng API Google Workspace, bao gồm cả việc xử lý xác thực và ủy quyền, hãy tham khảo phần Phát triển trên Google Workspace

    Vì vậy, bạn ở đây vì bạn đang muốn chuyển đổi PDF thành văn bản bằng Python. Chà, bạn đang ở đúng nơi vì chúng tôi sẽ chỉ cho bạn hai phương pháp tiện dụng để chuyển đổi PDF thành văn bản Python. Nếu bạn chưa biết, Python là ngôn ngữ lập trình hướng đối tượng được sử dụng để phát triển nguyên mẫu phần mềm ứng dụng web và khoa học dữ liệu. Bây giờ chúng ta hãy tìm hiểu cách bạn có thể chuyển đổi PDF thành văn bản bằng Python

    Chuyển PDF sang văn bản bằng Python không hề đơn giản, nhất là với người mới. Ngoài ra, thật khó để chuyển đổi các tệp PDF được quét thành văn bản bằng Python. Nếu bạn đang tìm kiếm một cách đơn giản hơn để chuyển đổi PDF, bao gồm PDF được quét thành văn bản, bạn có thể sử dụng Wondershare PDFelement - PDF Editor. Đây là trình chỉnh sửa PDF dễ sử dụng có thể chuyển đổi PDF sang TXT, Word, Excel, PPT, v.v. , và ngược lại. Với công nghệ OCR, nó có thể trích xuất văn bản và dữ liệu từ hình ảnh PDF. Chuyển đổi hàng loạt được hỗ trợ

    Chuyển đổi PDF thành văn bản bằng Python qua Mô-đun pdftotext

    Để chuyển PDF sang văn bản bằng Python, bạn cần có các công cụ sau

    1. Poppler cho Windows

    Đây là một thư viện kết xuất PDF cũng bao gồm tiện ích pdftoppm

    2. Mô-đun pdftotext

    Nó là một mô-đun Python bao bọc tiện ích để chuyển đổi PDF thành văn bản

    Cách cài đặt các công cụ PDF to Text Python cần thiết

    Để cài đặt Poppler trên windows, hãy thêm xxx/bin/ vào đường dẫn env sẽ cài đặt Poppler ở vị trí cần thiết. Sau đó, pip cài đặt mô-đun pdftotext chuyển đổi PDF thành văn bản trong khi bạn chạy truy vấn của mình tại Python

    Sau khi mô-đun Poppler và pdftotext được cài đặt trên Windows, hãy viết và biên dịch đoạn mã sau để làm cho nó hoạt động

    1 nhập pdftotext
    2
    3 # Tải PDF của bạn
    4 với open["Target. pdf", "rb"] dưới dạng f
    5 pdf = pdftotext. PDF[f]
    6
    7 # Lưu tất cả văn bản vào tệp txt
    8 với open['đầu ra. txt', 'w'] dưới dạng f
    9 f. ghi["\n\n". tham gia[pdf]]

    Làm thế nào để mã này hoạt động?

    Nhập pdftotext. Với truy vấn này, nó sẽ gọi mô-đun pdftotext để bắt đầu quá trình chuyển đổi

    # Tải PDF của bạn. Đoạn mã này sẽ tải tệp PDF của bạn trong trình biên dịch

    Mã trên dòng 4 đến 9 sẽ chọn và chuyển đổi tệp PDF thành văn bản và đầu ra sẽ được lưu ở đích đã chọn. Vì vậy, đây là cách bạn chuyển đổi PDF thành Văn bản bằng Python

    Chuyển đổi PDF thành văn bản bằng Python qua PyPDF2

    Phương pháp này sẽ sử dụng một mô-đun bên ngoài có tên là PyPDF2 để chuyển đổi PDF thành văn bản. Gói PyPDF2 này có thể cho phép bạn chuyển đổi, tách, hợp nhất, cắt các tệp PDF. Để cài đặt PyPDF2, hãy sử dụng dòng lệnh bên dưới

    C. \Users\Admin>pip cài đặt PyPDF2

    Sau khi mô-đun được cài đặt, bạn có thể chuyển đổi PDF thành văn bản bằng Python bằng cách sử dụng mã sau

    # nhập các mô-đun cần thiết
    nhập PyPDF2

    # tạo đối tượng tệp pdf
    pdfFileObj = mở ['ví dụ. pdf', 'rb']

    # tạo đối tượng đọc pdf
    pdfReader = PyPDF2. PdfFileReader[pdfFileObj]

    # in số trang trong tệp pdf
    in [pdfReader. số trang]

    # tạo đối tượng trang
    trangObj = pdfReader. getPage[0]

    # trích xuất văn bản từ trang
    in [trangObj. trích xuất văn bản []]

    # đóng đối tượng tệp pdf
    pdfFileObj. Thoát[]

    Ưu điểm và nhược điểm của việc chuyển đổi PDF thành văn bản bằng Python

    Trước tiên hãy cùng tìm hiểu ưu điểm của việc chuyển PDF sang văn bản bằng Python

    Python là một ngôn ngữ lập trình có thể được sử dụng để làm bất cứ điều gì bạn có thể tưởng tượng. Và khi chuyển đổi định dạng tệp, Python là một công cụ tuyệt vời để làm điều đó bởi vì có sẵn một số mô-đun cho mục đích đó. Với các mô-đun này, rất dễ dàng chuyển đổi PDF sang văn bản, hình ảnh và các định dạng khác

    Khi nói về nhược điểm, nhược điểm lớn nhất của việc sử dụng Python là bạn cần học Python trước, điều này sẽ tốn rất nhiều thời gian của bạn. Ngoài ra, nó có các tùy chọn và chức năng rất hạn chế để chuyển đổi tệp PDF được quét thành văn bản và có thể dẫn đến văn bản bị thao túng

    Bây giờ, nếu bạn cảm thấy việc chuyển đổi tệp bằng Python sẽ khiến bạn đau đầu, thì chúng tôi có một phương pháp thay thế dành cho bạn, đó là. e. , chuyển đổi PDF thành Văn bản mà không cần Python. Hãy học cách làm điều đó mà không cần Python

    Cách chuyển đổi PDF thành văn bản mà không cần Python

    Để chuyển đổi PDF thành văn bản, tất cả những gì bạn cần là Wondershare PDFelement - PDF Editor. Nó là một trong những công cụ tốt nhất tại thời điểm này được sử dụng để tạo và chỉnh sửa các tệp PDF. Với nó, bạn có thể thực hiện rất nhiều tác vụ khác nhau bao gồm chuyển đổi định dạng tệp, tạo biểu mẫu và ký điện tử. Hãy khám phá một số tính năng tốt nhất dưới đây

    • Tạo PDF - Tệp PDF có thể được tạo dễ dàng như tạo tệp MS word bình thường. Bạn có thể thêm hình ảnh, màu sắc và nhiều thứ khác vào tệp PDF của mình
    • Chỉnh sửa PDF - Nhận tệp PDF từ ai đó và cần chỉnh sửa trước khi chuyển tiếp cho người khác?
    • Chuyển đổi định dạng tệp - Không chỉ PDF sang văn bản và ngược lại mà bạn còn có thể chuyển đổi từ PDF sang khoảng 300 định dạng khác và ngược lại chỉ với vài cú nhấp chuột
    • Tạo biểu mẫu - Bạn có thể tạo các biểu mẫu nâng cao và phức tạp chỉ bằng một cú nhấp chuột. Với tính năng này, bạn cũng có thể chỉnh sửa các biểu mẫu hiện có, cũng như điền vào các biểu mẫu ngay từ PC của mình mà không cần tải xuống và in chúng
    • OCR - Với OCR [Nhận dạng ký tự quang học], bạn có thể dễ dàng chuyển đổi các tệp PDF được quét thành định dạng có thể chỉnh sửa và hơn nữa có thể chuyển đổi chúng thành bất kỳ định dạng nào khác. Nghe có vẻ thú vị?

    Còn rất nhiều tính năng khác trong PDFelement không thể dễ dàng bỏ qua. Nó có thể dễ dàng vượt qua các phần mềm tương tự khác vì không có phần mềm nào khác có nhiều tính năng được kết hợp. Bây giờ hãy xem hướng dẫn từng bước để chuyển đổi PDF thành Văn bản

    Bước 1. Mở tệp PDF

    Đầu tiên, khởi chạy PDFelement và mở tệp PDF để chuyển đổi nó. Để mở tệp, nhấp vào nút "Mở tệp…", định vị tệp trong PC của bạn, chọn tệp và nhấp vào nút "Mở"

    Bước 2. Chuyển đổi PDF sang văn bản

    Bây giờ, hãy nhấp vào "Chuyển đổi" trong thanh menu rồi nhấp vào "Thành văn bản" trong thanh menu phụ

    Bước 3. Chọn thư mục đầu ra

    Ở bước cuối cùng, chọn thư mục đầu ra hoặc đích nơi tệp đã chuyển đổi sẽ được lưu và nhấp vào nút "Lưu". Ngay khi bạn nhấp vào nút "Lưu", tệp PDF sẽ được chuyển đổi sang định dạng văn bản trong giây lát và sẽ được lưu tại đích đã chọn. Vì vậy, đây là cách bạn chuyển đổi PDF thành văn bản mà không cần sử dụng Python hay bất kỳ ngôn ngữ phức tạp nào khác

Chủ Đề