Tài liệu Word chứa văn bản được định dạng được bao bọc trong ba cấp độ đối tượng. Cấp thấp nhất- Đối tượng chạy, Cấp trung bình- Đối tượng đoạn văn và Cấp cao nhất- Đối tượng tài liệu
Vì vậy, chúng ta không thể làm việc với những văn bản này bằng các trình soạn thảo văn bản thông thường. Nhưng chúng ta có thể thao tác với các tài liệu từ này trong python bằng mô-đun python-docx
- Bước đầu tiên là cài đặt mô-đun bên thứ ba này python-docx. Bạn có thể sử dụng pip “pip cài đặt python-docx”
- Sau khi cài đặt, hãy nhập “docx” KHÔNG “python-docx”
- Sử dụng “docx. Document” để bắt đầu làm việc với tài liệu từ
Ví dụ
# import docx NOT python-docx import docx # create an instance of a word document doc = docx.Document[] # add a heading of level 0 [largest heading] doc.add_heading['Heading for the document', 0] # add a paragraph and store # the object in a variable doc_para = doc.add_paragraph['Your paragraph goes here, '] # add a run i.e, style like # bold, italic, underline, etc. doc_para.add_run['hey there, bold here'].bold = True doc_para.add_run[', and '] doc_para.add_run['these words are italic'].italic = True # add a page break to start a new page doc.add_page_break[] # add a heading of level 2 doc.add_heading['Heading level 2', 2] # pictures can also be added to our word document # width is optional doc.add_picture['path_to_picture'] # now save the document to a location doc.save['path_to_document']
Tài liệu Word bao gồm văn bản được định dạng bao gồm ba cấp độ đối tượng. Chạy đối tượng ở mức thấp nhất, Đối tượng đoạn văn ở mức trung gian và Đối tượng tài liệu ở mức cao nhất. Do đó, chúng tôi không thể làm việc với các tài liệu này bằng trình soạn thảo văn bản tiêu chuẩn. Tuy nhiên, chúng tôi có thể sử dụng gói Python-Docx để quản lý các tài liệu từ này trong Python. Vì vậy, trong bài viết này, chúng tôi sẽ sử dụng trình quản lý PIP để cài đặt gói Docx bằng Python trên hệ điều hành Linux.
Cài đặt gói Docx trên Linux bằng PIP
Yêu cầu
- Python3
- Python3-pip
Để cài đặt gói Docx trong Linux, chúng ta phải làm theo các bước sau
Bước 1. Thiết lập môi trường Python trên hệ điều hành Linux của chúng tôi. Vì vậy, chúng tôi sẽ sử dụng trình quản lý apt để cài đặt Python3
Sudo apt-get cài đặt python3
Bước 2. Bây giờ chúng tôi cài đặt trình quản lý PIP. Trình quản lý PIP là một chương trình cài đặt gói Python được sử dụng để cài đặt và quản lý các gói Python. Vì vậy, để cài đặt, hãy sử dụng lệnh sau trên thiết bị đầu cuối
Sudo apt cài đặt python3-pip
Bước 3. Bây giờ chúng ta sẽ sử dụng trình quản lý PIP để cài đặt gói Docx. Vì vậy, để cài đặt gói Docx, hãy sử dụng lệnh sau trên thiết bị đầu cuối
Sudo pip3 cài đặt docx
Xác minh cài đặt gói Docx trên Linux bằng PIP
Sau khi bạn đã cài đặt gói, bước tiếp theo là kiểm tra xem gói Docx đã được cài đặt đúng chưa. Vì vậy, chúng tôi sẽ chỉ sử dụng thiết bị đầu cuối để lấy thông tin về gói đã cài đặt [Docx]
Các tài liệu này có thể được mở trong Microsoft Office 2007/2010, Microsoft Mac Office 2008, Google Docs, OpenOffice. org 3 và Apple iWork 08
Họ cũng xác thực XML được định dạng tốt
Mô-đun được tạo khi tôi đang tìm kiếm hỗ trợ Python cho MS Word. docx, nhưng chỉ có thể tìm thấy các bản hack khác nhau liên quan đến tự động hóa COM, gọi. Net hoặc Java hoặc tự động hóa OpenOffice hoặc MS Office
Mô-đun docx có các tính năng sau
làm tài liệu
Các tính năng để làm tài liệu bao gồm
đoạn văn
viên đạn
danh sách được đánh số
Thuộc tính tài liệu [tác giả, công ty, v.v.]
Nhiều cấp độ tiêu đề
Những cái bàn
Phần và ngắt trang
Hình ảnh
chỉnh sửa tài liệu
Nhờ sự tuyệt vời của mô-đun lxml, chúng ta có thể
Tìm kiếm và thay thế
Trích xuất văn bản thuần túy của tài liệu
Thêm và xóa các mục ở bất kỳ đâu trong tài liệu
Thay đổi thuộc tính tài liệu
Chạy các truy vấn xpath đối với các vị trí cụ thể trong tài liệu - hữu ích để truy xuất dữ liệu từ các mẫu do người dùng hoàn thành
Làm cách nào để cài đặt docx trong python?
Python - Làm việc với. .Bước đầu tiên là cài đặt mô-đun bên thứ ba này python-docx. Bạn có thể sử dụng pip “pip cài đặt python-docx”Sau khi cài đặt, hãy nhập “docx” KHÔNG “python-docx”Sử dụng “docx. Document” để bắt đầu làm việc với tài liệu từdocx trong python là gì?
python-docx là thư viện Python để tạo và cập nhật Microsoft Word [. docx] tệp .Làm thế nào để cài đặt trăn
Cài đặt gói Docx trên Linux bằng PIP .Yêu cầuBước 1. Thiết lập môi trường Python trên hệ điều hành Linux của chúng tôi. .Bước 2. Bây giờ chúng tôi cài đặt trình quản lý PIP. .Bước 3. Bây giờ chúng ta sẽ sử dụng trình quản lý PIP để cài đặt gói Docx. .Xác minh cài đặt gói Docx trên Linux bằng PIPLàm cách nào để tạo docx bằng python?
Tạo tệp Word DOCX hoặc DOC bằng Python .Tạo một đối tượng của lớp Tài liệuTạo một đối tượng của lớp DocumentBuilderChèn văn bản vào tài liệu bằng DocumentBuilder. viết phương phápLưu tài liệu Word bằng Document. phương thức lưu []