Hướng dẫn runs in python-docx - chạy trong python-docx

Chỉnh sửa văn bản trong DOCX bằng cách sử dụng Python

Sửa đổi theo chương trình của tài liệu DOCX là một phần không thể thiếu của quy trình làm việc kỹ thuật số hiện đại. Chỉnh sửa văn bản trong DOCX, chèn đồ thị bằng dữ liệu bên ngoài, sửa đổi bảng.

Nội dung chính

  • Chỉnh sửa văn bản trong DOCX bằng cách sử dụng Python
  • Thay đổi DOCX trong Python
  • Chỉnh sửa bảng trong DOCX bằng cách sử dụng Python
  • Python thư viện để làm việc với DOCX tệp
  • yêu cầu hệ thống
  • 1. Cài đặt thư viện
  • 2. Khởi tạo file
  • 3. Heading, title
  • 3.2. Heading
  • 4. Đoạn văn (paragraph)
  • 4.1. Layout truyền thống
  • 4.2. Layout dạng cột
  • 4.3. Thêm câu cho đoạn văn
  • 4.3.1. Highlight background
  • Lời kết

Thư viện Python là một giải pháp độc lập để chỉnh sửa DOCX mà không dựa vào phần mềm khác. Nó đã sẵn sàng để sử dụng thương mại bao gồm tất cả các nhu cầu có thể có của các nhà phát triển Python chuyên nghiệp:

  • Sửa đổi các phần tử DOCX hiện có: bảng, danh sách, biểu đồ, hình ảnh, liên kết, trường, v.v.
  • Modify DOCX các kiểu và thuộc tính định dạng
  • Thêm phần tử DOCX mới
  • Tìm kiếm DOCX cho các mẫu văn bản và thay thế chúng bằng văn bản mới
  • Lưu kết quả sang nhiều định dạng tệp khác nhau bằng phương pháp 'Document.Save'
  • Loại bỏ các phần tử DOCX không mong muốn (đoạn, trang, phần, chương)

Thay đổi DOCX trong Python

Chỉnh sửa bảng trong DOCX bằng cách sử dụng Python

Python thư viện để làm việc với DOCX tệp

yêu cầu hệ thống

Chỉnh sửa bảng trong DOCX bằng cách sử dụng Python

Python thư viện để làm việc với DOCX tệp

yêu cầu hệ thống

Python thư viện để làm việc với DOCX tệp

yêu cầu hệ thống

yêu cầu hệ thống

1. Cài đặt thư viện

2. Khởi tạo file (MS)- một trong các tiện ích từ bộ Microsoft Office là một trong những phần mềm phổ biến trong việc tạo ra file document, hỗ trợ đọc và ghi nội dung từ đơn giản đến phức tạp. Mặc dù con người có thể trực tiếp tạo và viết nội dung lên file MS, tuy nhiên trong rất nhiều tác vụ cần máy tính xử lý và tự động tạo nội dung trên các file MS. Ví dụ bạn đọc nội dung từ file pdf và muốn chuyển nội dung sang file docx hoặc bạn đang phát triển một mô hình xử lý ngôn ngữ tự nhiên và cần đọc dữ liệu đầu vào là các file MS thì Python-Docx là một trong những thư viện rất đáng để bạn lựa chọn.

Nội dung chính

  • 1. Cài đặt thư viện
  • 2. Khởi tạo file
  • 3. Heading, title
  • 3.2. Heading
  • 4. Đoạn văn (paragraph)
  • 4.1. Layout truyền thống
  • 4.2. Layout dạng cột
  • 4.3. Thêm câu cho đoạn văn
  • 4.3.1. Highlight background
  • Lời kết

Thư viện Python là một giải pháp độc lập để chỉnh sửa DOCX mà không dựa vào phần mềm khác. Nó đã sẵn sàng để sử dụng thương mại bao gồm tất cả các nhu cầu có thể có của các nhà phát triển Python chuyên nghiệp:Python Docx.

1. Cài đặt thư viện

2. Khởi tạo file

pip install python-docx

2. Khởi tạo file

3. Heading, title

from docx import Document

document = Document('existing-document-file.docx')

3.2. Heading

document = Document()

4. Đoạn văn (paragraph)

document.save(filename)

4.1. Layout truyền thống.docx nhé.

3. Heading, title

3.2. Headingtitle hoặc heading của văn bản theo nhiều level mà người dùng chỉ định.

  • 4. Đoạn văn (paragraph)
  • Level: bậc của heading (0, 1, 2, ...). Số càng nhỏ font chữ càng lớn.
document.add_heading(content, level)

3.1. Title

Theo mặc định của python-docx, title có level là 0

document.add_heading("This is a title part, level=0)

Ta có kết quả tương ứng sẽ là :

3.2. Heading

Đối với các phần heaing, ta có các level 1, 2, 3....

  • Level 1
document.add_heading("This is a heading 1", level=1)

Kết quả tương ứng :

  • Level 2
document.add_heading("This is a heading 2", level=2)

Kết quả tương ứng :

4. Đoạn văn (paragraph)

Trong các loại văn bản thông thường, chúng ta có hai cách biểu diễn nội dung của một trang đó là:

4.1. Layout truyền thống

Với layout kiểu truyền thống, chúng ta ghi nội dung vào file MS như sau:

document.add_paragraph(content)

Kết quả tương ứng:

4.2. Layout dạng cột

Để tạo ra được các văn bản dạng cột. Chúng ta cần dùng đến khái niệm Section. Mỗi section có thể chứa nhiều các đoạn văn. Mỗi section sẽ tương đương với một page và chúng ta thông qua section để biểu diễn nội dung cho một page.Section. Mỗi section có thể chứa nhiều các đoạn văn. Mỗi section sẽ tương đương với một page và chúng ta thông qua section để biểu diễn nội dung cho một page.

Tạo layout cột cho section :

from docx.enum.section import WD_SECTION_START

def set_number_of_columns(section, cols):
    """ sets number of columns through xpath. """
    WNS_COLS_NUM = "{http://schemas.openxmlformats.org/wordprocessingml/2006/main}num"
    section._sectPr.xpath("./w:cols")[0].set(WNS_COLS_NUM, str(cols))
    
section = document.add_section(WD_SECTION_START.NEW_PAGE)
# col_nb is number of column layout
set_number_of_columns(section, col_nb)

Sau đó chúng ta thực hiện thêm đoạn văn giống như kiểu layout truyền thống. Đoạn văn sẽ được thêm theo thứ tự các cột, từ trái sang phải.

from docx import Document

document = Document('existing-document-file.docx')
0

Ngoài ra, chúng ta cũng có thể thêm phần căn lề (trái, phải, giữa ) cho đoạn văn như sau:

from docx import Document

document = Document('existing-document-file.docx')
1
  • Căn lề trái
from docx import Document

document = Document('existing-document-file.docx')
2
  • Căn lề phải
from docx import Document

document = Document('existing-document-file.docx')
3
  • Căn lề giữa
from docx import Document

document = Document('existing-document-file.docx')
4
  • Căn lề hai bên
from docx import Document

document = Document('existing-document-file.docx')
5

4.3. Thêm câu cho đoạn văn

Thư viện python-docx hỗ trợ chèn thêm câu riêng lẻ vào trong đoạn văn đã được khởi tạo:

from docx import Document

document = Document('existing-document-file.docx')
6

4.3.1. Highlight background

Bạn cũng có thể highlight background cho từng câu bằng các màu yêu thích như sau:(highlight là tên màu )

from docx import Document

document = Document('existing-document-file.docx')
7

4.3.2. In đậm, nghiêng, gạch chân

Bạn cũng có thể thêm highlight cho bằng thêm in đậm, in nghiêng hay gạch chân như khi người sử dụng trực tiếp trên file MS.

from docx import Document

document = Document('existing-document-file.docx')
8

5. Picture

Bạn cũng có thể chèn ảnh trưc tiếp vào python-docx bằng đường dẫn tới file ảnh cần chèn hoặc ảnh đã được biểu diễn dạng ma trận. Bạn cũng có thể điều chỉnh kích thước ảnh phù hợp với văn bản của mình.

from docx import Document

document = Document('existing-document-file.docx')
9

Lời kết

Python-docx là một thư viện hỗ trợ mạnh mẽ về cách tạo lập hay sửa đổi văn bản docx. Tuy nhiên để có thể tận dụng hết các tính năng của Microsoft Word thì các bạn cần tìm hiểu sâu thêm các api của Mircosoft Word. Còn nếu bạn chỉ muốn sử dụng tính năng đơn giản thì python-docx vẫn là sự lựa chọn hết sức tuyệt vời. Cảm ơn các bạn đã theo dõi bài đọc của mình là một thư viện hỗ trợ mạnh mẽ về cách tạo lập hay sửa đổi văn bản docx. Tuy nhiên để có thể tận dụng hết các tính năng của Microsoft Word thì các bạn cần tìm hiểu sâu thêm các api của Mircosoft Word. Còn nếu bạn chỉ muốn sử dụng tính năng đơn giản thì python-docx vẫn là sự lựa chọn hết sức tuyệt vời. Cảm ơn các bạn đã theo dõi bài đọc của mình