Ranh giới từ regex Python
Đôi khi bạn muốn tìm một từ, không phải chuỗi con là một phần của từ lớn hơn. Sử dụng Show
Để khớp với ranh giới không phải từ, hãy sử dụng Hãy cẩn thận khi cố khớp các ranh giới từ trong Python bằng cách sử dụng các biểu thức chính quy. Bạn phải chắc chắn thoát khỏi chuỗi khớp hoặc sử dụng chuỗi thô ranh giới từRanh giới từ là một cách tuyệt vời để thực hiện tìm kiếm cụm từ thông dụng cho toàn bộ từ trong khi tránh khớp một phần. Chẳng hạn, tìm kiếm cụm từ thông dụng “the” sẽ khớp với cả từ “the” và phần đầu của từ “thesaurus” >>> import re >>> re.match("the", "the") # matches >>> re.match("the", "thesaurus") # matches Trong một số trường hợp, bạn có thể muốn chỉ khớp từ “the” chứ không phải khi nó được nhúng trong một từ khác Cách khớp ranh giới từ là với '\ b', như được mô tả trong tài liệu Python. Tôi đã lãng phí vài phút vật lộn với việc cố gắng làm cho nó hoạt động >>> re.match("\bthe\b", "the") # no match Hóa ra \b cũng được sử dụng làm trình tự điều khiển xóa lùi. Do đó, để công cụ biểu thức chính quy diễn giải chính xác ranh giới từ, bạn cần thoát chuỗi >>> re.match("\\bthe\\b", "the") # match Bạn cũng có thể sử dụng chuỗi ký tự thô và tránh dấu gạch chéo ngược kép >>> re.match(r"\bthe\b", "the") # match Trong trường hợp bạn chưa từng thấy tiền tố chuỗi thô trước đây, thì đây là tài liệu liên quan
Phần kết luậnĐảm bảo rằng bạn đã quen thuộc với các chuỗi thoát cho chuỗi trong Python, đặc biệt nếu bạn đang xử lý các biểu thức chính quy có các ký tự đặc biệt có thể xung đột. Tài liệu Java cho các biểu thức chính quy làm cho cảnh báo này rõ ràng hơn một chút so với Python
|