Bỏ dấu tiếng việt python
This entry is part 27 of 29 in the series Python Không Khó Show 72 / 100 Trong quá trình triển khai các dự án, đôi khi bạn muốn xóa dấu tiếng việt của một câu văn bản bất kỳ. Chẳng hạn một bài toán đơn giản là bài toán tạo url cho bài viết từ tiêu đề của bài viết. Trong bài này mình xin chia sẻ một số cách đơn giản nhất để có thể xóa dấu tiếng việt từ một chuỗi văn bản bất kỳ nha.
Việc xóa dấu tiếng việt là không quá khó, bởi trong tiếng việt thực tế chỉ có 6 nguyên âm có thể có chứa dấu. Dưới đây là danh sách đã qua xử lý lowercase.
Như vậy, bạn chỉ việc thay thế từng hàng ở trên với ký tự không có dấu tương ứng của chúng là xong. Cách đơn giản nhất để làm việc này là sử dụng vài dòng regex. Sau đây mình sẽ demo code xóa dấu tiếng Việt trong Python, các ngôn ngữ khác cũng với ý tưởng tương tự thôi. Code Xóa dấu tiếng ViệtSau đây là script xóa dấu tiếng việt ở một số ngôn ngữ mình cài đặt cũng như tham khảo. Xóa dấu tiếng việt trong PythonBạn có thể tự cài đặt như ý tưởng mình nói ở trên, như sau:
Hoặc có cách đơn giản hơn là dùng thư viện :v
Sử dụng Javascript
Xóa dấu tiếng Việt trong Java
|