Hướng dẫn regular expressions in php - biểu thức chính quy trong php

Danh sách các bài viết trong chuyên mục Regular Expression PHP, đây là những bài viết mới nhất được cập nhật trong mục Regular Expression PHP.

Trước đây việc xử lý chuỗi trong PHP rất là khó khăn bởi nó cung cấp quá ít hàm xử lý chuỗi, hoặc nếu có thì các hàm đó lại không có một chuẩn chung để kiểm tra định dạng của chuỗi. Nhưng từ ngày Regular Expression ra đời thì vấn đề này đã được giải quyết. Regular Expression ra đời thì vấn đề này đã được giải quyết. 

Regular Expression là một chương trình mẫu (biểu thức chính quy) dùng để so khớp với dữ liệu. Ngoài cách ghi này ra thì người ta cò ghi tắt là ReExp, vì vậy kể từ bây giờ nếu mình có ghi RegExp thì ban phải hiểu đó là Regular Expression nhé.

Hiện trong PHP có một số hàm dùng để xử lý RegExp như preg_match, preg_match_all, ... Công dụng nhiều nhất của Regular Expression PHP đó là dùng để tách chuỗi khi lấy nội dung từ website khác, hoặc nó dùng để kiểm tra định dạng dữ liệu truyền vào có hợp lệ hay không. Đây là hai vấn đề thường gặp khi bạn làm website, vì vậy bạn không nên bỏ qua series học RegExp​ này bởi vì series này mình viết khá đầy đủ và dư cho bạn sử dụng khi xây dựng dự án. Tuy nhiên nếu bạn chỉ muốn sử dụng đơn giản thì có thể đọc vài bài đầu về các cú pháp đơn giản của Regex và các hàm xử lý Regular Expression trong PHP là được.Công dụng nhiều nhất của Regular Expression PHP đó là dùng để tách chuỗi khi lấy nội dung từ website khác, hoặc nó dùng để kiểm tra định dạng dữ liệu truyền vào có hợp lệ hay không. Đây là hai vấn đề thường gặp khi bạn làm website, vì vậy bạn không nên bỏ qua series học RegExp​ này bởi vì series này mình viết khá đầy đủ và dư cho bạn sử dụng khi xây dựng dự án. Tuy nhiên nếu bạn chỉ muốn sử dụng đơn giản thì có thể đọc vài bài đầu về các cú pháp đơn giản của Regex và các hàm xử lý Regular Expression trong PHP là được.

Regular Expression được tích hợp vào hầu hết các ngôn ngữ lập trình hiện nay, mỗi ngôn ngữ sẽ có những hàm xử lý khác nhau nhưng về chuẩn biểu thức chính quy thì thì giống nhau, vì vậy nếu bạn đã từng sử dụng biểu thức Regex ở ngôn ngữ khác thì khi qua PHP sẽ không gây khó khăn cho bạn.

Còn chờ gì nữa mà at không bắt đầu học ngay nhỉ? Nhớ share cho bạn bè cùng học chung nhé.

+REGULAR EXPRESSION PHPREGULAR EXPRESSION PHP
1 Regular Expression là gì?
2 Các quy tắc Regular Expression căn bản
3 Các quy tắc Regular Expression căn bản (tiếp theo)
4 Giới thiệu website kiểm tra Regular Expression
5 Hàm preg_match trong php
6 Hàm preg_replace trong php
7 Hàm preg_match_all trong php
8 None Capturing Group trong Regular Expression
9 Negative Và Positive Lookbehind trong Regular Expression
10 Negative Và Positive Lookahead trong Regular Expression
11 Học Regular Expression qua ví dụ - Bài tập căn bản

Regular Expression được dùng để xử lý chuỗi thông qua biểu thức riêng của nó. Để các biểu thức này có thể hoạt động được bạn cần tuân thủ nhiêm ngặt theo các quy tắc viêt biểu thức của Regular. Nếu bạn thấy từ khóa Regular Expression có vẻ lạ lẫm thì hãy nhớ đến khái niệm Regex. Regex là viết tắt của Regular Expression, cái mà chúng ta hay nói với nhau hàng ngày trong các dự án. ^^

Khai báo chuỗi

Một chuổi Regex được bắt đầu bằng ký tự "/" và kết thúc cũng bới ký tự "/". Xét một ví dụ đơn giản như sau:Regex được bắt đầu bằng ký tự "/" và kết thúc cũng bới ký tự "/". Xét một ví dụ đơn giản như sau:

$pattern = '/abc/';
$subject = 'abc';
if (preg_match($pattern, $subject)){
    echo 'Chuỗi $subject có chứa chuỗi $pattern';
}

Trong ví dụ trên, $pattern = '/abc/' có ý nghĩa là tìm trong chuỗi $subject có chứa chuỗi 'abc' hay không. Vì chúng ta truyền vào $subject là 'abc' cho nên kết quả thu được sẽ là thông báo có chứa chuỗi.

So sánh tuyệt đối

Cũng xét ví dụ ở trên, nếu chúng ta truyền vào với giá trị như sau thì điều gì sẽ xảy ra:

$pattern = '/abc/';
$subject = 'mabcdef';
if (preg_match($pattern, $subject)){
    echo 'Chuỗi $subject có chứa chuỗi $pattern';
}

Kết quả trả về vẫn là đúng. Bởi vì tách nhỏ chuỗi $subject ra thì bên trong nó vẫn chứa chuỗi 'abc'.

Vấn đề đặt ra ở đây là: Bây giờ tôi muốn kiểm tra trong $subject trùng khớp với $pattern hay không thì phải làm thế nào?Bây giờ tôi muốn kiểm tra trong $subject trùng khớp với $pattern hay không thì phải làm thế nào?

Trong lập trình, để kiểm tra hai biến có bằng nhau hay không đơn giản chúng ta chỉ cần sử dụng toán tử so sánh '=='. Vậy trong Regex chúng ta phải làm thế nào? Câu trả lời là bạn chỉ cần thêm ký tự '^' và '$' vào đầu và cuối của chuỗi $pattern. Khí đó, khi so sánh sẽ tiến hành so sánh từ đầu tới cuối của chuỗi được truyền vào.Regex chúng ta phải làm thế nào? Câu trả lời là bạn chỉ cần thêm ký tự '^' và '$' vào đầu và cuối của chuỗi $pattern. Khí đó, khi so sánh sẽ tiến hành so sánh từ đầu tới cuối của chuỗi được truyền vào.

$pattern = '/^framgia$/';
$subject = 'framgia';
if (preg_match($pattern, $subject)){
    echo 'So sánh trùng khớp hoàn toàn';
}

Bây giờ nếu chúng ta thay đổi chuỗi $subject thành 'sframgia01' thì kết quả thu được sẽ là sai.

Phạm vi của chuỗi

Trong nhiều trường hợp, chúng ta cần so sánh một chuỗi ký tự có thuộc một khoảng giá trị bất kỳ nào không. Như là: chuỗi có phải ký tự in thường, ký tự in hoa, có phải là sô, ... Để làm được điều này chúng ta sử dụng 1 trong 2 phương thức sau:

  • [min-max]: min là ký tự bắt đầu. max là ký tự kết thúc
  • [list-char]: với list-char là danh sách các ký tự cho phép.

Ví dụ:

//Kiểm tra chuỗi chỉ là ký tự in thường
$pattern = '/[a-z]/';
$subject = 'abcd';
if (preg_match($pattern, $subject)){
    echo 'true';
}
//Kiểm tra chuỗi chỉ là ký tự in HOA
$pattern = '/[A-Z]/';
$subject = 'ABCDGH';
if (preg_match($pattern, $subject)){
    echo 'true';
}
//Kiểm tra chuỗi chỉ chứa số
$pattern = '/[0-9]/';
$subject = '123678';
if (preg_match($pattern, $subject)){
    echo 'true';
}
//Kiểm tra chuỗi chỉ là ký tự in HOA hoặc in thường
$pattern = '/[A-Za-z]/';
$subject = 'ABCbvnDGH';
if (preg_match($pattern, $subject)){
    echo 'true';
}

Quy định chiều dài cho chuỗi

Để quy định đỗ dài cho chuỗi ta dùng {min,max}. Trong đó, min là chiều dài tối thiểu, max là chiều dài tối đa.

$pattern = '/^[a-z]{5,10}$/';
$subject = 'fdsfdsa';
if (preg_match($pattern, $subject)){
    echo 'True';
}

Với $pattern như ví dụ trên. Kết quả trả về là true chỉ khi nào $subject chỉ chứa các ký tự in thường và có chiều dài từ 5 đến 10 ký tự.

Regex đại diện cho 1 ký tự

Có trường hợp, tối chỉ muốn kiểm tra ký tự cuối cùng xuất hiện trong chuỗi còn những ký tự trước nó không giới hạn phạm vi thì phải viết Regex như thế nào? Regex cung cấp cho chúng ta ký tự '.'. Với ký tự này được khai báo, Regex sẽ chấp nhận bất cứ ký tự nào đc khai báo.

// Pattern là ký tự bất kỳ dài từ 3 đến 10 ký tự
$pattern = '/^.{3,10}$/';
$subject = '3232';
if (preg_match($pattern, $subject)){
    echo 'True';
}

Regex với ký hiệu đặc biệt

Giả sử tối muốn kiểm tra chuỗi có chứa dấu . hay không. Nếu cứ làm như trước đây. Chúng ta có:

$pattern = '/./';
$subject = 'demo';
if (preg_match($pattern, $subject)){
    echo 'True';
}

Kết quả của chương trình này sẽ là True. Bởi vì Regex hiểu dấu . là chấp nhận bất kỳ giá trị nào chứ không phải là yêu cầu kiểm tra trong chuỗi có dấu . hay không. Khi gặp những tình huống tương tự như trên. Hay làm như sau:

$pattern = '/abc/';
$subject = 'mabcdef';
if (preg_match($pattern, $subject)){
    echo 'Chuỗi $subject có chứa chuỗi $pattern';
}
0

Kết quả của chương trình này là false. Vì trong chuỗi $subject không có chứa ký tự '.'.

Regex với Or

Muốn kiểm tra chuỗi có ký tự A hoặc ký tự B hay không thì làm như sau:

$pattern = '/abc/';
$subject = 'mabcdef';
if (preg_match($pattern, $subject)){
    echo 'Chuỗi $subject có chứa chuỗi $pattern';
}
1

Regex với chiều dài không giới hạn

Ta đã biết được muốn xác định chiều dài cho chuỗi thì dùng {min, max}. Tuy nhiên vẫn còn một số cách ngắn gọn hơn nhiều.

  • Ký tự *: Đại diện cho ký tự null và nhiều ký tự
$pattern = '/abc/';
$subject = 'mabcdef';
if (preg_match($pattern, $subject)){
    echo 'Chuỗi $subject có chứa chuỗi $pattern';
}
2
  • Ký tự +: Đại diện cho một hoặc nhiều ký tự
$pattern = '/abc/';
$subject = 'mabcdef';
if (preg_match($pattern, $subject)){
    echo 'Chuỗi $subject có chứa chuỗi $pattern';
}
3
  • Ký tự ?: Đại diện cho một hoặc không có ký tự nào
$pattern = '/abc/';
$subject = 'mabcdef';
if (preg_match($pattern, $subject)){
    echo 'Chuỗi $subject có chứa chuỗi $pattern';
}
4

Các ký tự Regex đặc biệt

Danh sách các ký tự Regex đặc biệt như sau:

  • \d : Chữ số bất kỳ ~ [0-9]
  • \D : Ký tự bất kỳ không phải là chữ số (ngược với \d) ~ [^0-9]
  • \w : Ký tự từ a-z, A-Z, hoặc 0-9 ~ [a-zA-Z0-9]
  • \W : Ngược lại với \w (nghĩa là các ký tự không thuộc các khoảng: a-z, A-Z, hoặc 0-9) ~[^a-zA-Z0-9]
  • \s : Khoảng trắng (space)
  • \S : Ký tự bất kỳ không phải là khoảng trắng.

Website kiểm tra Regex online

Không phải lúc nào chúng ta cần kiểm tra một Regex cũng lại mở code ra gõ lệnh rồi chạy chương trình chờ kết quả trả về. Việc này rất mất thời gian mà lại không cần thiết. Các bạn có thể tìm kiếm một trang kiểm tra regex bất kỳ nào trên google. Có rất nhiều để các bạn lựa chọn.

Mình xin giới thiệu Regex online!. Đây là trang mình hay sử dụng nhất. Hãy nhập regex vào ô Regular Expression. Sau khi hoàn thành regex thì hãy nhập chuỗi cần kiểm tra vào ô Test String.

Giao diện chính của trang này:

Hướng dẫn regular expressions in php - biểu thức chính quy trong php

Chúc mọi người thành công khi làm việc với Regex. ^^