Cơ bản về RegExp (Regular Expressions) trong lập trình PHP

Biểu thức so mẫu (pattern) dùng để mô tả 1 cách tổng quát 1 đối tượng (chuỗi) trong lập trình PHP, VD:
preg_replace(‘/[^a-z0-9]+/i’,”,$str); 
( hàm này l loại bỏ tất cả các ký tự không phải là chữ (a-z và A-Z) hoặc số (0-9) ra khỏi chuỗi $str )

Biểu thức so mẫu dùng rất hiệu quả và nhanh chóng, tuy nhiên theo TKS biết thì cũng không nhiều người biết sử dụng cái này (nhất là ở nơi không có trường lớp đào tạo cơ bản về lập trình PHP như Việt Nam chúng ta) còn số người biết,hiểu rõ thì không sử dụng thường xuyên nên đã ít nay càng ít người biết sử dụng biểu thức so mẫu. Trong bài này TKS chỉ giới thiệu 1 số kiến thức cơ bản và 1 vài ví dụ để dễ hiểu, hy vọng là giúp ít cho anh em.
Cấu trúc: như ví dụ trên thì /[^a-z0-9]+/i là 1 biểu thức so mẫu,

– giới hạn trong cặp dấu /<so mẫu>/x hoặc #<so mẫu>#x
– x có thể là 1 hoặc nhiều ký tự để mô tả dữ liệu được lấy và cũng có thể không có trong biểu thức so mẫu. Một số giá trị có thể có của  x:
+ i: không phân biệt chữ hoa, chữ thường
+ s: bao gồm cả các ký tự xuống dòng
+ Ngoài còn có 1 số giá trị khác như: S,U,… nhưng ít được sử dụng

Ta lấy ví dụ cho dễ hình dung:
preg_replace(‘/[^a-z0-9]/’,”,’phpBASIC$’) 
-> php 
preg_replace(‘/[^a-z0-9]/i’,”,’phpBASIC$’) 
-> phpBASIC 


Ý nghĩa của các ký tự trong biểu thức so mẫu:

\ loại bỏ các ký tự đặc biệt của pattern
/(phpbasic)/ : chuỗi phpbasic
/\(phpbasic\)/ : chuỗi (phpbasic)

^ ký tự bắt đầu
/^php(.*)/ : những chuỗi bắt đầu bằng chữ php

$ ký tự kết thúc
/(.*)basic$/ : những chuỗi kết thúc bằng chữ basic

. bất kỳ ký tự nào trừ ký tự xuông dòng
/(.*)/ : tất cả các ký tự nằm trên 1 dòng

[ và ] bắt đầu và kết thúc 1 lớp ký tự
/[a-z]/ : tất cả các ký tự a-z
chú ý trong 1 lớp:
^ phủ định:
/[^a-z]/ : những ký tự không phải là a-z
–  1 khoảng:
/[a-d]/ : bao gồm a,b,c,d

| hoặc
/a|b/ : ký tự a hoặc b
( và ) bắt đầu và kết thúc 1 so  mẫu con
/^a(c|d)b/ : chuỗi có dạng acb hoặc acd

? có hoặc không
/ab?c/ : chuỗi có dạng abc hoặc ac

* : 0 hoặc nhiều hơn ký tự
/a*/ : <null>, a, aa, aaa,………….

+ : có ít nhất 1
/a+/ : a,aa,aaa,……………

{ và } bắt đầu và kết thúc min/max ký tự
/a{1,3}/ :  a,aa,aaa

Các ký tự đặc biệt khác:

\n hoặc \r : ký tự xuông dòng
\t : ký tự tab
\d : bất kỳ ký tự số nào
\D : bất kỳ ký tự nào mà không phải là số
\s : bất kỳ ký tự khoảng trắng
\S : bất kỳ ký không phải là khoảng trắng
\w : bất kỳ từ nào
\W : không phải là từ

Chúc bạn thành công,

FOLLOW US

Leave a Reply

Your email address will not be published. Required fields are marked *