regular expressions¶
非打印字符
字符 |
描述 |
\d |
匹配数字 |
\f |
匹配换页符 |
\n |
匹配换行符 |
\r |
匹配回车符 |
\s |
匹配空白字符 |
\S |
匹配非空白字符 |
\t |
匹配制表符 |
\v |
匹配垂直制表符 |
\w |
匹配字母或数字 |
特殊字符
字符 |
描述 |
. |
匹配换行符之外的任意单字符 |
^ |
匹配输入字符串的开始位置 |
$ |
匹配输入字符串的结尾位置 |
* |
前面的子表达式 任意次(包括0) |
+ |
前面的子表达式 至少一次 |
? |
前面的子表达式 0 或 1 次 |
{n} |
n 是一个非负整数。匹配确定的 n 次 |
{n,} |
n 是一个非负整数。至少匹配n 次 |
{n,m} |
匹配 [n, m] 次 |
两项之间的选择 |
|
() |
标记字表达式 |
中括号表达式例子
[0-9a-zA-Z_] 可以匹配一个数字、字母或者下划线
“[u4E00-u9FA5]+” 匹配中文
警告
python 中进行正则匹配时遇到中文,注意在匹配规则前加上 ur, 如
ur“[u4E00-u9FA5]+”, 另外待匹配字符串也应转为unicode 编码