百科狗-知识改变命运!
--

字符类(方括号) - php 表达式

是丫丫呀12个月前 (11-21)阅读数 12#技术干货
文章标签字符

字符类(方括号)

左方括号开始一个字符类的描述,并以方中括号结束。 单独的一个右方括号没有特殊含义。如果一个右方括号需要作为一个字符类中的成员, 那么可以将它写在字符类的首字符处(如果使用了^取反, 那么是第二个)或者使用转义符。

一个字符类在目标字符串中匹配一个单独的字符; 该字符必须是字符类中定义的字符集合的其中一个, 除非使用了 ^ 对字符类取反。 如果^需要作为一个字符类的成员,确保它不是该字符类的首字符, 或者对其进行转义即可。

例如,字符类[aeiou]匹配所有的小写元音字母, 而[^aeiou]匹配所有非元音字母的字符。注意: ^只是一个通过枚举指定那些不存在字符类之中的字符的便利符号。而不是断言, 它仍然会从目标字符串中消耗一个字符,并且如果当前匹配点在目标字符串末尾, 匹配将会失败。

当大小写无关匹配被设置后,任意字符类都同时代表大小写两种版本,因此对于例子, 一个大小写不敏感的[aeiou]同时匹配"A"和"a", 并且大小写不敏感的[^aeiou]同时不匹配 "A"。

换行符在字符类中没有任何特殊涵义, 与 PCRE_DOTALL 或 PCRE_MULTILINE 选项都无关。 一个字符类比如 [^a] 始终会匹配换行符。

字符类(方括号) - php 表达式

在字符类中,一个中划线(减号 -)可以用于指定从一个字符到另一个字符的范围。 比如,[d-m]匹配d到m之间的所有字符,这个集合时闭合的。 如果中划线自身要在一个字符类中描述, 它必须被转移或者出现在一个不会被解释为一个范围的位置, 典型的比如字符类开始或结束位置。

在一个字符范围描述后面不能使用右中括号。 比如一个模式 [W-]46] 被解释为一个包含 W 和 - 的字符类,后面紧跟字符串 ”46]”, 因此它可以匹配 ”W46]” 或 ”-46]”。然而, 如果中括号是经过转义的, 它将会被解释为范围的终点, 因此 [W-\]46] 就会被解释为一个单独的包含 W 至 ] 范围内所有字符以及 4、6 的字符类。 8 进制或 16 进制描述的中括号同样可以用于作为范围的终点。

范围操作以 ASCII 整理排序。它们可以用于为字符指定数值,比如 [\000-\037]。 如果在大小写不敏感匹配模式下使用一个包含字母的范围, 则同时匹配它的大小写形式。 比如 [W-c] 在不区分大小写匹配时等价于 [][\^_`wxyzabc],并且, 如果使用了 ”fr”(法国) 的地域设置字符表时, [\xc8-xcb] 将会在所有模式下匹配重音E字符。

字符类\d、\D、 \s、\S、\w 和 \W 也可以出现在一个字符类中, 用以将其匹配的字符类加入到新的自定义字符类中。比如, [\dABCDEF] 匹配任意合法的 16 进制数。用 ^ 可以很方便的制定严格的字符类, 比如 [^\W_] 匹配任何字母或数字,但不匹配下划线。

所有非字母数字字符除了\、-、 ^(在起始位置)以及结束的]在字符类中都是非特殊字符, 没有转义也不会有危害。模式结束符在表达式中总是特殊字符,必须进行转义。

Perl 支持 POSIX 字符类符号。这种字符类使用[::]闭合。 PCRE 同样支持这些字符类, 比如,[01[:alpha:]%]匹配 ”0”、“1”、任意字母或”%”。 支持的字符类如下:

Character classes
alnum字母和数字
alpha字母
ascii0 - 127的ascii字符
blank空格和水平制表符
cntrl控制字符
digit十进制数(same as \d)
graph打印字符, 不包括空格
lower小写字母
print打印字符,包含空格
punct打印字符, 不包括字母和数字
space空白字符 (比\s多垂直制表符)
upper大写字母
word单词字符(same as \w)
xdigit十六进制数字
空白字符有HT(9)、 LF(10)、VT(11)、 FF(12)、CR(13)、space(32)。 注意, 这个列表包含了垂直制表符。这使得space不同于\s, 因为它不包含垂直制表符(为了向 perl 兼容)

[:word:]是一个 perl扩展,[:blank:]是一个从 Perl5.8 中来的 GNU 扩展。 另外一个 perl 扩展是取反,通过前置一个^。 比如,[12[:^digit:]]匹配”1”, “2” 或任何非数字字符

在 UTF-8 模式,大于 128 的字符值不会匹配任何 POSIX 字符类。

The documentation says:
"The character types \d, \D, \s, \S, \w, and \W may also appear in a character class, and add the characters that they match to the class."
It does not stress that other escape types may not. I wanted to split a string on either a comma (","), or a new line "\n". When my input stream began to include "\r\n", I decided to change "\n" to "\R". Unfortunately, my test string did not include a capital "R", or I might have found the problem sooner. My '/[\R,]/' was simply splitting on comma and the letter "R".
My test string...
"The Yum-Yum Company\r\n127 bernard street"
What DID work: '/(?:\R|,)+/'
["The Yum-Yum Company","127 bernard street"]
Given character classes only match one character, I can see clearly why my expectations were justifiably dashed, but hopefully this comment will save time for someone else.
I might add, this has taught me the value of PCRE_EXTRA (modifier "X"), which I have begun to use routinely now.
Some characters may not work as expected within a custom class. MS double quote for example is unrecognised when included in a class but is recognised otherwise.
ie:
 will not
when applied to 

鹏仔微信 15129739599 鹏仔QQ344225443 鹏仔前端 pjxi.com 共享博客 sharedbk.com

免责声明:我们致力于保护作者版权,注重分享,当前被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!邮箱:344225443@qq.com)

图片声明:本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,本着为中国教育事业出一份力,发布内容不收取任何费用也不接任何广告!)