feishuang008

公告

正則表達式小結

常用的元字符		常用的反義代碼		常用的限定符
代碼/語法	說明	代碼/語法	說明	代碼/語法	說明
\w	匹配字母或數字或下劃線或漢字	\W	匹配任意不是字母、數字、下劃線、漢字的字符	*	重復零次或者更多次
\s	匹配任意的空白字符	\S	匹配任意不是空白符的字符	+	重復一次或更多次
\d	匹配數字	\D	匹配任意非數字的字符	?	重復零次或一次
\b	匹配單詞的開始或結束	\B	匹配不是單詞開始或結束的位置	{n}	重復n次
^	匹配字符串的開始	[^x]	匹配除了x以外的任意字符	{n,}	重復n次到更多次
$	匹配字符串的結束	[^aeiou]	匹配除了aeiou這幾個字母以外的任意字符	{n,m}	重復n到m次
.	匹配除換行符以外的任意字符

字符轉義：

如果你想查找元字符本身的話，比如你查找.,或者*,就出現了問題：你沒辦法指定它們，因為它們會被解釋成別的意思。這時你就得使用\來取消這些字符的特殊意義。因此，你應該使用\.和\*。當然，要查找\本身，你也得用\\.

分枝條件：

正則表達式里的分枝條件指的是有幾種規則，如果滿足其中任意一種規則都應該當成匹配，具體方法是用|把不同的規則分隔開。聽不明白？沒關系，看例子：

0\d{2}-\d{8}|0\d{3}-\d{7}這個表達式能匹配兩種以連字號分隔的電話號碼：一種是三位區號，8位本地號(如010-12345678)，一種是4位區號，7位本地號(0376-2233445)。

分組與捕獲:

**常用分組語法**
分類	代碼/語法	說明
捕獲	(exp)	匹配exp,并捕獲文本到自動命名的組里
	(?<name>exp)	匹配exp,并捕獲文本到名稱為name的組里，也可以寫成(?'name'exp)
	(?:exp)	匹配exp,不捕獲匹配的文本，也不給此分組分配組號
零寬斷言	(?=exp)	匹配exp前面的位置
	(?<=exp)	匹配exp后面的位置（瀏覽器不支持）
	(?!exp)	匹配后面跟的不是exp的位置
	(?<!exp)	匹配前面不是exp的位置（瀏覽器不支持）
注釋	(?#comment)	這種類型的分組不對正則表達式的處理產生任何影響，用于提供注釋讓人閱讀

我們已經提到了怎么重復單個字符（直接在字符后面加上限定符就行了）；但如果想要重復多個字符又該怎么辦？你可以用小括號來指定子表達式(也叫做分組)，然后你就可以指定這個子表達式的重復次數了，你也可以對子表達式進行其它一些操作(后面會有介紹)。
(\d{1,3}\.){3}\d{1,3}是一個簡單的IP地址匹配表達式。要理解這個表達式，請按下列順序分析它：\d{1,3}匹配1到3位的數字，(\d{1,3}\.){3}匹配三位數字加上一個英文句號(這個整體也就是這個分組)重復3次，最后再加上一個一到三位的數字(\d{1,3})。
IP地址中每個數字都不能大于255. 經常有人問我, 01.02.03.04 這樣前面帶有0的數字, 是不是正確的IP地址呢? 答案是: 是的, IP 地址里的數字可以包含有前導 0 (leading zeroes).
不幸的是，它也將匹配256.300.888.999這種不可能存在的IP地址。如果能使用算術比較的話，或許能簡單地解決這個問題，但是正則表達式中并不提供關于數學的任何功能，所以只能使用冗長的分組，選擇，字符類來描述一個正確的IP地址：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

后向引用：

使用小括號指定一個子表達式后，匹配這個子表達式的文本(也就是此分組捕獲的內容)可以在表達式或其它程序中作進一步的處理。默認情況下，每個分組會自動擁有一個組號，規則是：從左向右，以分組的左括號為標志，第一個出現的分組的組號為1，第二個為2，以此類推。

呃……其實,組號分配還不像我剛說得那么簡單：

分組0對應整個正則表達式
實際上組號分配過程是要從左向右掃描兩遍的：第一遍只給未命名組分配，第二遍只給命名組分配－－因此所有命名組的組號都大于未命名的組號
你可以使用(?:exp)這樣的語法來剝奪一個分組對組號分配的參與權．

后向引用用于重復搜索前面某個分組匹配的文本。例如，\1代表分組1匹配的文本。難以理解？請看示例：

\b(\w+)\b\s+\1\b可以用來匹配重復的單詞，像go go, 或者kitty kitty。這個表達式首先是一個單詞，也就是單詞開始處和結束處之間的多于一個的字母或數字(\b(\w+)\b)，這個單詞會被捕獲到編號為1的分組中，然后是1個或幾個空白符(\s+)，最后是分組1中捕獲的內容（也就是前面匹配的那個單詞）(\1)。

你也可以自己指定子表達式的組名。要指定一個子表達式的組名，請使用這樣的語法：(?<Word>\w+)(或者把尖括號換成'也行：(?'Word'\w+)),這樣就把\w+的組名指定為Word了。要反向引用這個分組捕獲的內容，你可以使用\k<Word>,所以上一個例子也可以寫成這樣：\b(?<Word>\w+)\b\s+\k<Word>\b。

零寬斷言：

接下來的四個用于查找在某些內容(但并不包括這些內容)之前或之后的東西，也就是說它們像\b,^,$那樣用于指定一個位置，這個位置應該滿足一定的條件(即斷言)，因此它們也被稱為零寬斷言。

正則表達式中有前瞻（Lookahead）和后顧（Lookbehind）的概念，這兩個術語非常形象的描述了正則引擎的匹配行為。需要注意一點，正則表達式中的前和后和我們一般理解的前后有點不同。一段文本，我們一般習慣把文本開頭的方向稱作“前面”，文本末尾方向稱為“后面”。但是對于正則表達式引擎來說，因為它是從文本頭部向尾部開始解析的（可以通過正則選項控制解析方向），因此對于文本尾部方向，稱為“前”，因為這個時候，正則引擎還沒走到那塊，而對文本頭部方向，則稱為“后”，因為正則引擎已經走過了那一塊地方。如下圖所示：

'

所謂的前瞻就是在正則表達式匹配到某個字符的時候，往“尚未解析過的文本”預先看一下，看是不是符合/不符合匹配模式，而后顧，就是在正則引擎已經匹配過的文本看看是不是符合/不符合匹配模式。符合和不符合特定匹配模式我們又稱為肯定式匹配和否定式匹配。

現代高級正則表達式引擎一般都支持都支持前瞻，對于后顧支持并不是很廣泛，因此我們采用否定式前瞻來實現我們的需求，比如“找出不以某個特定字符串打頭的條目”。

posted on 2017-04-27 11:50 feishuang008 閱讀(145) 評論(0) 收藏舉報

刷新頁面返回頂部

feishuang008

導航

公告

正則表達式小結