萬盛學電腦網

 萬盛學電腦網 >> 網絡編程 >> 編程語言綜合 >> 正則表達式概述 什麼是正則表達式 .

正則表達式概述 什麼是正則表達式 .

正則表達式就是用某種模式去匹配一類字符串的公式,主要用來描述字符串匹配的工具  

正則表達式概述

正則表達式在程序設計語言中存在著廣泛的應用,特別是用來處理字符串。如匹配字符串、查找字符串、替換字符串等。可以說,正則表達式是一段文本或一個公式,它是用來描述用某種模式去匹配一類字符串的公式,並且該公式具有一定的模式。
本小節將介紹正則表達式的基本概念、第一個正則表達式,以及測試正則表達式的工具Code Architects Regex Tester。


什麼是正則表達式

正 則表達式(Regular Expression)起源於人類神經系統的早期研究。神經生理學家Warren McCulloch和Walter Pitts研究出一種使用數學方式描述神經網絡的方法。1956年,數學家Stephen Kleene發表了一篇標題為“神經網事件的表示法”的論文,並在該論文中引入了“正則表達式”這一個概念。該論文稱正則表達式是:“正則集的代數”的表 達式。因此,采用“正則表達式”這個術語。正則表達式的定義存在多種說法,具體如下:

正則表達式就是用某種模式去匹配一類字符串的公式,主要用來描述字符串匹配的工具。

正則表達式描述了一種字符串匹配的模式。它可以用來檢查字符串是否含有某種子串、將匹配的子串做替換或者從某個串中取出符合某個條件的子串等。

正則表達式是由普通字符(如字符a到z)以及特殊字符(稱為元字符)組成的文字模式。正則表達式作為一個模板,將某個字符模式與所搜索的字符串進行匹配。

正則表達式就是用於描述某些規則的工具。這些規則經常用於處理字符串中的查找或替換字符串。換句話說,正則表達式就是記錄文本規則的代碼。

正則表達式就是用一個“字符串”來描述一個特征,然後去驗證另一個“字符串”是否符合這個特征。
學過《編譯原理》的讀者可能知道不確定有限自動機(Non-deterministic finite automaton,簡稱NFA)和確定有限自動機(Deterministic finite automaton,簡稱DFA)。其實,正則表達式是一個不確定有限自動機。NFA和DFA的最大區別在於它們的狀態轉換函數。NFA可以對同一個字符 串產生多種理解方式,而DFA則只有唯一的一種理解方式。也正因為如此,NFA在匹配過程中可能會回溯,NFA的效率一般要低於DFA。因此,在書寫正則 表達式時盡量減少回溯來提高正則表達式的效率。

如果你使用過Windows或DOS下用於文件查找的通配符*和?,那麼你不難理解正則 表達式。如果你需要查找所有Word文檔,那麼可能使用表達式*.doc。其中,字符*是一個通配符,它可以代表任意字符串。正則表達式和通配符具有相似 性,它也可以使用一些字符(如字符.)表示任意字符。然而,它比通配符更具有精確性。
在正則表達式中,匹配是最常用的一個詞語,它描述了正 則表達式動作結果。給定一段文本或字符串,使用正則表達式從文本或字符串中查找出符合正則表達式的字符串。有可能文本或字符存在不止一個部分滿足給定的正 則表達式,這時每一個這樣的部分被稱為一個匹配。其中,匹配存在下面3種類型:
形容詞性的匹配,即一個字符串匹配一個正則表達式。

動詞性的匹配,即在文本或字符串裡匹配正則表達式。

名詞性的匹配,即字符串中滿足給定的正則表達式的一部分。

正則表達式的應用非常廣泛,特別是在字符串處理方面。目前來說,正則表達式已經在很多軟件中得到廣泛了應用,如Linux、Unix、HP等操作系 統,C#、PHP、Java等程序開發環境,以及很多的應用軟件中,都可以看到正則表達式的這樣或那樣的應用。正則表達式常見的應用如下:

驗證字符串,即驗證給定的字符串或子字符串是否符合指定特征,譬如驗證是否是合法的郵件地址、驗證是否為合法的HTTP地址等。

查找字符串,從給定的文本中查找符合指定特征的字符串,比查找固定字符串更加靈活方便。
替換字符串,即把給定的字符串中的符合指定特征的子字符串替換為其他字符串,比普通的替換更強大。
提取字符串,即從給定的字符串中提取符合指定特征的子字符串。

copyright © 萬盛學電腦網 all rights reserved