0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

文本處理技巧之正則表達(dá)式

華穗科技 ? 來(lái)源:華穗科技 ? 2023-03-07 10:24 ? 次閱讀

LabVIEW開(kāi)發(fā)過(guò)程中,有很多地方都需要處理文本數(shù)據(jù),比如數(shù)據(jù)通訊、報(bào)表生成、協(xié)議解析、文件I/O、界面交互等,那有沒(méi)有一個(gè)工具可以幫助我們快速處理文本數(shù)據(jù)呢?答案是有的,那就是:“正則表達(dá)式”!

正則表達(dá)式(Regular Expression)是強(qiáng)大、高效和便捷的文本處理工具。正則表達(dá)式搭配一種編程語(yǔ)言,可以賦予開(kāi)發(fā)人員描述和分析文本的能力。它能夠添加、刪除、拆分、插入和修改各種類型的文本數(shù)據(jù)。掌握正則表達(dá)式,可能帶來(lái)超乎你想象的文本處理能力。

接下來(lái)請(qǐng)跟隨小編一起學(xué)習(xí)正則表達(dá)式的相關(guān)知識(shí)并且了解在LabVIEW中處理文本數(shù)據(jù)時(shí)如何使用正則表達(dá)式吧!

本文分享:

正則表達(dá)式—文本處理技巧

一、 正則表達(dá)式的組成

為了方便大家理解,小編先給大家舉個(gè)例子:huasui.exe是一個(gè)文件名,Windows文件對(duì)話框輸入[*.exe]可以選擇多個(gè)文件,這類文件名通常被稱作“文件群組”或“通配符”,其實(shí)這就是一種正則表達(dá)式,[*.exe]能夠匹配以字符「*」開(kāi)頭,以普通文本「.exe」結(jié)尾的字符串,它的意思是:選擇以任意文本開(kāi)頭,以 .exe結(jié)尾的所有文件。

就像上面的例子那樣,一個(gè)完整的正則表達(dá)式由兩種字符構(gòu)成,其中特殊字符(如剛才例子中的*)稱為“元字符”,其它部分(如剛才例子中的.exe)叫作“普通字符”。正則表達(dá)式其實(shí)遠(yuǎn)不止于此,它可以為很多高級(jí)應(yīng)用提供十分豐富且描述力極強(qiáng)的元字符。

、 在LabVIEW中使用正則表達(dá)式

LabVIEW中提供了兩個(gè)可以使用正則表達(dá)式的函數(shù),一個(gè)是“匹配模式”,一個(gè)是“匹配正則表達(dá)式”,它們?cè)诤瘮?shù)選板>>字符串中可以找到。

這兩個(gè)函數(shù)的使用方法大同小異?!捌ヅ淠J健焙瘮?shù)類似于搜索及替換VI,該函數(shù)雖然只提供較少的字符串匹配選項(xiàng)(例如,該函數(shù)不支持括號(hào)和豎直線),但執(zhí)行效率比“匹配正則表達(dá)式”函數(shù)高。具體使用差別可以參考LabVIEW自帶的幫助文檔。

80efa03e-bc6e-11ed-bfe3-dac502259ad0.png

811c3f22-bc6e-11ed-bfe3-dac502259ad0.png

三、 常用的正則表達(dá)式

在了解了以上LabVIEW和正則表達(dá)式的基礎(chǔ)知識(shí)之后,我們來(lái)一起看看正則表達(dá)式中常用的一些元字符及其含義,以下正則表達(dá)式都用一對(duì)左右角括號(hào)「 」括起來(lái)。

1. 行的起始和結(jié)束

在正則表達(dá)式中,符號(hào)「^」代表一行的開(kāi)始,符號(hào)「$」則代表結(jié)束。比如正則表達(dá)式「huasui」尋找的是一行文本中任意位置的 huasui,而「^huasui」只尋找行首的 huasui,同樣「huasui$ 」只尋找位于行末的 huasui。在理解時(shí)應(yīng)注意,元字符作用的是其緊挨著的一個(gè)字符。不要把「 ^huasui 」理解成匹配以 huasui開(kāi)頭的行,而應(yīng)該理解成匹配的是以h作為一行的第一個(gè)字符,緊接一個(gè) u,然后接一個(gè)a,再接一個(gè)s,之后接一個(gè)u,最后接一個(gè)i的文本。雖然在這個(gè)例子中,這兩種理解的結(jié)果沒(méi)有差異,但是按照作用于字符來(lái)解讀更易于理解正則表達(dá)式的內(nèi)部邏輯。

814969c0-bc6e-11ed-bfe3-dac502259ad0.png

2.匹配若干字符之一

假如我們要找的單詞是"bear",但又不確定它是不是寫成"beer",那么就可以使用正則表達(dá)式結(jié)構(gòu)體 「 [...] 」,它允許使用者列出在某處可能匹配的字符,通常被稱作字符組,比如正則表達(dá)式「 be[ae]r」的意思是:先找到 b,然后跟著一個(gè) e,再跟著一個(gè) a 或 e,最后是一個(gè)r,所以該正則表達(dá)式可以匹配"bear"也可以匹配"beer"。 在字符組內(nèi)可以使用字符組元字符[-](連字符)來(lái)表示一個(gè)范圍區(qū)間,比如正則表達(dá)式「 H[123456]」與「 H[1-6]」是等價(jià)的。「 [0-9] 」、「 [a-z] 」和 「 [A-Z] 」是常用的匹配數(shù)字、大小寫字母的簡(jiǎn)潔表示。當(dāng)然在一個(gè)字符組中也支持多重范圍,比如「 [0123456789abcdef] 」可以寫作「 [0-9a-f] 」。 需要注意的是:連字符[-]只有出現(xiàn)在字符組內(nèi)部,且不處于開(kāi)頭處時(shí),它才是一個(gè)元字符,否則就是普通的連字符號(hào)。

81636884-bc6e-11ed-bfe3-dac502259ad0.png

3. 排除型字符組

使用「 [^...] 」替代「 [...] 」,這個(gè)正則表達(dá)式可以匹配任何沒(méi)有出現(xiàn)的字符,例如「 [^0-4] 」可以匹配除了0-4以外的任何字符。表達(dá)式中開(kāi)頭的 '^' 表示排除,所以它后面出現(xiàn)的字符都是不想匹配到的。

同樣的元字符出現(xiàn)在不同的地方有不同的含義,這就像同一個(gè)語(yǔ)句用在不同的語(yǔ)境中,它要表達(dá)的意思是不同的。比如 '^' 在表達(dá)式外最開(kāi)頭的地方時(shí)表示一個(gè)行起始點(diǎn),然而當(dāng)它在表達(dá)式內(nèi)部開(kāi)頭處時(shí)就表示排除。

818575aa-bc6e-11ed-bfe3-dac502259ad0.png

4.匹配任意字符

元字符「 . 」可以用來(lái)匹配任意字符。如果需要在正則表達(dá)式中使用一個(gè)匹配任意字符的占位符,用元字符「 . 」就十分方便。比如在一個(gè)字符串中查找 “2023/01/01” 或“2023-01-01” 或者“2023.01.01”,我們可以將正則表達(dá)式寫成「 2023[-./]01[-./]01 」,當(dāng)然也可以簡(jiǎn)單的寫成「2023.01.01」。

寫正則表達(dá)式是一個(gè)尋求平衡的過(guò)程,它不是一味追求精簡(jiǎn),比如上面的例子「2023[-./]01[-./]01」這種寫法就要比「2023.01.01」表達(dá)的意思更加明確,但是寫起來(lái)也更麻煩,而后面這種寫法更加簡(jiǎn)單,但是匹配的不夠精細(xì)。那么我們平時(shí)應(yīng)該如何抉擇?其實(shí)這取決于你對(duì)需要檢索的文本的了解程度,以及你需要匹配的準(zhǔn)確程度,在這二者之間尋求一個(gè)平衡。如果你確定在被檢索的文本中使用「2023.01.01」去匹配不會(huì)得到其他非預(yù)期的結(jié)果,那么使用它就是簡(jiǎn)潔且合理的一種表示,但是當(dāng)你不確定(比如被檢索的文本中可能有一串?dāng)?shù)字2023001001),那么匹配就會(huì)得到非預(yù)期結(jié)果,此時(shí)應(yīng)該選擇更加精確的匹配方式「2023[-./]01[-./]01」。

81912788-bc6e-11ed-bfe3-dac502259ad0.png

5.匹配任意子表達(dá)式

元字符「 | 」可以讓我們把不同的子表達(dá)式組合成一個(gè)總的表達(dá)式,并且這個(gè)總表達(dá)式又能匹配任意一個(gè)子表達(dá)式,所有的子表達(dá)式都被稱為“多選分支”。舉例說(shuō)明:上面提到的正則表達(dá)式「be[ae]r」還能寫作「bear|beer」或者寫作「 be(a|e)r」。

使用「be(a|e)r」這種方式時(shí)圓括號(hào)是必要的,否則「 bea|er 」的含義就變成了匹配 “bea” 或 “er”,很顯然這不是我們預(yù)期的,圓括號(hào)的作用是可以限制元字符「 | 」的生效范圍。

81a9e94e-bc6e-11ed-bfe3-dac502259ad0.png

6. 可選項(xiàng)元素

元字符「 ? 」表示可選項(xiàng),把它加在某個(gè)字符后面,就表示這里允許出現(xiàn)這個(gè)字符,但該字符并不是匹配成功的必要條件。該元字符只作用于它之前緊鄰的一個(gè)元素。

比如6月份的英文是“June”,也能簡(jiǎn)寫為“Jun”,所以我們既可以用「June|Jun」來(lái)匹配,也可以用「June?」來(lái)匹配。使用正則表達(dá)式來(lái)解決實(shí)際問(wèn)題時(shí),可能有很多不同的思路和方法,我們需要在其中尋找平衡。正則表達(dá)式不是死記硬背的公式,它其實(shí)靈活的像是一門藝術(shù)。

81b2f534-bc6e-11ed-bfe3-dac502259ad0.png

7. 重復(fù)出現(xiàn)

「 + 」和「 * 」的功能和「 ? 」類似,元字符「 + 」代表前面緊鄰的字符出現(xiàn)一次或多次,而「 * 」代表前面緊鄰的字符沒(méi)有出現(xiàn)或出現(xiàn)多次。這三個(gè)元字符稱作量詞,因?yàn)樗鼈兿薅怂饔米址某霈F(xiàn)次數(shù)。 默認(rèn)情況下,量詞匹配將盡可能多地匹配,這種匹配方式被稱作“貪婪匹配”。如果你希望盡可能少的匹配,那么就在字符串的后面加上[?]進(jìn)行“非貪婪匹配“(也被稱作“懶惰匹配“)。

81cc0b5a-bc6e-11ed-bfe3-dac502259ad0.png

8. 限制重復(fù)出現(xiàn)次數(shù)的范圍

元字符序列「 {min, max} 」可以表示重現(xiàn)次數(shù)的區(qū)間范圍,所以它叫做區(qū)間量詞,例如「 {2, 4} 」能夠容許的重現(xiàn)次數(shù)在2到4之間,當(dāng)然它還有其它幾種用法,總結(jié)如下:

{n} 準(zhǔn)確匹配n次

{n,} 至少匹配n次

{,n} 最多匹配n次

{n,m} 最少匹配n次,最多不超過(guò)m次

81e5e9a8-bc6e-11ed-bfe3-dac502259ad0.png

9.轉(zhuǎn)義字符

如果想匹配的某個(gè)字符本身就是一個(gè)元字符,那么就需要用到轉(zhuǎn)義字符(反斜杠 '')。比如要匹配一個(gè)網(wǎng)址 "www.huasui.com.cn",如果不對(duì)[.]進(jìn)行轉(zhuǎn)義,正則表達(dá)式會(huì)認(rèn)為這里的[.]是一個(gè)元字符,而不是普通的點(diǎn)號(hào),所以正確的寫法是「 www.huasui.com.cn 」。

81ff5ae6-bc6e-11ed-bfe3-dac502259ad0.png

四、 常用字符及其含義

字符 含義
匹配一個(gè)詞語(yǔ)邊界,也就是詞語(yǔ)和空格間的位置。例如,'st' 可以匹配"test" 中的 'st',但不能匹配 "string" 中的 'st'
B 匹配非詞語(yǔ)邊界。'stB' 能匹配"string" 中的 'st',但不能匹配"test" 中的 'st'
d 匹配一個(gè)數(shù)字字符。等價(jià)于 [0-9]
D 匹配一個(gè)非數(shù)字字符。等價(jià)于 [^0-9]
s 匹配任意空白字符,包括空格、換頁(yè)符、制表符等。等價(jià)于 [ f v]。
S 匹配任意非空白字符。等價(jià)于 [^ f v]
w 匹配包含下劃線的任意單詞字符。等價(jià)于'[A-Za-z0-9_]'
W 匹配任意非單詞字符。等價(jià)于 '[^A-Za-z0-9_]'
匹配制表符。等價(jià)于 x09 和 cI
匹配換行符。等價(jià)于 x0a 和 cJ
匹配回車符。等價(jià)于 x0d 和 cM

五、 常用匹配組

匹配組 含義
(demo) 匹配demo并獲取一個(gè)自動(dòng)命名的組
(?demo) 匹配demo并獲取組’name’
(?=demo) demo出現(xiàn)在聲明右側(cè),但demo不作為匹配結(jié)果返回。
例如:
輸入:public keywod string "xyz";
正則:w+(?=wod),返回“key”,
含義:匹配以wod結(jié)束的單詞,但不返回wod
(?<=demo) demo出現(xiàn)在聲明左側(cè),但demo不作為匹配結(jié)果返回
例如:
輸入:public remember string "abc";
正則:(?<=str)w+,返回“ing”,
含義:匹配以str開(kāi)頭的單詞,但不返回str
(?!demo) demo不出現(xiàn)在聲明右側(cè),且demo不作為匹配結(jié)果返回
例如:
輸入:remember bwa cwe "abc";
正則:w*w(?!a)w*,返回“cwe”,
含義:匹配帶w后面不是跟隨a的單詞
(?demo) demo不出現(xiàn)在聲明左側(cè),但demo不作為匹配結(jié)果返回

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • LabVIEW
    +關(guān)注

    關(guān)注

    1954

    文章

    3647

    瀏覽量

    320399
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6713

    瀏覽量

    88300
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4235

    瀏覽量

    61962
  • 文本
    +關(guān)注

    關(guān)注

    0

    文章

    118

    瀏覽量

    17031
  • 正則表達(dá)式
    +關(guān)注

    關(guān)注

    0

    文章

    25

    瀏覽量

    3462

原文標(biāo)題:知識(shí)分享 | 文本處理技巧之正則表達(dá)式

文章出處:【微信號(hào):華穗科技,微信公眾號(hào):華穗科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    什么是正則表達(dá)式?正則表達(dá)式如何工作?哪些語(yǔ)法規(guī)則適用正則表達(dá)式?

    實(shí)現(xiàn)自動(dòng)化文本處理。在許多編程語(yǔ)言中,正則表達(dá)式都被廣泛用于文本處理、數(shù)據(jù)分析、網(wǎng)頁(yè)抓取等領(lǐng)域。通過(guò)正則表達(dá)式,我們可以精確地篩選、操作和格式化文本
    的頭像 發(fā)表于 11-03 14:41 ?1740次閱讀
    什么是<b class='flag-5'>正則表達(dá)式</b>?<b class='flag-5'>正則表達(dá)式</b>如何工作?哪些語(yǔ)法規(guī)則適用<b class='flag-5'>正則表達(dá)式</b>?

    shell正則表達(dá)式學(xué)習(xí)

    正則表達(dá)式在計(jì)算機(jī)科學(xué)中,是指一個(gè)用來(lái)描述或者匹配一系列符合某個(gè)句法規(guī)則的字符串的單個(gè)字符串。在很多文本編輯器或其他工具里,正則表達(dá)式通常被用來(lái)檢索和/或替換那些符合某個(gè)模式的文本內(nèi)容
    發(fā)表于 07-25 17:18

    使用 Linux/Unix 進(jìn)行文本處理

    使用 Linux/Unix 進(jìn)行文本處理正則表達(dá)式 翻譯領(lǐng)域不乏讓人摸不著頭腦的詞匯,比如"句柄"、"套接字"、"魯棒性"。當(dāng)然
    發(fā)表于 11-24 15:39

    正則表達(dá)式匹配器

    正則表達(dá)式是描述文本模式的表示法,它可以有效地構(gòu)造一種用于模式匹配的專用語(yǔ)言。雖然正則表達(dá)式可以有多種不同的形式,但它們都有著共同的特點(diǎn):模式中的大多數(shù)字符都
    發(fā)表于 10-29 13:21 ?0次下載

    深入淺出boost正則表達(dá)式

    什么是正則表達(dá)式正則表達(dá)式是一種用來(lái)描述一定數(shù)量文本的模式。Regex代表Regular Express. 如果您不知道什么是正則表達(dá)式,請(qǐng)看這篇文章:深入淺出
    發(fā)表于 09-08 18:09 ?9次下載

    精通正則表達(dá)式

    詳細(xì)的快速正則表達(dá)式的查詢電子書,簡(jiǎn)單而豐富
    發(fā)表于 05-16 18:04 ?5次下載

    關(guān)于java正則表達(dá)式的用法詳解

    正則表達(dá)式 一個(gè)正則表達(dá)式是一個(gè)用于文本搜索的文本模式。換句話說(shuō),在文本中搜索出現(xiàn)的模式。例如,你可以用
    發(fā)表于 09-27 14:24 ?0次下載

    Linux中的Grep正則表達(dá)式詳細(xì)資料說(shuō)明

    grep是Linux中用于文本處理的最有用和功能最強(qiáng)大的命令之一。 grep在一個(gè)或多個(gè)輸入文件中搜索與正則表達(dá)式匹配的行,并將每條匹配的行寫入標(biāo)準(zhǔn)輸出。
    的頭像 發(fā)表于 06-21 11:39 ?2132次閱讀

    Python正則表達(dá)式的學(xué)習(xí)指南

    本文介紹了Python對(duì)于正則表達(dá)式的支持,包括正則表達(dá)式基礎(chǔ)以及Python正則表達(dá)式標(biāo)準(zhǔn)庫(kù)的完整介紹及使用示例。本文的內(nèi)容不包括如何編寫高效的正則表達(dá)式、如何優(yōu)化
    發(fā)表于 09-15 08:00 ?0次下載
    Python<b class='flag-5'>正則表達(dá)式</b>的學(xué)習(xí)指南

    Python正則表達(dá)式指南

    本文介紹了Python對(duì)于正則表達(dá)式的支持,包括正則表達(dá)式基礎(chǔ)以及Python正則表達(dá)式標(biāo)準(zhǔn)庫(kù)的完整介紹及使用示例。本文的內(nèi)容不包括如何編寫高效的正則表達(dá)式、如何優(yōu)化
    發(fā)表于 03-26 09:13 ?10次下載
    Python<b class='flag-5'>正則表達(dá)式</b>指南

    python正則表達(dá)式中的常用函數(shù)

    編譯正則表達(dá)式模式,返回一個(gè)正則對(duì)象的模式。(可以把那些常用的正則表達(dá)式編譯成正則表達(dá)式對(duì)象,這樣可以提高一點(diǎn)效率。)
    的頭像 發(fā)表于 03-18 16:12 ?1697次閱讀

    Linux入門正則表達(dá)式

    正則表達(dá)式是用來(lái)表達(dá)字符串匹配模式的方法,利用正則表達(dá)式,可以讓我們輕易地實(shí)現(xiàn)對(duì)目標(biāo)字符串的**查找**、**刪除**、**替換**等操作。 正則表達(dá)式并不復(fù)雜,它并不包含難以理
    的頭像 發(fā)表于 05-12 15:31 ?755次閱讀
    Linux入門<b class='flag-5'>之</b><b class='flag-5'>正則表達(dá)式</b>

    shell腳本基礎(chǔ):正則表達(dá)式grep

    在Linux上有許多命令可以使用正則表達(dá)式,其中最常見(jiàn)的是grep命令和sed命令。正則表達(dá)式有多種類型,每種類型中可以使用的元字符類型不同。最常見(jiàn)的是基本正則表達(dá)式和擴(kuò)展正則表達(dá)式。
    的頭像 發(fā)表于 05-29 09:29 ?1053次閱讀
    shell腳本基礎(chǔ):<b class='flag-5'>正則表達(dá)式</b>grep

    Python中的正則表達(dá)式

    哈嘍大家好,我是了不起,今天給大家講Python中的正則表達(dá)式 在Python中,正則表達(dá)式是一種強(qiáng)大的文本處理工具,它可以用來(lái)匹配、搜索、替換文本。
    的頭像 發(fā)表于 06-21 16:52 ?865次閱讀

    linux正則表達(dá)式匹配字符串

    在Linux操作系統(tǒng)中,正則表達(dá)式是一種強(qiáng)大的模式匹配工具,它可以用于在文本中查找、替換和篩選特定的字符串。準(zhǔn)確掌握正則表達(dá)式的語(yǔ)法和常見(jiàn)應(yīng)用,對(duì)于Linux系統(tǒng)的管理員和開(kāi)發(fā)人員來(lái)說(shuō)
    的頭像 發(fā)表于 11-23 10:26 ?568次閱讀