字符串的相似性比較應(yīng)用場(chǎng)合很多,像拼寫糾錯(cuò)、文本去重、上下文相似性等。
評(píng)價(jià)字符串相似度最常見(jiàn)的辦法就是:把一個(gè)字符串通過(guò)插入、刪除或替換這樣的編輯操作,變成另外一個(gè)字符串,所需要的最少編輯次數(shù),這種就是編輯距離(edit distance)度量方法,也稱為L(zhǎng)evenshtein距離。海明距離是編輯距離的一種特殊情況,只計(jì)算等長(zhǎng)情況下替換操作的編輯次數(shù),只能應(yīng)用于兩個(gè)等長(zhǎng)字符串間的距離度量。
其他常用的度量方法還有 Jaccard distance、J-W距離(Jaro–Winkler distance)、余弦相似性(cosine similarity)、歐氏距離(Euclidean distance)等。
python-Levenshtein 使用
使用 pip install python-Levenshtein 指令安裝 Levenshtein
1. difflib
2. hamming距離,str1和str2長(zhǎng)度必須一致,描述兩個(gè)等長(zhǎng)字串之間對(duì)應(yīng)位置上不同字符的個(gè)數(shù)
3. 編輯距離,描述由一個(gè)字串轉(zhuǎn)化成另一個(gè)字串最少的操作次數(shù),在其中的操作包括 插入、刪除、替換
4.計(jì)算萊文斯坦比
5.計(jì)算jaro距離
6. Jaro–Winkler距離
輸出:
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。
舉報(bào)投訴
相關(guān)推薦
在LabVIEW中,將字符串轉(zhuǎn)換為16進(jìn)制字符串是一個(gè)常見(jiàn)的需求,尤其是在處理數(shù)據(jù)通信和硬件接口時(shí)。LabVIEW提供了多種方法來(lái)實(shí)現(xiàn)這一轉(zhuǎn)換,包括使用內(nèi)置函數(shù)、編寫VI(Virtual
發(fā)表于 09-04 15:54
?429次閱讀
。在LabVIEW中,字符串是一種基本的數(shù)據(jù)類型,用于表示文本信息。字符串在LabVIEW中有多種表示方式,每種方式都有其特定的應(yīng)用場(chǎng)景和特點(diǎn)。以下是對(duì)LabVIEW中四種
發(fā)表于 09-04 15:40
?138次閱讀
LabVIEW 是一種流程化編程語(yǔ)言和開(kāi)發(fā)環(huán)境,主要用于控制、測(cè)量和監(jiān)測(cè)系統(tǒng)。在 LabVIEW 中,掃描字符串是一項(xiàng)常見(jiàn)的任務(wù),它允許用戶按照一定的模式從輸入字符串中提取所需的信息。下面我將詳細(xì)
發(fā)表于 12-29 10:12
?1505次閱讀
LabVIEW是一種圖形化編程語(yǔ)言,用于開(kāi)發(fā)控制、測(cè)量和監(jiān)控系統(tǒng)。雖然它主要用于工程和科學(xué)領(lǐng)域,但也可以用于處理文本和字符串。 在LabVIEW中,可以使用字符串處理函數(shù)來(lái)掃描字符串。
發(fā)表于 12-26 16:58
?1456次閱讀
LabVIEW是一種用于開(kāi)發(fā)控制、測(cè)試和測(cè)量系統(tǒng)的可視化編程環(huán)境,它提供了許多處理字符串的功能。在LabVIEW中,可以使用不同的函數(shù)和工具來(lái)實(shí)時(shí)處理字符串。下面我將詳細(xì)介紹一些常見(jiàn)的方法
發(fā)表于 12-26 14:12
?1276次閱讀
Oracle是一種廣泛使用的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),它提供了許多強(qiáng)大的功能和函數(shù),用于處理和操作數(shù)據(jù)。其中之一就是字符串分割(split)方法,該方法用于將一個(gè)
發(fā)表于 12-06 09:54
?4218次閱讀
MySQL是目前非常流行的開(kāi)源數(shù)據(jù)庫(kù)管理系統(tǒng)之一,它具有強(qiáng)大的功能和性能。其中之一的字符串函數(shù)REPLACE,可以用于替換字符串中的指定字符或字符串。在本文中,我們將詳細(xì)討論MySQL
發(fā)表于 11-30 10:44
?1252次閱讀
C語(yǔ)言是一種強(qiáng)大而廣泛使用的編程語(yǔ)言,字符串是其中一個(gè)非常重要的概念。在C語(yǔ)言中,字符串是由一系列字符組成的數(shù)組,它可以表示文本、數(shù)字等各種類型的數(shù)據(jù)。在本文中,我們將詳盡、詳實(shí)、細(xì)致
發(fā)表于 11-24 10:02
?1424次閱讀
Python中統(tǒng)計(jì)字符串中字母?jìng)€(gè)數(shù)的方法有多種,下面我會(huì)詳細(xì)介紹一些常用的方法。 方法一:使用循環(huán)遍歷字
發(fā)表于 11-23 16:29
?1w次閱讀
Python 是一種強(qiáng)大而靈活的編程語(yǔ)言,具有許多用于處理字符串的功能。在 Python 中,有多種方法可以輸出固定長(zhǎng)度的
發(fā)表于 11-22 10:41
?2454次閱讀
Python是目前廣泛應(yīng)用的一種編程語(yǔ)言,它以簡(jiǎn)潔、易讀和靈活的特性被廣大開(kāi)發(fā)者所喜愛(ài)。在Python中,字符串和數(shù)字是兩種常見(jiàn)的數(shù)據(jù)類型。
發(fā)表于 11-22 09:47
?2979次閱讀
同編程語(yǔ)言將字符串轉(zhuǎn)換為日期類型。 正文: 一、Python中的字符串轉(zhuǎn)日期轉(zhuǎn)換 在Python中,使用datetime模塊可以方便地將字符串
發(fā)表于 11-17 16:27
?8972次閱讀
MySQL是一種開(kāi)源的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),被廣泛用于構(gòu)建Web應(yīng)用程序和其他大型數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用。在進(jìn)行MySQL數(shù)據(jù)庫(kù)查詢時(shí),經(jīng)常需要使用字符串包含操作,即判斷一個(gè)字符串是否包含另一個(gè)字符串
發(fā)表于 11-16 14:52
?2986次閱讀
方法 使用 字符串 對(duì)象的 find 方法,如果有找到子串,就可以返回指定子串在字符串中的出現(xiàn)
發(fā)表于 11-02 10:55
?409次閱讀
的 String#split 來(lái)分割。 使用 String#split 方法 String 類中 split 方法,是我們平常處理字符串分割最常用的方法之一,它可以根據(jù)給定的分隔符或正
發(fā)表于 09-25 11:42
?685次閱讀
評(píng)論