0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

評(píng)價(jià)Python字符串相似度的六種度量方法

汽車玩家 ? 來(lái)源:今日頭條 ? 作者:我愛(ài)學(xué)Python ? 2020-01-18 17:33 ? 次閱讀

字符串的相似性比較應(yīng)用場(chǎng)合很多,像拼寫糾錯(cuò)、文本去重、上下文相似性等。

評(píng)價(jià)字符串相似度最常見(jiàn)的辦法就是:把一個(gè)字符串通過(guò)插入、刪除或替換這樣的編輯操作,變成另外一個(gè)字符串,所需要的最少編輯次數(shù),這種就是編輯距離(edit distance)度量方法,也稱為L(zhǎng)evenshtein距離。海明距離是編輯距離的一種特殊情況,只計(jì)算等長(zhǎng)情況下替換操作的編輯次數(shù),只能應(yīng)用于兩個(gè)等長(zhǎng)字符串間的距離度量。

其他常用的度量方法還有 Jaccard distance、J-W距離(Jaro–Winkler distance)、余弦相似性(cosine similarity)、歐氏距離(Euclidean distance)等。

python-Levenshtein 使用

使用 pip install python-Levenshtein 指令安裝 Levenshtein

1. difflib

2. hamming距離,str1和str2長(zhǎng)度必須一致,描述兩個(gè)等長(zhǎng)字串之間對(duì)應(yīng)位置上不同字符的個(gè)數(shù)

3. 編輯距離,描述由一個(gè)字串轉(zhuǎn)化成另一個(gè)字串最少的操作次數(shù),在其中的操作包括 插入、刪除、替換

4.計(jì)算萊文斯坦比

5.計(jì)算jaro距離

6. Jaro–Winkler距離

輸出:

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 字符串
    +關(guān)注

    關(guān)注

    1

    文章

    566

    瀏覽量

    20384
  • python
    +關(guān)注

    關(guān)注

    53

    文章

    4753

    瀏覽量

    84078
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    labview字符串如何轉(zhuǎn)換為16進(jìn)制字符串

    在LabVIEW中,將字符串轉(zhuǎn)換為16進(jìn)制字符串是一個(gè)常見(jiàn)的需求,尤其是在處理數(shù)據(jù)通信和硬件接口時(shí)。LabVIEW提供了多種方法來(lái)實(shí)現(xiàn)這一轉(zhuǎn)換,包括使用內(nèi)置函數(shù)、編寫VI(Virtual
    的頭像 發(fā)表于 09-04 15:54 ?429次閱讀

    labview字符串的四表示各有什么特點(diǎn)

    。在LabVIEW中,字符串是一基本的數(shù)據(jù)類型,用于表示文本信息。字符串在LabVIEW中有多種表示方式,每種方式都有其特定的應(yīng)用場(chǎng)景和特點(diǎn)。以下是對(duì)LabVIEW中四
    的頭像 發(fā)表于 09-04 15:40 ?138次閱讀

    labview掃描字符串怎么用

    LabVIEW 是一流程化編程語(yǔ)言和開(kāi)發(fā)環(huán)境,主要用于控制、測(cè)量和監(jiān)測(cè)系統(tǒng)。在 LabVIEW 中,掃描字符串是一項(xiàng)常見(jiàn)的任務(wù),它允許用戶按照一定的模式從輸入字符串中提取所需的信息。下面我將詳細(xì)
    的頭像 發(fā)表于 12-29 10:12 ?1505次閱讀

    labview掃描字符串怎么用

    LabVIEW是一圖形化編程語(yǔ)言,用于開(kāi)發(fā)控制、測(cè)量和監(jiān)控系統(tǒng)。雖然它主要用于工程和科學(xué)領(lǐng)域,但也可以用于處理文本和字符串。 在LabVIEW中,可以使用字符串處理函數(shù)來(lái)掃描字符串。
    的頭像 發(fā)表于 12-26 16:58 ?1456次閱讀

    labview中怎么對(duì)字符串中的進(jìn)行實(shí)時(shí)處理

    LabVIEW是一用于開(kāi)發(fā)控制、測(cè)試和測(cè)量系統(tǒng)的可視化編程環(huán)境,它提供了許多處理字符串的功能。在LabVIEW中,可以使用不同的函數(shù)和工具來(lái)實(shí)時(shí)處理字符串。下面我將詳細(xì)介紹一些常見(jiàn)的方法
    的頭像 發(fā)表于 12-26 14:12 ?1276次閱讀

    oracle字符串split成多個(gè)

    Oracle是一廣泛使用的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),它提供了許多強(qiáng)大的功能和函數(shù),用于處理和操作數(shù)據(jù)。其中之一就是字符串分割(split)方法,該方法用于將一個(gè)
    的頭像 發(fā)表于 12-06 09:54 ?4218次閱讀

    MySQL替換字符串函數(shù)REPLACE

    MySQL是目前非常流行的開(kāi)源數(shù)據(jù)庫(kù)管理系統(tǒng)之一,它具有強(qiáng)大的功能和性能。其中之一的字符串函數(shù)REPLACE,可以用于替換字符串中的指定字符字符串。在本文中,我們將詳細(xì)討論MySQL
    的頭像 發(fā)表于 11-30 10:44 ?1252次閱讀

    c語(yǔ)言字符串定義

    C語(yǔ)言是一強(qiáng)大而廣泛使用的編程語(yǔ)言,字符串是其中一個(gè)非常重要的概念。在C語(yǔ)言中,字符串是由一系列字符組成的數(shù)組,它可以表示文本、數(shù)字等各種類型的數(shù)據(jù)。在本文中,我們將詳盡、詳實(shí)、細(xì)致
    的頭像 發(fā)表于 11-24 10:02 ?1424次閱讀

    python如何統(tǒng)計(jì)字符串中字母?jìng)€(gè)數(shù)

    Python中統(tǒng)計(jì)字符串中字母?jìng)€(gè)數(shù)的方法有多種,下面我會(huì)詳細(xì)介紹一些常用的方法。 方法一:使用循環(huán)遍歷
    的頭像 發(fā)表于 11-23 16:29 ?1w次閱讀

    python輸出固定長(zhǎng)度的字符串

    Python 是一強(qiáng)大而靈活的編程語(yǔ)言,具有許多用于處理字符串的功能。在 Python 中,有多種方法可以輸出固定長(zhǎng)度的
    的頭像 發(fā)表于 11-22 10:41 ?2454次閱讀

    python怎么把字符串變成數(shù)字

    Python是目前廣泛應(yīng)用的一編程語(yǔ)言,它以簡(jiǎn)潔、易讀和靈活的特性被廣大開(kāi)發(fā)者所喜愛(ài)。在Python中,字符串和數(shù)字是兩常見(jiàn)的數(shù)據(jù)類型。
    的頭像 發(fā)表于 11-22 09:47 ?2979次閱讀

    字符串如何轉(zhuǎn)換成日期型

    同編程語(yǔ)言將字符串轉(zhuǎn)換為日期類型。 正文: 一、Python中的字符串轉(zhuǎn)日期轉(zhuǎn)換 在Python中,使用datetime模塊可以方便地將字符串
    的頭像 發(fā)表于 11-17 16:27 ?8972次閱讀

    mysql字符串包含某個(gè)字符串

    MySQL是一開(kāi)源的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),被廣泛用于構(gòu)建Web應(yīng)用程序和其他大型數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用。在進(jìn)行MySQL數(shù)據(jù)庫(kù)查詢時(shí),經(jīng)常需要使用字符串包含操作,即判斷一個(gè)字符串是否包含另一個(gè)字符串
    的頭像 發(fā)表于 11-16 14:52 ?2986次閱讀

    Python 如何判斷字符串是否包含子

    方法 使用 字符串 對(duì)象的 find 方法,如果有找到子,就可以返回指定子字符串中的出現(xiàn)
    的頭像 發(fā)表于 11-02 10:55 ?409次閱讀

    代碼字符串分割方法

    的 String#split 來(lái)分割。 使用 String#split 方法 String 類中 split 方法,是我們平常處理字符串分割最常用的方法之一,它可以根據(jù)給定的分隔符或正
    的頭像 發(fā)表于 09-25 11:42 ?685次閱讀