0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何查找多列上的重復(fù)行

我快閉嘴 ? 來源:CSDN技術(shù)社區(qū) ? 作者:CSDN技術(shù)社區(qū) ? 2022-09-14 09:05 ? 次閱讀

		

如何查找重復(fù)行

第一步是定義什么樣的行才是重復(fù)行。多數(shù)情況下很簡單:它們某一列具有相同的值。本文采用這一定義,或許你對“重復(fù)”的定義比這復(fù)雜,你需要對sql做些修改。本文要用到的數(shù)據(jù)樣本:

createtabletest(idintnotnullprimarykey,daydatenotnull);

insertintotest(id,day)values(1,'2006-10-08');
insertintotest(id,day)values(2,'2006-10-08');
insertintotest(id,day)values(3,'2006-10-09');

select*fromtest;
+----+------------+
|id|day|
+----+------------+
|1|2006-10-08|
|2|2006-10-08|
|3|2006-10-09|
+----+------------+

前面兩行在day字段具有相同的值,因此如何我將他們當(dāng)做重復(fù)行,這里有一查詢語句可以查找。查詢語句使用GROUP BY子句把具有相同字段值的行歸為一組,然后計算組的大小。

selectday,count(*)fromtestGROUPBYday;
+------------+----------+
|day|count(*)|
+------------+----------+
|2006-10-08|2|
|2006-10-09|1|
+------------+----------+

重復(fù)行的組大小大于1。如何希望只顯示重復(fù)行,必須使用HAVING子句,比如

selectday,count(*)fromtestgroupbydayHAVINGcount(*)>1;
+------------+----------+
|day|count(*)|
+------------+----------+
|2006-10-08|2|
+------------+----------+

這是基本的技巧:根據(jù)具有相同值的字段分組,然后知顯示大小大于1的組。

為什么不能使用WHERE子句?因?yàn)閃HERE子句過濾的是分組之前的行,HAVING子句過濾的是分組之后的行。

如何刪除重復(fù)行

一個相關(guān)的問題是如何刪除重復(fù)行。一個常見的任務(wù)是,重復(fù)行只保留一行,其他刪除,然后你可以創(chuàng)建適當(dāng)?shù)?a target="_blank">索引,防止以后再有重復(fù)的行寫入數(shù)據(jù)庫。

同樣,首先是弄清楚重復(fù)行的定義。你要保留的是哪一行呢?第一行,或者某個字段具有最大值的行?本文中,假設(shè)要保留的是第一行——id字段具有最小值的行,意味著你要刪除其他的行。

也許最簡單的方法是通過臨時表。尤其對于MYSQL,有些限制是不能在一個查詢語句中select的同時update一個表。簡單起見,這里只用到了臨時表的方法。

我們的任務(wù)是:刪除所有重復(fù)行,除了分組中id字段具有最小值的行。因此,需要找出大小大于1的分組,以及希望保留的行。你可以使用MIN()函數(shù)。這里的語句是創(chuàng)建臨時表,以及查找需要用DELETE刪除的行。

createtemporarytableto_delete(daydatenotnull,min_idintnotnull);

insertintoto_delete(day,min_id)
selectday,MIN(id)fromtestgroupbydayhavingcount(*)>1;

select*fromto_delete;
+------------+--------+
|day|min_id|
+------------+--------+
|2006-10-08|1|
+------------+--------+

有了這些數(shù)據(jù),你可以開始刪除“臟數(shù)據(jù)”行了。可以有幾種方法,各有優(yōu)劣,只是說明在支持查詢子句的關(guān)系數(shù)據(jù)庫中,使用的標(biāo)準(zhǔn)方法。

deletefromtest
whereexists(
select*fromto_delete
whereto_delete.day=test.dayandto_delete.min_id<>test.id
)

如何查找多列上的重復(fù)行

有人最近問到這樣的問題:我的一個表上有兩個字段b和c,分別關(guān)聯(lián)到其他兩個表的b和c字段。我想要找出在b字段或者c字段上具有重復(fù)值的行。

咋看很難明白,通過對話后我理解了:他想要對b和c分別創(chuàng)建unique索引。如上所述,查找在某一字段上具有重復(fù)值的行很簡單,只要用group分組,然后計算組的大小。并且查找全部字段重復(fù)的行也很簡單,只要把所有字段放到group子句。但如果是判斷b字段重復(fù)或者c字段重復(fù),問題困難得多。這里提問者用到的樣本數(shù)據(jù)

createtablea_b_c(
aintnotnullprimarykeyauto_increment,
bint,
cint
);

insertintoa_b_c(b,c)values(1,1);
insertintoa_b_c(b,c)values(1,2);
insertintoa_b_c(b,c)values(1,3);
insertintoa_b_c(b,c)values(2,1);
insertintoa_b_c(b,c)values(2,2);
insertintoa_b_c(b,c)values(2,3);
insertintoa_b_c(b,c)values(3,1);
insertintoa_b_c(b,c)values(3,2);
insertintoa_b_c(b,c)values(3,3);

現(xiàn)在,你可以輕易看到表里面有一些重復(fù)的行,但找不到兩行具有相同的二元組{b, c}。這就是為什么問題會變得困難了。

錯誤的查詢語句

如果把兩列放在一起分組,你會得到不同的結(jié)果,具體看如何分組和計算大小。提問者恰恰是困在了這里。有時候查詢語句找到一些重復(fù)行卻漏了其他的。這是他用到了查詢

selectb,c,count(*)froma_b_c
groupbyb,c
havingcount(distinctb>1)
orcount(distinctc>1);

結(jié)果返回所有的行,因?yàn)镃ONT(*)總是1.為什么?因?yàn)?>1 寫在COUNT()里面。這個錯誤很容易被忽略,事實(shí)上等效于

selectb,c,count(*)froma_b_c
groupbyb,c
havingcount(1)
orcount(1);

為什么?因?yàn)?b > 1)是一個布爾值,根本不是你想要的結(jié)果。你要的是

selectb,c,count(*)froma_b_c
groupbyb,c
havingcount(distinctb)>1
orcount(distinctc)>1;

返回空結(jié)果。很顯然,因?yàn)闆]有重復(fù)的{b,c}。這人試了很多其他的OR和AND的組合,用來分組的是一個字段,計算大小的是另一個字段,像這樣

selectb,count(*)froma_b_cgroupbybhavingcount(distinctc)>1;
+------+----------+
|b|count(*)|
+------+----------+
|1|3|
|2|3|
|3|3|
+------+----------+

沒有一個能夠找出全部的重復(fù)行。而且最令人沮喪的是,對于某些情況,這種語句是有效的,如果錯誤地以為就是這么寫法,然而對于另外的情況,很可能得到錯誤結(jié)果。

事實(shí)上,單純用GROUP BY 是不可行的。為什么?因?yàn)楫?dāng)你對某一字段使用group by時,就會把另一字段的值分散到不同的分組里。對這些字段排序可以看到這些效果,正如分組做的那樣。首先,對b字段排序,看看它是如何分組的

43d98dca-33bd-11ed-ba43-dac502259ad0.png

當(dāng)你對b字段排序(分組),相同值的c被分到不同的組,因此不能用COUNT(DISTINCT c)來計算大小。COUNT()之類的內(nèi)部函數(shù)只作用于同一個分組,對于不同分組的行就無能為力了。類似,如果排序的是c字段,相同值的b也會分到不同的組,無論如何是不能達(dá)到我們的目的的。

幾種正確的方法

也許最簡單的方法是分別對某個字段查找重復(fù)行,然后用UNION拼在一起,像這樣:

selectbasvalue,count(*)ascnt,'b'aswhat_col
froma_b_cgroupbybhavingcount(*)>1
union
selectcasvalue,count(*)ascnt,'c'aswhat_col
froma_b_cgroupbychavingcount(*)>1;
+-------+-----+----------+
|value|cnt|what_col|
+-------+-----+----------+
|1|3|b|
|2|3|b|
|3|3|b|
|1|3|c|
|2|3|c|
|3|3|c|
+-------+-----+----------+

輸出what_col字段為了提示重復(fù)的是哪個字段。另一個辦法是使用嵌套查詢:

selecta,b,cfroma_b_c
wherebin(selectbfroma_b_cgroupbybhavingcount(*)>1)
orcin(selectcfroma_b_cgroupbychavingcount(*)>1);
+----+------+------+
|a|b|c|
+----+------+------+
|7|1|1|
|8|1|2|
|9|1|3|
|10|2|1|
|11|2|2|
|12|2|3|
|13|3|1|
|14|3|2|
|15|3|3|
+----+------+------+

這種方法的效率要比使用UNION低許多,并且顯示每一重復(fù)的行,而不是重復(fù)的字段值。還有一種方法,將自己跟group的嵌套查詢結(jié)果聯(lián)表查詢。寫法比較復(fù)雜,但對于復(fù)雜的數(shù)據(jù)或者對效率有較高要求的情況,是很有必要的。

selecta,a_b_c.b,a_b_c.c
froma_b_c
leftouterjoin(
selectbfroma_b_cgroupbybhavingcount(*)>1
)asbona_b_c.b=b.b
leftouterjoin(
selectcfroma_b_cgroupbychavingcount(*)>1
)ascona_b_c.c=c.c
whereb.bisnotnullorc.cisnotnull

以上方法可行,我敢肯定還有其他的方法。如果UNION能用,我想會是最簡單不過的了。


審核編輯:湯梓紅


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • MySQL
    +關(guān)注

    關(guān)注

    1

    文章

    789

    瀏覽量

    26283

原文標(biāo)題:MySQL 如何查找刪除重復(fù)行?

文章出處:【微信號:良許Linux,微信公眾號:良許Linux】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    如何用C語言實(shí)現(xiàn)高效查找(二分法)

    (BinarySearch),是一種效率較高的查找方法。有序且不重復(fù)的數(shù)組中的元素的查找。intfindNumIndex(int*arr,intlen,intn){intend=l
    的頭像 發(fā)表于 06-04 08:04 ?765次閱讀
    如何用C語言實(shí)現(xiàn)高效<b class='flag-5'>查找</b>(二分法)

    STM32沒有重復(fù)定義卻報重復(fù)定義是怎么回事?

    STM32H743用keil v5編譯,上報重復(fù)定義: 通過全工程查找 __stdout,卻沒有發(fā)現(xiàn)重復(fù)定義,麻煩幫我看看是怎么回事,謝謝!
    發(fā)表于 03-08 08:12

    列列表框的方法節(jié)點(diǎn)“獲取雙擊的”怎么使用?

    現(xiàn)在要使用列列表框里“獲取雙擊的”這個方法節(jié)點(diǎn),但是我怎么弄這個方法節(jié)點(diǎn)輸出都是-2,不會變?。空埜呤仲n教!
    發(fā)表于 05-15 14:49

    labview 列列表框 刪除

    沒辦法上傳圖片,我敘述下要求:就是有一個列列表框,我想通過鼠標(biāo),可以任意刪除某一數(shù)據(jù),不知道如何才能實(shí)現(xiàn)
    發(fā)表于 12-15 15:59

    labview怎么刪除列列表框的

    labview怎么刪除列列表框的
    發(fā)表于 04-19 16:03

    列列表框 顏色

    如何使用列列表框時其中的某一列按照特定的字符改變整行的顏色。表格不同的根據(jù)特定的條件有多種顏色顯示該行:條件1、紅色條件2、綠色條件3、藍(lán)色條件4、橙色其他、白色
    發(fā)表于 07-26 17:02

    請問隊(duì)列上鎖與解鎖是什么意思?

    請問隊(duì)列上鎖與解鎖是什么意思?它的實(shí)際意義又在哪里呢??想不明白
    發(fā)表于 07-19 08:03

    Kinetis E系列上的UART引導(dǎo)加載程序設(shè)計資料分享

    Kinetis E系列上的UART引導(dǎo)加載程序設(shè)計 - 應(yīng)用說明
    發(fā)表于 12-12 06:51

    原創(chuàng):Labview找出數(shù)組重復(fù)元素和重復(fù)元素的全部索引

    *附件:查找重復(fù)元素.rar
    發(fā)表于 06-27 09:22

    Kinetis E系列上的UART引導(dǎo)加載程序設(shè)計

    Kinetis E系列上的UART引導(dǎo)加載程序設(shè)計
    發(fā)表于 11-02 10:56 ?4次下載

    OpenFlow流表查找方法

    基于TCAM的OpenFlow流表查找具有較高的成本與能耗。為了降低流表查找的成本與能耗,提出了單元散列表與TCAM結(jié)合的OpenFlow流表存儲與查找的方法。通過理論分析與仿真測試
    發(fā)表于 02-06 14:42 ?0次下載
    OpenFlow流表<b class='flag-5'>查找</b>方法

    重復(fù)接地是什么意思_重復(fù)接地的作用有哪些

    本文首先介紹了重復(fù)接地的概念,其次介紹了重復(fù)接地的優(yōu)點(diǎn),最后介紹了重復(fù)接地的作用。
    的頭像 發(fā)表于 01-03 08:59 ?2.9w次閱讀

    FPGA查找表LUT和編程方式的基礎(chǔ)知識說明

    工藝的查找表結(jié)構(gòu),也有一些軍品和宇航級FPGA采用Flash或者熔絲與反熔絲工藝的查找表結(jié) 構(gòu)。通過燒寫文件改變查找表內(nèi)容的方法來實(shí)現(xiàn)對FPGA的重復(fù)配置。
    發(fā)表于 12-29 17:27 ?16次下載

    重復(fù)1175

    重復(fù)1175
    發(fā)表于 04-24 13:35 ?1次下載
    <b class='flag-5'>重復(fù)</b><b class='flag-5'>行</b>1175

    vlookup怎么把第二個重復(fù)值顯示

    VLOOKUP是Excel中最常用的函數(shù)之一,它可以根據(jù)給定的值在數(shù)據(jù)表中查找相應(yīng)的信息。然而,當(dāng)數(shù)據(jù)表中存在重復(fù)查找值時,VLOOKUP只能返回第一個匹配結(jié)果的數(shù)據(jù)。在本文中,我們將介紹
    的頭像 發(fā)表于 12-03 10:24 ?2420次閱讀