1 秒殺業(yè)務(wù)分析
正常電子商務(wù)流程
(1)查詢商品; (2)創(chuàng)建訂單; (3)扣減庫(kù)存; (4)更新訂單; (5)付款; (6)賣家發(fā)貨
秒殺業(yè)務(wù)的特性
(1)低廉價(jià)格; (2)大幅推廣; (3)瞬時(shí)售空; (4)一般是定時(shí)上架; (5)時(shí)間短、瞬時(shí)并發(fā)量高;
2 秒殺技術(shù)挑戰(zhàn)
假設(shè)某網(wǎng)站秒殺活動(dòng)只推出一件商品,預(yù)計(jì)會(huì)吸引1萬(wàn)人參加活動(dòng),也就說(shuō)最大并發(fā)請(qǐng)求數(shù)是10000,秒殺系統(tǒng)需要面對(duì)的技術(shù)挑戰(zhàn)有:
對(duì)現(xiàn)有網(wǎng)站業(yè)務(wù)造成沖擊
秒殺活動(dòng)只是網(wǎng)站營(yíng)銷的一個(gè)附加活動(dòng),這個(gè)活動(dòng)具有時(shí)間短,并發(fā)訪問量大的特點(diǎn),如果和網(wǎng)站原有應(yīng)用部署在一起,必然會(huì)對(duì)現(xiàn)有業(yè)務(wù)造成沖擊,稍有不慎可能導(dǎo)致整個(gè)網(wǎng)站癱瘓。
解決方案:將秒殺系統(tǒng)獨(dú)立部署,甚至使用獨(dú)立域名,使其與網(wǎng)站完全隔離。
高并發(fā)下的應(yīng)用、數(shù)據(jù)庫(kù)負(fù)載
用戶在秒殺開始前,通過不停刷新瀏覽器頁(yè)面以保證不會(huì)錯(cuò)過秒殺,這些請(qǐng)求如果按照一般的網(wǎng)站應(yīng)用架構(gòu),訪問應(yīng)用服務(wù)器、連接數(shù)據(jù)庫(kù),會(huì)對(duì)應(yīng)用服務(wù)器和數(shù)據(jù)庫(kù)服務(wù)器造成負(fù)載壓力。
解決方案:重新設(shè)計(jì)秒殺商品頁(yè)面,不使用網(wǎng)站原來(lái)的商品詳細(xì)頁(yè)面,頁(yè)面內(nèi)容靜態(tài)化,用戶請(qǐng)求不需要經(jīng)過應(yīng)用服務(wù)。
突然增加的網(wǎng)絡(luò)及服務(wù)器帶寬
假設(shè)商品頁(yè)面大小200K(主要是商品圖片大?。敲葱枰木W(wǎng)絡(luò)和服務(wù)器帶寬是2G(200K×10000),這些網(wǎng)絡(luò)帶寬是因?yàn)槊霘⒒顒?dòng)新增的,超過網(wǎng)站平時(shí)使用的帶寬。
解決方案:因?yàn)槊霘⑿略龅木W(wǎng)絡(luò)帶寬,必須和運(yùn)營(yíng)商重新購(gòu)買或者租借。為了減輕網(wǎng)站服務(wù)器的壓力,需要將秒殺商品頁(yè)面緩存在CDN,同樣需要和CDN服務(wù)商臨時(shí)租借新增的出口帶寬。
直接下單
秒殺的游戲規(guī)則是到了秒殺才能開始對(duì)商品下單購(gòu)買,在此時(shí)間點(diǎn)之前,只能瀏覽商品信息,不能下單。而下單頁(yè)面也是一個(gè)普通的URL,如果得到這個(gè)URL,不用等到秒殺開始就可以下單了。
解決方案:為了避免用戶直接訪問下單頁(yè)面URL,需要將改URL動(dòng)態(tài)化,即使秒殺系統(tǒng)的開發(fā)者也無(wú)法在秒殺開始前訪問下單頁(yè)面的URL。辦法是在下單頁(yè)面URL加入由服務(wù)器端生成的隨機(jī)數(shù)作為參數(shù),在秒殺開始的時(shí)候才能得到。
如何控制秒殺商品頁(yè)面購(gòu)買按鈕的點(diǎn)亮
購(gòu)買按鈕只有在秒殺開始的時(shí)候才能點(diǎn)亮,在此之前是灰色的。如果該頁(yè)面是動(dòng)態(tài)生成的,當(dāng)然可以在服務(wù)器端構(gòu)造響應(yīng)頁(yè)面輸出,控制該按鈕是灰色還 是點(diǎn)亮,但是為了減輕服務(wù)器端負(fù)載壓力,更好地利用CDN、反向代理等性能優(yōu)化手段,該頁(yè)面被設(shè)計(jì)為靜態(tài)頁(yè)面,緩存在CDN、反向代理服務(wù)器上,甚至用戶瀏覽器上。秒殺開始時(shí),用戶刷新頁(yè)面,請(qǐng)求根本不會(huì)到達(dá)應(yīng)用服務(wù)器。
解決方案:使用JavaScript腳本控制,在秒殺商品靜態(tài)頁(yè)面中加入一個(gè)JavaScript文件引用,該JavaScript文件中包含 秒殺開始標(biāo)志為否;當(dāng)秒殺開始的時(shí)候生成一個(gè)新的JavaScript文件(文件名保持不變,只是內(nèi)容不一樣),更新秒殺開始標(biāo)志為是,加入下單頁(yè)面的URL及隨機(jī)數(shù)參數(shù)(這個(gè)隨機(jī)數(shù)只會(huì)產(chǎn)生一個(gè),即所有人看到的URL都是同一個(gè),服務(wù)器端可以用redis這種分布式緩存服務(wù)器來(lái)保存隨機(jī)數(shù)),并被用戶瀏覽器加載,控制秒殺商品頁(yè)面的展示。這個(gè)JavaScript文件的加載可以加上隨機(jī)版本號(hào)(例如xx.js?v=32353823),這樣就不會(huì)被瀏覽器、CDN和反向代理服務(wù)器緩存。
這個(gè)JavaScript文件非常小,即使每次瀏覽器刷新都訪問JavaScript文件服務(wù)器也不會(huì)對(duì)服務(wù)器集群和網(wǎng)絡(luò)帶寬造成太大壓力。
如何只允許第一個(gè)提交的訂單被發(fā)送到訂單子系統(tǒng)
由于最終能夠成功秒殺到商品的用戶只有一個(gè),因此需要在用戶提交訂單時(shí),檢查是否已經(jīng)有訂單提交。如果已經(jīng)有訂單提交成功,則需要更新 JavaScript文件,更新秒殺開始標(biāo)志為否,購(gòu)買按鈕變灰。事實(shí)上,由于最終能夠成功提交訂單的用戶只有一個(gè),為了減輕下單頁(yè)面服務(wù)器的負(fù)載壓力, 可以控制進(jìn)入下單頁(yè)面的入口,只有少數(shù)用戶能進(jìn)入下單頁(yè)面,其他用戶直接進(jìn)入秒殺結(jié)束頁(yè)面。
解決方案:假設(shè)下單服務(wù)器集群有10臺(tái)服務(wù)器,每臺(tái)服務(wù)器只接受最多10個(gè)下單請(qǐng)求。在還沒有人提交訂單成功之前,如果一臺(tái)服務(wù)器已經(jīng)有十單了,而有的一單都沒處理,可能出現(xiàn)的用戶體驗(yàn)不佳的場(chǎng)景是用戶第一次點(diǎn)擊購(gòu)買按鈕進(jìn)入已結(jié)束頁(yè)面,再刷新一下頁(yè)面,有可能被一單都沒有處理的服務(wù)器處理,進(jìn)入了填寫訂單的頁(yè)面,可以考慮通過cookie的方式來(lái)應(yīng)對(duì),符合一致性原則。當(dāng)然可以采用最少連接的負(fù)載均衡算法,出現(xiàn)上述情況的概率大大降低。
如何進(jìn)行下單前置檢查
下單服務(wù)器檢查本機(jī)已處理的下單請(qǐng)求數(shù)目:
如果超過10條,直接返回已結(jié)束頁(yè)面給用戶;
如果未超過10條,則用戶可進(jìn)入填寫訂單及確認(rèn)頁(yè)面;
檢查全局已提交訂單數(shù)目:
已超過秒殺商品總數(shù),返回已結(jié)束頁(yè)面給用戶;
未超過秒殺商品總數(shù),提交到子訂單系統(tǒng);
秒殺一般是定時(shí)上架
該功能實(shí)現(xiàn)方式很多。不過目前比較好的方式是:提前設(shè)定好商品的上架時(shí)間,用戶可以在前臺(tái)看到該商品,但是無(wú)法點(diǎn)擊“立即購(gòu)買”的按鈕。但是需要考慮的是,有人可以繞過前端的限制,直接通過URL的方式發(fā)起購(gòu)買,這就需要在前臺(tái)商品頁(yè)面,以及bug頁(yè)面到后端的數(shù)據(jù)庫(kù),都要進(jìn)行時(shí)鐘同步。越在后端控制,安全性越高。
定時(shí)秒殺的話,就要避免賣家在秒殺前對(duì)商品做編輯帶來(lái)的不可預(yù)期的影響。這種特殊的變更需要多方面評(píng)估。一般禁止編輯,如需變更,可以走數(shù)據(jù)訂正多的流程。
減庫(kù)存的操作
有兩種選擇,一種是拍下減庫(kù)存另外一種是付款減庫(kù)存;目前采用的“拍下減庫(kù)存”的方式,拍下就是一瞬間的事,對(duì)用戶體驗(yàn)會(huì)好些。
庫(kù)存會(huì)帶來(lái)“超賣”的問題:售出數(shù)量多于庫(kù)存數(shù)量
由于庫(kù)存并發(fā)更新的問題,導(dǎo)致在實(shí)際庫(kù)存已經(jīng)不足的情況下,庫(kù)存依然在減,導(dǎo)致賣家的商品賣得件數(shù)超過秒殺的預(yù)期。方案:采用樂觀鎖
updateauction_auctionsset quantity=#inQuantity# whereauction_id=#itemId#andquantity=#dbQuantity#
還有一種方式,會(huì)更好些,叫做嘗試扣減庫(kù)存,扣減庫(kù)存成功才會(huì)進(jìn)行下單邏輯:
updateauction_auctionsset quantity=quantity-#count# whereauction_id=#itemId#andquantity>=#count#
秒殺器的應(yīng)對(duì)
秒殺器一般下單個(gè)購(gòu)買及其迅速,根據(jù)購(gòu)買記錄可以甄別出一部分。可以通過校驗(yàn)碼達(dá)到一定的方法,這就要求校驗(yàn)碼足夠安全,不被破解,采用的方式有:秒殺專用驗(yàn)證碼,電視公布驗(yàn)證碼,秒殺答題。
3 秒殺架構(gòu)原則
盡量將請(qǐng)求攔截在系統(tǒng)上游
傳統(tǒng)秒殺系統(tǒng)之所以掛,請(qǐng)求都?jí)旱沽撕蠖藬?shù)據(jù)層,數(shù)據(jù)讀寫鎖沖突嚴(yán)重,并發(fā)高響應(yīng)慢,幾乎所有請(qǐng)求都超時(shí),流量雖大,下單成功的有效流量甚小【一趟火車其實(shí)只有2000張票,200w個(gè)人來(lái)買,基本沒有人能買成功,請(qǐng)求有效率為0】。
讀多寫少的常用多使用緩存
這是一個(gè)典型的讀多寫少的應(yīng)用場(chǎng)景【一趟火車其實(shí)只有2000張票,200w個(gè)人來(lái)買,最多2000個(gè)人下單成功,其他人都是查詢庫(kù)存,寫比例只有0.1%,讀比例占99.9%】,非常適合使用緩存。
4 秒殺架構(gòu)設(shè)計(jì)
秒殺系統(tǒng)為秒殺而設(shè)計(jì),不同于一般的網(wǎng)購(gòu)行為,參與秒殺活動(dòng)的用戶更關(guān)心的是如何能快速刷新商品頁(yè)面,在秒殺開始的時(shí)候搶先進(jìn)入下單頁(yè)面,而不是商品詳情等用戶體驗(yàn)細(xì)節(jié),因此秒殺系統(tǒng)的頁(yè)面設(shè)計(jì)應(yīng)盡可能簡(jiǎn)單。
商品頁(yè)面中的購(gòu)買按鈕只有在秒殺活動(dòng)開始的時(shí)候才變亮,在此之前及秒殺商品賣出后,該按鈕都是灰色的,不可以點(diǎn)擊。
下單表單也盡可能簡(jiǎn)單,購(gòu)買數(shù)量只能是一個(gè)且不可以修改,送貨地址和付款方式都使用用戶默認(rèn)設(shè)置,沒有默認(rèn)也可以不填,允許等訂單提交后修改;只有第一個(gè)提交的訂單發(fā)送給網(wǎng)站的訂單子系統(tǒng),其余用戶提交訂單后只能看到秒殺結(jié)束頁(yè)面。
要做一個(gè)這樣的秒殺系統(tǒng),業(yè)務(wù)會(huì)分為兩個(gè)階段,第一個(gè)階段是秒殺開始前某個(gè)時(shí)間到秒殺開始, 這個(gè)階段可以稱之為準(zhǔn)備階段,用戶在準(zhǔn)備階段等待秒殺;第二個(gè)階段就是秒殺開始到所有參與秒殺的用戶獲得秒殺結(jié)果, 這個(gè)就稱為秒殺階段吧。
4.1 前端層設(shè)計(jì)
首先要有一個(gè)展示秒殺商品的頁(yè)面, 在這個(gè)頁(yè)面上做一個(gè)秒殺活動(dòng)開始的倒計(jì)時(shí),在準(zhǔn)備階段內(nèi)用戶會(huì)陸續(xù)打開這個(gè)秒殺的頁(yè)面, 并且可能不停的刷新頁(yè)面。這里需要考慮兩個(gè)問題:
第一個(gè)是秒殺頁(yè)面的展示
我們知道一個(gè)html頁(yè)面還是比較大的,即使做了壓縮,http頭和內(nèi)容的大小也可能高達(dá)數(shù)十K,加上其他的css, js,圖片等資源,如果同時(shí)有幾千萬(wàn)人參與一個(gè)商品的搶購(gòu),一般機(jī)房帶寬也就只有1G~10G,網(wǎng)絡(luò)帶寬就極有可能成為瓶頸,所以這個(gè)頁(yè)面上各類靜態(tài)資源首先應(yīng)分開存放,然后放到cdn節(jié)點(diǎn)上分散壓力,由于CDN節(jié)點(diǎn)遍布全國(guó)各地,能緩沖掉絕大部分的壓力,而且還比機(jī)房帶寬便宜~
第二個(gè)是倒計(jì)時(shí)
出于性能原因這個(gè)一般由js調(diào)用客戶端本地時(shí)間,就有可能出現(xiàn)客戶端時(shí)鐘與服務(wù)器時(shí)鐘不一致,另外服務(wù)器之間也是有可能出現(xiàn)時(shí)鐘不一致??蛻舳伺c服務(wù)器時(shí)鐘不一致可以采用客戶端定時(shí)和服務(wù)器同步時(shí)間,這里考慮一下性能問題,用于同步時(shí)間的接口由于不涉及到后端邏輯,只需要將當(dāng)前web服務(wù)器的時(shí)間發(fā)送給客戶端就可以了,因此速度很快,就我以前測(cè)試的結(jié)果來(lái)看,一臺(tái)標(biāo)準(zhǔn)的web服務(wù)器2W+QPS不會(huì)有問題,如果100W人同時(shí)刷,100W QPS也只需要50臺(tái)web,一臺(tái)硬件LB就可以了~,并且web服務(wù)器群是可以很容易的橫向擴(kuò)展的(LB+DNS輪詢),這個(gè)接口可以只返回一小段json格式的數(shù)據(jù),而且可以優(yōu)化一下減少不必要cookie和其他http頭的信息,所以數(shù)據(jù)量不會(huì)很大,一般來(lái)說(shuō)網(wǎng)絡(luò)不會(huì)成為瓶頸,即使成為瓶頸也可以考慮多機(jī)房專線連通,加智能DNS的解決方案;web服務(wù)器之間時(shí)間不同步可以采用統(tǒng)一時(shí)間服務(wù)器的方式,比如每隔1分鐘所有參與秒殺活動(dòng)的web服務(wù)器就與時(shí)間服務(wù)器做一次時(shí)間同步。
瀏覽器層請(qǐng)求攔截
(1)產(chǎn)品層面,用戶點(diǎn)擊“查詢”或者“購(gòu)票”后,按鈕置灰,禁止用戶重復(fù)提交請(qǐng)求;
(2)JS層面,限制用戶在x秒之內(nèi)只能提交一次請(qǐng)求;
4.2 站點(diǎn)層設(shè)計(jì)
前端層的請(qǐng)求攔截,只能攔住小白用戶(不過這是99%的用戶喲),高端的程序員根本不吃這一套,寫個(gè)for循環(huán),直接調(diào)用你后端的http請(qǐng)求,怎么整?
(1)同一個(gè)uid,限制訪問頻度,做頁(yè)面緩存,x秒內(nèi)到達(dá)站點(diǎn)層的請(qǐng)求,均返回同一頁(yè)面
(2)同一個(gè)item的查詢,例如手機(jī)車次,做頁(yè)面緩存,x秒內(nèi)到達(dá)站點(diǎn)層的請(qǐng)求,均返回同一頁(yè)面
如此限流,又有99%的流量會(huì)被攔截在站點(diǎn)層。##4.3 服務(wù)層設(shè)計(jì)## 站點(diǎn)層的請(qǐng)求攔截,只能攔住普通程序員,高級(jí)黑客,假設(shè)他控制了10w臺(tái)肉雞(并且假設(shè)買票不需要實(shí)名認(rèn)證),這下uid的限制不行了吧?怎么整?
(1)大哥,我是服務(wù)層,我清楚的知道小米只有1萬(wàn)部手機(jī),我清楚的知道一列火車只有2000張車票,我透10w個(gè)請(qǐng)求去數(shù)據(jù)庫(kù)有什么意義呢?對(duì)于寫請(qǐng)求,做請(qǐng)求隊(duì)列,每次只透過有限的寫請(qǐng)求去數(shù)據(jù)層,如果均成功再放下一批,如果庫(kù)存不夠則隊(duì)列里的寫請(qǐng)求全部返回“已售完”;
(2)對(duì)于讀請(qǐng)求,還用說(shuō)么?cache來(lái)抗,不管是memcached還是redis,單機(jī)抗個(gè)每秒10w應(yīng)該都是沒什么問題的;
如此限流,只有非常少的寫請(qǐng)求,和非常少的讀緩存mis的請(qǐng)求會(huì)透到數(shù)據(jù)層去,又有99.9%的請(qǐng)求被攔住了。
用戶請(qǐng)求分發(fā)模塊:使用Nginx或Apache將用戶的請(qǐng)求分發(fā)到不同的機(jī)器上。
用戶請(qǐng)求預(yù)處理模塊:判斷商品是不是還有剩余來(lái)決定是不是要處理該請(qǐng)求。
用戶請(qǐng)求處理模塊:把通過預(yù)處理的請(qǐng)求封裝成事務(wù)提交給數(shù)據(jù)庫(kù),并返回是否成功。
數(shù)據(jù)庫(kù)接口模塊:該模塊是數(shù)據(jù)庫(kù)的唯一接口,負(fù)責(zé)與數(shù)據(jù)庫(kù)交互,提供RPC接口供查詢是否秒殺結(jié)束、剩余數(shù)量等信息。
用戶請(qǐng)求預(yù)處理模塊
經(jīng)過HTTP服務(wù)器的分發(fā)后,單個(gè)服務(wù)器的負(fù)載相對(duì)低了一些,但總量依然可能很大,如果后臺(tái)商品已經(jīng)被秒殺完畢,那么直接給后來(lái)的請(qǐng)求返回秒殺失敗即可,不必再進(jìn)一步發(fā)送事務(wù)了,示例代碼可以如下所示:
packageseckill; importorg.apache.http.HttpRequest; /** *預(yù)處理階段,把不必要的請(qǐng)求直接駁回,必要的請(qǐng)求添加到隊(duì)列中進(jìn)入下一階段. */ publicclassPreProcessor{ //商品是否還有剩余 privatestaticbooleanreminds=true; privatestaticvoidforbidden(){ //Dosomething. } publicstaticbooleancheckReminds(){ if(reminds){ //遠(yuǎn)程檢測(cè)是否還有剩余,該RPC接口應(yīng)由數(shù)據(jù)庫(kù)服務(wù)器提供,不必完全嚴(yán)格檢查. if(!RPC.checkReminds()){ reminds=false; } } returnreminds; } /** *每一個(gè)HTTP請(qǐng)求都要經(jīng)過該預(yù)處理. */ publicstaticvoidpreProcess(HttpRequestrequest){ if(checkReminds()){ //一個(gè)并發(fā)的隊(duì)列 RequestQueue.queue.add(request); }else{ //如果已經(jīng)沒有商品了,則直接駁回請(qǐng)求即可. forbidden(); } } }
并發(fā)隊(duì)列的選擇
Java的并發(fā)包提供了三個(gè)常用的并發(fā)隊(duì)列實(shí)現(xiàn),分別是:ConcurrentLinkedQueue 、 LinkedBlockingQueue 和 ArrayBlockingQueue。
另外搜索公眾號(hào)Java架構(gòu)師技術(shù)回復(fù)關(guān)鍵字"Spring”獲取一份驚喜禮包。
ArrayBlockingQueue是初始容量固定的阻塞隊(duì)列,我們可以用來(lái)作為數(shù)據(jù)庫(kù)模塊成功競(jìng)拍的隊(duì)列,比如有10個(gè)商品,那么我們就設(shè)定一個(gè)10大小的數(shù)組隊(duì)列。
ConcurrentLinkedQueue使用的是CAS原語(yǔ)無(wú)鎖隊(duì)列實(shí)現(xiàn),是一個(gè)異步隊(duì)列,入隊(duì)的速度很快,出隊(duì)進(jìn)行了加鎖,性能稍慢。
LinkedBlockingQueue也是阻塞的隊(duì)列,入隊(duì)和出隊(duì)都用了加鎖,當(dāng)隊(duì)空的時(shí)候線程會(huì)暫時(shí)阻塞。
由于我們的系統(tǒng)入隊(duì)需求要遠(yuǎn)大于出隊(duì)需求,一般不會(huì)出現(xiàn)隊(duì)空的情況,所以我們可以選擇ConcurrentLinkedQueue來(lái)作為我們的請(qǐng)求隊(duì)列實(shí)現(xiàn):
packageseckill; importjava.util.concurrent.ArrayBlockingQueue; importjava.util.concurrent.ConcurrentLinkedQueue; importorg.apache.http.HttpRequest; publicclassRequestQueue{ publicstaticConcurrentLinkedQueuequeue=newConcurrentLinkedQueue (); }
用戶請(qǐng)求模塊
packageseckill; importorg.apache.http.HttpRequest; publicclassProcessor{ /** *發(fā)送秒殺事務(wù)到數(shù)據(jù)庫(kù)隊(duì)列. */ publicstaticvoidkill(BidInfoinfo){ DB.bids.add(info); } publicstaticvoidprocess(){ BidInfoinfo=newBidInfo(RequestQueue.queue.poll()); if(info!=null){ kill(info); } } } classBidInfo{ BidInfo(HttpRequestrequest){ //Dosomething. } }
數(shù)據(jù)庫(kù)模塊
數(shù)據(jù)庫(kù)主要是使用一個(gè)ArrayBlockingQueue來(lái)暫存有可能成功的用戶請(qǐng)求。
packageseckill; importjava.util.concurrent.ArrayBlockingQueue; /** *DB應(yīng)該是數(shù)據(jù)庫(kù)的唯一接口. */ publicclassDB{ publicstaticintcount=10; publicstaticArrayBlockingQueuebids=newArrayBlockingQueue (10); publicstaticbooleancheckReminds(){ //TODO returntrue; } //單線程操作 publicstaticvoidbid(){ BidInfoinfo=bids.poll(); while(count-->0){ //insertintotableBidsvalues(item_id,user_id,bid_date,other) //selectcount(id)fromBidswhereitem_id=? //如果數(shù)據(jù)庫(kù)商品數(shù)量大約總數(shù),則標(biāo)志秒殺已完成,設(shè)置標(biāo)志位reminds=false. info=bids.poll(); } } }
4.4 數(shù)據(jù)庫(kù)設(shè)計(jì)
4.4.1 基本概念概念一“單庫(kù)”
概念二“分片”
分片解決的是“數(shù)據(jù)量太大”的問題,也就是通常說(shuō)的“水平切分”。一旦引入分片,勢(shì)必有“數(shù)據(jù)路由”的概念,哪個(gè)數(shù)據(jù)訪問哪個(gè)庫(kù)。路由規(guī)則通常有3種方法:
范圍:range
優(yōu)點(diǎn):簡(jiǎn)單,容易擴(kuò)展
缺點(diǎn):各庫(kù)壓力不均(新號(hào)段更活躍)
哈希:hash 【大部分互聯(lián)網(wǎng)公司采用的方案二:哈希分庫(kù),哈希路由】
優(yōu)點(diǎn):簡(jiǎn)單,數(shù)據(jù)均衡,負(fù)載均勻
缺點(diǎn):遷移麻煩(2庫(kù)擴(kuò)3庫(kù)數(shù)據(jù)要遷移)
路由服務(wù):router-config-server
優(yōu)點(diǎn):靈活性強(qiáng),業(yè)務(wù)與路由算法解耦
缺點(diǎn):每次訪問數(shù)據(jù)庫(kù)前多一次查詢
概念三“分組”
分組解決“可用性”問題,分組通常通過主從復(fù)制的方式實(shí)現(xiàn)。
互聯(lián)網(wǎng)公司數(shù)據(jù)庫(kù)實(shí)際軟件架構(gòu)是:又分片,又分組(如下圖)
4.4.2 設(shè)計(jì)思路 數(shù)據(jù)庫(kù)軟件架構(gòu)師平時(shí)設(shè)計(jì)些什么東西呢?至少要考慮以下四點(diǎn):
如何保證數(shù)據(jù)可用性;
如何提高數(shù)據(jù)庫(kù)讀性能(大部分應(yīng)用讀多寫少,讀會(huì)先成為瓶頸);
如何保證一致性;
如何提高擴(kuò)展性;
1. 如何保證數(shù)據(jù)的可用性?
解決可用性問題的思路是=>冗余
如何保證站點(diǎn)的可用性?復(fù)制站點(diǎn),冗余站點(diǎn)
如何保證服務(wù)的可用性?復(fù)制服務(wù),冗余服務(wù)
如何保證數(shù)據(jù)的可用性?復(fù)制數(shù)據(jù),冗余數(shù)據(jù)
數(shù)據(jù)的冗余,會(huì)帶來(lái)一個(gè)副作用=>引發(fā)一致性問題(先不說(shuō)一致性問題,先說(shuō)可用性)。
2. 如何保證數(shù)據(jù)庫(kù)“讀”高可用?
冗余讀庫(kù)
冗余讀庫(kù)帶來(lái)的副作用?讀寫有延時(shí),可能不一致
上面這個(gè)圖是很多互聯(lián)網(wǎng)公司mysql的架構(gòu),寫仍然是單點(diǎn),不能保證寫高可用。
3. 如何保證數(shù)據(jù)庫(kù)“寫”高可用?
冗余寫庫(kù)
采用雙主互備的方式,可以冗余寫庫(kù)帶來(lái)的副作用?雙寫同步,數(shù)據(jù)可能沖突(例如“自增id”同步?jīng)_突),如何解決同步?jīng)_突,有兩種常見解決方案:
兩個(gè)寫庫(kù)使用不同的初始值,相同的步長(zhǎng)來(lái)增加id:1寫庫(kù)的id為0,2,4,6...;2寫庫(kù)的id為1,3,5,7...;
不使用數(shù)據(jù)的id,業(yè)務(wù)層自己生成唯一的id,保證數(shù)據(jù)不沖突;
實(shí)際中沒有使用上述兩種架構(gòu)來(lái)做讀寫的“高可用”,采用的是“雙主當(dāng)主從用”的方式:
仍是雙主,但只有一個(gè)主提供服務(wù)(讀+寫),另一個(gè)主是“shadow-master”,只用來(lái)保證高可用,平時(shí)不提供服務(wù)。master掛了,shadow-master頂上(vip漂移,對(duì)業(yè)務(wù)層透明,不需要人工介入)。這種方式的好處:
讀寫沒有延時(shí);
讀寫高可用;
不足:
不能通過加從庫(kù)的方式擴(kuò)展讀性能;
資源利用率為50%,一臺(tái)冗余主沒有提供服務(wù);
那如何提高讀性能呢?進(jìn)入第二個(gè)話題,如何提供讀性能。
4. 如何擴(kuò)展讀性能
提高讀性能的方式大致有三種,第一種是建立索引。這種方式不展開,要提到的一點(diǎn)是,不同的庫(kù)可以建立不同的索引。
寫庫(kù)不建立索引;
線上讀庫(kù)建立線上訪問索引,例如uid;
線下讀庫(kù)建立線下訪問索引,例如time;
第二種擴(kuò)充讀性能的方式是,增加從庫(kù),這種方法大家用的比較多,但是,存在兩個(gè)缺點(diǎn):
從庫(kù)越多,同步越慢;
同步越慢,數(shù)據(jù)不一致窗口越大(不一致后面說(shuō),還是先說(shuō)讀性能的提高);
實(shí)際中沒有采用這種方法提高數(shù)據(jù)庫(kù)讀性能(沒有從庫(kù)),采用的是增加緩存。常見的緩存架構(gòu)如下:
上游是業(yè)務(wù)應(yīng)用,下游是主庫(kù),從庫(kù)(讀寫分離),緩存。
實(shí)際的玩法:服務(wù)+數(shù)據(jù)庫(kù)+緩存一套
業(yè)務(wù)層不直接面向db和cache,服務(wù)層屏蔽了底層db、cache的復(fù)雜性。為什么要引入服務(wù)層,今天不展開,采用了“服務(wù)+數(shù)據(jù)庫(kù)+緩存一套”的方式提供數(shù)據(jù)訪問,用cache提高讀性能。
不管采用主從的方式擴(kuò)展讀性能,還是緩存的方式擴(kuò)展讀性能,數(shù)據(jù)都要復(fù)制多份(主+從,db+cache),一定會(huì)引發(fā)一致性問題。
5. 如何保證一致性?
主從數(shù)據(jù)庫(kù)的一致性,通常有兩種解決方案:
1. 中間件
如果某一個(gè)key有寫操作,在不一致時(shí)間窗口內(nèi),中間件會(huì)將這個(gè)key的讀操作也路由到主庫(kù)上。這個(gè)方案的缺點(diǎn)是,數(shù)據(jù)庫(kù)中間件的門檻較高(百度,騰訊,阿里,360等一些公司有)。
2. 強(qiáng)制讀主
上面實(shí)際用的“雙主當(dāng)主從用”的架構(gòu),不存在主從不一致的問題。
第二類不一致,是db與緩存間的不一致:
常見的緩存架構(gòu)如上,此時(shí)寫操作的順序是:
(1)淘汰cache;
(2)寫數(shù)據(jù)庫(kù);
讀操作的順序是:
(1)讀cache,如果cache hit則返回;
(2)如果cache miss,則讀從庫(kù);
(3)讀從庫(kù)后,將數(shù)據(jù)放回cache;
在一些異常時(shí)序情況下,有可能從【從庫(kù)讀到舊數(shù)據(jù)(同步還沒有完成),舊數(shù)據(jù)入cache后】,數(shù)據(jù)會(huì)長(zhǎng)期不一致。解決辦法是“緩存雙淘汰”,寫操作時(shí)序升級(jí)為:
(1)淘汰cache;
(2)寫數(shù)據(jù)庫(kù);
(3)在經(jīng)驗(yàn)“主從同步延時(shí)窗口時(shí)間”后,再次發(fā)起一個(gè)異步淘汰cache的請(qǐng)求;
這樣,即使有臟數(shù)據(jù)如cache,一個(gè)小的時(shí)間窗口之后,臟數(shù)據(jù)還是會(huì)被淘汰。帶來(lái)的代價(jià)是,多引入一次讀miss(成本可以忽略)。
除此之外,最佳實(shí)踐之一是:建議為所有cache中的item設(shè)置一個(gè)超時(shí)時(shí)間。
6. 如何提高數(shù)據(jù)庫(kù)的擴(kuò)展性?
原來(lái)用hash的方式路由,分為2個(gè)庫(kù),數(shù)據(jù)量還是太大,要分為3個(gè)庫(kù),勢(shì)必需要進(jìn)行數(shù)據(jù)遷移,有一個(gè)很帥氣的“數(shù)據(jù)庫(kù)秒級(jí)擴(kuò)容”方案。
如何秒級(jí)擴(kuò)容?
首先,我們不做2庫(kù)變3庫(kù)的擴(kuò)容,我們做2庫(kù)變4庫(kù)(庫(kù)加倍)的擴(kuò)容(未來(lái)4->8->16)
服務(wù)+數(shù)據(jù)庫(kù)是一套(省去了緩存),數(shù)據(jù)庫(kù)采用“雙主”的模式。
擴(kuò)容步驟:
第一步,將一個(gè)主庫(kù)提升;
第二步,修改配置,2庫(kù)變4庫(kù)(原來(lái)MOD2,現(xiàn)在配置修改后MOD4),擴(kuò)容完成;
原MOD2為偶的部分,現(xiàn)在會(huì)MOD4余0或者2;原MOD2為奇的部分,現(xiàn)在會(huì)MOD4余1或者3;數(shù)據(jù)不需要遷移,同時(shí),雙主互相同步,一遍是余0,一邊余2,兩邊數(shù)據(jù)同步也不會(huì)沖突,秒級(jí)完成擴(kuò)容!另外搜索公眾號(hào)編程技術(shù)圈回復(fù)關(guān)鍵字"Java”獲取一份驚喜禮包。
最后,要做一些收尾工作:
將舊的雙主同步解除;
增加新的雙主(雙主是保證可用性的,shadow-master平時(shí)不提供服務(wù));
刪除多余的數(shù)據(jù)(余0的主,可以將余2的數(shù)據(jù)刪除掉);
這樣,秒級(jí)別內(nèi),我們就完成了2庫(kù)變4庫(kù)的擴(kuò)展。
5 大并發(fā)帶來(lái)的挑戰(zhàn)
5.1 請(qǐng)求接口的合理設(shè)計(jì)
一個(gè)秒殺或者搶購(gòu)頁(yè)面,通常分為2個(gè)部分,一個(gè)是靜態(tài)的HTML等內(nèi)容,另一個(gè)就是參與秒殺的Web后臺(tái)請(qǐng)求接口。
通常靜態(tài)HTML等內(nèi)容,是通過CDN的部署,一般壓力不大,核心瓶頸實(shí)際上在后臺(tái)請(qǐng)求接口上。這個(gè)后端接口,必須能夠支持高并發(fā)請(qǐng)求,同時(shí),非常重要的一點(diǎn),必須盡可能“快”,在最短的時(shí)間里返回用戶的請(qǐng)求結(jié)果。為了實(shí)現(xiàn)盡可能快這一點(diǎn),接口的后端存儲(chǔ)使用內(nèi)存級(jí)別的操作會(huì)更好一點(diǎn)。仍然直接面向MySQL之類的存儲(chǔ)是不合適的,如果有這種復(fù)雜業(yè)務(wù)的需求,都建議采用異步寫入。
當(dāng)然,也有一些秒殺和搶購(gòu)采用“滯后反饋”,就是說(shuō)秒殺當(dāng)下不知道結(jié)果,一段時(shí)間后才可以從頁(yè)面中看到用戶是否秒殺成功。但是,這種屬于“偷懶”行為,同時(shí)給用戶的體驗(yàn)也不好,容易被用戶認(rèn)為是“暗箱操作”。
5.2 高并發(fā)的挑戰(zhàn):一定要“快”
我們通常衡量一個(gè)Web系統(tǒng)的吞吐率的指標(biāo)是QPS(Query Per Second,每秒處理請(qǐng)求數(shù)),解決每秒數(shù)萬(wàn)次的高并發(fā)場(chǎng)景,這個(gè)指標(biāo)非常關(guān)鍵。舉個(gè)例子,我們假設(shè)處理一個(gè)業(yè)務(wù)請(qǐng)求平均響應(yīng)時(shí)間為100ms,同時(shí),系統(tǒng)內(nèi)有20臺(tái)Apache的Web服務(wù)器,配置MaxClients為500個(gè)(表示Apache的最大連接數(shù)目)。
那么,我們的Web系統(tǒng)的理論峰值QPS為(理想化的計(jì)算方式):
20*500/0.1=100000(10萬(wàn)QPS)
咦?我們的系統(tǒng)似乎很強(qiáng)大,1秒鐘可以處理完10萬(wàn)的請(qǐng)求,5w/s的秒殺似乎是“紙老虎”哈。實(shí)際情況,當(dāng)然沒有這么理想。在高并發(fā)的實(shí)際場(chǎng)景下,機(jī)器都處于高負(fù)載的狀態(tài),在這個(gè)時(shí)候平均響應(yīng)時(shí)間會(huì)被大大增加。
就Web服務(wù)器而言,Apache打開了越多的連接進(jìn)程,CPU需要處理的上下文切換也越多,額外增加了CPU的消耗,然后就直接導(dǎo)致平均響應(yīng)時(shí)間增加。因此上述的MaxClient數(shù)目,要根據(jù)CPU、內(nèi)存等硬件因素綜合考慮,絕對(duì)不是越多越好??梢酝ㄟ^Apache自帶的abench來(lái)測(cè)試一下,取一個(gè)合適的值。然后,我們選擇內(nèi)存操作級(jí)別的存儲(chǔ)的Redis,在高并發(fā)的狀態(tài)下,存儲(chǔ)的響應(yīng)時(shí)間至關(guān)重要。網(wǎng)絡(luò)帶寬雖然也是一個(gè)因素,不過,這種請(qǐng)求數(shù)據(jù)包一般比較小,一般很少成為請(qǐng)求的瓶頸。負(fù)載均衡成為系統(tǒng)瓶頸的情況比較少,在這里不做討論哈。
那么問題來(lái)了,假設(shè)我們的系統(tǒng),在5w/s的高并發(fā)狀態(tài)下,平均響應(yīng)時(shí)間從100ms變?yōu)?50ms(實(shí)際情況,甚至更多):
20*500/0.25=40000(4萬(wàn)QPS)
于是,我們的系統(tǒng)剩下了4w的QPS,面對(duì)5w每秒的請(qǐng)求,中間相差了1w。
然后,這才是真正的惡夢(mèng)開始。舉個(gè)例子,高速路口,1秒鐘來(lái)5部車,每秒通過5部車,高速路口運(yùn)作正常。突然,這個(gè)路口1秒鐘只能通過4部車,車流量仍然依舊,結(jié)果必定出現(xiàn)大塞車。(5條車道忽然變成4條車道的感覺)。
同理,某一個(gè)秒內(nèi),20*500個(gè)可用連接進(jìn)程都在滿負(fù)荷工作中,卻仍然有1萬(wàn)個(gè)新來(lái)請(qǐng)求,沒有連接進(jìn)程可用,系統(tǒng)陷入到異常狀態(tài)也是預(yù)期之內(nèi)。
其實(shí)在正常的非高并發(fā)的業(yè)務(wù)場(chǎng)景中,也有類似的情況出現(xiàn),某個(gè)業(yè)務(wù)請(qǐng)求接口出現(xiàn)問題,響應(yīng)時(shí)間極慢,將整個(gè)Web請(qǐng)求響應(yīng)時(shí)間拉得很長(zhǎng),逐漸將Web服務(wù)器的可用連接數(shù)占滿,其他正常的業(yè)務(wù)請(qǐng)求,無(wú)連接進(jìn)程可用。
更可怕的問題是,是用戶的行為特點(diǎn),系統(tǒng)越是不可用,用戶的點(diǎn)擊越頻繁,惡性循環(huán)最終導(dǎo)致“雪崩”(其中一臺(tái)Web機(jī)器掛了,導(dǎo)致流量分散到其他正常工作的機(jī)器上,再導(dǎo)致正常的機(jī)器也掛,然后惡性循環(huán)),將整個(gè)Web系統(tǒng)拖垮。
5.3 重啟與過載保護(hù)
如果系統(tǒng)發(fā)生“雪崩”,貿(mào)然重啟服務(wù),是無(wú)法解決問題的。最常見的現(xiàn)象是,啟動(dòng)起來(lái)后,立刻掛掉。這個(gè)時(shí)候,最好在入口層將流量拒絕,然后再將重啟。如果是redis/memcache這種服務(wù)也掛了,重啟的時(shí)候需要注意“預(yù)熱”,并且很可能需要比較長(zhǎng)的時(shí)間。
秒殺和搶購(gòu)的場(chǎng)景,流量往往是超乎我們系統(tǒng)的準(zhǔn)備和想象的。這個(gè)時(shí)候,過載保護(hù)是必要的。如果檢測(cè)到系統(tǒng)滿負(fù)載狀態(tài),拒絕請(qǐng)求也是一種保護(hù)措施。在前端設(shè)置過濾是最簡(jiǎn)單的方式,但是,這種做法是被用戶“千夫所指”的行為。更合適一點(diǎn)的是,將過載保護(hù)設(shè)置在CGI入口層,快速將客戶的直接請(qǐng)求返回。
6 作弊的手段:進(jìn)攻與防守
秒殺和搶購(gòu)收到了“海量”的請(qǐng)求,實(shí)際上里面的水分是很大的。不少用戶,為了“搶“到商品,會(huì)使用“刷票工具”等類型的輔助工具,幫助他們發(fā)送盡可能多的請(qǐng)求到服務(wù)器。還有一部分高級(jí)用戶,制作強(qiáng)大的自動(dòng)請(qǐng)求腳本。這種做法的理由也很簡(jiǎn)單,就是在參與秒殺和搶購(gòu)的請(qǐng)求中,自己的請(qǐng)求數(shù)目占比越多,成功的概率越高。
這些都是屬于“作弊的手段”,不過,有“進(jìn)攻”就有“防守”,這是一場(chǎng)沒有硝煙的戰(zhàn)斗哈。
6.1 同一個(gè)賬號(hào),一次性發(fā)出多個(gè)請(qǐng)求
部分用戶通過瀏覽器的插件或者其他工具,在秒殺開始的時(shí)間里,以自己的賬號(hào),一次發(fā)送上百甚至更多的請(qǐng)求。實(shí)際上,這樣的用戶破壞了秒殺和搶購(gòu)的公平性。
這種請(qǐng)求在某些沒有做數(shù)據(jù)安全處理的系統(tǒng)里,也可能造成另外一種破壞,導(dǎo)致某些判斷條件被繞過。例如一個(gè)簡(jiǎn)單的領(lǐng)取邏輯,先判斷用戶是否有參與記錄,如果沒有則領(lǐng)取成功,最后寫入到參與記錄中。這是個(gè)非常簡(jiǎn)單的邏輯,但是,在高并發(fā)的場(chǎng)景下,存在深深的漏洞。多個(gè)并發(fā)請(qǐng)求通過負(fù)載均衡服務(wù)器,分配到內(nèi)網(wǎng)的多臺(tái)Web服務(wù)器,它們首先向存儲(chǔ)發(fā)送查詢請(qǐng)求,然后,在某個(gè)請(qǐng)求成功寫入?yún)⑴c記錄的時(shí)間差內(nèi),其他的請(qǐng)求獲查詢到的結(jié)果都是“沒有參與記錄”。這里,就存在邏輯判斷被繞過的風(fēng)險(xiǎn)。
應(yīng)對(duì)方案:
在程序入口處,一個(gè)賬號(hào)只允許接受1個(gè)請(qǐng)求,其他請(qǐng)求過濾。不僅解決了同一個(gè)賬號(hào),發(fā)送N個(gè)請(qǐng)求的問題,還保證了后續(xù)的邏輯流程的安全。實(shí)現(xiàn)方案,可以通過Redis這種內(nèi)存緩存服務(wù),寫入一個(gè)標(biāo)志位(只允許1個(gè)請(qǐng)求寫成功,結(jié)合watch的樂觀鎖的特性),成功寫入的則可以繼續(xù)參加。
或者,自己實(shí)現(xiàn)一個(gè)服務(wù),將同一個(gè)賬號(hào)的請(qǐng)求放入一個(gè)隊(duì)列中,處理完一個(gè),再處理下一個(gè)。
6.2 多個(gè)賬號(hào),一次性發(fā)送多個(gè)請(qǐng)求
很多公司的賬號(hào)注冊(cè)功能,在發(fā)展早期幾乎是沒有限制的,很容易就可以注冊(cè)很多個(gè)賬號(hào)。因此,也導(dǎo)致了出現(xiàn)了一些特殊的工作室,通過編寫自動(dòng)注冊(cè)腳本,積累了一大批“僵尸賬號(hào)”,數(shù)量龐大,幾萬(wàn)甚至幾十萬(wàn)的賬號(hào)不等,專門做各種刷的行為(這就是微博中的“僵尸粉“的來(lái)源)。舉個(gè)例子,例如微博中有轉(zhuǎn)發(fā)抽獎(jiǎng)的活動(dòng),如果我們使用幾萬(wàn)個(gè)“僵尸號(hào)”去混進(jìn)去轉(zhuǎn)發(fā),這樣就可以大大提升我們中獎(jiǎng)的概率。
這種賬號(hào),使用在秒殺和搶購(gòu)里,也是同一個(gè)道理。例如,iPhone官網(wǎng)的搶購(gòu),火車票黃牛黨。
應(yīng)對(duì)方案:
這種場(chǎng)景,可以通過檢測(cè)指定機(jī)器IP請(qǐng)求頻率就可以解決,如果發(fā)現(xiàn)某個(gè)IP請(qǐng)求頻率很高,可以給它彈出一個(gè)驗(yàn)證碼或者直接禁止它的請(qǐng)求:
彈出驗(yàn)證碼,最核心的追求,就是分辨出真實(shí)用戶。因此,大家可能經(jīng)常發(fā)現(xiàn),網(wǎng)站彈出的驗(yàn)證碼,有些是“鬼神亂舞”的樣子,有時(shí)讓我們根本無(wú)法看清。他們這樣做的原因,其實(shí)也是為了讓驗(yàn)證碼的圖片不被輕易識(shí)別,因?yàn)閺?qiáng)大的“自動(dòng)腳本”可以通過圖片識(shí)別里面的字符,然后讓腳本自動(dòng)填寫驗(yàn)證碼。實(shí)際上,有一些非常創(chuàng)新的驗(yàn)證碼,效果會(huì)比較好,例如給你一個(gè)簡(jiǎn)單問題讓你回答,或者讓你完成某些簡(jiǎn)單操作(例如百度貼吧的驗(yàn)證碼)。
直接禁止IP,實(shí)際上是有些粗暴的,因?yàn)橛行┱鎸?shí)用戶的網(wǎng)絡(luò)場(chǎng)景恰好是同一出口IP的,可能會(huì)有“誤傷“。但是這一個(gè)做法簡(jiǎn)單高效,根據(jù)實(shí)際場(chǎng)景使用可以獲得很好的效果。
6.3 多個(gè)賬號(hào),不同IP發(fā)送不同請(qǐng)求
所謂道高一尺,魔高一丈。有進(jìn)攻,就會(huì)有防守,永不休止。這些“工作室”,發(fā)現(xiàn)你對(duì)單機(jī)IP請(qǐng)求頻率有控制之后,他們也針對(duì)這種場(chǎng)景,想出了他們的“新進(jìn)攻方案”,就是不斷改變IP。
有同學(xué)會(huì)好奇,這些隨機(jī)IP服務(wù)怎么來(lái)的。有一些是某些機(jī)構(gòu)自己占據(jù)一批獨(dú)立IP,然后做成一個(gè)隨機(jī)代理IP的服務(wù),有償提供給這些“工作室”使用。還有一些更為黑暗一點(diǎn)的,就是通過木馬黑掉普通用戶的電腦,這個(gè)木馬也不破壞用戶電腦的正常運(yùn)作,只做一件事情,就是轉(zhuǎn)發(fā)IP包,普通用戶的電腦被變成了IP代理出口。通過這種做法,黑客就拿到了大量的獨(dú)立IP,然后搭建為隨機(jī)IP服務(wù),就是為了掙錢。
應(yīng)對(duì)方案:
說(shuō)實(shí)話,這種場(chǎng)景下的請(qǐng)求,和真實(shí)用戶的行為,已經(jīng)基本相同了,想做分辨很困難。再做進(jìn)一步的限制很容易“誤傷“真實(shí)用戶,這個(gè)時(shí)候,通常只能通過設(shè)置業(yè)務(wù)門檻高來(lái)限制這種請(qǐng)求了,或者通過賬號(hào)行為的”數(shù)據(jù)挖掘“來(lái)提前清理掉它們。
僵尸賬號(hào)也還是有一些共同特征的,例如賬號(hào)很可能屬于同一個(gè)號(hào)碼段甚至是連號(hào)的,活躍度不高,等級(jí)低,資料不全等等。根據(jù)這些特點(diǎn),適當(dāng)設(shè)置參與門檻,例如限制參與秒殺的賬號(hào)等級(jí)。通過這些業(yè)務(wù)手段,也是可以過濾掉一些僵尸號(hào)。
7 高并發(fā)下的數(shù)據(jù)安全
我們知道在多線程寫入同一個(gè)文件的時(shí)候,會(huì)存現(xiàn)“線程安全”的問題(多個(gè)線程同時(shí)運(yùn)行同一段代碼,如果每次運(yùn)行結(jié)果和單線程運(yùn)行的結(jié)果是一樣的,結(jié)果和預(yù)期相同,就是線程安全的)。如果是MySQL數(shù)據(jù)庫(kù),可以使用它自帶的鎖機(jī)制很好的解決問題,但是,在大規(guī)模并發(fā)的場(chǎng)景中,是不推薦使用MySQL的。秒殺和搶購(gòu)的場(chǎng)景中,還有另外一個(gè)問題,就是“超發(fā)”,如果在這方面控制不慎,會(huì)產(chǎn)生發(fā)送過多的情況。我們也曾經(jīng)聽說(shuō)過,某些電商搞搶購(gòu)活動(dòng),買家成功拍下后,商家卻不承認(rèn)訂單有效,拒絕發(fā)貨。這里的問題,也許并不一定是商家奸詐,而是系統(tǒng)技術(shù)層面存在超發(fā)風(fēng)險(xiǎn)導(dǎo)致的。
7.1 超發(fā)的原因
假設(shè)某個(gè)搶購(gòu)場(chǎng)景中,我們一共只有100個(gè)商品,在最后一刻,我們已經(jīng)消耗了99個(gè)商品,僅剩最后一個(gè)。這個(gè)時(shí)候,系統(tǒng)發(fā)來(lái)多個(gè)并發(fā)請(qǐng)求,這批請(qǐng)求讀取到的商品余量都是99個(gè),然后都通過了這一個(gè)余量判斷,最終導(dǎo)致超發(fā)。
在上面的這個(gè)圖中,就導(dǎo)致了并發(fā)用戶B也“搶購(gòu)成功”,多讓一個(gè)人獲得了商品。這種場(chǎng)景,在高并發(fā)的情況下非常容易出現(xiàn)。
7.2 悲觀鎖思路
解決線程安全的思路很多,可以從“悲觀鎖”的方向開始討論。
悲觀鎖,也就是在修改數(shù)據(jù)的時(shí)候,采用鎖定狀態(tài),排斥外部請(qǐng)求的修改。遇到加鎖的狀態(tài),就必須等待。
雖然上述的方案的確解決了線程安全的問題,但是,別忘記,我們的場(chǎng)景是“高并發(fā)”。也就是說(shuō),會(huì)很多這樣的修改請(qǐng)求,每個(gè)請(qǐng)求都需要等待“鎖”,某些線程可能永遠(yuǎn)都沒有機(jī)會(huì)搶到這個(gè)“鎖”,這種請(qǐng)求就會(huì)死在那里。同時(shí),這種請(qǐng)求會(huì)很多,瞬間增大系統(tǒng)的平均響應(yīng)時(shí)間,結(jié)果是可用連接數(shù)被耗盡,系統(tǒng)陷入異常。
7.3 FIFO隊(duì)列思路
那好,那么我們稍微修改一下上面的場(chǎng)景,我們直接將請(qǐng)求放入隊(duì)列中的,采用FIFO(First Input First Output,先進(jìn)先出),這樣的話,我們就不會(huì)導(dǎo)致某些請(qǐng)求永遠(yuǎn)獲取不到鎖??吹竭@里,是不是有點(diǎn)強(qiáng)行將多線程變成單線程的感覺哈。
然后,我們現(xiàn)在解決了鎖的問題,全部請(qǐng)求采用“先進(jìn)先出”的隊(duì)列方式來(lái)處理。那么新的問題來(lái)了,高并發(fā)的場(chǎng)景下,因?yàn)檎?qǐng)求很多,很可能一瞬間將隊(duì)列內(nèi)存“撐爆”,然后系統(tǒng)又陷入到了異常狀態(tài)?;蛘咴O(shè)計(jì)一個(gè)極大的內(nèi)存隊(duì)列,也是一種方案,但是,系統(tǒng)處理完一個(gè)隊(duì)列內(nèi)請(qǐng)求的速度根本無(wú)法和瘋狂涌入隊(duì)列中的數(shù)目相比。也就是說(shuō),隊(duì)列內(nèi)的請(qǐng)求會(huì)越積累越多,最終Web系統(tǒng)平均響應(yīng)時(shí)候還是會(huì)大幅下降,系統(tǒng)還是陷入異常。
7.4 樂觀鎖思路
這個(gè)時(shí)候,我們就可以討論一下“樂觀鎖”的思路了。樂觀鎖,是相對(duì)于“悲觀鎖”采用更為寬松的加鎖機(jī)制,大都是采用帶版本號(hào)(Version)更新。實(shí)現(xiàn)就是,這個(gè)數(shù)據(jù)所有請(qǐng)求都有資格去修改,但會(huì)獲得一個(gè)該數(shù)據(jù)的版本號(hào),只有版本號(hào)符合的才能更新成功,其他的返回?fù)屬?gòu)失敗。這樣的話,我們就不需要考慮隊(duì)列的問題,不過,它會(huì)增大CPU的計(jì)算開銷。但是,綜合來(lái)說(shuō),這是一個(gè)比較好的解決方案。
有很多軟件和服務(wù)都“樂觀鎖”功能的支持,例如Redis中的watch就是其中之一。通過這個(gè)實(shí)現(xiàn),我們保證了數(shù)據(jù)的安全。
8 總結(jié)
互聯(lián)網(wǎng)正在高速發(fā)展,使用互聯(lián)網(wǎng)服務(wù)的用戶越多,高并發(fā)的場(chǎng)景也變得越來(lái)越多。電商秒殺和搶購(gòu),是兩個(gè)比較典型的互聯(lián)網(wǎng)高并發(fā)場(chǎng)景。雖然我們解決問題的具體技術(shù)方案可能千差萬(wàn)別,但是遇到的挑戰(zhàn)卻是相似的,因此解決問題的思路也異曲同工。
-
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
54文章
11073瀏覽量
102614 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
8958瀏覽量
85085 -
網(wǎng)絡(luò)帶寬
+關(guān)注
關(guān)注
0文章
36瀏覽量
8245
原文標(biāo)題:從零開始搭建公司秒殺架構(gòu)技術(shù)棧,絕了!細(xì)節(jié)都考慮到了!
文章出處:【微信號(hào):AndroidPush,微信公眾號(hào):Android編程精選】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論