0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于邊合成邊測序技術(shù)的數(shù)據(jù)質(zhì)量控制

西西 ? 來源:博客園 ? 作者:SamYangBio ? 2020-11-11 10:52 ? 次閱讀

基于邊合成邊測序(Sequencing By Synthesis,SBS)技術(shù),Illumina HiSeq2500高通量測序平臺對cDNA文庫進(jìn)行測序,能夠產(chǎn)出大量的高質(zhì)量Reads,測序平臺產(chǎn)出的這些Reads或堿基稱為原始數(shù)據(jù)(Raw Data),其大部分堿基質(zhì)量打分能達(dá)到或超過Q30。Raw Data通常以FASTQ格式提供,每個測序樣品的Raw Data包括兩個FASTQ文件,分別包含所有cDNA片段兩端測定的Reads。

FASTQ格式文件示意圖如下:

FASTQ格式文件示意圖

注:FASTQ文件中通常每4行對應(yīng)一個序列單元:第一行以@開頭,后面接著序列標(biāo)識(ID)以及其它可選的描述信息;第二行為堿基序列,即Reads;第三行以“+”開頭,后面接著可選的描述信息;第四行為Reads每個堿基對應(yīng)的質(zhì)量打分編碼,長度必須和Reads的序列長度相同。

測序堿基質(zhì)量值

堿基質(zhì)量值(Quality Score或Q-score)是堿基識別(Base Calling)出錯的概率的整數(shù)映射。通常使用的Phred堿基質(zhì)量值公式為:

公式中,P為堿基識別出錯的概率。下表給出了堿基質(zhì)量值與堿基識別出錯的概率的對應(yīng)關(guān)系:

表1 堿基質(zhì)量值與堿基識別出錯的概率的對應(yīng)關(guān)系表

堿基質(zhì)量值越高表明堿基識別越可靠,堿基測錯的可能性越小。比如,對于堿基質(zhì)量值為Q20的堿基識別,100個堿基中有1個會識別出錯;對于堿基質(zhì)量值為Q30的堿基識別,1,000個堿基中有1個會識別出錯;Q40表示10,000個堿基中才有1個會識別出錯。

以測序循環(huán)為單位,對單個樣品所有Reads平行測序的堿基質(zhì)量值做分布圖,可以查看單個樣品各個測序循環(huán)及整體的測序質(zhì)量。

堿基質(zhì)量值分布圖

注:橫坐標(biāo)為測序堿基在Reads上的位置,縱坐標(biāo)為堿基質(zhì)量值。顏色深淺表示堿基比重,顏色越深,說明該位置測定的堿基中為對應(yīng)質(zhì)量值的堿基所占的比重越大,反之亦然。

測序質(zhì)量控制

FASTQ文件中測序Reads需要與指定的參考基因組進(jìn)行序列比對,定位cDNA片段在基因組或基因上的位置。在序列比對之前,首先需要確保這些Reads有足夠高的質(zhì)量,以保證后續(xù)分析的準(zhǔn)確。測序質(zhì)量控制方式如下:

(1) 去除測序接頭以及引物序列;

(2) 過濾低質(zhì)量值數(shù)據(jù),確保數(shù)據(jù)質(zhì)量。

經(jīng)過上述一系列的質(zhì)量控制之后得到的高質(zhì)量Reads或堿基,稱為Clean Data。Clean Data同樣以FASTQ格式提供。

測序數(shù)據(jù)產(chǎn)出統(tǒng)計(jì)

某項(xiàng)目各樣品數(shù)據(jù)產(chǎn)出統(tǒng)計(jì)見下表:

表2 樣品測序數(shù)據(jù)評估統(tǒng)計(jì)表

注:Samples:樣品信息單樣品名稱;ID:樣品編號;Read Number:Clean Data中pair-end Reads(雙末端測序)總數(shù);Base Number:Clean Data總堿基數(shù);GC Content:Clean Data GC含量,即Clean Data中G和C兩種堿基占總堿基的百分比;%≥Q30:Clean Data質(zhì)量值大于或等于30的堿基所占的百分比。

轉(zhuǎn)錄組數(shù)據(jù)與參考基因組序列比對

獲得Clean Reads后,將其與參考基因組進(jìn)行序列比對,獲取在參考基因組或基因上的位置信息,以及測序樣品特有的序列特征信息。

TopHat2是一個高效的序列比對軟件。它以高通量Reads比對軟件Bowtie為基礎(chǔ),將轉(zhuǎn)錄組測序Reads比對到基因組上,然后通過分析比對結(jié)果識別外顯子之間的剪接點(diǎn)(Splicing Junction)。這不僅為可變剪接分析提供了數(shù)據(jù)基礎(chǔ),還能夠使更多的Reads比對到參考基因組,提高了測序數(shù)據(jù)的利用率。

轉(zhuǎn)錄組測序數(shù)據(jù)中,只有比對到參考基因組上的數(shù)據(jù)才能用于后續(xù)分析。因此,將比對到指定的參考基因組上的Reads稱為Mapped Reads,對應(yīng)的數(shù)據(jù)稱為Mapped Data。

比對效率統(tǒng)計(jì)

比對效率指Mapped Reads占Clean Reads的百分比,是轉(zhuǎn)錄組數(shù)據(jù)利用率的最直接體現(xiàn)。比對效率除了受數(shù)據(jù)測序質(zhì)量影響外,還與指定的參考基因組組裝的優(yōu)劣、參考基因組與測序樣品的生物學(xué)分類關(guān)系遠(yuǎn)近(亞種)有關(guān)。因此,通過比對效率,可以評估所選參考基因組組裝是否能滿足信息分析的需求,及后期數(shù)據(jù)分析的可靠性。

各樣品測序數(shù)據(jù)與所選參考基因組的序列比對結(jié)果統(tǒng)計(jì)見下表:

表3 Clean Data與參考基因組比對結(jié)果統(tǒng)計(jì)表

注:ID:樣品編號;Total Reads:Clean Reads數(shù)目,按單端計(jì);Mapped Reads:比對到參考基因組上的Reads數(shù)目;Mapped Ratio:比對到參考基因組上的Reads在Clean Reads中占的百分比;Uniq Mapped Reads:比對到參考基因組唯一位置的Reads數(shù)目;Uniq Mapped Ratio:比對到參考基因組唯一位置的Reads在Clean Reads中占的百分比。

比對結(jié)果作圖

將比對到不同染色體上Reads進(jìn)行位置分布統(tǒng)計(jì),繪制Mapped Reads在所選參考基因組上的覆蓋深度分布圖。

樣品T01的Mapped Reads在參考基因組部分染色體上的覆蓋深度分布圖如下:

Mapped Reads在參考基因組上的位置及覆蓋深度分布圖

注:橫坐標(biāo)為染色體位置;縱坐標(biāo)為覆蓋深度以2為底的對數(shù)值,以10kb作為區(qū)間單位長度,劃分染色體成多個小窗口(Window),統(tǒng)計(jì)落在各個窗口內(nèi)的Mapped Reads作為其覆蓋深度。

理論上,來自成熟mRNA的Reads應(yīng)該比對到外顯子區(qū)。但是,由于以下原因一部分Reads會比對到內(nèi)含子區(qū)和基因間區(qū):

(1) 樣品提取時將含有Ploy(A)尾而內(nèi)含子沒有切除完全的mRNA(即mRNA前體)提出,使得來自內(nèi)含子片段的Reads比對到了內(nèi)含子區(qū);

(2) 基因組注釋錯誤,原來為外顯子的區(qū)域注釋成了內(nèi)含子區(qū),或者相反;

(3) 基因組注釋水平低,對于使用轉(zhuǎn)錄組測序數(shù)據(jù)進(jìn)行的基因組注釋,由于轉(zhuǎn)錄組測序不能遍歷所有的時間和空間點(diǎn),使得用于注釋的轉(zhuǎn)錄組測序數(shù)據(jù)中不表達(dá)或低表達(dá)的基因剛好在該項(xiàng)目的樣品中檢測到較高豐度時,來自這類基因的Reads就比對到了被注釋的基因間區(qū),這也是新基因和新轉(zhuǎn)錄本發(fā)掘的基礎(chǔ)之一;

(4) 測序樣品與參考基因組存在差異,比如測序樣品中突變形成新的轉(zhuǎn)錄組起始位點(diǎn)形成樣品特有的新基因,或者剪接位點(diǎn)差異形成新的轉(zhuǎn)錄本,這也是新轉(zhuǎn)錄本發(fā)掘的基礎(chǔ)之一。

統(tǒng)計(jì)Mapped Reads在指定的參考基因組不同區(qū)域(外顯子、內(nèi)含子和基因間區(qū))的數(shù)目,繪制基因組不同區(qū)域上各樣品Mapped Reads的分布直方圖,如下:

基因組不同區(qū)域Reads分布直方圖

注:圖中每個直方柱表示一個樣品,粉色區(qū)域?yàn)橥怙@子區(qū)、綠色區(qū)域?yàn)榛蜷g區(qū)、藍(lán)色區(qū)域?yàn)閮?nèi)含子區(qū),區(qū)域的高度表示比對到該區(qū)域的Mapped Reads在所有Mapped Reads中所占的百分比。
編輯:hfy

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • sbs
    sbs
    +關(guān)注

    關(guān)注

    0

    文章

    15

    瀏覽量

    12220
  • 質(zhì)量控制
    +關(guān)注

    關(guān)注

    0

    文章

    23

    瀏覽量

    8444
收藏 人收藏

    評論

    相關(guān)推薦

    反饋AC/DC控制芯片中的關(guān)鍵技術(shù)

    反饋方式的AC/DC控制技術(shù)是最近10年間發(fā)展起來的新型AC/DC控制技術(shù),與傳統(tǒng)的副反饋
    發(fā)表于 03-08 11:21 ?3329次閱讀

    電源設(shè)計(jì)中的原反饋控制和副反饋控制方案分析

    在電源設(shè)計(jì)中,AC/DC方案可分為原反饋控制(PSR)方案和副反饋控制(SSR)方案。
    發(fā)表于 11-10 09:30 ?7698次閱讀

    什么是高低開關(guān),高低開關(guān)怎么設(shè)計(jì)?

    首先什么是高低開關(guān)? 關(guān)于高低開關(guān)在汽車中應(yīng)用非常廣泛,例如車燈控制、氣囊驅(qū)動、繼電器控制等,代表性的廠家有ST、英飛凌等,高低開關(guān)即
    的頭像 發(fā)表于 12-09 14:13 ?1.6w次閱讀
    什么是高低<b class='flag-5'>邊</b>開關(guān),高低<b class='flag-5'>邊</b>開關(guān)怎么設(shè)計(jì)?

    SMT車間管理與質(zhì)量控制技術(shù)(續(xù)完

    【摘要】:針對新產(chǎn)品的導(dǎo)入過程、車間現(xiàn)場管理及質(zhì)量控制技術(shù)進(jìn)行了全面的闡述。尤其是對新產(chǎn)品導(dǎo)入過程中的SMT生產(chǎn)線配置原則、設(shè)備選擇、車間基礎(chǔ)設(shè)施要求及生產(chǎn)現(xiàn)場管理和質(zhì)量控制技術(shù)等幾個
    發(fā)表于 04-24 10:10

    基于AC/DC控制芯片的原反饋技術(shù)

    反饋AC/DC控制技術(shù)是近10年發(fā)展起來的新型AC/DC控制技術(shù),與傳統(tǒng)的副反饋的光耦加
    發(fā)表于 11-21 10:59

    手機(jī)如何實(shí)現(xiàn)一充電一聽歌(聽)呢

    ,如何實(shí)現(xiàn)一充電一聽歌(聽)呢?因此,USB Type-C接口的轉(zhuǎn)接器應(yīng)時而生了,輕松的實(shí)現(xiàn)不同音頻插頭與音響耳機(jī)之間的相互轉(zhuǎn)換,而且一
    發(fā)表于 09-14 08:41

    學(xué)C語言

    學(xué)C語言
    發(fā)表于 03-10 11:35 ?272次下載

    有源箝位變壓器的高或低調(diào)整技術(shù)

    有源箝位變壓器的高或低調(diào)整技術(shù)
    發(fā)表于 10-14 18:13 ?39次下載
    有源箝位變壓器的高<b class='flag-5'>邊</b>或低<b class='flag-5'>邊</b>調(diào)整<b class='flag-5'>技術(shù)</b>

    基于AC/DC控制芯片的原反饋技術(shù)

    反饋AC/DC控制技術(shù)是近10年發(fā)展起來的新型AC/DC控制技術(shù),與傳統(tǒng)的副反饋的光耦加4
    發(fā)表于 11-08 10:54 ?3532次閱讀

    基于AC/DC控制芯片的原反饋技術(shù)

    反饋AC/DC控制技術(shù)是近10年發(fā)展起來的新型AC/DC控制技術(shù),與傳統(tǒng)的副反饋的光耦加4
    發(fā)表于 11-08 15:43 ?2235次閱讀
    基于AC/DC<b class='flag-5'>控制</b>芯片的原<b class='flag-5'>邊</b>反饋<b class='flag-5'>技術(shù)</b>

    基于模糊綜合評價的接質(zhì)量評價

    處理方法有多種,如:人工接、軟件輔助接、軟件自動化接邊等。但是,接質(zhì)量評價一直以來沒有一個統(tǒng)一的標(biāo)準(zhǔn)。和接
    發(fā)表于 12-13 10:54 ?3次下載

    基于分割的社交網(wǎng)絡(luò)敏感保護(hù)技術(shù)

    的信息分配到子邊上,使得每條子只攜帶原非敏感的部分信息,從而生成具有隱私能力的匿名社交網(wǎng)絡(luò)。理論分析和仿真實(shí)驗(yàn)結(jié)果表明,相比cluster-edge和cluster-based with constraints算法,分割算
    發(fā)表于 12-26 16:35 ?0次下載

    基于網(wǎng)絡(luò)布局研究

    網(wǎng)絡(luò)布局技術(shù)是網(wǎng)絡(luò)可視化研究的重要內(nèi)容,良好的布局能夠有效地展示網(wǎng)絡(luò)的整體結(jié)構(gòu)并從中揭示出某些隱含的信息模式.為了全面地總結(jié)和分析現(xiàn)有網(wǎng)絡(luò)布局
    發(fā)表于 02-07 16:09 ?1次下載

    基于合成測序(SBS)原理的測序芯片和測序試劑盒

    ,是基因測序的最核心技術(shù)模塊。已完成全套測序試劑盒的開發(fā),對照實(shí)驗(yàn)數(shù)據(jù)達(dá)到與Illumina 同等水平。(3)測序儀:已完成內(nèi)部測試平臺搭建
    的頭像 發(fā)表于 06-30 16:54 ?8108次閱讀

    開關(guān)與低開關(guān)的區(qū)分使用

    相對于外部負(fù)載,將半導(dǎo)體開關(guān)配置在上側(cè)電路(電源側(cè))的叫作高驅(qū)動,配置在下側(cè)電路(GND側(cè))的叫作低驅(qū)動。 【高驅(qū)動/低驅(qū)動】 高
    的頭像 發(fā)表于 07-05 17:05 ?4270次閱讀
    高<b class='flag-5'>邊</b>開關(guān)與低<b class='flag-5'>邊</b>開關(guān)的區(qū)分使用