0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

高通量測序生物信息學(xué)分析

PoisonApple ? 來源:網(wǎng)絡(luò)整理 ? 2018-02-28 14:43 ? 次閱讀

高通量測序技術(shù)產(chǎn)生的DNA序列數(shù)據(jù)長度較短,而且數(shù)據(jù)量非常巨大。分析了高通量測序環(huán)境下大數(shù)據(jù)的挑戰(zhàn)和機(jī)遇,總結(jié)并討論了數(shù)據(jù)壓縮、宏基因組數(shù)據(jù)序列拼接、宏基因組數(shù)據(jù)序列分析方面的算法和工具等研究成果。最后,展望了高通量測序下DNA短讀序列數(shù)據(jù)研究的發(fā)展趨勢。

高通量測序分析

高通量測序,一次性對幾百萬到十億條DNA分子進(jìn)行并行測序,又稱為下一代測序技術(shù),其使得可對一個(gè)物種的轉(zhuǎn)錄組和基因組進(jìn)行深入、細(xì)致、全貌的分析,所以又被稱為深度測序。主要包括:High-throughput Sequencing,Next Generation Sequencing,Deep Sequencing。

高通量測序生物信息學(xué)分析

圖1 高通量測序流程

高通量測序應(yīng)用范圍廣泛:

1 DNA測序:全基因組de novo測序,基因組重測序,宏基因組測序,人類外顯子組捕獲測序。

2 RNA測序:轉(zhuǎn)錄組測序,小RNA測序,電子表達(dá)譜測序。

3 表觀基因組研究:ChIP-Seq,DNA甲基化測序。

基因組測序

基因組測序是對物種的基因組DNA打斷后進(jìn)行高通量測序,根據(jù)是否有已知基因組數(shù)據(jù)主要分為de novo全基因組測序和基因組重測序。De novo 基因組測序是對未知基因組序列的物種進(jìn)行基因組從頭測序,利用生物信息學(xué)分析手段對序列進(jìn)行拼接、組裝,從而獲得該物種的基因組圖譜。全基因組重測序是對已知基因組序列的物種進(jìn)行不同個(gè)體的基因組測序,并在此基礎(chǔ)上對個(gè)體或群體進(jìn)行差異性分析。

高通量測序生物信息學(xué)分析

圖2 基因組測序策略

高通量測序生物信息學(xué)分析

圖3 Paired-end原理

Paired-End方法,基因組打斷后,選擇一定長度(200-500bp)的序列連接兩端接頭進(jìn)行兩頭測序。Mate-end建庫較復(fù)雜,序列打斷后,選取一定長度序列(3-5kb),需先連接生物素,再環(huán)化,再打斷,生物素富集,連接兩端接頭進(jìn)行兩端測序。

基因組測序應(yīng)用生物信息學(xué)分析其結(jié)果,主要涵蓋以下幾方面。

1 數(shù)據(jù)產(chǎn)出處理:圖像識(shí)別與Base Calling\去除接頭序列、檢測與去除污染序列等;

2 基因組組裝:原始數(shù)據(jù)統(tǒng)計(jì)、測序深度分析、組裝結(jié)果統(tǒng)計(jì)等;

3 基因組注釋:Coding Gene注釋、RNA分類注釋、重復(fù)序列注釋等;

4 基因功能注釋:GO功能分類、Interpro功能分類等;

5 比較基因組及分子進(jìn)化分析:SNP/InDel/CNV檢測等。

宏基因組測序

宏基因組測序是對某一特定環(huán)境,如腸道、土壤、海水等中的所有微生物進(jìn)行基因組測序。通過此方法可對該環(huán)境中的微生物種類和優(yōu)勢物種進(jìn)行檢測,揭示微生物群落多樣性、種群結(jié)構(gòu)、進(jìn)化關(guān)系、功能活性、相互協(xié)作關(guān)系及與環(huán)境之間的關(guān)系 。自然環(huán)境中很多微生物無法分離培養(yǎng),而此方法無需對微生物進(jìn)行分離培養(yǎng)。宏基因組測序方法現(xiàn)在有全基因組的宏基因組測序和16S/18S rRNA宏基因組測序。

1 全基因組的宏基因組測序

通過高通量測序技術(shù),對環(huán)境樣品的總 DNA 直接進(jìn)行全基因組的宏基因組測序,能夠?qū)崿F(xiàn)微生物群落的物種分類研究、群落結(jié)構(gòu)、系統(tǒng)進(jìn)化、功能注釋以及物種間的代謝網(wǎng)絡(luò)研究,挖掘具有應(yīng)用價(jià)值的基因資源,開發(fā)新的微生物活性物質(zhì)。與傳統(tǒng)的 Sanger法相比,速度快,性價(jià)比高,周期短,單個(gè)樣品的測序量可以接近飽和。

宏基因組測序信息分析主要包括:拼接組裝,物種分類組成分析,基因預(yù)測和功能注釋,生成Profiling table,主成分分析(PCA),篩選與樣品分組顯著相關(guān)的因子,多樣品間比較分析等。

2 16S/18S rRNA宏基因組測序

16S/18S rRNA是微生物群落分析和細(xì)菌進(jìn)化研究以及分類研究最常用的靶分子,采用新一代測序技術(shù),對16S/18S rDNA的可變區(qū)進(jìn)行測序分析,不需進(jìn)行克隆篩選,能全面的反映微生物群體的物種組成,真實(shí)的物種分布及豐度信息。

16S/18S rRNA測序信息分析主要包括:物種分類、物種豐度分析,OTU(Operational Taxonomic Units)分析,多樣性分析,系統(tǒng)進(jìn)化分析,多樣品間的比較分析等。

人類外顯子組捕獲測序

外顯子組是指全部外顯子區(qū)域的集合,該區(qū)域包含合成蛋白質(zhì)所需要的重要信息,涵蓋了與個(gè)體表型相關(guān)的大部分功能性變異。與全基因組重測序相比,外顯子組測序只需針對外顯子區(qū)域的DNA,覆蓋度更深、數(shù)據(jù)準(zhǔn)確性更高,更加簡便、經(jīng)濟(jì)、高效。

高通量測序生物信息學(xué)分析

圖4 人類外顯子組捕獲測序原理

外顯子捕獲是指用外顯子芯片雜交,把基因組外顯子序列進(jìn)行捕獲,然后對所捕獲的序列進(jìn)行測序。現(xiàn)在常用外顯子芯片有Roche NimbleGen Sequence Capture 2.1M Human Exome Array和Agilent SureSelect Target Enrichment System(Human Exome)。

高通量測序生物信息學(xué)分析

圖5 人類外顯子組捕獲測序分析流程

轉(zhuǎn)錄組測序

轉(zhuǎn)錄組即特定細(xì)胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來的所有RNA的總和,包括mRNA和非編碼RNA(Non-coding RNA)。

第二代測序系統(tǒng)可精確檢測單個(gè)堿基,并且不受到研究中先驗(yàn)信息的干擾,科研人員能夠快速地獲得某一物種特定器官或組織在某一狀態(tài)下幾乎所有mRNA轉(zhuǎn)錄本序列,從而能夠開展:UTRs區(qū)域界定、可變剪切研究、低豐度新轉(zhuǎn)錄本發(fā)現(xiàn)、融合基因鑒定、cSNP(編碼序列單核苷酸多態(tài)性)研究等。

高通量測序生物信息學(xué)分析

圖6 轉(zhuǎn)錄組測序流程

高通量測序生物信息學(xué)分析

圖7 無參考序列及有參考序列轉(zhuǎn)錄組測序流程

無參考序列轉(zhuǎn)錄組分析內(nèi)容包括:1 測序數(shù)據(jù)產(chǎn)量統(tǒng)計(jì),數(shù)據(jù)成分和質(zhì)量評(píng)估;2 Contig及Scaffold長度分布;3 Unigene的長度分布和功能注釋,GO分類,Pathway分析,差異表達(dá)分析;4 蛋白功能預(yù)測與分類,差異表達(dá)基因GO富集和 Pathway富集分析。

有參考序列轉(zhuǎn)錄組分析內(nèi)容包括:1 基本數(shù)據(jù)統(tǒng)計(jì),比對參考序列;2 序列在基因組上在分布;3 測序深度分析、隨機(jī)性評(píng)估和基因差異表達(dá)分析;4 新基因預(yù)測,基因可變剪接鑒定和基因融合鑒定等。

電子表達(dá)譜測序

電子表達(dá)譜測序(Digital Gene Expression, DGE)又稱為基因表達(dá)標(biāo)簽測序(mRNA tag profiling),又稱Tag-SAGE。其原理是通過兩種酶切作用對基因中一段長度為21nt的序列標(biāo)簽進(jìn)行測序。由于其測序只針對表達(dá)的基因進(jìn)行測序,產(chǎn)生的數(shù)據(jù)量相對較小,是研究基因表達(dá)譜的經(jīng)濟(jì)而快速的研究手段。是對特定處理?xiàng)l件下的全基因組基因表達(dá)譜進(jìn)行分析,已被廣泛用于功能基因組學(xué)和醫(yī)學(xué)等研究領(lǐng)域。

高通量測序生物信息學(xué)分析

圖8 電子表達(dá)譜測序流程圖

電子表達(dá)譜分析內(nèi)容包括:圖像識(shí)別與原始?jí)A基數(shù)據(jù)讀取,去污染、去接頭,標(biāo)簽序列計(jì)數(shù)統(tǒng)計(jì),基因組比對與統(tǒng)計(jì),基因序列比對獲得所表達(dá)的基因列表,基因差異表達(dá)分析,聚類與表達(dá)類型分析,GO基因富集與分類分析,Pathway富集與分類分析,蛋白相互作用網(wǎng)絡(luò)分析,反義鏈轉(zhuǎn)錄本與新轉(zhuǎn)錄本檢測等。

小RNA測序

小 RNA是指長度在21-31nt的內(nèi)源性非蛋白質(zhì)編碼RNA,廣泛存在于高等和低等生物體內(nèi),其對mRNA的轉(zhuǎn)錄及轉(zhuǎn)錄后水平等生命過程起到調(diào)節(jié)作用。現(xiàn)已知小RNA可歸納成三類:微RNA (miRNA),小干擾RNA(siRNA)和與piwi相互作用的RNA(piRNA)。

miRNA長度為21~24nt,產(chǎn)生于有典型莖環(huán)二級(jí)結(jié)構(gòu)的原轉(zhuǎn)錄本(pri-miRNA),在動(dòng)植物的目標(biāo)mRNA的降解與抑制方面發(fā)揮重要作用。siRNA,長度在19~25nt,產(chǎn)生于長雙鏈RNA,同樣在動(dòng)植物的目標(biāo)mRNA的降解與抑制方面發(fā)揮重要作用。piRNA,長度26~31nt,由與其相互作用的Piwi蛋白定義,目前研究表明其在配子形成的過程中起作用。

高通量測序生物信息學(xué)分析

圖9 小RNA測序流程圖

小RNA測序分析內(nèi)容包括以下兩個(gè)主要方面:

1 基本分析:原始數(shù)據(jù)讀取,去接頭、去污染序列,長度分布統(tǒng)計(jì),基因組比對等。

2 高級(jí)分析:Small RNA的分類注釋,miRNA / siRNA / piRNA的鑒定,新miRNA預(yù)測,差異表達(dá)miRNA聚類分析等。

ChIP-Seq

ChIP-Chromatin Immunoprecipitation染色質(zhì)免疫共沉淀,是指通過蛋白免疫相互作用,用抗體把和染色質(zhì)相互作用的蛋白,如組蛋白、轉(zhuǎn)錄因子等,沉淀下來,從而所獲取與其相結(jié)合的DNA序列。ChIP-Seq就是通過高通量測序?qū)hIP所得到的序列進(jìn)行測序,從而進(jìn)行蛋白和DNA相互作用相關(guān)研究。

ChIP-Seq分析內(nèi)容包括:

1 ChIP Sequencing結(jié)果與參考基因組序列進(jìn)行比對。

2 ChIP Sequencing reads 在全基因組的分布:唯一比對reads 在repeats 區(qū)域的分布,唯一比對reads 在各基因功能元件上的分布,唯一比對reads 的全基因組覆蓋深度。

3 全基因組peak 掃描:peak 掃描,peak 長度分布統(tǒng)計(jì),peak 的全基因組覆蓋度,peak 在基因功能元件上的分布特征,

4 Peak相關(guān)基因分析篩選與GO功能富集分析。

5 多個(gè)樣品的差異分析:基于peak 相關(guān)基因的差異分析,基于peak 的差異分析。

高通量測序生物信息學(xué)分析

圖10 ChIP-Seq分析流程

DNA甲基化測序

DNA甲基化對機(jī)體發(fā)育和基因表達(dá)有很重要的調(diào)控作用,和各種癌癥的發(fā)生和發(fā)展也有很大相關(guān)性,所以對基因組DNA甲基化進(jìn)行研究是一直來的熱門課題。通過高通量測序來研究DNA甲基化現(xiàn)在主要有兩種方法,一種是MeDIP,是通過與DNA甲基化位點(diǎn)相結(jié)合的抗體,進(jìn)行免疫共沉淀,然后對所得DNA序列進(jìn)行測序。另一種是Bisulfite Sequencing,是通過Bisulfite處理基因組來區(qū)分甲基化位點(diǎn)。

高通量測序生物信息學(xué)分析

圖11 MeDIP 原理

MeDIP-Seq分析內(nèi)容包括:

1 MeDIP-seq 序列與參考序列的比對。

2 MeDIP-seq 序列數(shù)據(jù)在全基因組的分布趨勢: MeDIP-seq 測序reads 在全基因組上每條染色體上的分布,MeDIP-seq 測序reads 在全基因組上的覆蓋深度,MeDIP-Seq 測序reads 在CG、CHG和CHH位點(diǎn)上的覆蓋深度,MeDIP-Seq 測序reads 在不同基因功能元件上的分布,MeDIP-Seq 測序reads 在不同OE含量區(qū)域中的分布。

3 統(tǒng)計(jì)MeDIP-seq 序列富集區(qū)域(peak)的信息:Peak 掃描,Peak 長度數(shù)量及比例分布統(tǒng)計(jì),單個(gè)樣品Peak 的OE含量分布統(tǒng)計(jì),尋找Peak 相關(guān)基因,統(tǒng)計(jì)Peak 在不同基因功能元件上的分布。

4 基于Peak 的多樣品間差異分析:分析兩個(gè)樣品間的Peak 相關(guān)差異基因,對兩個(gè)樣品間的差異基因進(jìn)行GO功能富集分析及pathway 功能分析。

高通量測序生物信息學(xué)分析

圖12 Bisulfite Sequencing原理

Bisulfite Sequencing分析內(nèi)容包括:

1 Bisulfite-seq序列與參考序列的比對。

2 深度和覆蓋度分析:C堿基有效測序深度的累積分布,不同reads 測序深度下的基因組覆蓋度。

3 計(jì)算C堿基的甲基化水平。

4 全基因組甲基化數(shù)據(jù)分布趨勢分析:甲基化C堿基中CG, CHG 與CHH的分布比例(H=A、C or T),CG、CHG和CHH中的所有C的甲基化水平,各條染色體中CG、CHG和CHH中C的甲基化水平(該項(xiàng)分析目前只用于“人”),統(tǒng)計(jì)不同基因區(qū)域內(nèi)CG、CHG和CHH中C的甲基化水平,不同基因元件區(qū)域中CG、CHG和CHH中C的甲基化水平,CHG,CHH中甲基化C附近的9bp序列的序列特征分析。

5 全基因組DNA 甲基化圖譜:染色體水平的甲基化C堿基的密度分布(該項(xiàng)分析目前只用于“人”),Scaffold的甲基化C堿基密度分布(該項(xiàng)分析針對物種:非人),不同基因組區(qū)域的甲基化分布特征,基因組不同轉(zhuǎn)錄元件中的DNA甲基化水平。

6 差異甲基化區(qū)域(DMR)分析。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    駱文生物誠聘生物醫(yī)學(xué)人才

    ;2) 熱愛文字編輯工作3) 有較強(qiáng)的科研能力4) 具有寫作及發(fā)表生物醫(yī)學(xué)論文經(jīng)驗(yàn)者優(yōu)先;5)優(yōu)異的英語語言寫作能力,英語過六級(jí);招聘崗位:高級(jí)生物信息學(xué)工程師職位職責(zé):1) 對生物學(xué)高通量
    發(fā)表于 05-20 09:11

    生物信息學(xué)算法導(dǎo)論(腦控技術(shù)叢書)

    生物信息學(xué)算法導(dǎo)論(腦控技術(shù)叢書)
    發(fā)表于 02-19 14:21

    高通量測序數(shù)據(jù)分析:RNA-seq 精選資料分享

    的DNA序列及其注釋 GEO (Gene Expression Omnibus):收集整理各種表達(dá)芯片數(shù)據(jù),后來加入了甲基化、lncRNA、miRNA、CNV等其他芯片,還有高通量測序數(shù)據(jù)...
    發(fā)表于 07-26 07:30

    全基因組測序的優(yōu)勢 精選資料分享

    基因組測序,并綜合利用不同測序技術(shù)和生物信息學(xué)工具對研究物種進(jìn)行序列拼接和修正,進(jìn)而獲得該物種的基因組序列圖譜。第二種為常見的全基因組重測序,是對已知基因組序列的物種進(jìn)行個(gè)體或群體的
    發(fā)表于 07-29 08:31

    高通量測序技術(shù)及原理介紹

    高通量測序技術(shù)(High-throughput sequencing)又稱“下一代”測序技術(shù)(“Next-generation” sequencing technology),以能一次并行對幾十萬到幾百萬條DNA分子進(jìn)行序列測定
    的頭像 發(fā)表于 02-28 13:49 ?8.3w次閱讀

    高通量測序常用名詞匯總

    高通量測序技術(shù)是對傳統(tǒng)測序一次革命性的改變,一次對幾十萬到幾百萬條DNA分子進(jìn)行序列測定,因此在有些文獻(xiàn)中稱其為下一代測序技術(shù)足見其劃時(shí)代的改變,同時(shí)
    的頭像 發(fā)表于 02-28 14:05 ?3836次閱讀

    高通量測序技術(shù)及其應(yīng)用

    目前,所說的高通量測序技術(shù)主要是指454Lifescience公司、ABI公司和Illumian公司推出的第二代測序技術(shù)以及HelicosHeliscopeTM和PacificBiosciences
    的頭像 發(fā)表于 02-28 14:24 ?1.5w次閱讀
    <b class='flag-5'>高通量</b><b class='flag-5'>測序</b>技術(shù)及其應(yīng)用

    高通量基因測序是什么_高通量測序的意義

    “普通的基因測序”應(yīng)該是指“常規(guī)DNA測序”吧,是用Sanger法進(jìn)行測序的方法。高通量測序的概念其實(shí)是一個(gè)相對的概念,在2000年的時(shí)候,
    的頭像 發(fā)表于 02-28 15:49 ?4w次閱讀

    Clay Breshears博士討論基因組測序生物信息學(xué)

    英特爾?黑帶軟件開發(fā)人員Clay Breshears博士討論了他目前如何在英特爾?健康與生命科學(xué)小組中使用基因組測序生物信息學(xué)。
    的頭像 發(fā)表于 11-07 06:07 ?2547次閱讀

    什么是高通量單細(xì)胞RNA測序技術(shù)?

    自2009年湯富酬研究員在Nature Methods首次報(bào)道其開創(chuàng)性工作以來,單細(xì)胞RNA測序技術(shù)在生物醫(yī)學(xué)領(lǐng)域,尤其是發(fā)育生物學(xué)和干細(xì)胞研究中展現(xiàn)出強(qiáng)大的應(yīng)用前景。隨著單細(xì)胞轉(zhuǎn)錄組擴(kuò)增方法的不斷優(yōu)化和核酸
    的頭像 發(fā)表于 04-25 13:50 ?9714次閱讀

    廈門大學(xué)研發(fā)出全新高通量單細(xì)胞轉(zhuǎn)錄組測序方法

    針對上述挑戰(zhàn),楊朝勇教授課題組開發(fā)了一種全新的高通量單細(xì)胞轉(zhuǎn)錄組測序新方法(Paired-seq)。Paired-seq通過將高效單細(xì)胞捕獲操控微流控芯片與DNA編碼微珠技術(shù)相結(jié)合,一次測序即可完成對成百上千個(gè)單細(xì)胞轉(zhuǎn)錄組的同時(shí)
    的頭像 發(fā)表于 06-02 11:06 ?3503次閱讀

    披荊斬棘,乘風(fēng)破浪——真邁生物高通量基因測序儀GenoLab發(fā)布

    自2005年首款高通量基因測序儀上市以來,基因測序平臺(tái)便成為了全產(chǎn)業(yè)鏈中規(guī)模最大、技術(shù)門檻最高、最關(guān)鍵的環(huán)節(jié)。隨著醫(yī)療健康行業(yè)對基因測序設(shè)備需求的持續(xù)增長,基因
    的頭像 發(fā)表于 10-21 16:54 ?2362次閱讀

    用NVIDIA Clara Parabricks v4.0大眾化和加速基因組測序分析

    計(jì)算生物學(xué)領(lǐng)域依賴于快速、準(zhǔn)確和易于使用的生物信息學(xué)工具。隨著下一代測序( NGS )的速度越來越快、成本越來越低,數(shù)據(jù)洪流正在出現(xiàn),人們對可訪問、高通量、行業(yè)標(biāo)準(zhǔn)
    的頭像 發(fā)表于 10-11 14:18 ?1890次閱讀

    使用北鯤云在AWS上運(yùn)行基因分析HPC任務(wù)

    背景 近三十年來,生命科學(xué)與計(jì)算科學(xué)飛速發(fā)展。生物信息學(xué)是一門生命科學(xué)與計(jì)算科學(xué)的前沿交叉學(xué)科。生物信息學(xué)產(chǎn)生和迅猛發(fā)展的主要推動(dòng)力來自于新一代測序高通量技術(shù)在生命科學(xué)領(lǐng)域越來越廣泛
    的頭像 發(fā)表于 11-16 13:57 ?585次閱讀
    使用北鯤云在AWS上運(yùn)行基因<b class='flag-5'>分析</b>HPC任務(wù)

    高通量測序技術(shù)及原理介紹

    高通量測序技術(shù)是生物學(xué)領(lǐng)域中一種重要的分析工具,它可以快速、準(zhǔn)確地測定DNA序列或RNA序列。高通量測序
    的頭像 發(fā)表于 02-03 14:46 ?1.1w次閱讀