背景簡(jiǎn)介
細(xì)菌全基因組具有相對(duì)較小、重復(fù)序列較高、易于突變等特點(diǎn),通過(guò)全基因組測(cè)序,可以對(duì)細(xì)菌基因組進(jìn)行測(cè)序、拼接、組裝,獲得完整細(xì)菌基因信息。細(xì)菌de novo測(cè)序已取代傳統(tǒng)方法成為研究細(xì)菌進(jìn)化遺傳機(jī)制、關(guān)鍵功能基因的重要工具。目前,細(xì)菌全基因組測(cè)序利用三代測(cè)序結(jié)合二代測(cè)序的方法可以得到0 Gap的完整的基因組序列;對(duì)其進(jìn)行功能基因注釋以及個(gè)性化分析,全面解析細(xì)菌生物學(xué)意義。
技術(shù)優(yōu)勢(shì)
實(shí)驗(yàn)安排靈活、服務(wù)周期短、速度快
測(cè)序結(jié)果準(zhǔn)確性更高、成本更低
豐富的項(xiàng)目經(jīng)驗(yàn)與專業(yè)的生信分析團(tuán)隊(duì),提供最全面準(zhǔn)確的信息分析
技術(shù)路線
分析內(nèi)容
樣本類型
DNA送樣:
DNA濃度 ≥20ng/μl(Qubit),DNA質(zhì)量≥15ug(Qubit)DNA電泳條帶單一,無(wú)明顯降解。
菌體送樣:
收集生長(zhǎng)對(duì)數(shù)期菌體,收集離心菌體數(shù)3×1010個(gè),于無(wú)菌離心管中,液氮速凍,干冰運(yùn)輸
Q1:為何完成圖選擇三代測(cè)序平臺(tái)?
A:受測(cè)序片段長(zhǎng)度的限制,細(xì)菌基因組序列通常需要利用軟件算法將大量測(cè)序片段拼接起來(lái),而細(xì)菌基因組中重復(fù)序列的存在,則會(huì)大大增加拼接的復(fù)雜度。細(xì)菌重復(fù)序列的大小從幾百bp到7 Kb不等,細(xì)菌框架圖的插入片段,只能解決少量的重復(fù)片段問(wèn)題,因此組裝結(jié)果更加碎片化;細(xì)菌精細(xì)圖采用了6 Kb大片段文庫(kù),可以跨過(guò)絕大部分重復(fù)序列,并將結(jié)果Scaffold控制在30條以內(nèi);而三代測(cè)序采用了10 Kb文庫(kù),平均讀長(zhǎng)也達(dá)到10 Kb以上,由于序列夠長(zhǎng),避免了細(xì)菌基因組中重復(fù)序列的影響,因此能夠獲得0 gap的完整組裝結(jié)果。
Q2:對(duì)于細(xì)菌基因組測(cè)序,三代和二代測(cè)序相比有何優(yōu)勢(shì)?
A:三代測(cè)序相比二代測(cè)序而言,其優(yōu)勢(shì)在于讀長(zhǎng)長(zhǎng),GC含量影響小,而劣勢(shì)是測(cè)序成本偏高。對(duì)于細(xì)菌基因組測(cè)序來(lái)說(shuō),三代測(cè)序的長(zhǎng)讀長(zhǎng)可以解決細(xì)菌中的重復(fù)序列問(wèn)題,也避免了異常GC菌株的測(cè)序不均勻問(wèn)題。由于細(xì)菌基因組較小,需要的測(cè)序量不大,對(duì)于較為精細(xì)的細(xì)菌完成圖來(lái)說(shuō),三代成本甚至低于二代結(jié)合一代的策略。目前為止,在需要組裝完整性較低的細(xì)菌框架圖層面,二代測(cè)序仍能保持一定成本優(yōu)勢(shì)。隨著三代測(cè)序通量提升和成本降低,未來(lái)三代測(cè)序有望在細(xì)菌基因組領(lǐng)域獲得更廣泛的應(yīng)用。
Q3:細(xì)菌基因組中如何預(yù)測(cè)核糖體rDNA基因?
A:預(yù)測(cè)細(xì)菌基因組中的核糖體rDNA基因,通常有兩種方法:一是通過(guò)rDNA序列結(jié)構(gòu)特征進(jìn)行de novo 預(yù)測(cè),二是利用近緣rDNA序列進(jìn)行同源預(yù)測(cè)。其中前者預(yù)測(cè)更準(zhǔn)確,但是需要組裝結(jié)果中具備完整的rDNA結(jié)構(gòu)。在框架圖和部分精細(xì)圖組裝結(jié)果中,可能有rDNA區(qū)域組裝不完整,分布于多條scaffold中的情況,會(huì)導(dǎo)致de novo 測(cè)序方法rDNA預(yù)測(cè)不到的情況。如果想要獲得更完整的預(yù)測(cè)結(jié)果,可以預(yù)先提供近緣rDNA序列,使用同源預(yù)測(cè)方法,以改善預(yù)測(cè)效果。
通過(guò)單分子實(shí)時(shí)測(cè)序解析可降解氰化物的產(chǎn)堿假單胞菌CECT5344基因組完成圖和甲基化情況
研究背景
產(chǎn)堿假單胞桿菌CECT5344在耐受氰化物的同時(shí),還可以在堿性條件下利用氰化物和氰基衍生物作為氮源,極可能作為含氰液體廢液污染的生境的生物修復(fù)菌。之前已經(jīng)有該菌株的基因組序列信息,現(xiàn)在采用單分子實(shí)時(shí)監(jiān)測(cè)序列技術(shù)(SMAT)對(duì)其基因組進(jìn)行重測(cè)序,得到由GC含量為62.34 %,長(zhǎng)4696,984 bp的完整基因組序列。重測(cè)序得到的基因組補(bǔ)充了原來(lái)基因組中遺漏的部分片段信息,這些遺漏的片段多為轉(zhuǎn)座因子,此外還發(fā)現(xiàn)了預(yù)測(cè)在亞砜還原中起作用的5個(gè)基因。CECT5344的基因序列與門多薩假單胞菌高度同源,兩者約有70%的基因是相同的。與門多薩假單胞菌不同,CECT5344中并沒(méi)有發(fā)現(xiàn)推斷的致病性基因。CECT5344擁有氰水解酶和汞抗性蛋白的獨(dú)特基因,這些對(duì)被氰基和汞化合物污染的環(huán)境緩解尤為重要。通過(guò)SMAT測(cè)序還可以得到菌株的m6A類型的甲基化信息。菌株CECT5344的完整基因組序列為生物學(xué)遺傳特征的研究提供了基礎(chǔ)。
方法流程
研究結(jié)果
對(duì)CECT5344和門多薩假單胞菌基因組比對(duì),對(duì)兩者的基因結(jié)構(gòu)關(guān)系進(jìn)行了研究,圖 4-1中用線連接的色塊表示兩個(gè)基因組的同源區(qū)域,最下方的色塊代表門多薩假單胞菌基因組中與CECT5344基因組反向的區(qū)段。
圖 4-2為完整的菌株基因組和甲基化堿基分布圖,基因組由4,696,984個(gè)堿基對(duì)和4436個(gè)預(yù)測(cè)的編碼序列組成。圓圈從內(nèi)到外分別代表:GC偏斜、GC含量、50 kb窗口分析的全基因組甲基化、每個(gè)基因的鏈特異性甲基化、每百萬(wàn)堿基對(duì)甲基化的量。
使用REBASE數(shù)據(jù)庫(kù)尋找到CECT5344基因組中編碼甲基轉(zhuǎn)移酶的基因,共鑒定預(yù)測(cè)了9個(gè)限制/修飾基因的基因座。圖 4-3中顏色代碼表示不同的限制/修飾類型,藍(lán)色的為甲基化酶,紅色為限制性酶。最內(nèi)層為菌株的基因組完整圖和開放閱讀框的數(shù)目。
參考文獻(xiàn)
Daniel Wibberga, Andreas Bremgesb, Tanja Dammann-Kalinowskia,et al.Finished genome sequence and methylome of the cyanide-degradingPseudomonas pseudoalcaligenes strain CECT5344 as resolved bysingle-molecule real-time-sequencing.Journal of Biotechnology, 2016, 232:61-68.
原始數(shù)據(jù)堿基組成分布例圖橫坐標(biāo)是reads 堿基坐標(biāo),縱坐標(biāo)是所有reads 的A、C、 G、T、N 堿基分別占的百分比。每個(gè)位置上,A、C、G、 T在開始有所波動(dòng),后面會(huì)趨于穩(wěn)定。一般情況下A 與T 相 等,C與G相等,各堿基所占百分比會(huì)因物種差異而不同。 基因組項(xiàng)目中,建庫(kù)比較均勻的情況下,代表不同堿基的 四種顏色的分界線應(yīng)該波動(dòng)極小。
原始數(shù)據(jù)堿基質(zhì)量分布例圖橫坐標(biāo)是reads 堿基坐標(biāo),縱坐標(biāo)是reads 的堿基質(zhì)量(SolexaScale: 40=Highest, - 15=Lowest),圖中垂直紅線”Ⅰ”指定的范圍是所有reads 堿基的綜合質(zhì)量,紅色垂直方塊是質(zhì)量的四分位值范圍,加黑粗線是質(zhì)量值的中位數(shù)。
單分子Clean 數(shù)據(jù)序列的長(zhǎng)度分布統(tǒng)計(jì)圖橫坐標(biāo)為測(cè)序reads 的長(zhǎng)度,縱坐標(biāo)為不同長(zhǎng)度reads的數(shù)目,從上圖中可以看出,本次測(cè)序獲得的reads的長(zhǎng)度大小主要集中分布在5000-15000bp,測(cè)序質(zhì)量較高。