背景簡介
細(xì)菌全基因組具有相對較小、重復(fù)序列較高、易于突變等特點(diǎn),通過全基因組測序,可以對細(xì)菌基因組進(jìn)行測序、拼接、組裝,獲得完整細(xì)菌基因信息。細(xì)菌de novo測序已取代傳統(tǒng)方法成為研究細(xì)菌進(jìn)化遺傳機(jī)制、關(guān)鍵功能基因的重要工具。目前,細(xì)菌全基因組測序利用三代測序結(jié)合二代測序的方法可以得到0 Gap的完整的基因組序列;對其進(jìn)行功能基因注釋以及個性化分析,全面解析細(xì)菌生物學(xué)意義。
技術(shù)優(yōu)勢
實(shí)驗(yàn)安排靈活、服務(wù)周期短、速度快
測序結(jié)果準(zhǔn)確性更高、成本更低
豐富的項(xiàng)目經(jīng)驗(yàn)與專業(yè)的生信分析團(tuán)隊(duì),提供最全面準(zhǔn)確的信息分析
技術(shù)路線
分析內(nèi)容
樣本類型
DNA送樣:
DNA濃度 ≥20ng/μl(Qubit),DNA質(zhì)量≥15ug(Qubit)DNA電泳條帶單一,無明顯降解。
菌體送樣:
收集生長對數(shù)期菌體,收集離心菌體數(shù)3×1010個,于無菌離心管中,液氮速凍,干冰運(yùn)輸
Q1:為何完成圖選擇三代測序平臺?
A:受測序片段長度的限制,細(xì)菌基因組序列通常需要利用軟件算法將大量測序片段拼接起來,而細(xì)菌基因組中重復(fù)序列的存在,則會大大增加拼接的復(fù)雜度。細(xì)菌重復(fù)序列的大小從幾百bp到7 Kb不等,細(xì)菌框架圖的插入片段,只能解決少量的重復(fù)片段問題,因此組裝結(jié)果更加碎片化;細(xì)菌精細(xì)圖采用了6 Kb大片段文庫,可以跨過絕大部分重復(fù)序列,并將結(jié)果Scaffold控制在30條以內(nèi);而三代測序采用了10 Kb文庫,平均讀長也達(dá)到10 Kb以上,由于序列夠長,避免了細(xì)菌基因組中重復(fù)序列的影響,因此能夠獲得0 gap的完整組裝結(jié)果。
Q2:對于細(xì)菌基因組測序,三代和二代測序相比有何優(yōu)勢?
A:三代測序相比二代測序而言,其優(yōu)勢在于讀長長,GC含量影響小,而劣勢是測序成本偏高。對于細(xì)菌基因組測序來說,三代測序的長讀長可以解決細(xì)菌中的重復(fù)序列問題,也避免了異常GC菌株的測序不均勻問題。由于細(xì)菌基因組較小,需要的測序量不大,對于較為精細(xì)的細(xì)菌完成圖來說,三代成本甚至低于二代結(jié)合一代的策略。目前為止,在需要組裝完整性較低的細(xì)菌框架圖層面,二代測序仍能保持一定成本優(yōu)勢。隨著三代測序通量提升和成本降低,未來三代測序有望在細(xì)菌基因組領(lǐng)域獲得更廣泛的應(yīng)用。
Q3:細(xì)菌基因組中如何預(yù)測核糖體rDNA基因?
A:預(yù)測細(xì)菌基因組中的核糖體rDNA基因,通常有兩種方法:一是通過rDNA序列結(jié)構(gòu)特征進(jìn)行de novo 預(yù)測,二是利用近緣rDNA序列進(jìn)行同源預(yù)測。其中前者預(yù)測更準(zhǔn)確,但是需要組裝結(jié)果中具備完整的rDNA結(jié)構(gòu)。在框架圖和部分精細(xì)圖組裝結(jié)果中,可能有rDNA區(qū)域組裝不完整,分布于多條scaffold中的情況,會導(dǎo)致de novo 測序方法rDNA預(yù)測不到的情況。如果想要獲得更完整的預(yù)測結(jié)果,可以預(yù)先提供近緣rDNA序列,使用同源預(yù)測方法,以改善預(yù)測效果。
通過單分子實(shí)時測序解析可降解氰化物的產(chǎn)堿假單胞菌CECT5344基因組完成圖和甲基化情況
研究背景
產(chǎn)堿假單胞桿菌CECT5344在耐受氰化物的同時,還可以在堿性條件下利用氰化物和氰基衍生物作為氮源,極可能作為含氰液體廢液污染的生境的生物修復(fù)菌。之前已經(jīng)有該菌株的基因組序列信息,現(xiàn)在采用單分子實(shí)時監(jiān)測序列技術(shù)(SMAT)對其基因組進(jìn)行重測序,得到由GC含量為62.34 %,長4696,984 bp的完整基因組序列。重測序得到的基因組補(bǔ)充了原來基因組中遺漏的部分片段信息,這些遺漏的片段多為轉(zhuǎn)座因子,此外還發(fā)現(xiàn)了預(yù)測在亞砜還原中起作用的5個基因。CECT5344的基因序列與門多薩假單胞菌高度同源,兩者約有70%的基因是相同的。與門多薩假單胞菌不同,CECT5344中并沒有發(fā)現(xiàn)推斷的致病性基因。CECT5344擁有氰水解酶和汞抗性蛋白的獨(dú)特基因,這些對被氰基和汞化合物污染的環(huán)境緩解尤為重要。通過SMAT測序還可以得到菌株的m6A類型的甲基化信息。菌株CECT5344的完整基因組序列為生物學(xué)遺傳特征的研究提供了基礎(chǔ)。
方法流程
研究結(jié)果
對CECT5344和門多薩假單胞菌基因組比對,對兩者的基因結(jié)構(gòu)關(guān)系進(jìn)行了研究,圖 4-1中用線連接的色塊表示兩個基因組的同源區(qū)域,最下方的色塊代表門多薩假單胞菌基因組中與CECT5344基因組反向的區(qū)段。
圖 4-2為完整的菌株基因組和甲基化堿基分布圖,基因組由4,696,984個堿基對和4436個預(yù)測的編碼序列組成。圓圈從內(nèi)到外分別代表:GC偏斜、GC含量、50 kb窗口分析的全基因組甲基化、每個基因的鏈特異性甲基化、每百萬堿基對甲基化的量。
使用REBASE數(shù)據(jù)庫尋找到CECT5344基因組中編碼甲基轉(zhuǎn)移酶的基因,共鑒定預(yù)測了9個限制/修飾基因的基因座。圖 4-3中顏色代碼表示不同的限制/修飾類型,藍(lán)色的為甲基化酶,紅色為限制性酶。最內(nèi)層為菌株的基因組完整圖和開放閱讀框的數(shù)目。
參考文獻(xiàn)
Daniel Wibberga, Andreas Bremgesb, Tanja Dammann-Kalinowskia,et al.Finished genome sequence and methylome of the cyanide-degradingPseudomonas pseudoalcaligenes strain CECT5344 as resolved bysingle-molecule real-time-sequencing.Journal of Biotechnology, 2016, 232:61-68.
原始數(shù)據(jù)堿基組成分布例圖橫坐標(biāo)是reads 堿基坐標(biāo),縱坐標(biāo)是所有reads 的A、C、 G、T、N 堿基分別占的百分比。每個位置上,A、C、G、 T在開始有所波動,后面會趨于穩(wěn)定。一般情況下A 與T 相 等,C與G相等,各堿基所占百分比會因物種差異而不同。 基因組項(xiàng)目中,建庫比較均勻的情況下,代表不同堿基的 四種顏色的分界線應(yīng)該波動極小。
原始數(shù)據(jù)堿基質(zhì)量分布例圖橫坐標(biāo)是reads 堿基坐標(biāo),縱坐標(biāo)是reads 的堿基質(zhì)量(SolexaScale: 40=Highest, - 15=Lowest),圖中垂直紅線”Ⅰ”指定的范圍是所有reads 堿基的綜合質(zhì)量,紅色垂直方塊是質(zhì)量的四分位值范圍,加黑粗線是質(zhì)量值的中位數(shù)。
單分子Clean 數(shù)據(jù)序列的長度分布統(tǒng)計(jì)圖橫坐標(biāo)為測序reads 的長度,縱坐標(biāo)為不同長度reads的數(shù)目,從上圖中可以看出,本次測序獲得的reads的長度大小主要集中分布在5000-15000bp,測序質(zhì)量較高。