復(fù)制轉(zhuǎn)錄翻譯的模板-RNA-seq基礎(chǔ)知識
日期:2023-03-11 12:39:36 / 人氣: 1202 / 發(fā)布者:成都翻譯公司
id,例如對于可以翻譯成蛋白的轉(zhuǎn)錄本,都會以NM_開頭如NM_015658;對于不能翻譯的轉(zhuǎn)錄本,都會以NR_開頭如NR_027055;不同注釋的情況如下圖(ps:注釋的數(shù)據(jù)庫來源不一樣,編號不一樣)gene注釋;對gene的不同轉(zhuǎn)錄本進(jìn)行注釋,一般是類似uc004cpf這樣的名稱。單端測序和雙端測序
單端測序只有一個測序引物,所以PCR只能沿著這個引物的方向進(jìn)行,所有的reads只能在一個方向上讀取。但是,測序的質(zhì)量會隨著測序的進(jìn)行而下降,因此隨著測序的進(jìn)行,reads會更加不準(zhǔn)確。一種解決方案是雙端測序。對于500 bp的序列,單端測序的下游質(zhì)量會很差,但是從兩個方向測量250 bp-300 bp,然后將它們拼接在一起可以大大提高測序。準(zhǔn)確率。雙端測序接頭的序列更復(fù)雜。首先,要分別進(jìn)行兩個方向的測序,需要兩個不同方向的測序引物(下圖中的Rd1 SP和Rd2 SP);其次,為了區(qū)分兩個方向的reads,
雙端測序中每個單獨(dú)的Read的長度是整個待測序列的一半以上,因此可以根據(jù)兩個Reads的重疊部分進(jìn)行拼接
為什么會有雙端這樣的技術(shù)發(fā)明?
①假設(shè)一個DNA片段剛好跨越了重復(fù)序列區(qū)(下圖左側(cè))和唯一序列區(qū)(下圖右側(cè))。如果只讀取Single-Read,只會得到紅色實線的串口信息,即ATATTATAT。接下來,當(dāng)我們想要將這個read與參考基因組進(jìn)行比較時,就會出現(xiàn)一個問題:這個read是來自紅色實線的位置還是紅色虛線的位置?我們可以使用 Paired-end 技術(shù)來解決這個問題。由于Paired-end read之間的距離是已知的(這里我們設(shè)置為34bp),我們可以先定位綠色read的位置,正確定位左邊紅色read之間的AT位置,不要誤會。在紅色虛線位置判斷。如下所示:
②由于單端測量的錯誤率太長,錯誤率會增加,像第一代測序一樣,可以測量幾百個bp的長度,但序列越晚,條帶越混雜,不清楚。二代測序也是如此。, 600bp 的單端測量會很不準(zhǔn)確,雙端 300bp 測序會準(zhǔn)確得多。
路口
序列可能有 4 到 500 bp 長,每邊有 120-150 bp。結(jié)點是雙端測序中間未檢測到的區(qū)域。
基因豐度和基因表達(dá)豐度
基因豐度是指基因組中基因的拷貝數(shù)。基因豐度高,也就是這個基因的數(shù)量多,那么這個基因的表達(dá)量也可能高,但不一定,主要看基因啟動子的強(qiáng)弱。因此,高基因豐度并不意味著高表達(dá)豐度。
高基因表達(dá)豐度意味著基因轉(zhuǎn)錄成更多的mRNA復(fù)制轉(zhuǎn)錄翻譯的模板都相同,進(jìn)而表達(dá)更多的蛋白質(zhì),對表型的影響更大。
成績單
轉(zhuǎn)錄本是一種或多種成熟的mRNA復(fù)制轉(zhuǎn)錄翻譯的模板都相同,可以編碼基因轉(zhuǎn)錄形成的蛋白質(zhì),一個基因可以通過不同的內(nèi)含子剪接形成不同的轉(zhuǎn)錄本。轉(zhuǎn)錄組由許多轉(zhuǎn)錄本組裝而成。
RNA和DNA測序的區(qū)別
測序深度和測序覆蓋率
對長度為100bp的目標(biāo)區(qū)域進(jìn)行測序:采用單端測序,每個read長度為5bp;共獲得 200 個讀數(shù);所有reads與target region進(jìn)行比較后,100bp的target region中至少有1個位置98bp的位置被1個read覆蓋,也就是說剩下的2bp沒有被1個read覆蓋。
深度:200 x 5/100 = 10 我們說這個排序的深度是 10X。
覆蓋率:98/100 × 100% = 98% 我們說這個測序的覆蓋率是98%
測序深度越高,基因覆蓋率越高。當(dāng)普通人的測序深度達(dá)到10x時,基因覆蓋率為100%,測序深度飽和,增加測序深度沒有效果。
刀片尺寸
通過檢測雙端測序的起始和終止位置,可以得到插入片段的長度,從而決定了測序的長度。
引物和適配器
提取基因組DNA后,通過超聲或酶切中斷,然后跑膠,得到300-500 bp的小片段。因為打斷是隨機(jī)打斷的,可能會有粘端,所以要用酶來形成平端。在平端后加入A堿基得到粘端,將接頭加入流通池,進(jìn)行幾輪PCR擴(kuò)增得到測序文庫。接頭由三部分組成,依次是與流動池結(jié)合的寡聚體、樣品索引和測序所需的引物預(yù)聚體。
測序時,先將測序引物與序列結(jié)合,然后邊合成邊進(jìn)行測序(接一個堿基,測一次,然后進(jìn)行化學(xué)反應(yīng),接上堿基,再測序,如此循環(huán)下去),然后測量長度。, 去掉合成的序列,再加入一個premer來測index,讓每個read都有一個index(用來識別樣品的來源),然后進(jìn)行橋式PCR擴(kuò)增,去掉已經(jīng)被測的序列chain,然后再次測序。
需要注意的一點是,當(dāng)插入的序列(即被超聲打斷的小片段)比較短,或者文庫的插入片段短于序列的read長度時,可能會測到premer和index,所以在獲取到數(shù)據(jù)之后,就要去聯(lián)合了。
索引:每個樣本被索引修改,得到的reads也包含索引。根據(jù)索引可以知道雙端測序是否來自同一個樣本。
特定鏈庫
正鏈/負(fù)鏈:對于基因來說,兩條DNA鏈之一作為RNA合成的模板。這條鏈稱為負(fù)鏈(模板鏈/反義鏈),另一條稱為正鏈(非模板鏈/正義鏈)。
反義鏈/有義鏈:在雙鏈DNA中,用于轉(zhuǎn)錄mRNA的DNA鏈稱為模板鏈,不用于轉(zhuǎn)錄的鏈稱為非模板鏈。根據(jù)堿基互補(bǔ)配對原理,轉(zhuǎn)錄的mRNA鏈的堿基序列與非模板鏈的堿基序列相同。唯一的區(qū)別是非模板鏈中的T被mRNA鏈中的U取代,因此非模板鏈也稱為編碼鏈或有義鏈。
鏈特異性:鏈特異性構(gòu)建了一個庫,可以確定轉(zhuǎn)錄物是來自正鏈還是負(fù)鏈。以獲得更準(zhǔn)確的基因結(jié)構(gòu)和基因表達(dá)信息。并且可以更好地發(fā)現(xiàn)新基因。(研究表明,許多基因組區(qū)域都有轉(zhuǎn)錄的正鏈和負(fù)鏈。反義轉(zhuǎn)錄是真核基因的一個特征,也是一種重要的調(diào)控方式。對于原核和低等真核生物的基因組,往往存在重疊基因。
為什么Illumina限制了合成鏈的長度,不能像Sanger法那樣長到1k?
原因在于二代測序的額外PCR過程:每個位點都要進(jìn)行多次測試。例如,一段時間后通過PCR得到的每個簇包含200個相同的序列,因此需要檢查這200個序列。序列的相同位點被測序。
在第一輪中,我們將測試第一個位置(假設(shè)位置 1 是 A)。正常情況下,200個序列應(yīng)該加A堿基,可惜只有199個在1位加了A堿基。1個序列沒加,所以有199個紅色和1個灰色【當(dāng)然還是沒有影響】;
第二輪(假設(shè)位置2為G),每個人都要加G來測量果嶺,但是前一個沒有加A,而且他要彌補(bǔ)之前的錯誤,所以在給其他序列加G的時候,就加了加了上次應(yīng)該加的A,就變紅了。這種紅色在一大群綠色中以噪音的形式存在。依次向下,測序長度越長,噪聲信號越多,標(biāo)準(zhǔn)信號和噪聲信號可能各減半。這樣系統(tǒng)就無法判斷,只能給出N,如果N太多,后續(xù)的分析處理就會很麻煩。去丟數(shù)據(jù),不去,又是多余的。
基因注釋
① RefSeq 基因注釋;來自 NCBI,注釋基因的不同轉(zhuǎn)錄本。一個轉(zhuǎn)錄本對應(yīng)一個數(shù)字并成為 RefSeq id。例如,可以翻譯成蛋白質(zhì)的轉(zhuǎn)錄本會以NM_開頭,例如NM_015658;對于不可翻譯的成績單,的成績單,會以NR_開頭,比如NR_027055;不同注解的情況如下圖(ps:注解庫來源不同,數(shù)量不同)
②Ensembl annotation:對基因的不同轉(zhuǎn)錄本進(jìn)行注釋。以 ENSG 開頭的 Ensembl gene_id 表示 Ensembl gene_id,例如 ENSG,Ensembl 轉(zhuǎn)錄本 id 以 ENST 開頭表示 Ensembl 轉(zhuǎn)錄本 id,例如 ENST。
③ UCSC 基因注釋:對基因的不同轉(zhuǎn)錄本進(jìn)行注釋,通常名稱類似于uc004cpf。
反向互補(bǔ)序列的含義
生物DNA序列有兩條鏈。雖然網(wǎng)站在查看基因組序列時一般都會提供正向鏈,但不同基因在基因組序列中的轉(zhuǎn)錄起始方向是不同的。有的基因在等待,有的則是停留在相反的方向。當(dāng)需要查看轉(zhuǎn)錄方向與正向鏈相反的基因的序列時,如果要查找該基因的啟動子(ATG),則需要查看正向鏈的反向互補(bǔ)序列。
此外,從基因組中擴(kuò)增序列時,需要同時設(shè)計兩條鏈的引物。這時候還需要正向序列和反向互補(bǔ)序列。
有許多基因調(diào)控同時作用于兩條鏈。反向互補(bǔ)序列是根據(jù)另一條鏈的信息計算一條鏈的信息。
軌跡
基因座可以是基因、基因的一部分,也可以是具有一定調(diào)控作用的DNA序列?;蜃侨旧w上的固定位置,編碼相同基因座的相同DNA稱為等位基因。同一基因座的相同等位基因是純合子,同一基因座的不同等位基因是雜合子。
基因異構(gòu)體
亞型/同種型可以理解為基因的不同形式,即同一基因座產(chǎn)生的mRNA。轉(zhuǎn)錄起始位點(TSS)、編碼蛋白序列和非翻譯區(qū)存在差異。間接改變了基因的功能。
圖中1、2、3為mRNA的三個外顯子。由于連接方法不同,產(chǎn)生了三種同工型。
基因異構(gòu)體
可變剪切
大多數(shù)真核基因轉(zhuǎn)錄產(chǎn)生的mRNA前體,一般都是以一種方式剪接產(chǎn)生一種mRNA,結(jié)果只產(chǎn)生一種蛋白質(zhì)。然而,一些基因產(chǎn)生的mRNA前體可以通過不同的方式拼接產(chǎn)生兩種以上的mRNA。
編碼蛋白質(zhì)的成熟 mRNA 是已剪接的前體 mRNA。外顯子可以按其線性順序拼接,內(nèi)含子可以保留而不被切除。因此,成熟mRNA中不一定存在每個外顯子和內(nèi)含子。
有5種類型:外顯子跳躍、內(nèi)含子保留、3、 5'端可變剪接、3'端可變剪接、特定外顯子可變剪接(如第一個或*后一個外顯子)。
普通翻譯
外顯子跳躍
3'可變剪裁
5'可變剪裁
分析的障礙
(1)衡量標(biāo)準(zhǔn):為了比較誰多誰少,一般采用相對定量的分析方法。但是,相同的絕對量對于不同的基數(shù)會有不同的相對值。例如,第一次A和B基因在第二次測量中的表達(dá)水平為10,那么此時A基因的豐度為10/(10+10)=50%;A、B、C的表達(dá)量在第二次測量中是 10 ,那么這次A的豐度變成了33.3%,但是能不能說第二次A基因表達(dá)的豐度比第一次低呢?所以,只看表面數(shù)字,并不能反映實際問題。
(2)測量方法:目前用于轉(zhuǎn)錄組測序的二代測序仍然測量一小部分DNA。由于可變剪切,一般都會去除內(nèi)含子,拼接不同的外顯子,但畢竟它們“同門研究”,所以得到的成績單是相似的,就像由1、2組成的成績單a和由1、3組成的成績單b都包含3,所以你必須是更多很難將一個短段落與原始抄本進(jìn)行比較(例如,如果一個閱讀滿足 3 的一小部分,那么這個閱讀屬于抄本 a 還是抄本 b?)
(3)測量對象:mRNA不如DNA穩(wěn)定,容易降解,因此其豐度一直在變化。因此,測量轉(zhuǎn)錄組之前需要這個時間節(jié)點,以確保觀察到變化,而這個變化與實驗條件是相關(guān)的。一般來說,為了證明這一點,需要對處于一種狀態(tài)的樣品進(jìn)行多次測量,即做的重復(fù)。差異基因的測定還必須通過duplication,即在一個條件下多次重復(fù)得到的值,標(biāo)準(zhǔn)條件下多次重復(fù)的值存在差異,所以認(rèn)為這個差異基因是有效的。建議至少設(shè)置3次重復(fù),并且五更好。
切感對比
有許多測序讀數(shù)來自兩個外顯子的連接處(即剪接位點)。如果要比較參考基因組,則必須在讀數(shù)中間添加一個缺口(即原始內(nèi)含子)。就相當(dāng)于原來的reads踩著兩條船,現(xiàn)在兩條船要回家了,reads的腿要開始裂了。因此,比較軟件必須考慮到這一點,并在讀取比較中間允許較大的間隙。
批量效果
對不同芯片、不同測序儀、不同測序通道或不同時間點采集的mRNA進(jìn)行測序,即使是相同的mRNA也會導(dǎo)致測序得到的基因表達(dá)量存在較大差異,這就是批量效應(yīng)。
短讀長:測序得到的*大讀長為500 bp,常見的序列片段長度為100-300 bp。
Long-read long read length:測序得到的reads超過1000bp,代表全長或接近全長的mRNA。
直接 RNA 測序 (dRNA-seq):一種直接對 RNA 而非 cDNA 進(jìn)行測序的測序技術(shù)。它通常用于對全長或接近全長的 mRNA 進(jìn)行測序。
多映射讀數(shù):從轉(zhuǎn)錄組的同源區(qū)域測序的讀數(shù)不能準(zhǔn)確確認(rèn)轉(zhuǎn)錄本或基因組的來源。
Synthetic long read:Synthetic long read:一種通過組裝多個短讀獲得長讀的方法。
唯一分子標(biāo)識符 (UMI):在擴(kuò)增前構(gòu)建 RNA-seq 文庫時添加的短序列或條形碼。理想情況下,每個轉(zhuǎn)錄本都與一個唯一標(biāo)識符相結(jié)合。包含此標(biāo)識符的讀數(shù)來自此轉(zhuǎn)錄本僅在定量期間計算一次??捎糜诮档蚏NA-seq的數(shù)量偏好,特別適用于低初始RNA的單細(xì)胞實驗。
讀取長度:單個測序讀取的長度。短讀長RNA測序得到的長度通常為50-150 bp。
靈敏度:將檢測到樣本中轉(zhuǎn)錄物的百分比,靈敏度越高,比率越高。它受樣品處理、文庫制備、測序和計算偏好的影響。
特異性:一種測量被正確識別的差異表達(dá)轉(zhuǎn)錄本比例的方法,受樣品處理、文庫制備、測序和計算偏好的影響。
重復(fù)率 重復(fù)率:與轉(zhuǎn)錄組中相同位置對齊的測序讀數(shù)的比率。在 RNA-seq 文庫中,一些轉(zhuǎn)錄本可能具有高重復(fù)率,因為它們在樣本中的表達(dá)水平很高。高表達(dá)的基因具有高重復(fù)率,而低表達(dá)的基因可能具有*小的重復(fù)率。因此,RNA-seq 面臨著挑戰(zhàn)。該技術(shù)中的大多數(shù)重復(fù)可能是來自高表達(dá)轉(zhuǎn)錄本的真實信號,而其他重復(fù)則是由于擴(kuò)增和測序偏好。
生物重復(fù):多次檢測不同生物來源的樣本,如三個個體的組織,用于捕捉生物個體自身的變化;這種變化要么是要研究的對象,要么是噪音。相比之下,技術(shù)重復(fù)是對同一樣本的重復(fù)操作——例如,對一個組織進(jìn)行三種處理。
摻入對照內(nèi)參:以特定濃度添加到樣品中的外源核酸文庫。它們通常是不同濃度的預(yù)合成 RNA,用于監(jiān)測反應(yīng)效率和技術(shù)方法偏差以及假陰性結(jié)果。
Translatome 翻譯組:在細(xì)胞、組織或生物體中被翻譯成蛋白質(zhì)的 mRNA 的集合。
結(jié)構(gòu)組結(jié)構(gòu)組:細(xì)胞、組織或生物體中 RNA 的二級和三級結(jié)構(gòu)的集合。
Interactome 相互作用組:細(xì)胞、組織和生物體中分子相互作用的集合,包括 RNA-RNA 或 RNA-蛋白質(zhì)相互作用。
相關(guān)閱讀Relate
熱門文章 Recent
- 成績證明翻譯模板 pets42023-03-11
- 中國農(nóng)業(yè)銀行流水翻譯模板2023-03-11
- 獲獎證書法語翻譯模板 再評我國高校畢業(yè)文憑的法文翻譯2023-03-11
- 高考文言文翻譯模板 2021年高中語文 高考文言文翻譯教案2023-03-11
- 房產(chǎn)證翻譯公證英文模板 英國簽證材料中的翻譯件,如果是自己翻譯的,譯者信息如何填?需2023-03-11
- 學(xué)士學(xué)位證翻譯模板 可以自學(xué)考試的學(xué)士學(xué)位證書編號規(guī)律 樣本格式 圖片 顏色 字體2023-03-11
- 翻譯事務(wù)所模板免費(fèi)下載 翻譯中文簡歷模板模板模板2023-03-11
- 碩士研究生成績單翻譯模板-愛丁堡大學(xué)研究生畢業(yè)證翻譯模板2023-03-11
- 泰語翻譯個人簡歷模板 優(yōu)秀教師個人簡歷范文2023-03-11
- 辦理簽證的證明翻譯模板 2021馬來西亞留學(xué)簽證辦理流程一覽表2023-03-11