av电影第一

 
標題摘要內容
 市場活動 
關于我們/About??
重磅!人类环形RNA数据库 circBank正式上线
來源: | 作者:geneseed | 發布時間: 2018-07-09 | 3249 次浏覽 | 分享到:

 

77日,在第四屆circRNA論壇正火熱進行中,一個重磅級的好消息傳來:整合的人類環狀RNA的數據庫circBank正式上線了!數據庫網址:

 

1 circBank数据库首頁

 

數據庫總體情況

circBank數據庫共收錄了140790條人類circRNA的記錄,每一條circRNA記錄都單獨做了一個詳細信息的頁面。針對每個circRNA的信息主要包括:該circRNA的詳細序列;在小鼠中同源性較高的circRNA及其對應的序列;miRNA結合的預測分析;ORF預測分析;COSMIC記錄的突變和多態性位點彙總;m6A修飾信息。由于miRNA預測的結合位點數據比較龐大,因此單獨做了一個展示的頁面,頁面中的記錄按照打分高低的順序列出。

circBank數據庫還專門開發了一套專用的ID號。相信衆位同行一定會有個苦惱的問題,就是目前circRNA的命名太混亂了,直接用Host gene的名字也不很妥當,因爲每個基因所對應的circRNA太多了。circBase的ID號雖然應用比較廣泛,但這個號碼的信息量太少,很難記住更不利于口頭交流。有鑒于此,我們開發了一個全新的ID號,該ID號基于對應的Host gene的名字和所對應的位置,具體的規則下面有詳述。

circBank数据库提供了多种检索窗口,可以直接在首頁中输入相应信息后实现快速检索,也可以在 “circRNA”和“miRNA”兩個菜單中分別進行高級檢索。爲了方便同行交流,數據庫也開辟了數據上傳的窗口,歡迎同行們給數據庫上傳所發現的新的circRNA,我們將會有針對性的對數據庫版本進行更新。

 

如何在circBank中檢索?

circBank数据库给出了多个检索的渠道。包括首頁的快速检索,“circRNA”和“miRNA”兩個菜單中的高級檢索。

首頁的快速检索窗口可以通过circBank ID號,circBase數據庫的ID號以及Host gene的SymbolRef-seq number進行快速檢索。以HIPK3爲例,首頁的快速检索可以用如下的格式进行检索:“has_circHIPK3_001”、“has_circ_0021592”、“HIPK3”、“NM_005734”四種格式進行檢索。

circRNA檢索菜單,可以通過基因名稱(Gene Symbol)、circBank IDcirBase ID等關鍵詞分別檢索。與此同時,還可以設置保守性、m6A修飾及ORF預測等過濾條件。

 


2 circRNA高級檢索窗口

 

miRNA”檢索菜單下,可以通過miRNA IDcircBank IDcirBase ID等關鍵詞分別檢索。也可以設置保守性、m6A修飾及ORF預測等過濾條件。

 

3 miRNA高級檢索窗口

 

 

單個circRNA記錄頁的信息有哪些?

HIPK3爲例,通過檢索窗口可以得到如下的結果:

 

4 HIPK3檢索頁面

 

檢索結果显示,數據庫共收錄了20HIPK3相關的circRNA記錄。顯示藍色的部分點擊之後會連接進入對應的頁面。以“hsa_circHIPK3_004”爲例,左側“hsa_circHIPK3_004”的地方會跳至該circRNA的信息頁面:

 

5 circHIPK3_004信息頁面

 

可以分別看到該circRNA的詳細序列,小鼠中保守的circRNA和對應的序列,ORF預測打分的情況,COSMIC收錄的突變和多態性信息,m6A修飾的信息。

如果点击檢索頁面中每一行对应的miRNA的藍色標志,會跳至該circRNA預測分析所得的miRNA結合的情況。

 

6  hsa_circHIPK3_004預測miRNA的情況

 

對應于hsa_circHIPK3_004一共預測到97種可能結合的miRNA分子,排列的順序按照Mirandatargetscan工具打分的情況打分高的靠前排列。結合保守性,ORF,突變信息及m6A修飾等信息,方便使用者快速鎖定更有價值的分子。

circBank數據庫還給出了直接用miRNA ID進行檢索的功能,可以分析感興趣的miRNA可能結合哪些circRNA分子。以hsa-miR-1283爲例檢索結果如下

 

7 miRNA ID檢索結果

 

circBankcircRNA的ID號規則是怎樣的?

我們在circBank數據庫中針對每個circRNA分子構建了全新的ID號,該ID號的格式如下:

hsa_circA_001

其中hsa”是人類來源的意思,circA代表了從“A”基因來源的circRNA,末尾的數字是根據該circRNAHost gene中對應的位置排序得到的。還是以HIPK3基因爲例,该基因对应的circRNA記錄共有20條,前面的名称都是“hsa_circHIPK3_xxx”,最後的三位數是依據所有circRNAHIPK3基因中對應的位置排序得到的,排序的規則是:先看起始位點,再看終止位點。起始位點越靠近前端(5端)的排血越靠前,起点一致的看终止位点,终止位点越靠前的排序越靠前。示意圖如下圖:

 

8 circBank ID號生成規則概述

 

如果起始位点和终止位点一致的,可以认为是可变剪切的情況,命名规则为在上述ID的基础上增加一层编號,编号的原则按照可变剪切的大小,长度越短的编号越小。可变剪切编号格式如下:

hsa_circA_001_V01

所有circRNA的ID号在正式公布的數據庫中永久不变。这样就存在一个后面发现的circRNA的ID號會跟已有的ID號沖突的問題,解決的辦法是新錄入的circRNA一定要在原有編號的基礎上增加,新增的circRNA的ID號也按照相同的規則依次排列,一旦正式更新數據庫後就確定下來,不再變更。

針對沒有mapping到已知基因(包括lncRNA)的circRNA記錄,根據在標准基因組中的參考坐標從小到大排列,命名格式暫用所在的染色體代替gene symbol。格式如下:hsa_circChrom1_001

對于融合基因的circRNA,對應的gene symbol由融合後基因的名稱取代,如來源于BCR-Abl融合基因的circRNA如果不是跨越融合位點的,按照各自host gene编號,跨越融合位点的按照“hsa_circBCRAbl_001”的格式编號,其他规则同前。

 

circBank數據庫的维护和数据上传

爲方便同行的交流,適應不斷發展的circRNA研究进展,我們会针对新发表或用户上传的数据进行数据更新。數據庫的日常维护由密码子基因公司承担,数据上传后也由相關的工作人员进行数据的整理。