必威电竞|足球世界杯竞猜平台

GenBank
來源:互聯網

GenBank是美國國家生物技術信息中心(National Center for Biotechnology Information ,NCBI)建立的脫氧核糖核酸序列數據庫,從公共資源中獲取序列數據,主要是科研人員直接提供或來源于大規模基因組測序計劃( Benson等, 1998)。為保證數據盡可能的完全,GenBank與EMBL(歐洲EMBL-DNA數據庫)、DDBJ (日本DNA數據庫:DNA Data Bank of Japan)建立了相互交換數據的合作關系。

簡介

大型數據庫分成若干子庫,有許多好處。首先,可以把數據庫查詢限定在某一特定部分,以便加快查詢速度。其次,基因組計劃快速測序得到的大量序列尚未加以注釋,將它們單獨分類,有利于數據庫查詢和搜索時“有的放矢”。GenBank將這些數據按高通量基因組序列(HighThroughput Genomic Sequences,HTG)、表達序列標記(Expressed Sequence Tags,EST)、序列標記位點(SequenceTaggedSites,STS)和基因組概覽序列(Genome Survey Sequences,GSS)單獨分類。盡管這些數據尚未加以注釋,它們依然是GenBank的重要組成部分。

可通過Entrez數據庫查詢系統對GenBank進行查詢。這個系統將核酸蛋白質序列和基因圖譜、蛋白質結構數據庫整合在一起。此外,通過該系統的文獻摘要數據庫MEDLINE,可獲取有關序列的進一步信息。在萬維網上,進入NCBI的主頁,可以用BLAST程序對GenBank數據庫進行未知序列的同源性搜索(詳見第六章)。

完整的GenBank數據庫包括序列文件,索引文件以及其它有關文件。索引文件是根據數據庫中作者、參考文獻等子段建立的,用于數據庫查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質序列數據庫,其數據格式為FastA。GenBank曾以CD-ROM光盤的形式分發,價格比較便宜。隨著數據庫容量的增長,一套最新版的GenBank需要12張光盤存放,不僅生產成本很高,也不便于使用。現在,光盤分發的方式已經停止,可以通過網絡下載GenBank數據庫。

GenBank中最常用的是序列文件。序列文件的基本單位是序列條目,包括核甘酸堿基排列順序和注釋兩部分。目前,許多生物信息學資源中心通過計算機網絡提供該數據庫文件。下面,我們介紹序列文件的結構。

序列文件由單個的序列條目組成。序列條目由字段組成,每個字段由關鍵字起始,后面為該字段的具體說明。有些字段又分若干次子字段,以次關鍵字或特性表說明符開始。每個序列條目以雙斜杠“//”作結束標記。序列條目的格式非常重要,關鍵字從第一列開始,次關鍵字從第三列開始,特性表說明符從第五列開始。每個字段可以占一行,也可以占若干行。若一行中寫不下時,繼續行以空格開始。

序列條目的關鍵字包括代碼(LOCUS),說明(DEFINITION),編號(ACCESSION),核酸標識符(NID),關鍵詞(KEYWORDS),數據來源(SOURCE),文獻(REFERENCE),特性表(FEATURES),堿基組成(BASE COUNT)及堿基排列順序(ORIGIN)。

代碼LOCUS是該序列條目的標記,或者說標識符,蘊涵這個序列的功能。例如,圖4.1中所示的HUMCYCLOX表示人的環氧化酶cyclooxygenase。該字段還包括其它相關內容,如序列長度、類型、種屬來源以及錄入日期等。說明字段是有關這一序列的簡單描述,如本例為人環氧化酶-2的mRNA全序列。

序列代碼具有唯一性和永久性,如本例中代碼M90100用來表示上述人環氧化酶-2的mRNA序列,在文獻中引用這個序列時,應該以此代碼為準。核酸標識符NID對序列信息的當前版本提供?

關鍵詞字段由該序列的提交者提供,包括該序列的基因產物以及其它相關信息,如本例中還氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。數據來源字段說明該序列是從什么生物體、什么組織得到的,如本例中人臍帶血管(umbilical vein)。次關鍵字種屬(ORGANISM)指出該生物體的分類學地位,如本例人、真核生物等等。文獻字段說明該序列中的相關文獻,包括作者(AUTHORS),題目(TITLE)及雜志名(JOURNAL)等,以次關鍵詞列出。該字段中還列出醫學文獻摘要數據庫MEDLINE的代碼。該代碼實際上是個網絡鏈接指針,點擊它可以直接調用上述文獻摘要。一個序列可以有多篇文獻,以不同序號表示,并給出該序列中的哪一部分與文獻有關。

FEATURES是具有自己的一套結構,用來詳細描述序列特性的一個表格。在這個表格內,帶有‘/db-xref/’標志的字符可以連接到其它數據庫內(本例,您看到的是一個分類數據庫(tax on 9606),以及一個蛋白質數據庫(PID:g181254));序列中各部分的位置都加以標明,5’非編碼區(1-97),編碼區(98-1912),3非編碼區(1913-3387),多聚腺酸序列(3367-3374),等等;蛋白質翻譯的信號肽及最終的多肽也都有所說明。這個例子不能說很全面,但已經足以說明特性表給出信息的詳細程度。

接下來是BASE COUNT記錄,計算出不同堿基在整個序列中出現的次數(1010A,712個C,633個G,1032個T)。Origin那一行,指出了序列第一個堿基在基因組中可能的位置。最后,核酸的序列全部列出,并以//作為結尾。檢索方式:

如果在文獻中看到過你感興趣的基因,而且文中還提到了該基因在Genbank中的ID號,進入NCBI ,在Search后的下拉框中選擇核苷酸,把Genbank ID號輸入GO前面的文本框中,點“GO”,即可以檢索到所需序列。

使用說明

用戶可以通過NCBI(National Center for Biotechnology Information美國國家生物技術信息中心信息中心,隸屬于NLM-美國國家醫學圖書館)的主頁使用GenBank。GenBank的宗旨是鼓勵科研團體對脫氧核糖核酸序列的獲取,從而促進數據庫中DNA序列的豐富和更新,所以NCBI對GenBank的數據使用與發送沒有任何限制。用戶可從GenBank主頁上下載Banklt(NCBI提供的WWW格式,用于便捷的提交DNA序列的數據)、Sequin(NCBI的獨立于操作系統的提交軟件,可用于麥金塔、PC和UNIX平臺,也可以通過FTP遠程獲取)以及VecScreen(帶菌污染物的篩選工具)等便于提交和更新研究成果的應用軟件。其頁面上的簡單檢索界面提供19種相關檢索選項,分別是:PubMed、Protein(蛋白質)、核苷酸核苷)、Structure(結構)、Genome(基因組)、PMC、LocusLink、PopSet、OMIM、Taxonomy(分類學)、Books(圖書)、ProbeSet、3D Domains(三維區域)、UniSTS、Domains、SNP、Journals(期刊)、UniGene、NCBI Web Site(NCBI站點)。

GenBank可以與脫氧核糖核酸 Star軟件結合使用,進行基因序列分析和比對。

參考資料 >

生活家百科家居網