生物資訊 (Bioinformatics) 專題(下)

bioinfo

在本月份Investigator『生物資訊』專題的上集中介紹了生物資訊包含的內容及主要研究領域,而下集將會介紹生物資訊上常用的資源工具,包括介紹非常著名的美國國立衛生研究院National Center for Biotechnology Information(NCBI)及NCBI提供的四大類生物資料庫包括核酸序列、蛋白質序列、結構以及基因體與圖譜資料庫。並會介紹生物資訊研究常用平台如EMBnet 與重要的生物資訊資料庫如GeneBank、EMBL-EBI、DDBJ等。最後並整理常用的生物資訊分析工具類別。

1.NCBI簡介

生物資料庫是進行生物資訊研究最重要的關鍵,各國也相當重視而紛紛著手建立能完整儲存生物資料,並支援高效率搜尋,資料比對及延伸功能的生物資訊資料庫。當時成立了非常多各式獨立生物資訊資料庫。為了增進研究效率及便利性,目前的趨勢是傾向將各獨立的資料庫統連結成整合型的國際整合型生物資訊網站。以下將介紹最具代表性的國際整合型生物資訊網站—NCBI 1

National Center for Biotechnology Information(NCBI)隸屬於美國國立衛生研究院National Institutes of Health(NIH),NIH目前是全世界最大的生物醫學研究單位,而NCBI則是世界上最多人使用的整合型生物資訊網站,只要你接觸過生物相關研究幾乎都會使用到NCBI。NCBI當初設立的宗旨在於維持DNA序列資料庫—GeneBack的順利運作 2,及與其他核酸資料庫交流如EMBL 3及DDBJ 4。而之後慢慢擴大包括這些項目:(1)PubMad—包含Medline的文獻資料;(2)Entrez—搜尋NCBI資料庫資料的搜索引擎;(3)BLAST—分析DNA與蛋白質序列的快速尋找序列機制;(4)OMIM—人類基因與遺傳性疾病的關連資料庫;(5)Taxonomy Brower─生物物種之分類資料;(6)Structure—3D結構資料庫。

NCBI主要分成三個部門:計算生物學部門Computational Biology Branch(CBB)、資訊工程部門Information Engineering Branch(IEB)與資訊資源部門Information Resources Branch(IRB)也代表了NCBI的幾個主要重點。其中CBB 掌管處理運算、數學及分子生物、生物與遺傳學理論問題的基礎與應用研究,包括基因體分析、序列比對、序列搜尋方法、巨分子結構、動力學與交互作用、結構/功能預測等方面,而IEB則是負責資料表現與分析的應用研究,設計分子生物資訊的資料庫架構與規格及呈現,發展分散式軟體系統及整合資料庫等等。而IRB則是負責管理電腦設備及系統,及擔任計畫執行者及NCBI間的負責人。而除了這三個部門之外NCBI有本身的跨領域研究團隊來自分子生物學家、電腦學家、數學家、物理學家等等,進行NCBI本身的研究計畫及與學術單位的研究團隊保持合作關係。

進行生物資訊研究最關鍵的在於生物資料庫及分析工具。NCBI提供了生物資料庫和生物資訊工具的資料庫,大部分都是公開資料庫。生物資料庫包括了核酸序列、蛋白質序列、結構以及基因體與圖譜四大類生物資料庫。核酸序列資料庫包括生物核酸序列的核酸資料庫GenBank、基因體DNA、contigs、mRNAs、protein序列及染色體資料庫RefSeq、DDBJ/EMBL/GenBank序列資料的資料庫TPA database、DbEST(Expressed sequence tags資料庫)、DbGSS(Genome survey sequences資料庫)、基因與臨床資料關聯的資料庫DbMHC、Single Nucleotide Polymorphisms資料庫—dbSNP、DbSTS(Sequence tagged sites資料庫)、UniSTS(Sequence tagged sites資料庫)、UniGene(EST與mRNA序列群集資料庫),以及載體序列資料庫UniVec。

蛋白質序列資料庫則包括RefSeq、CDD和PROW。RefSeq是Reference Sequences資料庫,而CDD和PROW分別為蛋白質保留區序列資料庫及Protein Resources on the Web資料庫。NCBI在結構方面的資料庫包含3D生物分子結構資料庫(MMDB)、蛋白質3D結構相似度鑑定(VAST)和蛋白質保留區序列資料庫CDD。基因體與圖譜資料庫則包括Locuslink提供基因位(Loci)的序列與描述資訊,COGS提供完整基因體的基因家族、生物完整的基因體圖譜GENOME、人類與小鼠染色體螢光雜交資料庫SKY/M,以及OMIM Gene Map、OMIM Morbid Map、Human-Mouse Homology Maps分別為基因圖譜位置、疾病與基因圖譜,以及比較人類與小鼠的基因序列資料庫。除此之外還有文獻資料庫PubMed、OMIM、基因表現的資料庫GEO等等。

NCBI也提供生物資訊分析工具包括六大類:(1)資料檢索,(2)序列相似度搜尋,(3)核酸序列分析,(4)蛋白質序列分析,(5)3D結構展示與相似度搜尋以及(6)基因體與圖譜工具。資料檢索分析工具包括能提供核酸、蛋白質、蛋白質3D結構、基因體圖譜資訊的Entrez,核酸與蛋白質序列資訊Batch Entrez等。序列相似度搜尋分析工具主要是以有名的核酸與蛋白質序列比對工具BLAST為主 5,包括核酸BLAST、蛋白質BLAST、轉譯BLAST搜尋、保留區搜尋、基因體BLAST、序列比對、特殊BLAST等等。基因體序列比對CloneFinder、GEO基因表現資料的線上分析工具SAGEmap等等都是常用工具。而像CD-Search、COGnitor、CDART,和TaxPlot是常用的蛋白質序列分析分析工具。

2.生物資訊研究常用平台與資料庫

國際整合型生物資訊網站除了之前介紹的NCBI之外,EMBnet(The European Molecular Biology network) 6,則是歐洲集結從事生物資訊及生物計算等實驗室所成立的聯合組織。也同樣提供資料庫、分析工具等服務,而旗下另有三個重要的相關研究中心包括:(1)The Sanger Center基因組研究中心;(2)The UK MRC Human Genome Mapping Project-Research Center英國醫學研究委員會研究中心;(3)EBI(European Bioinformatics Institute 歐洲分子生物實驗室 7)。其中EBI也提供生物資訊資料庫及相關分析工具,主要包括EMBL核酸序列資料庫、SWISS-PROT與TrEMBL蛋白質資料庫、EBI-MSD巨分子結構資料庫和FASTA 8蛋白相似度搜尋分析工具等。

除了NCBI和EMBnet等整合型生物資訊網站,有些國際上重要的生物資訊資料庫也擁有齊全或便利的資料。譬如在基因資料庫最有名的就是GeneBank、EMBL-EBI、DDBJ,和Sanger Centre。其中的NCBI、EMBL和DDBJ三大網站已經結盟,每天交換所有的基因資料。而蛋白質資料庫有名的包括SWISS-PROT、PDB、PIR和PRF。而NCBI蛋白質資料庫的資料來源收集包括SWISS-PROT、PDB、PIR,和PRF的蛋白質資料,為最重要收集蛋白質相關資料的資料庫。

(1 ) GenBank
GenBank是NCBI發展的提供分子生物資料的公開資料庫。提供資料庫作為基因搜尋(Entrez)、序列相似性搜尋(BLAST)、dbEST(Database of Expressed Sequence Tags)搜尋、dbSTS(Database of Sequence Tagged Sites)搜尋、dbGSS(Database of Genome Survey Sequences)搜尋等。目前許多期刊要求在發表文章時,將DNA序列存入GenBank中取得Accession number後才可發表。

(2 ) EMBL-EBI
是EMBL發展的DNA及蛋白質資料庫。可作為基因,蛋白質序列與微陣列資料之搜尋分析比對之用,並提供蛋白質結構與結構預測之模擬軟體。除了基因及蛋白質之序列資料,還提供人類、老鼠、果蠅、斑馬魚、蚊子之染色體序列。

(3 ) DDBJ(DNA Data Bank of Japan)
為日本國立遺傳學研究所之CIB所開發的基因相關資料庫。可進行基因、蛋白質查詢、分析、比對資料庫資源提供。

(4 ) Sanger Centre 9
英國的Wellcome Trust與Medical Research Council所開發提供基因體相關之研究資訊與軟體之資料庫。提供人類、老鼠、真菌、果蠅、斑馬魚、蚊子等生物基因體序列、位置、長度等基因相關資訊。目的在提供基因體相關研究資訊與軟體。

(5 ) SWISS-PROT 10
由歐洲生物資訊所(EBI),歐洲分子生物實驗室(MBL)及瑞士生物資訊所(SIB)共同開發的研究。提供蛋白質結構、蛋白質序列、蛋白質二維電泳圖譜比對、酵素命名等資料庫查詢。

(6 ) PDB(The Protein Bank) 11
提供生物大分子3D結構資訊,包含蛋白質、核酸和碳水化合物之立體結構。目的在建構完整大分子結構資料庫,並且提供完整結構軟體資源。

(7 ) PIR(Protein Information Resource) 12
NBRF、MIPS、JIPID發展提供蛋白質序列資料庫及分析工具,用以研究分子演化、結構基因體及計算生物學的資料庫。著重在蛋白質序列資料庫、蛋白質分類資料庫、序列搜尋連結。

(8 ) PRF(Protein Research Foundation) 13
由日本的The Peptide Institute發展的蛋白質資料庫收集與胺基酸、蛋白質相關文獻、序列資料、合成化合物之資料庫及分子相關資訊。

3.常用的生物資訊分析工具

面對著呈現爆炸量成長的高維度生物資料,從資訊、工程、數學、統計等領域加入生物資訊研究領域的研究者們也開發出各種強大的生物資訊工具對這些資料進行分析、歸納、儲存、搜索等的處理,嘗試從資料中發現生物學的新規律,或驗證新的假說。在前面所提到的NCBI裡,科學家為了能讓使用資料庫資料的使用者能更簡便或更深入的進行分析,提供了很多強大或方便的演算法或分析工具。在EBI裡也提供了很多很好用的生物資訊工具。在這裡整理了NCBI和EBI的生物資訊工具並依目的分成序列分析、序列相似度、結構分析、蛋白質功能分析、基因體與圖譜工具、資料庫瀏覽與檢索 6大類:

3.1 序列分析
NCBI提供的核酸序列分析主要研究工具包括BLAST 14、e-PCR-Electronic PCR 15(比對輸入序列與STSs的工具)、HomoloGene 16(基因相似度比對工具,可比較一對生物的核酸序列,用以認定是否為同源)、ORF Finder 17(分析原核生物序列而設計分析工具)、CloneFinder 18(BES與基因體序列比)、SAGEmap 19(比較Cancer GenomeAnatomy Project(CGAP)所產生的基因表現資料與Gene Expression Omnibus(GEO)所產生的基因表現資料的線上分析工具)、Sequin 20 (作為提交與更新GenBank、EMBL或DDBJ序列資料庫之的一個上傳工具)、BankIt 21、Spidey 22 (mRNA序列基因體序列比對程式)、UniGene DDD-Digital Differential Display 23,和VecScreen 24。蛋白質序列分析有核酸與蛋白質序列比對工具包含一系列BLAST工具,用來找出蛋白質的保留區的CD-Search 25,比較輸入序列與COGs資料庫,以找出與此序列同源的群集的COGnitor 26, 由相似的蛋白質結構分析蛋白質輸入序列的功能區,並列出具有相似區域結構的蛋白質CDART 27以及使用3種生物的基因體的蛋白質序列互相比對,以及比較基因體的差異性TaxPlot 28

由EBI所提供的序列分析工具有Transeq 29(決定DNA序列的蛋白質轉譯區)、ClustalW 30(比對DNA與蛋白質序列解釋他們的關係與演化來源)、ClustalW 31(多重序列比對)、Align 32(兩條序列Global與Local比對工具)、GeneMark 33(基因預測服務)、GeneWise 34(蛋白質序列或HMM與DNA序列比對)、DNA Block Aligner Form 35(兩條直線DNA序列比較)、PromoterWise 36(比對兩條DNA序列允許倒置移位)、Mutation Checker 37(序列認可工具)、Genetic Code Viewer 38(觀察遺傳密碼相異性)、CpG Plot/CpGrepor 39(找尋CpG Island與繪圖的工具)、Transeq 40(DNA序列轉譯工具)、Reverse Translator 41(反向互補確認工具)、Pepinfo 42(基本蛋白質序列分析)、SAPS 43(蛋白質序列統計工具)、EMBOSS 44(針對分子生物的公開分析軟體)。

3.2 序列相似度
由NCBI提供的序列相似度搜尋有BLAST一系列工具包含核酸BLAST、蛋白質BLAST及PHI-BLAST、PSI-BLAST、轉譯BLAST搜尋。除此之外還有核酸序列與蛋白質資料庫比對blastx、蛋白質序列與轉譯核酸資料庫比對tblastn、和核酸序列與轉譯核酸資料庫比對tblastx、保留區搜尋RPS-BLAST程式、BLAST 2 Sequences、基因體BLAST、Taxonomy BLAST、IgBLAST和偵測載體是否受污染的BLAST程式VecScreen。EBI方面則有用Fasta比對核酸與蛋白質資料庫的序列相似度與同質性搜尋的Fasta 45、WU-Blast2 46、NCBI-Blast2 47、Blast2 EVEC 48、Mpsrch 49、Anedabio 50、Scanps2.3 51 執行Smith & Waterman演算法搜尋蛋白質資料庫、Parasites blast 52寄生蟲基因體、EGI blastEST 53叢集與比對的Blast伺服器SNP-Fasta server 54

3.3 結構分析
NCBI 的結構展示與相似度搜尋有結構與序列比對的圖形化工具,可看3D結構圖形與序列-結構或結構-結構比對─Cn3D 55,結構-結構比對的工具。比較新蛋白質與MMDB/PDB資料庫的3D座標─VAST search 56以及找出蛋白質保留區的分析工具CD-Search 57,和利用已知結構與計算能量預測蛋白質序列的3D結構的Threading 58。EBI的結構分析工具上有序列結構、從蛋白質一級/二級/三級資料庫所獲得的特性資料之取得與視覺化工具SRS3D 59、DALI 60(比較蛋白質3D結構)、FSSP 61(摺疊分類與結構比對)、MaxSprout 62(從C軌跡重組3D座標)、PQS 63(查詢蛋白質四級結構)、PQS-Quick 64(從PDB ID快速取得蛋白質四級結構資訊)、MSDchem 65 (配位體(Ligand)資料庫)、MSDfold 66(二級結構配對)、MSDlite 67(提供查詢PDB的簡易方法)、MSDsite 68(查詢活性區資料庫的工具)、NMR Representatives 69(搜尋PDB中NMR解出的結構)、Biotech 70(蛋白質結構的Biotech鑑定軟體)。

3.4 蛋白質功能分析
蛋白質功能分析工具有搜尋Swiss-Prot與TrEMBL資料庫的CluSTr Search 71、InterPro資料庫的蛋白質序列搜尋的InterProScan 72、蛋白質指紋搜尋FingerPRINTScan 73、蛋白質Motifs搜尋ppsearch 74、生物序列的高度自動化分析GeneQuiz 75、發掘蛋白質Motif的Prattu 76以及Radar 77(蛋白質重覆(Repeat)序列偵測、使用蛋白質序列查詢InterPro資料庫,並且預測蛋白質功能的InterProScan 78

3.5 基因體與圖譜工具
基因體與圖譜工具主要是NCBI發展的Map Viewer 79提供瀏覽與搜尋17種生物完整基因體的功能,呈現染色體圖譜,並且可進一步查詢特定染色體區域的序列資料。

3.6 資料庫瀏覽與檢索
NCBI所提供的資料檢索有Entrez 80提供核酸、蛋白質及3D結構、基因體圖譜資訊)、Batch Entrez 81(從Entrez取得大量核酸與蛋白質序列資訊)、LinkOut 82、Cubby 83、而Citation Matcher 84可查詢PubMed資料庫的PubMed ID或MEDLINE UID以及查詢生物分類資料庫的查詢工具Taxonomy Browser 85。EBI提供的工具則有序列檢索系統SRS 86、使用者快速且簡單的檢索/視覺化序列結構與一級/二級/三級蛋白質資料庫特徵資料的整合環境SRS3D 87、儲存EMBL資料庫公開資料的儲存區EMBL-SVA 88、可同時可檢索超過50個以上現存生物資料庫工具dbfetch 89、emblfetch 90和檢索MEDLINE文獻資料庫工具medlinefetch 91

撰稿|吳子青
編輯|曾思宜

作者簡介:

吳子青
清大化學系畢,並直攻清大生命科學所博班。後轉至台大生物環境系統工程研究所研究類神經網路及Soft Computation,畢業後在陽明生資所研究小波分析等訊號處理在生物資訊上的研究。目前在美國Purdue大學農業生物工程所攻讀博士班,研究方向為發展演化式演算法(Evolutionary Algorithm),模糊邏輯及模糊偏微分方程式,及數值分析技術解發育生物學上的數學模式。


S1 重要網站

S2 序列分析

S3 序列相似度

S4 結構分析

S5 蛋白質功能分析

S6 基因體與圖譜工具

S7 資料庫瀏覽與檢索

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s