部分开放基因数据库

基因是编码蛋白质的DNA碱基对序列,蛋白质是细胞和身体的基石。基因编码蛋白质结构。很简单,是吗?但是,深入到分子的细节,很快就会变得复杂起来。在二十一世纪初的机器学习时代,学界已经充分挖掘了短基因序列内的片段间的关联关系及其与宏观性状表达间的映射;2017年兴起的人工智能序列大模型依赖 Transformer 架构实现的超长上下文关联分析能力让人类对更长尺度的生命密码解读提供了可能。笔者从2023年初涉猎该细分领域并尝试在此完成一些力所能及的工作。

人工智能大模型效能与模型参数规模和喂养的数据量强相关。在约2024年初笔者完成数据分析方法学建设后,先后向湖南农业大学、深圳大学、重庆医科大学等数位基因组学方向的学者请教学界开放的海量基因数据的获取途径,并查阅了一些书籍及互联网资料,本文对部分开放基因数据库做简单的归纳整理。

NCBI GenBank 综合性基因数据库

GenBank [Link] 是由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)维护的全球最大、最权威的公开核酸序列数据库,与欧洲分子生物学实验室(EMBL’s European Bioinformatics Institute, EMBL-EBI)和日本DNA数据库(DNA Data Bank of Japan, DDBJ)共同组成国际核酸序列数据库合作联盟(International Nucleotide Sequence Database Collaboration, INSDC),三方数据每日同步更新。

GenBank 存储DNA、RNA和蛋白质序列,包括基因组、转录组、EST(表达序列标签)、专利序列等。数据来自全球科研机构、测序中心、个人研究者的提交,所有数据可免费下载和分析。新提交的序列会快速纳入数据库并每日公开更新。GenBank 的数据按类别组织,主要包括以下子数据库:

(一)核心核酸序列数据库

标准序列记录:包含基因、mRNA、非编码RNA等。

全基因组测序(WGS):存储未完全组装的基因组数据。

转录组 shotgun 组装(TSA):基于RNA测序的转录本数据。

(二)特殊子数据库

RefSeq参考序列数据库:高质量、非冗余的基因组、转录本和蛋白质参考序列,由NCBI人工或自动注释。

dbSNP单核苷酸多态性数据库:存储SNP(单核苷酸多态性)、INDEL(插入缺失)等遗传变异数据。

dbEST表达序列标签数据库:存储cDNA测序得到的短片段(EST),用于基因发现和表达研究。

Sequence Read Archive, SRA:存储高通量测序(如Illumina、PacBio)的原始数据(FASTQ/BAM格式)。

每条GenBank记录包含以下关键信息:

1
2
3
4
5
6
7
8
9
10
LOCUS       (序列名称、长度、类型)  
DEFINITION (简要描述)
ACCESSION (唯一标识号,如KM123456)
VERSION (版本号,如KM123456.1)
KEYWORDS (关键词)
SOURCE (物种来源)
ORGANISM (分类学信息)
REFERENCE (参考文献)
FEATURES (注释信息,如基因、CDS、启动子等)
ORIGIN (实际序列)

示例(部分记录):

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
LOCUS       NM_001301717           2372 bp    mRNA    linear   PRI 05-JUN-2018
DEFINITION Homo sapiens zinc finger protein 717 (ZNF717), mRNA.
ACCESSION NM_001301717
VERSION NM_001301717.1
KEYWORDS RefSeq.
SOURCE Homo sapiens (human)
ORGANISM Homo sapiens
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
Catarrhini; Hominidae; Homo.
FEATURES Location/Qualifiers
source 1..2372
/organism="Homo sapiens"
/mol_type="mRNA"
/db_xref="taxon:9606"
gene 1..2372
/gene="ZNF717"
CDS 123..1505
/gene="ZNF717"
/protein_id="NP_001288646.1"
/translation="MESKVILF..."
ORIGIN
1 gatcctgcag gacaggatgc attggctgta aactctggag gacaggtgtg ggaggggggt...

GenBank 数据库的访问方法

  1. 通过 NCBI 网站搜索,支持按Accession号(如KM123456)、基因名称、物种、关键词等搜索。

  2. 使用 BLAST 进行序列比对,可上传FASTA序列,比对相似序列。

  3. 通过 GenBank FTP批量下载,可下载完整的GenBank数据(按物种或日期分类)。

  4. 使用 API 或编程工具,如 Entrez Programming Utilities (E-Utilities),适用于Python、R等语言的自动化数据获取。或者 Biopython,Python库,支持GenBank数据解析。

GenBank 的局限性包括:数据冗余:同一基因可能有多个提交版本;注释质量不一:部分记录依赖自动注释,可能有误;非参考基因组:许多测序数据未完成高质量组装。建议的解决方案是使用RefSeq(精选的高质量参考序列),并结合Ensembl、UCSC Genome Browser等工具交叉验证。

EMBL-EBI 欧洲分子生物学实验室核苷酸序列数据库

欧洲分子生物学实验室核苷酸序列数据库(European Molecular Biology Laboratory Nucleotide Sequence Database)[Link]是由欧洲生物信息学研究所 EMBL-EBI 维护的全球三大公共核酸序列数据库之一,与美国NCBI GenBank和日本DDBJ共同组成国际核酸序列数据库联盟INSDC,三方数据每日同步更新。

EMBL数据库所有数据免费公开,支持科研和商业用途(部分数据需遵循特定条款);存储DNA、RNA、基因组、转录组、宏基因组等序列数据;部分记录经过人工或自动化功能的高级注释(如基因、蛋白质编码区)。EMBL-EBI 维护多个相关数据库,EMBL 核心数据库包含以下内容:

(一)**EMBL-Bank(核心核酸序列数据库)**存储原始提交的DNA/RNA序列,包括:

基因组测序(如人类、小鼠、细菌等)

转录组数据(如mRNA、ncRNA)

克隆序列、合成生物学数据

(二)欧洲核苷酸档案库(European Nucleotide Archive, ENA),EMBL 的扩展数据库,包含:

原始测序数据(SRA)(如Illumina、PacBio、Nanopore的FASTQ文件)

组装基因组(如细菌、真核生物参考基因组)

注释信息(如基因、CDS、调控元件)

(三)其他相关EMBL-EBI数据库

Ensembl,基因组注释、比较基因组学

UniProt,蛋白质序列与功能

ArrayExpress,基因表达数据(微阵列、RNA-seq)

Protein Data Bank Europe, PDBe,蛋白质3D结构

EMBL 采用标准平面文件格式(flatfile),每条记录包含:

1
2
3
4
5
6
7
8
9
10
11
12
ID   (序列标识符)  
AC (Accession编号,如 LT960628)
DT (提交/更新日期)
DE (描述)
KW (关键词)
OS (物种来源)
OC (分类学信息)
RN (参考文献)
RP (参考文献位置)
RX (PubMed/DOI链接)
FT (特征注释,如基因、启动子、突变位点)
SQ (序列数据)

示例(部分记录):

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
ID   LT960628; SV 1; linear; genomic DNA; STD; PRO; 243 BP.
AC LT960628;
DT 12-JUL-2016 (Rel. 118, Created)
DT 12-JUL-2016 (Rel. 118, Last updated, Version 1)
DE Synthetic construct DNA, clone: pEX-A2J2-EGFP.
KW synthetic construct; EGFP; reporter gene.
OS synthetic construct
OC .
RN [1]
RP 1-243
RX DOI; 10.1016/j.plasmid.2016.03.002.
FT source 1..243
FT /organism="synthetic construct"
FT /mol_type="other DNA"
FT gene 1..243
FT /gene="EGFP"
FT CDS 30..740
FT /gene="EGFP"
FT /protein_id="CCD12345.1"
SQ Sequence 243 BP;
agctagctag ctagctagct agctagctag ctagctagct agctagctag ctagctagct agctagctag
ctaggatccg gtaccgagct cgaattcgag ctcgagatct ggtacccggg gatcctctag agtcgacctg
...

EMBL 数据库的访问方法

  1. 通过 ENA 浏览器搜索,可按 Accession号(如LT960628)、基因名、物种、测序项目 搜索。

  2. 使用 ENA API 批量获取,支持编程访问(Python/R),示例:

1
curl "https://www.ebi.ac.uk/ena/portal/api/filereport?accession=PRJEB12345&result=read_run&fields=fastq_ftp"
  1. ENA FTP:https://ftp.ebi.ac.uk/pub/databases/ena/,可下载FASTA、FASTQ、SAM/BAM等格式数据。

  2. 工具整合:Galaxy、Bioconductor 等生物信息学平台支持直接调用EMBL数据。

EMBL 数据库的典型应用包括:基因组组装:获取参考序列或原始测序数据(如细菌基因组);基因功能注释:通过FT字段查看CDS、启动子等特征;宏基因组分析:从ENA下载环境样本的16S rRNA数据;合成生物学:查询质粒、载体序列(如EGFP、Cas9)。

DDBJ 日本DNA数据库

DDBJ 是由日本国立遗传学研究所(National Institute of Genetics, NIG)维护的全球三大公共核酸序列数据库之一,与美国NCBI GenBank和欧洲EMBL-EBI共同组成国际核酸序列数据库联盟INSDC,三方数据每日同步,确保全球数据一致性。

DDBJ 为亚洲核心数据库,由日本主导,服务亚太地区研究机构;所有数据免费公开,支持科研与商业用途(需遵守数据使用政策)。特色数据包括日本本土物种基因组(如水稻、珊瑚、深海生物);亚洲人群基因组变异数据(如JGAS、3.5KJPN项目);微生物与极端环境生物测序数据。DDBJ 提供多个子数据库,涵盖不同数据类型:

(一)DDBJ Nucleotide Sequence Database 核心核酸数据库,存储DNA/RNA序列,包括:

基因组(全基因组、质粒、病毒)

转录组(mRNA、ncRNA)

人工合成序列

(二)DDBJ Sequence Read Archive, DRA

存储高通量测序原始数据(如Illumina、PacBio的FASTQ文件)。

(三)Japanese Genotype-phenotype Archive, JGA

存储日本人群基因组与表型关联数据(需申请访问权限)。

(四)BioProject/BioSample

管理测序项目(BioProject)和样本元数据(BioSample)。

(五)其他相关数据库

NBDC Human Database,日本人群体数据

TogoTV,生物医学视频资源

DDBJ 采用与GenBank、EMBL一致的INSDC标准格式,每条记录包含:

1
2
3
4
5
6
7
8
9
10
LOCUS       (序列ID、长度、类型)  
DEFINITION (描述)
ACCESSION (唯一编号,如LC000001)
VERSION (版本号)
KEYWORDS (关键词)
SOURCE (物种来源)
ORGANISM (分类学信息)
REFERENCE (参考文献)
FEATURES (基因、CDS、突变等注释)
ORIGIN (序列数据)

示例(部分记录):

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
LOCUS       LC000001                502 bp    DNA     linear   PLN 01-JAN-2020
DEFINITION Oryza sativa Japonica Group mRNA for actin.
ACCESSION LC000001
VERSION LC000001.1
KEYWORDS actin; cytoskeleton.
SOURCE Oryza sativa (rice)
ORGANISM Oryza sativa
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliopsida; Poales; Poaceae; Oryza.
FEATURES Location/Qualifiers
source 1..502
/organism="Oryza sativa"
/mol_type="mRNA"
gene 1..502
/gene="act1"
CDS 50..450
/gene="act1"
/protein_id="BAA12345.1"
ORIGIN
1 atggtgaggc atgtcgtcca tccgcgcttc tcccgctcgt cgctcgtcgt cgtcgacggt
61 gacgatattc gcgctctcgt cgttcgagaa gctgctgctg ctgctgctgc tgctgctgct
...

DDBJ 数据库的访问方法

  1. 通过 DDBJ 网站搜索,支持按 Accession号(如LC000001)、基因名、物种、关键词 搜索。

  2. 通过 getentry 快速检索,工具链接:https://getentry.ddbj.nig.ac.jp/,输入Accession号直接获取FASTA或GenBank格式数据。

  3. FTP 批量下载,DDBJ FTP:https://ftp.ddbj.nig.ac.jp/,可下载完整数据库或按物种分类的数据。

  4. 提交数据至 DDBJ,提交系统:https://www.ddbj.nig.ac.jp/sub/index.html,支持基因组、转录组、变异数据提交。

DDBJ 的典型应用包括作物基因组研究:如水稻、大豆的基因变异分析;微生物多样性:日本本土极端环境微生物测序数据;人群遗传学:亚洲人群基因组项目(如3.5KJPN);生物信息学工具开发:提供API和数据集用于算法测试。

植物与微生物基因组数据库

  • Phytozome 植物基因组数据库:植物基因组比较平台,包含多种作物基因组数据。Phytozome的基因组数据通常经过人工校正,质量较高,但要注意的是该网站上有些基因组数据是提前释放的,有使用限制,它的说明里会明确给出使用限制:可以自由使用个别或少量基因的信息,但不能完整使用全部基因组的信息。

Phytozome 植物基因组数据库

Ensembl Genomes 数据库

  • NCBI 基因数据库:NCBI 基因数据库涵盖大量基因组数据,典型的子链接包括:*/genomes/refseq/plant/,这里的基因组质量也还行,物种数量较多。*/genomes/genbank/plant/,这里的基因组物种数量最全,囊括了至少95%以上的已发表的植物基因组数据,但质量参差不齐,有些只拼接到contig水平,甚至没有拼接。*/refseq/,NCBI RefSeq 提供高质量参考基因组序列。

NCBI 基因数据库

  • JGI Genome Portal:由美国能源部联合基因组研究所维护,涵盖微生物、真菌和植物基因组。

JGI Genome Portal

人类基因组数据库

UCSC Genome Browser

网址: https://genome.ucsc.edu/

提供人类和其他物种基因组的可视化工具和原始数据下载。

1000 Genomes Project

网址: https://www.internationalgenome.org/

包含全球多个人类群体的基因组变异数据。

gnomAD(基因组聚合数据库)

网址: https://gnomad.broadinstitute.org/

提供大规模人群的基因组变异频率数据。

癌症基因组数据库

TCGA(癌症基因组图谱)

网址: https://www.cancer.gov/tcga

包含多种癌症的基因组、转录组和表观组数据。

ICGC(国际癌症基因组联盟)

网址: https://dcc.icgc.org/

全球合作的癌症基因组数据平台。

COSMIC(癌症体细胞突变数据库)

网址: https://cancer.sanger.ac.uk/cosmic

收录癌症相关基因突变信息。

表观基因组与功能基因组

ENCODE(ENCyclopedia Of DNA Elements)

网址: https://www.encodeproject.org/

人类和小鼠基因组功能元件数据库(如启动子、增强子等)。

Roadmap Epigenomics

网址: https://www.roadmapepigenomics.org/

人类不同细胞类型的表观基因组数据。

宏基因组与环境DNA

MG-RAST

网址: https://www.mg-rast.org/

微生物群落宏基因组数据分析平台。

NCBI SRA(Sequence Read Archive)

网址: https://www.ncbi.nlm.nih.gov/sra

存储高通量测序原始数据。

中国主导的数据库

CNGB(中国国家基因库)

网址: https://www.cngb.org/

中国深圳建立的综合性基因数据库。

GSA(组学原始数据归档库)

网址: https://ngdc.cncb.ac.cn/gsa/

由中国科学院北京基因组研究所维护。