部分开放基因数据库
基因是编码蛋白质的DNA碱基对序列,蛋白质是细胞和身体的基石。基因编码蛋白质结构。很简单,是吗?但是,深入到分子的细节,很快就会变得复杂起来。在二十一世纪初的机器学习时代,学界已经充分挖掘了短基因序列内的片段间的关联关系及其与宏观性状表达间的映射;2017年兴起的人工智能序列大模型依赖 Transformer 架构实现的超长上下文关联分析能力让人类对更长尺度的生命密码解读提供了可能。笔者从2023年初涉猎该细分领域并尝试在此完成一些力所能及的工作。
人工智能大模型效能与模型参数规模和喂养的数据量强相关。在约2024年初笔者完成数据分析方法学建设后,先后向湖南农业大学、深圳大学、重庆医科大学等数位基因组学方向的学者请教学界开放的海量基因数据的获取途径,并查阅了一些书籍及互联网资料,本文对部分开放基因数据库做简单的归纳整理。