KL散度和交叉熵是信息论中两个非常重要的概念,在机器学习,特别是深度学习领域,它们被广泛用作损失函数,以衡量两个概率分布之间的差异。两者在数学上紧密相关,在某些特定场景下(如分类任务的损失函数),最小化交叉熵等价于最小化KL散度。

  1. 交叉熵 (Cross-Entropy):衡量使用“错误的”分布Q来表示来自“正确的”分布P的样本所需要的平均信息量(比特数)。
  2. KL散度 (KL Divergence):衡量使用“错误的”分布Q来表示分布P的样本,相对于使用“正确的”分布P自己来表示时,所产生的额外信息量。
Read more »

当您在使用 Hugging Face transformers 库加载模型时,可以通过 attn_implementation 参数来指定底层的注意力(Attention)计算方式。这是一个至关重要的参数,直接影响了模型的训练和推理速度、显存占用以及计算结果的可复现性。

您在调试中发现 flash_attention_2 是随机性的来源,这是一个非常典型的例子,说明了前沿的性能优化有时会以牺牲一些可预测性为代价。理解不同选项的优缺点,可以帮助您根据具体需求(高性能、低显存、严格复现等)做出最优决策。

Read more »

基因是编码蛋白质的DNA碱基对序列,蛋白质是细胞和身体的基石。基因编码蛋白质结构。很简单,是吗?但是,深入到分子的细节,很快就会变得复杂起来。在二十一世纪初的机器学习时代,学界已经充分挖掘了短基因序列内的片段间的关联关系及其与宏观性状表达间的映射;2017年兴起的人工智能序列大模型依赖 Transformer 架构实现的超长上下文关联分析能力让人类对更长尺度的生命密码解读提供了可能。

人工智能大模型效能与模型参数规模和喂养的数据量强相关。笔者曾先后向湖南农业大学、深圳大学、重庆医科大学等数位基因组学方向的学者请教学界开放的海量基因数据的获取途径,并查阅了一些书籍及互联网资料,本文对部分开放基因数据库做简单的归纳整理。

Read more »

“如果必须坠落,就让我坠落。 我将会成为的那个人,一定会接住我。” —— Sheryl Sandberg

近日梦断魂销之际,友人推荐 Facebook 前首席执行官 Sheryl Sandberg 在丈夫去世的极度悲痛之中所著的$\lfloor$另一种选择$\rceil$。Sheryl Sandberg 敞开心扉,从她发现丈夫猝然倒在健身房的地板上开始,描述了丈夫去世后感受到的极度悲伤与孤独。然而,本书并没有局限于作者的个人经历,而是与 Adam 关于培养复原力的开放性研究结合起来,深入探讨了我们该如何克服人生中的逆境,包括疾病、失业、性侵、自然灾害、战争、暴力等不幸。同时,来自不同群体的案例也揭示了每个人都可以培养及提升内在坚韧的复原力,并且拥有重获快乐的能力。

本文记录于 2025 年春节,一个月前我已辞去中物院成都科学技术发展中心兼职特聘研究员,并决定在学校恢复工作后从西南交通大学辞职。在即将正式与过去作别之际,特作此文记录我近十年的人生历程。无论是蹉跎往日,还是做出艰难抉择的今天,我都清醒地意识到感情丰富是强者的大忌,但仍无法避免沉沦的命运。或许只有经历过起起伏伏、深刻痛苦的人才能体会 Sheryl Sandberg 的感受,坚持走过坎坷的人才更能理解其中的勇敢、真挚、温暖和希望。

Read more »

Geron教授所著的该书第一章中已经简要介绍了监督学习任务是回归(预测数值)和分类(预测类别)。在第二章中探索了一个预测加州地区房价的回归任务,并测试了如线性回归、决策树和随机森林等算法。现在我们将注意力转向分类系统。

Read more »

Multi-Head Attention

Self Attention 利用 Q、K、V均为同一个输入向量映射而来的Encoder-Decoder Attention,它可以无视词之间的距离直接计算依赖关系,能够学习一个句子的内部结构,实现也较为简单并且可以并行计算。

Multi-Head Attention同时计算多个Attention,并最终得到合并结果,通过计算多次来捕获不同子空间上的相关信息。

Read more »

Network Science, Albert-László Barabási, Section 3.6, Page 16

笔者在去年发表的论文 “Deformation dynamics of a neutron-irradiated aluminum alloy: an in-situ synchrotron tomography study”, Acta Mater., 243, 118493 (2023). 中公开了一种对三维结构中复数个目标的追踪方法(Appendix A. Particle tracking analysis, PTA)。该方法摒弃了基于三维矩阵卷积的图像配准方法,而依赖具体对象的结构参数信息,实现目标追踪时计算效率的质变以及目标对目标的映射追踪。然而该方法仍有两点不足:

  1. 依赖目标自身结构特征及近邻目标位移矢量的相似程度,但未充分利用复数个目标组成的局部网络结构相似程度
  2. 目标结构信息依赖前序步骤,如三维数字图像降噪、二值化等。应融合自适应局部结构特征识别算法

与上述第一点不谋而合的是,深度学习领域往往需要衡量两个对象的相似性,特别是在信息检索,模式匹配等方向上。本文将介绍深度学习领域衡量复杂网络中节点相似程度的工作,并简要构思 PTA 方法的后续改进计划。

Read more »
0%