Hai-Wei Chai's Blog

人工智能：深度学习超参数调优指南

Posted on 2025-10-05 Edited on 2025-10-05 In Artificial Intelligence Waline:

本文摘录自Google团队公布的深度学习超参数调优指南文档，该文档适用于对最大化深度学习的性能感兴趣的工程师和研究人员。我们假定您具备机器学习和深度学习概念的基本知识。文档的重点是超参数调优的过程，但还将涉及深度学习学习的其他方面。例如工作流实施和优化，但这些方面并不详尽。我们假设机器学习问题是监督学习或类似的东西（例如自监督学习）。但是，本文档中描述的技术也可能适用于其他类型的问题。

Reference: https://github.com/google-research/tuning_playbook

人工智能：KL散度与交叉熵

Posted on 2025-07-11 Edited on 2025-07-11 In Artificial Intelligence Waline:

KL散度（Kullback-Leibler Divergence）与交叉熵（Cross-Entropy）是信息论中两个非常重要的概念，在机器学习，特别是深度学习领域，它们被广泛用作损失函数，以衡量两个概率分布之间的差异。两者在数学上紧密相关，在某些特定场景下（如分类任务的损失函数），最小化交叉熵等价于最小化KL散度。交叉熵衡量使用“错误的”分布Q来表示来自“正确的”分布P的样本所需要的平均信息量（比特数）。而KL散度衡量使用“错误的”分布Q来表示分布P的样本，相对于使用“正确的”分布P自己来表示时，所产生的额外信息量。

人工智能：梯度累计 GRADIENT_ACCUMULATION_STEPS

Posted on 2025-06-20 Edited on 2025-06-20 In Artificial Intelligence Waline:

GRADIENT_ACCUMULATION_STEPS（梯度累积步数）是一种在不增加显存（VRAM）消耗的情况下，模拟出更大批量（Batch Size）训练效果的关键技术。

人工智能：attn_implementation 在性能、显存与可复现性之间做出选择

Posted on 2025-06-20 Edited on 2025-06-20 In Artificial Intelligence Waline:

当您在使用 Hugging Face transformers 库加载模型时，可以通过 attn_implementation 参数来指定底层的注意力（Attention）计算方式。这是一个至关重要的参数，直接影响了模型的训练和推理速度、显存占用以及计算结果的可复现性。

您在调试中发现 flash_attention_2 是随机性的来源，这是一个非常典型的例子，说明了前沿的性能优化有时会以牺牲一些可预测性为代价。理解不同选项的优缺点，可以帮助您根据具体需求（高性能、低显存、严格复现等）做出最优决策。

人工智能：TrainingArguments 中 optim 参数详解

Posted on 2025-06-20 Edited on 2025-06-20 In Artificial Intelligence Waline:

这份指南详细介绍了 Hugging Face transformers 库中 optim 参数所有可用的选项。该列表直接来源于 transformers 源代码，涵盖了从稳定可靠的基准到内存优化、实验性算法和特定硬件的各类优化器。

部分开放基因数据库

Posted on 2025-04-26 Edited on 2025-04-26 In Scholarship Waline:

基因是编码蛋白质的DNA碱基对序列，蛋白质是细胞和身体的基石。基因编码蛋白质结构。很简单，是吗？但是，深入到分子的细节，很快就会变得复杂起来。在二十一世纪初的机器学习时代，学界已经充分挖掘了短基因序列内的片段间的关联关系及其与宏观性状表达间的映射；2017年兴起的人工智能序列大模型依赖 Transformer 架构实现的超长上下文关联分析能力让人类对更长尺度的生命密码解读提供了可能。

人工智能大模型效能与模型参数规模和喂养的数据量强相关。笔者曾先后向湖南农业大学、深圳大学、重庆医科大学等数位基因组学方向的学者请教学界开放的海量基因数据的获取途径，并查阅了一些书籍及互联网资料，本文对部分开放基因数据库做简单的归纳整理。

另一种选择

Posted on 2025-02-05 Edited on 2025-02-06 In Notes on Life and Letter Waline:

“如果必须坠落，就让我坠落。我将会成为的那个人，一定会接住我。” —— Sheryl Sandberg

近日梦断魂销之际，友人推荐 Facebook 前首席执行官 Sheryl Sandberg 在丈夫去世的极度悲痛之中所著的$\lfloor$另一种选择$\rceil$。Sheryl Sandberg 敞开心扉，从她发现丈夫猝然倒在健身房的地板上开始，描述了丈夫去世后感受到的极度悲伤与孤独。然而，本书并没有局限于作者的个人经历，而是与 Adam 关于培养复原力的开放性研究结合起来，深入探讨了我们该如何克服人生中的逆境，包括疾病、失业、性侵、自然灾害、战争、暴力等不幸。同时，来自不同群体的案例也揭示了每个人都可以培养及提升内在坚韧的复原力，并且拥有重获快乐的能力。

本文记录于 2025 年春节，一个月前我已辞去中物院成都科学技术发展中心兼职特聘研究员，并决定在学校恢复工作后从西南交通大学辞职。在即将正式与过去作别之际，特作此文记录我近十年的人生历程。无论是蹉跎往日，还是做出艰难抉择的今天，我都清醒地意识到感情丰富是强者的大忌，但仍无法避免沉沦的命运。或许只有经历过起起伏伏、深刻痛苦的人才能体会 Sheryl Sandberg 的感受，坚持走过坎坷的人才更能理解其中的勇敢、真挚、温暖和希望。

《Hands-on Machine Learning with Scikit-Learn, Keras and TensorFlow, Third Edition》全书第三章：分类

Posted on 2025-01-10 Edited on 2024-01-10 In Artificial Intelligence Waline:

Geron教授所著的该书第一章中已经简要介绍了监督学习任务是回归（预测数值）和分类（预测类别）。在第二章中探索了一个预测加州地区房价的回归任务，并测试了如线性回归、决策树和随机森林等算法。现在我们将注意力转向分类系统。

人工智能：多头自注意力（Multi-Head Attention）机制

Posted on 2024-10-23 Edited on 2024-10-23 In Artificial Intelligence Waline:

Self Attention 利用 Q、K、V均为同一个输入向量映射而来的Encoder-Decoder Attention，它可以无视词之间的距离直接计算依赖关系，能够学习一个句子的内部结构，实现也较为简单并且可以并行计算。

Multi-Head Attention同时计算多个Attention，并最终得到合并结果，通过计算多次来捕获不同子空间上的相关信息。

复杂网络中的节点相似度

Posted on 2024-10-22 Edited on 2024-10-22 In Algorithm Waline:

Network Science, Albert-László Barabási, Section 3.6, Page 16

笔者在去年发表的论文 “Deformation dynamics of a neutron-irradiated aluminum alloy: an in-situ synchrotron tomography study”, Acta Mater., 243, 118493 (2023). 中公开了一种对三维结构中复数个目标的追踪方法（Appendix A. Particle tracking analysis, PTA）。该方法摒弃了基于三维矩阵卷积的图像配准方法，而依赖具体对象的结构参数信息，实现目标追踪时计算效率的质变以及目标对目标的映射追踪。然而该方法仍有两点不足：

依赖目标自身结构特征及近邻目标位移矢量的相似程度，但未充分利用复数个目标组成的局部网络结构相似程度
目标结构信息依赖前序步骤，如三维数字图像降噪、二值化等。应融合自适应局部结构特征识别算法

与上述第一点不谋而合的是，深度学习领域往往需要衡量两个对象的相似性，特别是在信息检索，模式匹配等方向上。本文将介绍深度学习领域衡量复杂网络中节点相似程度的工作，并简要构思 PTA 方法的后续改进计划。