你好!我是 Zheyu Zhang,现在是北京理工大学的一名大一学生。 很高兴认识你!
研究兴趣
我的研究兴趣在数学和神经网络上,具体而言: 我关心深度神经网络为什么能够在训练中形成有效特征学习,NTK 这类理论给出的是一种可分析、但偏线性化的极限。然而,真实深度学习的关键现象往往来自特征学习、表示变化、隐式偏置和优化动力学。这引导我关注:
- 训练过程中到底发生了什么?也就是参数变化如何转化为表示变化,哪些层在学习特征,哪些层更接近线性化行为。
- 为什么泛化会出现?同样是过参数化,为什么训练误差可以降到零,但测试误差不一定坏;为什么不同初始化、不同优化器、不同尺度会导向不同解。
- 哪些理论是基线,哪些理论是主线或本质?比如 NTK、PAC-Bayes、隐式偏置、表示学习理论、缩放律,它们都重要,但它们对“今天的大模型为什么有效”的解释强弱不同。有的理论是在解释现象,有的是给出一个可证的近似,这都是很有趣的开放性问题。
我相信理解神经网络的内在数学结构是通向更可靠、更高效 AI 系统的关键路径之一。当前的深度学习在很大程度上仍然是一个实验驱动的领域——模型被大规模训练,但我们对它们为何有效、为何有时失效的理解依然不够深入。我的工作目标是为这种理解提供更坚实的数学基础。一个核心问题可以表述为:
其中 的具体形式尚不完全清楚,但数学结构——如几何、拓扑、优化理论——为其提供了有力的分析工具。令人高兴的是,在深度学习领域这样的理论或许正在浮现,这让我充满希望:
- 越来越多的 解析可解情景中,学习过程完全由简单的数学公式描述,包括但不限于深度线性网络和核方法
- 存在一些有用的极限,包括无限宽度和深度的极限,这些极限为基本学习行为提供了洞见
- 在许多情况下,简单的经验定律足以捕捉有意义的宏观统计量,包括测试时性能和损失曲面的锐度
- 许多控制最优化的超参数可以被解耦并理解,从而留下一个更简单的有效动力系统
- 随着深度学习的应用不断扩展并趋于成熟,形成最佳实践,普适现象在各种情景和任务中越来越显著地出现
在未来一段时间内,我将尝试围绕过参数化深度网络中的特征学习、隐式偏置与泛化之间的关系,建立研究者的直觉,并据此判断哪些问题值得长期投入。 我的愿景是致力于深入、专注的学习,并产出具有持久影响的研究成果。
致谢
在我求学乃至人生的路上,有许许多多的人陪我一路前行,这让我无比感恩:
-
我的父母
-
那些给了我引导的研究者们:
- Jiaxu Ren | 智能涌现应具备真正的几何直觉
- Jiaxuan Zou | 重要的不是SOTA,而是解决了什么问题
- Huanran Chen | 将AI提升到科学的范畴,所有现象都应可解释、可预测
-
非常棒的好朋友们:
- Ray | 权威的Vue team前端大手子
- CloverIris | 存在,探索,成为自己
- 锦恢 | 直面恐惧,创造未来
- Dongdigua |
关于这个网站
这个网站不会刻意追求过度设计,而更强调信息组织与长期可读性。blog 用来承载动态写作与阶段性思考,publication 用来保留更正式、更适合引用的成果。它的最终形态会随着内容本身慢慢长出来。