关于 - SkyWalker Blog

关于

你好！我是 Zheyu Zhang，现在是北京理工大学的一名大一学生。很高兴认识你！

研究兴趣

我的研究兴趣在数学和神经网络上，具体而言：我关心深度神经网络为什么能够在训练中形成有效特征学习，NTK 这类理论给出的是一种可分析、但偏线性化的极限。然而，真实深度学习的关键现象往往来自特征学习、表示变化、隐式偏置和优化动力学。这引导我关注：

训练过程中到底发生了什么？也就是参数变化如何转化为表示变化，哪些层在学习特征，哪些层更接近线性化行为。
为什么泛化会出现？同样是过参数化，为什么训练误差可以降到零，但测试误差不一定坏；为什么不同初始化、不同优化器、不同尺度会导向不同解。
哪些理论是基线，哪些理论是主线或本质？比如 NTK、PAC-Bayes、隐式偏置、表示学习理论、缩放律，它们都重要，但它们对“今天的大模型为什么有效”的解释强弱不同。有的理论是在解释现象，有的是给出一个可证的近似，这都是很有趣的开放性问题。

我相信理解神经网络的内在数学结构是通向更可靠、更高效 AI 系统的关键路径之一。当前的深度学习在很大程度上仍然是一个实验驱动的领域——模型被大规模训练，但我们对它们为何有效、为何有时失效的理解依然不够深入。我的工作目标是为这种理解提供更坚实的数学基础。一个核心问题可以表述为：

$\text{generalization} = f(\text{architecture}, \text{data}, \text{optimization}, \text{regularization})$

其中 $f$ 的具体形式尚不完全清楚，但数学结构——如几何、拓扑、优化理论——为其提供了有力的分析工具。令人高兴的是，在深度学习领域这样的理论或许正在浮现，这让我充满希望：

在未来一段时间内，我将尝试围绕过参数化深度网络中的特征学习、隐式偏置与泛化之间的关系，建立研究者的直觉，并据此判断哪些问题值得长期投入。我的愿景是致力于深入、专注的学习，并产出具有持久影响的研究成果。

在我求学乃至人生的路上，有许许多多的人陪我一路前行，这让我无比感恩：

我的父母
那些给了我引导的研究者们：
- Jiaxu Ren | 智能涌现应具备真正的几何直觉
- Jiaxuan Zou | 重要的不是SOTA，而是解决了什么问题
- Huanran Chen | 将AI提升到科学的范畴，所有现象都应可解释、可预测
非常棒的好朋友们：
- Ray | 权威的Vue team前端大手子
- CloverIris | 存在，探索，成为自己
- 锦恢 | 直面恐惧，创造未来
- Dongdigua |

这个网站不会刻意追求过度设计，而更强调信息组织与长期可读性。blog 用来承载动态写作与阶段性思考，publication 用来保留更正式、更适合引用的成果。它的最终形态会随着内容本身慢慢长出来。