转载:https://www.toutiao.com/article/7365493604791419402/
2024-05-02 18:15·量子位
白交 衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
一种全新的神经网络架构KAN,诞生了!
与传统的MLP架构截然不同,且能用更少的参数在数学、物理问题上取得更高精度。

比如,200个参数的KANs,就能复现DeepMind用30万参数的MLPs发现数学定理研究。
不仅准确性更高,并且还发现了新的公式。要知道后者可是登上Nature封面的研究啊~
在函数拟合、偏微分方程求解,甚至处理凝聚态物理方面的任务都比MLP效果要好。
而在大模型问题的解决上,KAN天然就能规避掉灾难性遗忘问题,并且注入人类的习惯偏差或领域知识非常容易。
来自MIT、加州理工学院、东北大学等团队的研究一出,瞬间引爆一整个科技圈:Yes We KAN!
甚至直接引出关于能否替代掉Transformer的MLP层的探讨,有人已经准备开始尝试……
有网友表示:这看起来像是机器学习的下一步。
让机器学习每个特定神经元的最佳激活,而不是由我们人类决定使用什么激活函数。
还有人表示:可能正处于某些历史发展的中间。

GitHub上也已经开源,也就短短两三天时间就收获1.1kStar。

对MLP“进行一个简单的更改”
跟MLP最大、也是最为直观的不同就是,MLP激活函数是在神经元上,而KAN把可学习的激活函数放在权重上。
在作者看来,这是一个“简单的更改”。
从数学定理方面来看,MLP的灵感来自于通用近似定理,即对于任意一个连续函数,都可以用一个足够深的神经网络来近似。
而KAN则是来自于 Kolmogorov-Arnold 表示定理 (KART),每个多元连续函数都可以表示为单变量连续函数的两层嵌套叠加。
KAN的名字也由此而来。
正是受到这一定理的启发,研究人员用神经网络将Kolmogorov-Arnold 表示参数化。
为了纪念两位伟大的已故数学家Andrey Kolmogorov和Vladimir Arnold,我们称其为科尔莫格罗夫-阿诺德网络(KANs)。
而从算法层面上看,MLPs 在神经元上具有(通常是固定的)激活函数,而 KANs 在权重上具有(可学习的)激活函数。这些一维激活函数被参数化为样条曲线。

相关论坛
相关广告

拨打电话