023小说网 > 都市言情 > 学霸的征途是星辰大海 > 第168章 重启SLRM研究 四

第168章 重启SLRM研究 四(1 / 1)

推荐阅读:

虽然slr在工程上有很多缺点要解决,但不防碍被验证是有效的。

他将目光投向了系统手稿中的另一个内核模块——动态长时记忆网络(d-ltn)。

然而,当徐辰满怀期待地翻开这部分的草稿时,一盆冷水当头浇下。

太残缺了。

相比于slr部分还算完整的理论框架,d-ltn这部分简直就是“灾难现场”。

关键的图更新算法只写了一半,公式推导到最关键的地方突然断掉,取而代之的是一串乱码般的墨迹。关于注意力权重如何在图结构和串行结构之间动态分配的机制,更是只有寥寥几句语焉不详的描述。

“这……这让我怎么补?”

徐辰看着屏幕上的残卷,眉头紧锁。

徐辰尝试着推导了几步,但很快就卡住了。

这不仅仅是数学问题,更涉及到了极其复杂的认知科学和信息检索理论。。”

徐辰叹了口气,不得不承认现实。。

而d-ltn,更多的是一个工程和算法问题。

没有足够的信息学底蕴,想要凭空补全这些缺失的环节,无异于盲人摸象。

“算了,贪多嚼不烂。”

徐辰果断放弃了死磕d-ltn的念头。

“先把slr这碗饭吃到嘴里再说。”?”

打定主意后,徐辰不再纠结。

……

不过,在正式整理论文之前,他决定先把“战绩”刷得更漂亮一点。

光有一个ctrr数据集的成绩,虽然惊艳,但难免会被人质疑是“过拟合”或者“运气好”。

要让审稿人闭嘴,最好的办法就是——全方位碾压。

他打开了huggg face的排行榜,挑选了几个公认最硬核的逻辑测试集:

- snli (stanford natural nguage ference):斯坦福自然语言推理数据集。这是nli任务的鼻祖,要求模型判断两个句子之间的逻辑关系,比如蕴含、矛盾、中立等。虽然经典,但对于大模型来说,依然存在“逻辑陷阱”。

- logiqa:这是由公务员考试题目组成的逻辑推理数据集,包含演绎推理、归纳推理等多种题型,难度极高,被称为“ai的智商测试”。

- proofwriter:这是一个要求模型不仅给出答案,还要生成完整逻辑证明过程(proof generation)的数据集。这是对模型逻辑链条最严苛的考验。

徐辰继续用他的qwen-7b模型搭配slr模块组成的新模型,进行测试。

徐辰首先看了下原始版本的qwen-7b模型在这些数据集上的表现。

以logiqa为例,原始的qwen-7b-chat在零样本(zero-shot)下的准确率大约在35-40之间,在少样本(few-shot)下也很难突破50的天花板。而象gpt-4这样的巨无霸,在这个榜单上常年霸榜,分数在75以上。

徐辰决定先用slr模块进行少样本学习,然后再将其与qwen-7b结合起来。”

徐辰嘴角勾起一抹玩味的笑容。

这就象是给一辆五菱宏光装上了曲率引擎,然后去纽北赛道上跟法拉利飙车。

……

第一战:snli。

原本,qwen-7b在面对一些带有否定词或双重否定的句子时,经常会晕头转向。

但现在,每当qwen-7b生成一个推理步骤,slr就会在后台的高维几何空间里构建一个“逻辑盒子”。如果下一步的推理超出了这个盒子的范围,slr会立刻施加惩罚梯度,强迫它修正逻辑。

测试开始。

进度条走动。。

“嘶……”徐辰自己都吸了口凉气。

“在nli这种基础任务上,直接超越了sota(当前最佳)!”

……

第二战:logiqa。

这是一个硬骨头。题目全是类似“如果a去,b就不去;如果b不去,c必须去……”这种绕口令。

徐辰加载模型,运行测试。

十分钟后。。

翻倍!直接翻倍!

在这个榜单上,即便是千亿参数的la-3-70b,也还在65左右徘徊。徐辰用7b的模型,跑出了比gpt-4还高5个点的成绩!

……

第三战:proofwriter。

这是终极考验。不仅要对,还要对得有理有据。

徐辰看着这个数字,忍不住感叹slr的逻辑能力确实够强。

“虽然推理速度慢得象蜗牛,泛化能力也有限,但在‘逻辑严谨性’这一块,它就是当之无愧的王者。”

“有了这些数据,这篇论文,稳了。”

……

随着徐辰将一份份测试结果上载到huggg face的leaderboard,整个ai界,再次被那个神秘的“x”给震动了。

这一次,不再是ctrr一个榜单的孤立事件。

snli、logiqa、proofwriter……

几乎所有主流的、公认最难啃的逻辑推理榜单,在一夜之间,全部被那个简单的字母“x”给血洗了!

而且,分数不是微弱的领先,而是断层式的碾压!

在logiqa这种“智商测试”榜单上,x的模型甚至比第二名高出了整整5个百分点!

那一连串绿色的“new sota”标志,就象是一排排闪铄的霓虹灯,刺痛了所有ai巨头的眼睛。

更可怕的是,这些成绩的背后,依然没有公开任何模型权重,没有一行代码,甚至连那个“x”到底是谁,依然是个谜。

……

章节报错(免登录)
最新小说: 坠落山崖,却意外获得了修仙传承 直播算命:开局送走榜一大哥 砚知山河意 闻医生,太太早签好离婚协议了 美貌单出是死局,可我还是神豪 矢车菊,我和她遗忘的笔记 我的关注即死亡,国家让我不要停 宠婚入骨:总裁撩妻别太坏 重逢后,禁欲老板失控诱她缠吻 总裁的失宠新娘