发布日期:2026-06-11 02:12点击次数:62

年度的考季又到了阿勒泰塑料挤出设备厂家。
从上上周开动,就有好多一又友来问我,本年考还测意外大模子巡逻了。
测,服气测。
然则服气要跟旧年要有些分离对吧,旧年我只测了部分的数学题,本年淌若还这样玩,那就太聊了。
是以,我思了思,本年不如通盘大点的活,让通盘的顶 AI 起,来的考下语文和数学,这两个,十足考。
在通盘 AI 齐在发力代码和 Agent 武艺的情况下,究竟谁的语文武艺,我还詈骂常趣味的。
此次的参赛模子呢,基本市面上主流的大模子我也齐拉来了,基本齐是大的旗舰模子。
海外基本等于大练习的御三,Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro。
国内这边,我也尽量选了各目下能的。
千问 3.7 max、文心 Ernie 5.1、星火 Spark X2、智谱 GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米 MiMo v2.5 Pro、混元 3 这些齐有。
让这些大模子,起作念了这两套卷子。
而我服气莫得对语文和数学考题目阅卷的武艺,是以此次,我思了思,找身边的一又友们化了下缘,终于,也邀请到了 4 位有过访佛阅卷履历的中领路们,来跟咱们起整这个活。
因为语文会略略主不雅点点,况且咱们也不像真实考样有些分服气,是以咱们邀请了 3 位语文领路来共同阅卷,让他们充分阐明,后取对等分,这样会自制点,是以终是 3 位语文领路和 1 位数学领路。
然则真实超越超越感谢几位领路,陪咱们直干到了凌晨,每个东谈主险些齐厚爱删改了十二份的卷子。。。真实,以为报。。。
而卷子的挑选上,天然也齐是选用的宇宙卷,此次会略略有点迥殊。
因为语文此次比拟可惜,比及晚上 8 点也莫得比及无缺版的卷子,是以只可终使用巡逻官发布的部分试题和参考谜底上进行测试,满分或者是 100 分,终分数会基于比例,再换算至 150 分。
数学则是无缺的真题试卷,就比拟肤浅了。
然后呢,为了保证此次 AI 考的自制,咱们如故下了不少功夫作念均衡的,终结了不少法规:
1. 使用 API 调用各个模子,齐开 thinking,不终结长的 token 数,通盘的用具调用齐强行进犯,像什么代码理、网页搜索什么的齐关掉了。
2. 除了讯飞星火、百度阿勒泰塑料挤出设备厂家,其他 10 统走 OpenRouter 调用,这样不错保证自制自制。
3. 模子的输入,语文和数学齐罗致了通过 LaTeX 设施纯文本输入的式。
数学本来咱们算是分红多模态和纯文本赛谈的,然则真题出来之后,发现只须谈题,也等于立体几何那谈题带图形。但题干其实就包含了这个图形的通盘信息,莫得要,是以就改成了一齐齐通过 LaTeX 设施输入。
天然 PDF 转 LaTeX 设施这步是 AI 作念的,然则让它转了之后,我也雷同写了个 LaTeX 编译器的剧本,它会在左边放上蓝本的题目,右边是 LaTeX 数据编译后的终题目,便我和领路们进行查对,在准确上,咱们如故花了些力气的。
然后咱们也引诱了个我方的巡逻剧本,咱们只需要把题目丢进去,剧本就会自动调 API,自动让模子作答,自动把客不雅题判掉,主不雅题再送到我搭的在线阅卷平台里,让真东谈主领路盲评。
巡逻的 Prompt 按照底下的修复给模子。
客不雅题只是单纯终结它的设施输出,便我的剧本对客不雅题进行分,不作念任何的引。
主不雅题就径直把裸题给模子丢畴昔让他作答。
以及在数学的填空题上头,亦然让它凭证数值分,不是凭证设施分。因为填空题容易出现,在分数或者说有根号的情况下,会有不同的写法,同个数值会有不同的写法。是以此次在剧本中亦然有特地着重这点。
归正作答上咱们尽量确保要自制、自制再自制,客不雅、客不雅再客不雅。
后,模子输出的通盘的效果,咱们又引诱了个阅卷网站,供咱们的 4 位领路们进行阅卷和评分。
领路使用我方的名字,登进去之后,看到的每份卷子上头只须个代号。卷 ABCD 巴拉巴拉。
这样的话,领路并不知谈这谈卷子是哪个模子作念的答,也会避些前置的刻板印象带来些阅卷上的影响。
领路不错轻松选择套卷子开动阅卷,然后内部的分界面是这样的。
径直在内部逐题删改。
还不错写上我方的考语。
真实,领路们超越冗忙,因为语文的卷子迟迟不出终版,是以咱们后只可用部分版来巡逻阿勒泰塑料挤出设备厂家,几位领路齐生生的阅卷到晚上 11 点以后了。
向领路们问候。
后,在履历了快要 12 个小时的奋战之后,咱们的 12 位大模子的巡逻分数,终于出炉了。
他们,是这样的。
这里我提前叠个甲,这个分数和名次,只是咱们基于我方的体系作念题出来况且由领路们主不雅评比出来的,而且只跟语文和数学作念题干系,跟大目下商议的代码和 Agnet 武艺关,且可能会展示部分的东谈主类偏好,名次与分数仅供文娱参考,不代表任何指向。
这内部有几个让我挺意外的地。
先看总分,名 MiMo v2.5 Pro,256.3 分。二名 Kimi k2.6,隔热条设备256.29 分。
差了 0.01 分。
MiMo 比 Kimi 语文少了 1 分,Kimi 数学比 MiMo 少了 1 分。。。
要知谈咱们测评的语文卷子只须谈客不雅选择题,其他全是主不雅题,再加上有作文的存在,换算到骨子评分上,可能等于某位语文领路在某谈主不雅题上多给了 1 分的分离。
往下看从三名到九名,Claude Opus 4.8,直到 GLM 5.1 和 Gemini 3.1 Pro 并排的 252.78,7 个模子之间的差距只是在 2 分。
不错说,至少在这两套考卷子上的发扬,前边这 9 个顶的 AI 大模子模子险些真实齐拉不开差距了,分差小。
看已矣总分,再来望望单科的收成。
你会发现,咱们的语文状元在 3 位领路盲测中,由 GLM5.1 和 Gemini 3.1 Pro 共同摘夺桂冠,然则在数学上又有点偏科,而且险些齐是昆玉肩并肩,我的脑子里还是出现了中学班上某个同学的神色了。。。
反过来的例子也有,DeepSeek V4 Pro,和 MiMo、ERNIE 5.1 三并排数学分,但语文又奇低。。。
坦率的讲,这其实不太符我对 DeepSeek 强世界学问的印象。
我把语文的评分单拎出来看了下,这里着重下,因为语文真题目下一齐的还没出来,是以目下用的是部分的题集成的 101 分版块,后折算成 150 分制的,是以底下你看到的总分其实齐是 101 分制的。
发现 DeepSeek 的作文,属于拉已矣。
后位领路手比拟松阿勒泰塑料挤出设备厂家,天然出的分数是 49 分,然则在他畴昔的分中,其实也不算了。
他们的考语其实也齐超越的成心思意思。
是以他们改完卷,我也去厚爱看了看他们通盘的考语。
其实三位领路从给分上看,是能看出来他们有各自的偏好,然则在他们的考语有个共同点。
他们很真贵考作文的可评分结构。
考语里会频出现文学不清,著述结构不够明晰,不雅点不够明晰明确,论证不充分,期间关联不及等等考语。
比如这篇通盘模子中得分的,由 GLM 5.1 写的作文,就有两位领路齐提倡了著述结构不够明晰的舛错。
作文原文我也放在这里了,大不错在辩驳区评评。
语文或者等于这样,咱们再望望数学的得分明细。
你会发现险些通盘的模子,其实没啥大的分差。
我也从数学领路哪里获得了超越积的反映,刚改完前边几个大题,他就在很抖擞的跟我说,发现正确率挺的,基本齐是满分。
然则法会不样。
主淌若在几何上,这个就很成心思意思了。
还有个成心思意思的等于,我在让 Opus 4.8 跑数学后谈大题的工夫,他窘态其妙的卡死了好多好多轮。。。
不太成心思意思的等于,我健忘它直在重试,致我 OpenRouter 上为数未几的余额全给耗光了。。。
不事后好赖如故搞出来了。
以上,或者等于此次 AI 考的效果,跟我开动预期的,还真实是有点分离。
我又作念了下各的位置图,大不错望望。
真实是原理之中,又是预思以外。
还挺好玩的。
忽然又思起,2023 年,我次拿考题去测 AI。
其时是让 ChatGPT 去写考作文。
那会儿 GPT-4 如故能的,国产模子甚而齐还莫得几个。
2024 年,国产也开动卷起来了,但如故有好多哭笑不得的翻车。旧年 2025 那次测完,有几个模子的数学水平还是够上本线了。
本年是 2026。
四年了。
也算是见证了那好多好多个模子的浮千里。
咱们我方也在变,23 年的工夫,只会写个作文,旧年测试,如故东谈主工复制粘贴到十几个大模子的官网内部去测试,不休的 roll。
本年,写批量剧本,写 LaTeX 转译,请考阅卷领路们助阵,又为他们徒手引诱了阅卷网站。
我天然也不错顺手测下通盘活,然则思了思,这几年,在这个选题上,我认为如故要尽可能的保证客不雅和自制。
因为,这是考。
这两个字,在,承载的东西太多也太正经了。
作念阅卷网站的工夫,我直在纠结用什么主预料,后选了凤凰花。
六月的凤凰花开得正盛,每年齐准时赶在这个节点上,送走届又届的东谈主。
后。
我思用近段对我超越有概叹的话来收尾,它来自《燕云十六声》近新的青州舆图的后的任务,当众学子行将毕业之时,文津馆文元林险生对大说:
"你们,自四山五岳负笈而来,当天散去,又是去往四山五岳,而后山长水远,好多东谈主将不复相遇了。
此去,有饱经世故凛凛之时,愿诸君,乾坤既大,草木尤青,高兴择路,笃志前行。
诸位,路顺风。"Q Q:183445502相关词条:玻璃棉毡 塑料挤出机 预应力钢绞线 铁皮保温 万能胶生产厂家
1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》阿勒泰塑料挤出设备厂家,以此来变相勒索商家索要赔偿的违法恶意行为。
怒江隔热条设备 丰田汽车5月全球销量88万辆,同比下降2%
商洛塑料挤出机价格 分掌门:用专业与科技做生涯教育的同行者
安庆塑料挤出机价格 庐江矿业两项产品标准成功发布
吐鲁番隔热条设备厂家 海南省安全隐患“三个专项整治”工作新闻
深圳隔热条PA66厂家 《鹅鸭杀》褒贬不一 金山世游转型未见
日喀则隔热条设备 江苏银行 “双十二” 线上促消费系列举措正
汕尾隔热条PA66生产设备 温州医科大学2026年硕士研究生
金昌异型材设备厂家 美联储降息预期大幅升温,施压美元继续走低
昆玉塑料管材生产线厂家 柬内政部称一名中国公民在柬泰冲突中受
绥化塑料挤出机设备厂家 “十四五”时期青岛营商环境工作取得历