乐山隔热条设备从“力压英伟达”到排行清，RoboArena被千寻智能“刷榜”了？

点击次数：187 发布日期：2026-06-25

记者何畅乐山隔热条设备

剪辑宇雷

正如跑分是手机硬件能的评估尺度之，Benchmark（基准测试）也被视为判断模子才略的紧迫参考。但随早先艺发展和场景变化，维度单的榜单似乎很难呈现模子的水平。与之相伴的另个问题则是：所谓的榜单是否值得信任？

在6月12日至13日举办的智源大会上，多位嘉宾提到了对Benchmark和榜单的见识。智源征询院院长仲远认为，从本色情况来看，现阶段“榜单照实不那么简直”——各式各样的榜单令东谈主眼花头昏，况兼部分礼貌法考证。香港大学缱绻与数据科学学院助理拔擢李阐扬则默示：“Benchmark当今是个重灾地。”

不雅点与推行互为照耀。6月14日，具身智能评测平台RoboArena发布公告称，经过纪念造访，他们“依然不雅察到Benchmark存在被主管的萍踪”，并剔除了问题数据。对比榜单变前后的两个版块，大的区别在于多个模子从榜单上消失，其中就包括此前位列的千寻智能自研具身基座模子Spirit v1.6。从“力压”到排行清

6月3日，具身智能公司千寻智能通过官微信公众号发布了篇著述：《双线到手！千寻智能Spirit v1.6横扫北好意思“具身奥林匹克”夺冠，再获15亿元A+轮融资》。

标题称得上是对正文信息的度索取，这公司公布的恰是这两件事：手艺层面，登顶RoboArena榜单，“力压英伟达Cosmos 3和Physical Intelligence Pi0.5，“破硅谷霸榜魔咒”；成本层面，再获15亿元A+轮融资，三个月内完成四轮交游，跑出融资加快度。

凭借手艺迤逦眩惑成本加码，再将所融资金插足后续研发——双线并行，真是已毕了闭环。然则，几天之内，就联系注具身智能行业的东谈主士在小红书等酬酢平台提议了质疑：Spirit v1.6累计评测记载为310次乐山隔热条设备，其中72的评测来自两个账号：个是ECUST Robot Lab，评测179次，胜率为97.2；另个是Robotics Lab，评测45次，胜率为86.7。当作对比，NVIDIA对Spirit v1.6进行了21次评测，胜率为0。

RoboArena面也注目到了数据的相当。6月4日，当作联发起者之，宾夕法尼亚大学GRASP实验室的杰在相关条记的评述区复兴：“咱们依然注目到了这个情况，正在入造访”。图片起原：电厂截图自小红书

经过周的造访和纪念，RoboArena给出了措置案：将评测完成率低于20的评测账号标识为可疑账号，以止Benchmark舞弊的情况再次发生；左证新后的公法回滚了评测，往常自前述账号的评测礼貌剔除；同期，强制章程只须莫得相关利益的三评测者能力自觉参与评测。

RoboArena的中枢孝敬者，来自加州伯克利大学机器东谈主学习实验室的Pranav Atreya也在酬酢平台上发文说起此事，并对社区监督默示感谢。图片起原：电厂截图自RoboArena

当今，若是你点进RoboArena的页面，先看到的恰是被置顶的措置公告，后头随着RoboArena同期放出的两版榜单——短的是Official版块，排斥了可疑评测礼貌；长的是All Policies版块，包含系数评测礼貌。在All Policies版块登顶的Spirit v1.6，并未出当今Official版块，后者的前三名分裂来自英伟达和Physical Intelligence。评测机制与可疑数据的由来

RoboArena的公告，其实在定进度上讲授了可疑评测数据是若何产生的：“主管A/B评测礼貌存在多种技能，其中种典型涌现为待分拨评测任务的完成率偏低。”

左证官网先容，RoboArena是个散布式评测框架，发起者来自加州大学伯克利分校、斯坦福大学、华盛顿大学、英伟达等校和科技巨头，兼具顶学术机构、头部科技公司背书。评测经受“众包”样式，评测者不错自主注册账号，解放采取场景和任务履行评测。在这个进程中，模子之间的敌手关系来自就地匹配，评测者也不知谈我方评测的是哪个模子。

多量分散的双盲、成对评测礼貌经过系统的网罗和统计，终汇总为张榜单。表面上来说，这破了单实验室的评测样式，大幅扩张了评测的各种，也意味着个别可疑或坏心评测行径难以残害影响礼貌。图片起原：电厂截图自RoboArena

但本色上呢？从礼貌来看，隔热条设备ECUST Robot Lab和Robotics Lab这两个评测账号攀附参与了Spirit v1.6的评测，使后者的胜率连忙提，况兼Spirit v1.6的敌手多数发布较早，评测礼貌散布失衡。此前，榜单礼貌遭到质疑时，杰也曾在小红书相关条记留言“咱们的战术分拨系统收到了报复”。也即是说，Spirit v1.6可能在评测中“绕过了”确切的潜在敌手。图片起原：电厂截图自小红书

至于ECUST Robot Lab和Robotics Lab，则为了给Spirit v1.6孝敬胜率、付出了未完成评测任务过多的代价。在All Policies版块的榜单中，Spirit v1.6和另外9个模子皆被上了“low sample（低采样样本组）”的标签——左证章程，须完成至少100组A/B评测能力上榜。数据回滚后，Spirit v1.6仅完成25组A/B评测，次评测时分为4月30日，后次评测发生在5月15日。图片起原：电厂截图自RoboArena

还有个可能被忽略的情况在于，若是去掉英伟达当作评测者的礼貌，Official版块的名将不再是英伟达DreamZero，而是Physical Intelligence Pi0.5，但去掉来自其他主要评测者的礼貌时，英伟达DreamZero排行并未发生变化。

RoboArena不反对模子提供者参与评测乐山隔热条设备，后者以致不错借此为我方的模子赢得多被评测的契机。然则，当评测者即是模子提供者，很难避“又当评判员又当通顺员”的质疑。

自觉双盲机制的起点是好的，前提是确保礼貌“不可主管”。对此，些可能的完善想路包括：不是平直进行模子成对匹配，而是在多个成对匹配中就地筛选个礼貌进行评测；加强账号关联校验、利益相关终止和单对象评测上限确立等，以均衡评测的灵通和礼貌的公道。榜单和排行究竟是给谁看的？

若是刷榜成为构成榜单的部分，榜单本人的简直进度将被画上个问号。在6月中旬举办的智源大会上，Benchmark和榜单是被反复拿起的热点话题。

智源征询院院长仲远认为，从本色情况来看，现阶段“榜单照实不那么简直”。是榜单太多，各式各样的榜单让他“看得眼花头昏”，二是清寒礼貌以外的信息，“好多榜单的礼貌也没宗旨考证”。

在他看来，勇于现场展示真机、“亮真活儿”的模子公司“是有底气的”，也能在些场景下找到数据闭环。“是骡子是马拉出来遛遛，能拉出来遛，时常照旧不错让大有个体感。”

香港大学缱绻与数据科学学院助理拔擢李阐扬则默示：“Benchmark当今是个重灾地。”他认为，目下Benchmark“存在很大的问题”，仅仅大皆心照不宣，“不肯意提”。他我方也从来不看榜单和排行，“若是你因为（榜单成绩）发了个一又友圈，我从心理上瑕瑜常看不起你的”。

究竟是谁在关爱榜单和排行？大致要看谁能从中有所成绩。投资东谈主需要客不雅评估公司手艺实力的标尺，公司需要对外宣传、眩惑成本的素材，学术机构需要额外科研遵守的背书。各似乎皆存在需求，但旦与榜单过度绑定以致钻榜单公法的空子，榜单也就失去了原有的兴味兴味。

6月5日举办的腾讯AI产业期骗大会上，腾讯AI科学姚顺雨在与腾讯集团履行总裁、云与贤达产业奇迹群CEO汤谈生对话时也提到，国内有个不太好的倾向是“大心爱刷榜”。姚顺雨的不雅点是，实用的价值大于刷榜价值——比起所谓的排行，紧迫的其实是若何踏分解实地基于居品、基于确切的期骗来构造加真实的Eval（评估）。他不否定Benchmark的作用，“仅仅说这些榜单相当容易Overfitting（过拟）”。

手艺实力终究要落地于真什物理宇宙，通过主管评测礼貌换来的榜单狂欢，仅仅泡沫汉典。正如地瓜机器东谈主算法总裁隋伟在小红书相关条记下所写的那样：“这类榜单莫得太大产业指兴味兴味，跟本色落地场景出入太远，多的是学术价值。目下操作类模子照实败落有劝服力的Benchmark，是行业痛点，但是论若何也不成作秀，那是credit的问题了。”

手机：18631662662（同微信号）相关词条:管道保温塑料管材生产线锚索玻璃棉毡 PVC管道管件粘结胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》乐山隔热条设备，以此来变相勒索商家索要赔偿的违法恶意行为。

下一篇：陵水塑料管材生产线欣旺达能源增资至132亿元增幅约38 上一篇：盐城塑料挤出机设备厂家这份重磅案让外资在华扎根

长沙塑料挤出机厂家_建仓机械

乐山隔热条设备从“力压英伟达”到排行清，RoboArena被千寻智能“刷榜”了？

推荐资讯

热点资讯/a>

最新资讯

友情链接：

新闻资讯

产品展示

联系建仓

长沙塑料挤出机厂家_建仓机械

乐山隔热条设备 从“力压英伟达”到排行清，RoboArena被千寻智能“刷榜”了？

推荐资讯

热点资讯/a>

最新资讯

友情链接：

新闻资讯

产品展示

联系建仓

乐山隔热条设备从“力压英伟达”到排行清，RoboArena被千寻智能“刷榜”了？