卡帕西“大模型议会”新玩法：四大AI匿名互评，谁是最强引热议-产业经济-发现者网

发现商业评论旗下

洞察商业启迪未来

编程界又迎来一项创新成果——知名技术专家卡帕西推出了一款名为“大模型议会”（LLM Council）的Web应用。这款应用虽然外观与常见的聊天机器人界面相似，但背后却藏着独特的运行机制：当用户提出问题后，系统会借助OpenRouter同时唤醒多个大模型，让它们共同参与问题解答。

这款应用的流程设计颇具巧思，主要分为三个步骤。第一步是“群策群力”，系统会同时调用GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5和Grok-4等多个大模型，让它们针对同一问题各自生成回答，并将这些回答以标签视图的形式呈现给用户，方便对比查看。第二步是“匿名互评”，所有模型的回答会被匿名处理后分发给彼此，每个模型需要根据回答的准确性和洞察力进行评分，并附上详细的评价理由，避免因模型身份产生偏见。第三步是“主席汇总”，系统会指定一个主席模型，将所有模型的回答和评分进行整合，最终生成一个综合答案反馈给用户。

在实际测试中，卡帕西发现了一些有趣的现象。例如，当多个模型共同评价彼此的回答时，GPT-5.1的答案被一致认为最具洞见，Claude的回答则被认为最弱，Gemini 3和Grok-4的表现处于中间水平。不过，卡帕西个人并不完全认同这一结果：他认为GPT-5.1的回答虽然内容丰富，但结构不够紧凑；Gemini 3的答案更简洁凝练，信息处理更到位；而Claude的回答虽然简略，但也有其独特之处。更令人意外的是，模型们在互评时很少表现出明显偏见，甚至会主动承认自己的答案不如其他模型。

这一项目在GitHub上公开后，迅速吸引了大量关注，目前已获得1.8k颗星。有网友认为，这种模型互评的模式或许能成为一种新的“自动基准测试”，为评估大模型性能提供全新思路；畅销书《Python机器学习》的作者也对该思路表示看好。卡帕西表示，虽然模型自评的结果可能与人类主观感受存在差异，但这种多模型协作的方式无疑为大模型的应用开辟了新的可能性，未来或许会成为LLM产品的重要发展方向。

新华社记者孙青摄 11月13日清晨，“远征A2”机器人经过行走106.286公里后，抵达上海北外滩。11月13日清晨，“远征A2”机器人走在上海的马路上。 “远征A2”机器人出发前在江苏苏州金鸡湖畔留影…

研究团队开创性地提出有机半导体敏化策略，以功能化有机配体作为“光电桥梁”，成功将能量精准高效地传递给绝缘稀土纳米晶，实现电流驱动下的高效发光。这标志着我国在稀土高端光电应用领域取得关键突破，为发展自主可控…

中电信量子集团量子计算高级研究员张鑫方：这台量子计算机，从核心处理器到大型稀释制冷机以及测控软硬件系统，全部实现了国产化，将量子计算核心技术牢牢把握在自己手中。总台央视记者张丛婧：这台手机外观看起来和…

三、一个洗衣机工厂的革命：AI 工厂大脑 + 人形机器人 = 未来工厂初形态如果说宝钢代表重工业的未来，那么美的展示的是民用制造的另一种未来。五、华为深度介入：中国制造业的“AI军火库”开始发动中国 AI…

作为全球首款量产的立体空间清洁设备，该产品专为机场、商场、写字楼等公共空间设计，采用“全向移动底盘+机械臂+专业末端工具”的最优形态，有效破解传统清洁行业痛点，标志着具身智能技术在商用清洁垂直场景中迈入规模化…

更绝的是，这家曾经被人笑话"连零件都搞不明白"的公司，现在已经拿下了全球人形机器人连接器市场60%的份额。连接器的迭代与机器人研发同步推进，这种深度绑定让艾迈斯成了宇树科技最核心的供应商，也让他们积累了独家…

近日，乐聚智能正式将自主构建的LET数据集捐赠至OpenLoong开源社区，为社区补充了一套覆盖真实作业场景的重要数据资源。 LET数据集由乐聚智能与合作团队联合构建，是国内少有的面向真实作业场景的全尺寸人形…

2024年中电信量子集团在中国科学院量子信息与量子科技创新研究院的指导下，联合控股的国盾量子，基于“骁鸿”芯片，研发出国内比特数最多的超导量子计算机——天衍-504，就已标志着中国电信具备了领先的量子计算机制…

晋升为NPN“优选级别”合作伙伴后，MicroInference将解锁更丰富的生态权益，不仅能为客户及合作伙伴提供更前沿的AI基础设施解决方案，更能凭借“计算+网络”的深度融合优化能力，打造安心、省心、高效…

第12代iPad有望搭载A18芯片，该芯片采用3纳米制程，相比当前型号的A16芯片在速度与能效上均有提升。新款iPad有望内置苹果自研的N1芯片（此前已在iPhone17及iPad Pro中使用），支持Wi…