编程界又迎来一项创新成果——知名技术专家卡帕西推出了一款名为“大模型议会”(LLM Council)的Web应用。这款应用虽然外观与常见的聊天机器人界面相似,但背后却藏着独特的运行机制:当用户提出问题后,系统会借助OpenRouter同时唤醒多个大模型,让它们共同参与问题解答。
这款应用的流程设计颇具巧思,主要分为三个步骤。第一步是“群策群力”,系统会同时调用GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5和Grok-4等多个大模型,让它们针对同一问题各自生成回答,并将这些回答以标签视图的形式呈现给用户,方便对比查看。第二步是“匿名互评”,所有模型的回答会被匿名处理后分发给彼此,每个模型需要根据回答的准确性和洞察力进行评分,并附上详细的评价理由,避免因模型身份产生偏见。第三步是“主席汇总”,系统会指定一个主席模型,将所有模型的回答和评分进行整合,最终生成一个综合答案反馈给用户。
在实际测试中,卡帕西发现了一些有趣的现象。例如,当多个模型共同评价彼此的回答时,GPT-5.1的答案被一致认为最具洞见,Claude的回答则被认为最弱,Gemini 3和Grok-4的表现处于中间水平。不过,卡帕西个人并不完全认同这一结果:他认为GPT-5.1的回答虽然内容丰富,但结构不够紧凑;Gemini 3的答案更简洁凝练,信息处理更到位;而Claude的回答虽然简略,但也有其独特之处。更令人意外的是,模型们在互评时很少表现出明显偏见,甚至会主动承认自己的答案不如其他模型。
这一项目在GitHub上公开后,迅速吸引了大量关注,目前已获得1.8k颗星。有网友认为,这种模型互评的模式或许能成为一种新的“自动基准测试”,为评估大模型性能提供全新思路;畅销书《Python机器学习》的作者也对该思路表示看好。卡帕西表示,虽然模型自评的结果可能与人类主观感受存在差异,但这种多模型协作的方式无疑为大模型的应用开辟了新的可能性,未来或许会成为LLM产品的重要发展方向。











