Navigation menu

新闻中心

询问了Meta的新旗舰AI Model Llama 4 Maverick测试标记,

IT HOME 4月7日新闻Meta上周发布了一种名为Maverick的新旗舰模型,并在LM Arena测试中结束了第二个。但是,这一成功的价值已经引起了许多疑问。根据社交平台X上的一些AI研究人员的说法,在LM竞技场部署的META版本不符合开发人员广泛使用的版本。梅塔(Meta)在宣布参加LM Arena测试的Maverick是“聊天的实验版本”。根据官方骆驼网站上发布的信息,Meta使用LM Arena的审判是“对话优化的Llama 4 Maverick”。这表明此版本特别优化以适应测试环境和LM竞技场标记标准。但是,作为测试工具,LM竞技场本身的可靠性是有争议的。但是,过去,AI公司通常没有专门定制或适当地模型来获得更高的标记LM竞技场,至少没有公开认可这项培训。和Meta目前的行为。目标模型的优化的这种行为,然后仅发布“普通版本”,这引起了开发人员的许多问题。因为它使开发人员很难在某种情况下准确预测模型的实际性能。此外,这种行为有些误导。理想情况下,尽管现有基准存在许多缺点,但它们甚至可以在许多活动中提供单个模型的利弊的一般性。实际上,研究人员注意到下载版的小牛和LM竞技场上苔藓的模型的X中有显着差异。例如,LM竞技场版本似乎更倾向于使用大量表情符号,并且答案通常很长并且被拖累。至于新闻稿,元组织和负责维护LM竞技场的聊天机器人竞技场组织尚未做出回应对此。