人工智能工具博客 > Crowdsourced AI Benchmarks Under Scrutiny Over Validity
Stay ahead with daily AI tools, updates, and insights that matter.
分享
人工智能研究团队更加信任众包基准测试工具,如 聊天机器人竞技场 来分析其不断演变的模型的能力。然而,批评者警告说,这些平台可能存在尚未解决的道德和科学缺陷,从而削弱了它们的可靠性。OpenAI、谷歌和 Meta 等实验室经常利用这些用户驱动的系统来收集对实验性人工智能技术的反馈。在这些平台上取得的优异成绩往往被相关团队视为真正技术进步的证明。
一些学者对那些依赖大众投票而不确保明确有效性的基准仍持怀疑态度。例如,"聊天机器人竞技场"(Chatbot Arena)招募志愿者来提示人工智能模型,并选出他们喜欢的回答,但艾米丽-本德(Emily Bender)等专家提醒说,用户选择背后的意义可能并不总是与准确的测量相一致。本德认为,一致的有效性取决于将所测量的质量与所提出的主张联系起来的有力证据。否则,基准系统就有可能对模型性能得出未经证实的结论。
行业观察家也对人工智能实验室如何使用这些平台提出了担忧。Meta 的 "Llama 4 Maverick "事件说明,调整模型以在公共基准上取得优异成绩,可能会导致选择性披露和潜在的虚假陈述。阿斯梅拉什-泰卡-哈德古(Asmelash Teka Hadgu)认为,建立由不同的独立组织管理的、更具活力的基准方法可以解决这些问题。他敦促人工智能制造商根据现实世界的应用设计定制评估,并让主题专家参与质量评估。
为参与示范评估任务的人员支付报酬是另一个受到审查的领域。克里斯汀-格洛丽亚(Kristine Gloria)认为,目前的做法有可能复制数据标签的剥削趋势,低估评估者的劳动价值。虽然众包可以提供新的见解并扩大参与范围,但它不能成为促进人工智能安全和信任的唯一问责基础。快速发展的技术意味着单一的基准会很快过时,这就需要多角度、持续更新的评估策略。
一些平台,如 Gray Swan AI,为通过其系统测试模型的人提供包括现金奖励在内的激励措施。首席执行官马特-弗雷德里克森(Matt Frederikson)指出,虽然这些志愿者发挥着至关重要的作用,但适当付费的私人评估也能增加评估过程的严谨性和深度。Frederikson 建议开发人员将公共和私人审查结合起来,以发现问题并确保全面测试。对基准结果的清晰沟通和对透明度的承诺,对保持该领域的可信度至关重要。
其他业界人士,如 OpenRouter 的 Alex Atallah 和 Wei-Lin Chiang 的 人工智能基准阿塔拉赫同意,需要采用多种评估方法。OpenRouter 与实验室的合作可以让人们尽早接触到新模型,但 Atallah 坚持认为,透明的公共平台不能取代深入的内部调查。运营聊天机器人竞技场(Chatbot Arena)的LMArena更新了其规则,以防止模型被滥用,并明确其公平参与的意图。Chiang 强调,该平台努力反映社区的集体意见,而不仅仅是实验室的宣传舞台。
最终,我们鼓励那些建立和训练人工智能模型的人考虑来自各方的意见。随着人工智能的不断发展,调整基准流程并与公众分享准确信号仍将至关重要。
分享
Stay ahead with daily AI tools, updates, and insights that matter.
在应用程序中看起来更好
我们使用 cookie 来改善您的网站体验。如果您继续使用本网站,我们将认为您对本网站感到满意。