当前位置: 首页 > 科技

谷歌发布开源 LMEval 框架:打破 AI 模型比较壁垒,降低评测成本和时间

IT之家 5 月 27 日消息,科技媒体 The Decoder 昨日(5 月 26 日)发布博文,报道称谷歌推出开源框架 LMEval,为大语言模型和多模态模型提供标准化的评测工具。

评测新型 AI 模型一直是个难题。不同供应商使用各自的 API、数据格式和基准设置,导致跨模型比较耗时且复杂。

而谷歌最新推出的 LMEval 开源框架直击这一痛点,研究人员和开发者只需设置一次基准,就能展开标准化的评测流程,大幅简化了评测工作,节省了时间和资源。

LMEval 还通过 LiteLLM 框架抹平了 Google、OpenAI、Anthropic、Ollama 和 Hugging Face 等平台之间的接口差异,确保测试跨平台无缝运行。

LMEval 不仅支持文本评测,还涵盖图像和代码等领域的基准测试,且新输入格式可轻松扩展,框架支持是非题、多选题和自由文本生成等多种评估类型。同时,该框架能识别模型采用的“规避策略”,即故意给出模糊回答以避免生成有风险内容。

Google 还引入了 Giskard 安全评分,展示模型规避有害内容的表现,百分比越高代表安全性越强。测试结果存储在自加密的 SQLite 数据库中,确保数据本地化且不会被搜索引擎索引,兼顾了隐私与便捷。

LMEval 具备增量评估功能,无需在新增模型或问题时重新运行整个测试,仅执行必要的新增测试即可,并采用多线程引擎并行处理多项计算,有效降低了计算成本和时间消耗。

谷歌还开发了 LMEvalboard 可视化工具,通过雷达图展示模型在不同类别中的表现。用户可深入查看具体任务,精准定位模型错误,并直接比较多个模型在特定问题上的差异,图形化展示一目了然。

新浪众测 新浪众测 新浪科技公众号 新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

相关新闻
本文来源于网络,不代表华夏新闻热线立场,转载请注明出处
转发到:
拓展阅读
  • 苹果即将推出的iPhone 17 Air,是一款能重新定义纤薄标准的手机,也是苹果迄今为止最薄的手机,该机厚度仅为5.5毫米,堪称是当下手机市场中最薄的设计。有着纤薄设计的iPhone 17 Air,在整机重量上也相当轻,据爆料者透露,其整[全文]
    2025-05-28 01:11
  • IT之家 5 月 27 日消息,科技媒体 The Decoder 昨日(5 月 26 日)发布博文,报道称谷歌推出开源框架 LMEval,为大语言模型和多模态模型提供标准化的评测工具。评测新型 AI 模型一直是个难题。不同供应商使用各自的 [全文]
    2025-05-27 23:06
  • 近日,叮咚买菜创始人兼CEO梁昌霖在Q1财报电话会上宣布,公司已启动自内而外的变革,并取得了阶段性成果。据了解,自2025年年初起,叮咚买菜就开始推动一系列调整,以“好用户、好商品、好服务、好心智”(4G)作为核心战略,系统性地提高站内商品[全文]
    2025-05-20 22:40
  • 本文引用地址:Bourns 全球知名电源、保护和传感解决方案电子组件领导制造供货商,其创新设计的 IsoMOV® 混合型保护器成功获得 IEC 61051-2 符合性认证,并列入 UL 1449 认证名单。Bourns® IsoMOV® 保[全文]
    2025-05-13 23:21
  • 2025年最热销的游戏之一,出人意料地是一款来自2006年的经典作品——上古卷轴4:湮灭重制版(以下简称上古卷轴4RE)目前已登上美国年度游戏销量榜第三名的位置。据行业分析师、知名数据机构负责人Mat Piscatella透露,上古卷轴4R[全文]
    2025-05-07 00:11
  • 探寻飞行射击游戏巅峰之作?想体验高人气的刺激对决?紧跟潮流的脚步,本文将为你揭示最热门的飞行射击游戏排行榜,从经典到创新,满足你的空中激战欲望。无论是老玩家重温回忆,还是新手寻找入门佳作,这里一应俱全。立刻点击,带你飞入战火纷飞的虚拟天空![全文]
    2025-05-07 00:07
阿里云服务器
腾讯云秒杀
Copyright 2003-2025 by 华夏新闻热线 www.hyxwen.cn All Right Reserved.   版权所有