圆圆网络 手游攻略 新游动态 新网页游戏测试,网页游戏开测表

新网页游戏测试,网页游戏开测表

时间:2026 05 05 07:00:13 来源: 浏览:19

大模型集体“挂科”,全新中文网页检索测试:GPT-4o准确率仅6.2%

你以为大机型已经可以轻松“上网”了吗?

新的基准测试集BrowseComp-ZH直接打了主流AI的脸。

BrowseComp-ZH是港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的全新基准测试集,集体失败了20多个国内外主流大型机型:

GPT-4o在测试中准确率仅6.2%;大多数国内/国际型号精度跌破10%;甚至是目前表现最好的OpenAI DeepResearch,也仅得42.9%

目前,BrowseComp-ZH的所有数据已开源发布。

研究团队直言:

为什么我们需要中文网页能力测试?如今的大机型越来越擅长“使用工具”:可以连接搜索引擎、调用插件、“阅读网页”。

但很多评价工具只是建立在英文语境下,很少考虑中文语境、中文搜索引擎、中文平台生态。

然而,中国互联网信息碎片化严重,搜索条目多样,语言表达复杂。

驾驭中文网络世界有多难?举几个例子你就明白了:

信息碎片化,分散在百度百科、微博、地方政府网站、视频账号等多个平台。

常见的语言结构包含遗漏、暗示和隐喻,关键词搜索常常“偏离目标”。

搜索引擎本身质量良莠不齐,信息“下沉”或“丢失”的情况屡见不鲜。

因此,“翻译”英文测试集根本不够。

需要从中文语境原生设计,才能真正衡量大模型是否能在中文网页上“看得懂”、“搜得到”、“推得准”。BrowseComp-ZH是怎么炼成的?研究团队采用“逆向设计法”:从一个明确的、可验证的事实答案(如某种绘画流派、机构、影视剧标题)出发,反向构造出多个约束条件的复杂问题确保以下三点:

三大搜索引擎Baidu/Bing/Google无法在首屏直接命中答案

很多主流的大模型在搜索模式下都无法直接正确回答问题。

经人工验证,问题结构清晰,只有一个答案。

最终他们打造了289道高难度中文多跳检索题目,涵盖影视、艺术、医学、地理、历史、科技等11大领域

大模型集体“翻车”?DeepResearch勉强破四成,绝大多数连10%都不到在BrowseComp-ZH的考验下,众多国内外主流大机型集体“翻车”:

尽管这些模型在对话理解和表达生成方面表现出了强大的实力,但在面对中文互联网上复杂的检索任务时,准确率普遍低得惊人:

大多数模型的准确率低于10%,只有少数可以超过20%。

OpenAI DeepResearch以42.9%排名第一,距离“及格”还很远

研究人员指出,这一结果表明:模型不仅需要会“查资料”,更要会“多跳推理”与“信息整合”可以真正在中文互联网上找到答案。

四大发现,揭示中文网页任务的“模型死角”1. 仅靠记忆不行,得真本事单纯依靠参数记忆(不搜索)的模型准确率往往低于10%,说明“记忆”是不可靠的。

2. 有推理的模型,表现更好DeepSeek-R1 (23.2%) 比14.5%DeepSeek-V3 (8.7%) 高。 Claude-3.7 也比Claude-3.5 高12.2%。推理能力成为一个关键变量。

3. 搜得多 搜得准,多轮策略才是王道人工智能搜索产品以多轮检索能力综合胜出:

深度研究:42.9%

豆袋深度搜索:26.0%

困惑研究模型:22.6%

相比之下,仅检索一次的模型(例如Kimi 和Yuanbao)的准确率低至个位数。

4. 搜索功能“翻车”?接入反而变差最典型的反例是DeepSeek-R1。开启搜索功能后,精度范围为23.2%断崖式跌至7.6%

研究指出,该模型未能有效地将网页检索信息与现有知识结合起来,反而被误导。

数据集开放!欢迎模型开发者挑战BrowseComp-ZH的所有数据均已开源发布。

研究人员希望此次基准测试能够成为推动LLM在中文信息环境下实施的试金石,帮助打造真正“能用中文上网”的Agent。

接下来,他们计划扩大样本规模,扩展问答格式,对模型推理路径和失败案例进行深入分析。

论文地址:https://arxiv.org/abs/2504.19314

代码地址:https://github.com/PALIN2018/BrowseComp-ZH

Caddy对WASM压缩加速,测试Godot的Html5游戏

我尝试了网友的戈多游戏,还不错。我将其导出到html5:https://i.scwy.net/num_chomp/

但是Godot的导出比较大,包括游戏引擎运行的基础环境。这个H5导出后70多MB,一个wasm文件47MB。这对于网页来说有点灾难。

有网友谈到重新编译并导出模板以简化流程。我很懒,但我还有机会再试一次。

我使用Caddy 作为“服务提供者”。据AI介绍,它可以压缩WASM文件(据说高达80%)。浏览器支持边下载边流式解压并执行。所以我找到了启用此功能的方法。

原生Caddy不支持Brotli压缩,需要自己编译。

这里需要使用xcaddy,这是caddy专用的编译工具。

xcaddy 构建 使用github.com/ueffel/caddy-brotli

sudo apt install libbrotli-dev

CGO_ENABLED=1

xcaddy 构建 使用github.com/dunglas/caddy-cbrotli

后者调用官方C库,性能更好,但需要cgo支持。我用的是前者,毕竟只是一个小网站。

然后在配置文件中设置如下示例:

示例.com {

编码{

br 11 # Brotli 最高压缩级别

压缩包

minimum_length 1400 # 只压缩大于1400字节的文件

}

}

测试结果:确实有效!

但即便如此,仍然存在: 1、第一次加载可能需要刷新2、测试时加载时间超过1分钟(40MB)

在测试过程中,我们发现由于文件较大,传输一段时间后就会超时。于是继续修改Caddy配置文件:

{

服务器{

超时{

read_body 10m # 关键!上传大文件时,读取请求体的超时时间(默认15s)

read_header 10s # 读取请求头的超时时间(适当延长)

写10m#键!下载大文件时,向客户端写入响应的超时时间(默认30s)

idle 10m # 空闲连接保持时间(防止长期占用)

}

}

响应前先进行编码

}

用户评论

命该如此

终于等到了!超级期待这个新的网页游戏,我一直喜欢这种类型的游戏,特别是开放世界和故事性强的那种。希望这届测试能让我体会到游戏的精髓!

    有8位网友表示赞同!

清原

网页游戏的体验真的很方便,随时随地都能玩,不像别的平台有时候需要下载安装什么的太麻烦了。不过也期待开测表能出来,看看哪些服务器稳定,哪个平台体验更好!

    有17位网友表示赞同!

念旧情i

上次测试的《梦境》真的给我惊艳到了,希望能延续这种好游戏质量,期待新游戏上线,我也报名去测试,希望能体验到更多刺激好玩的内容!希望不要太难上手!

    有11位网友表示赞同!

残留の笑颜

网页游戏的画面最近进步好多啊,越来越跟端游接近了。这个新游戏也蛮吸引我的,看这个开测表上有很多服务器,感觉玩家量应该不少!好期待上线能有很多人一起玩啊! 真的!

    有13位网友表示赞同!

疯人疯语疯人愿

我上次测试的游戏还是在几年前玩的,那时候还只有像素画 style 的网页游戏。现在这种画质,操作都可以跟端游媲美了太厉害了吧!希望这个新游戏能够维持质量,不要像之前一些“流量密码”一样的玩法!

    有18位网友表示赞同!

有你,很幸福

终于等到了!这款游戏我一直都在关注,开测表出来太好了!我马上就去报名去测试一下,看看这游戏的战斗系统和剧情怎么样。期待能有惊艳的体验!(づ。◕‿‿◕。)づ

    有12位网友表示赞同!

情如薄纱

网页游戏开测表的服务器分布太不合理了,我最感兴趣的三个服务器都没在国内开放,真是太扫兴了!还是去玩一些端游算了。

    有19位网友表示赞同!

南宫沐风

这个新网页游戏的测试人数也太少了,报名才几天,已经满了?我错过了吗?

    有5位网友表示赞同!

ˉ夨落旳尐孩。

说实话,我对这种所谓的“新”网页游戏不太感冒。都是些重复的玩法和模式,没有太多创新性。还是喜欢玩一些真正有趣的游戏!

    有11位网友表示赞同!

柠栀

网页游戏的优点是容易上手,缺点是比较缺乏深度。这次的新游戏怎么样呢?希望能给我带来惊喜!期待开测表更多详细的信息,比如游戏玩法、故事设置等等!

    有18位网友表示赞同!

三年约

这个开测表看起来还蛮细致的,不仅列举了服务器信息,还包括了测试的时间段和奖励机制等,策划真专业! 感觉这次的新游戏真的很有期待感!

    有18位网友表示赞同!

关于道别

终于可以试试新一轮网页游戏的体验了!期待游戏的画面品质、战斗节奏性和玩法深度能够给我带来新的惊喜!

    有10位网友表示赞同!

栀蓝

网页游戏虽然方便,但是很多都是画风雷同的。希望这部新游戏中能有别具一格的设计和独具特色的剧情!

    有16位网友表示赞同!

有恃无恐

我有点担心测试人数太少的话会不会影响游戏的最终开发?毕竟只有部分玩家才能给出反馈,容易导致偏向性。

    有12位网友表示赞同!

身影

我一直沉迷于网页游戏的世界!期待这个新网页游戏的上线,看看能不能满足我多年的夙愿,给我带来前所未有的游戏体验!(๑•̀ㅂ•́)و✧

    有14位网友表示赞同!

全网暗恋者

希望这次的网页游戏能摆脱传统的“氪金”模式,提供更公平、更平衡的游戏环境。 玩家们 deserve to have a good gaming experience!

    有14位网友表示赞同!

北朽暖栀

这个开测表上说要邀请部分老玩家参与测试?我的账号不是之前测试过的吗!我应该也被加入了吧!

    有10位网友表示赞同!

£烟消云散

希望这次新网页游戏能延续传统游戏的好故事和丰富的角色设定,而不是只追求简单易上手的玩法。 真诚期待!

    有18位网友表示赞同!

标题:新网页游戏测试,网页游戏开测表
链接:https://yyuanw.com/news/xydt/57997.html
版权:文章转载自网络,如有侵权,请联系删除!
资讯推荐
更多
阴阳师4月22日更新内容:帝释天上线技能调整,红莲华冕活动来袭

阴阳师4月22日更新内容:帝释天上线技能调整,红莲华冕活动来袭[多图],阴阳师4月22日更新的内容有哪些?版本更新

2026-01-05
四川电视台经济频道如何培养孩子的学习习惯与方法直播在哪看?直播视频回放地址

四川电视台经济频道如何培养孩子的学习习惯与方法直播在哪看?直播视频回放地址[多图],2021四川电视台经济频

2026-01-05
湖北电视台生活频道如何培养孩子的学习兴趣直播回放在哪看?直播视频回放地址入口

湖北电视台生活频道如何培养孩子的学习兴趣直播回放在哪看?直播视频回放地址入口[多图],湖北电视台生活频道

2026-01-05
小森生活金币不够用怎么办?金币没了不够用解决方法

小森生活金币不够用怎么办?金币没了不够用解决方法[多图],小森生活金币突然就不够用的情况很多人都有,金币没

2026-01-05