圆圆网络手游攻略新游动态新网页游戏测试,网页游戏开测表

新网页游戏测试,网页游戏开测表

时间：2026 05 05 07:00:13 来源：浏览：19

大模型集体“挂科”，全新中文网页检索测试：GPT-4o准确率仅6.2%

你以为大机型已经可以轻松“上网”了吗？

新的基准测试集BrowseComp-ZH直接打了主流AI的脸。

BrowseComp-ZH是港科大（广州）、北大、浙大、阿里、字节跳动、NIO等机构联合发布的全新基准测试集，集体失败了20多个国内外主流大型机型：

GPT-4o在测试中准确率仅6.2%；大多数国内/国际型号精度跌破10%；甚至是目前表现最好的OpenAI DeepResearch，也仅得42.9%。

目前，BrowseComp-ZH的所有数据已开源发布。

研究团队直言：

为什么我们需要中文网页能力测试？如今的大机型越来越擅长“使用工具”：可以连接搜索引擎、调用插件、“阅读网页”。

但很多评价工具只是建立在英文语境下，很少考虑中文语境、中文搜索引擎、中文平台生态。

然而，中国互联网信息碎片化严重，搜索条目多样，语言表达复杂。

驾驭中文网络世界有多难？举几个例子你就明白了：

信息碎片化，分散在百度百科、微博、地方政府网站、视频账号等多个平台。

常见的语言结构包含遗漏、暗示和隐喻，关键词搜索常常“偏离目标”。

搜索引擎本身质量良莠不齐，信息“下沉”或“丢失”的情况屡见不鲜。

因此，“翻译”英文测试集根本不够。

需要从中文语境原生设计，才能真正衡量大模型是否能在中文网页上“看得懂”、“搜得到”、“推得准”。BrowseComp-ZH是怎么炼成的？研究团队采用“逆向设计法”：从一个明确的、可验证的事实答案（如某种绘画流派、机构、影视剧标题）出发，反向构造出多个约束条件的复杂问题确保以下三点：

三大搜索引擎Baidu/Bing/Google无法在首屏直接命中答案

很多主流的大模型在搜索模式下都无法直接正确回答问题。

经人工验证，问题结构清晰，只有一个答案。

最终他们打造了289道高难度中文多跳检索题目，涵盖影视、艺术、医学、地理、历史、科技等11大领域。

大模型集体“翻车”？DeepResearch勉强破四成，绝大多数连10%都不到在BrowseComp-ZH的考验下，众多国内外主流大机型集体“翻车”：

尽管这些模型在对话理解和表达生成方面表现出了强大的实力，但在面对中文互联网上复杂的检索任务时，准确率普遍低得惊人：

大多数模型的准确率低于10%，只有少数可以超过20%。

OpenAI DeepResearch以42.9%排名第一，距离“及格”还很远

研究人员指出，这一结果表明：模型不仅需要会“查资料”，更要会“多跳推理”与“信息整合”可以真正在中文互联网上找到答案。

四大发现，揭示中文网页任务的“模型死角”1. 仅靠记忆不行，得真本事单纯依靠参数记忆（不搜索）的模型准确率往往低于10%，说明“记忆”是不可靠的。

2. 有推理的模型，表现更好DeepSeek-R1 (23.2%) 比14.5%DeepSeek-V3 (8.7%) 高。 Claude-3.7 也比Claude-3.5 高12.2%。推理能力成为一个关键变量。

3. 搜得多搜得准，多轮策略才是王道人工智能搜索产品以多轮检索能力综合胜出：

深度研究：42.9%

豆袋深度搜索：26.0%

困惑研究模型：22.6%

相比之下，仅检索一次的模型（例如Kimi 和Yuanbao）的准确率低至个位数。

4. 搜索功能“翻车”？接入反而变差最典型的反例是DeepSeek-R1。开启搜索功能后，精度范围为23.2%断崖式跌至7.6%。

研究指出，该模型未能有效地将网页检索信息与现有知识结合起来，反而被误导。

数据集开放！欢迎模型开发者挑战BrowseComp-ZH的所有数据均已开源发布。

研究人员希望此次基准测试能够成为推动LLM在中文信息环境下实施的试金石，帮助打造真正“能用中文上网”的Agent。

接下来，他们计划扩大样本规模，扩展问答格式，对模型推理路径和失败案例进行深入分析。

论文地址：https://arxiv.org/abs/2504.19314

代码地址：https://github.com/PALIN2018/BrowseComp-ZH

Caddy对WASM压缩加速，测试Godot的Html5游戏

我尝试了网友的戈多游戏，还不错。我将其导出到html5：https://i.scwy.net/num_chomp/

但是Godot的导出比较大，包括游戏引擎运行的基础环境。这个H5导出后70多MB，一个wasm文件47MB。这对于网页来说有点灾难。

有网友谈到重新编译并导出模板以简化流程。我很懒，但我还有机会再试一次。

我使用Caddy 作为“服务提供者”。据AI介绍，它可以压缩WASM文件（据说高达80%）。浏览器支持边下载边流式解压并执行。所以我找到了启用此功能的方法。

原生Caddy不支持Brotli压缩，需要自己编译。

这里需要使用xcaddy，这是caddy专用的编译工具。

xcaddy 构建使用github.com/ueffel/caddy-brotli

或

sudo apt install libbrotli-dev

CGO_ENABLED=1

xcaddy 构建使用github.com/dunglas/caddy-cbrotli

后者调用官方C库，性能更好，但需要cgo支持。我用的是前者，毕竟只是一个小网站。

然后在配置文件中设置如下示例：

示例.com {

编码{

br 11 # Brotli 最高压缩级别

压缩包

minimum_length 1400 # 只压缩大于1400字节的文件

}

测试结果：确实有效！

但即便如此，仍然存在： 1、第一次加载可能需要刷新2、测试时加载时间超过1分钟（40MB）

在测试过程中，我们发现由于文件较大，传输一段时间后就会超时。于是继续修改Caddy配置文件：

{

服务器{

超时{

read_body 10m # 关键！上传大文件时，读取请求体的超时时间（默认15s）

read_header 10s # 读取请求头的超时时间（适当延长）

写10m#键！下载大文件时，向客户端写入响应的超时时间（默认30s）

idle 10m # 空闲连接保持时间（防止长期占用）

}

响应前先进行编码

}

用户评论

命该如此

终于等到了！超级期待这个新的网页游戏，我一直喜欢这种类型的游戏，特别是开放世界和故事性强的那种。希望这届测试能让我体会到游戏的精髓！

有8位网友表示赞同！

清原

网页游戏的体验真的很方便，随时随地都能玩，不像别的平台有时候需要下载安装什么的太麻烦了。不过也期待开测表能出来，看看哪些服务器稳定，哪个平台体验更好！

有17位网友表示赞同！

念旧情i

上次测试的《梦境》真的给我惊艳到了，希望能延续这种好游戏质量，期待新游戏上线，我也报名去测试，希望能体验到更多刺激好玩的内容！希望不要太难上手！

有11位网友表示赞同！

残留の笑颜

网页游戏的画面最近进步好多啊，越来越跟端游接近了。这个新游戏也蛮吸引我的，看这个开测表上有很多服务器，感觉玩家量应该不少！好期待上线能有很多人一起玩啊！真的！

有13位网友表示赞同！

疯人疯语疯人愿

我上次测试的游戏还是在几年前玩的，那时候还只有像素画 style 的网页游戏。现在这种画质，操作都可以跟端游媲美了太厉害了吧！希望这个新游戏能够维持质量，不要像之前一些“流量密码”一样的玩法！

有18位网友表示赞同！

有你，很幸福

终于等到了！这款游戏我一直都在关注，开测表出来太好了！我马上就去报名去测试一下，看看这游戏的战斗系统和剧情怎么样。期待能有惊艳的体验！(づ｡◕‿‿◕｡)づ

有12位网友表示赞同！

情如薄纱

网页游戏开测表的服务器分布太不合理了，我最感兴趣的三个服务器都没在国内开放，真是太扫兴了！还是去玩一些端游算了。

有19位网友表示赞同！

南宫沐风

这个新网页游戏的测试人数也太少了，报名才几天，已经满了？我错过了吗？

有5位网友表示赞同！

ˉ夨落旳尐孩。

说实话，我对这种所谓的“新”网页游戏不太感冒。都是些重复的玩法和模式，没有太多创新性。还是喜欢玩一些真正有趣的游戏！

有11位网友表示赞同！

柠栀

网页游戏的优点是容易上手，缺点是比较缺乏深度。这次的新游戏怎么样呢？希望能给我带来惊喜！期待开测表更多详细的信息，比如游戏玩法、故事设置等等！

有18位网友表示赞同！

三年约

这个开测表看起来还蛮细致的，不仅列举了服务器信息，还包括了测试的时间段和奖励机制等，策划真专业！感觉这次的新游戏真的很有期待感！

有18位网友表示赞同！

关于道别

终于可以试试新一轮网页游戏的体验了！期待游戏的画面品质、战斗节奏性和玩法深度能够给我带来新的惊喜！

有10位网友表示赞同！

栀蓝

网页游戏虽然方便，但是很多都是画风雷同的。希望这部新游戏中能有别具一格的设计和独具特色的剧情!

有16位网友表示赞同！

有恃无恐

我有点担心测试人数太少的话会不会影响游戏的最终开发？毕竟只有部分玩家才能给出反馈，容易导致偏向性。

有12位网友表示赞同！

身影

我一直沉迷于网页游戏的世界！期待这个新网页游戏的上线，看看能不能满足我多年的夙愿，给我带来前所未有的游戏体验！(๑•̀ㅂ•́)و✧

有14位网友表示赞同！

全网暗恋者

希望这次的网页游戏能摆脱传统的“氪金”模式，提供更公平、更平衡的游戏环境。玩家们 deserve to have a good gaming experience!

有14位网友表示赞同！

北朽暖栀

这个开测表上说要邀请部分老玩家参与测试？我的账号不是之前测试过的吗！我应该也被加入了吧！

有10位网友表示赞同！

￡烟消云散

希望这次新网页游戏能延续传统游戏的好故事和丰富的角色设定，而不是只追求简单易上手的玩法。真诚期待！

有18位网友表示赞同！

标题：新网页游戏测试,网页游戏开测表

链接：https://yyuanw.com/news/xydt/57997.html

版权：文章转载自网络，如有侵权，请联系删除！

资讯推荐

阴阳师4月22日更新内容：帝释天上线技能调整，红莲华冕活动来袭

阴阳师4月22日更新内容：帝释天上线技能调整，红莲华冕活动来袭[多图],阴阳师4月22日更新的内容有哪些？版本更新

2026-01-05

四川电视台经济频道如何培养孩子的学习习惯与方法直播在哪看？直播视频回放地址

四川电视台经济频道如何培养孩子的学习习惯与方法直播在哪看？直播视频回放地址[多图],2021四川电视台经济频

2026-01-05

湖北电视台生活频道如何培养孩子的学习兴趣直播回放在哪看？直播视频回放地址入口

湖北电视台生活频道如何培养孩子的学习兴趣直播回放在哪看？直播视频回放地址入口[多图],湖北电视台生活频道

2026-01-05

小森生活金币不够用怎么办？金币没了不够用解决方法

小森生活金币不够用怎么办？金币没了不够用解决方法[多图],小森生活金币突然就不够用的情况很多人都有，金币没

2026-01-05