返回日报列表
2026-05-07

AI 日报 | 2026-05-07 周四

临床LLM安全性与准确性遵循不同扩展定律,打破"更强=更安全"直觉。Anthropic与SpaceX达成算力交易获292 HN分。OpenSeeker-v2用高难度轨迹训练搜索Agent。AI红队自动化从数周缩短到数小时。Simon Willison警告Vibe Coding与Agent Engineering趋同(252 HN分)。Tilde.run事务性文件系统Agent沙箱发布。cheat-on-content以754星领跑GitHub新项目。

今日看点

  • 1.临床LLM安全性与准确性遵循不同扩展定律,打破"更强=更安全"假设
  • 2.OpenSeeker-v2用高信息量高难度轨迹推动开源搜索Agent能力边界
  • 3.AI红队自动化:从数周缩短到数小时,Agent安全评估进入快车道
  • 4.推理密集型检索评估框架发布,重新定义Agent搜索系统的检索器标准
  • 5.Anthropic+SpaceX算力合作获292 HN分,跨界算力共享新时代

📄 前沿论文

Safety and accuracy follow different scaling laws in clinical large language models

arXiv 2605

临床LLM的安全性与准确性遵循不同的扩展定律,两者并无线性正相关关系。在医疗高风险领域,安全性需要独立的设计和评估维度。

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

arXiv 2605

通过高信息量、高难度的训练轨迹来提升开源搜索Agent的深度搜索能力,打破工业巨头在搜索Agent领域的主导地位。

Redefining AI Red Teaming in the Agentic Era: From Weeks to Hours

arXiv 2605

将AI红队时间从数周缩短到数小时的自动化方法论,应对Agent时代AI系统进入医疗、金融、国防等关键领域的安全需求。

Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems

arXiv 2605

推理密集型检索旨在找出能支持下游推理的证据而不仅仅是匹配主题相似性,提出评估框架并推进检索器表现。

HeadsUp: Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures

arXiv 2605

高效编解码器架构从多视图捕捉中大规模重建高质量3D高斯头部,对数字人/虚拟形象技术有直接工程价值。

🐙 GitHub 热门项目

📦
cheat-on-content754

AI驱动的内容策略自动化工具——"谁先破解内容模式,谁先获得流量",自动进化运营专家。

📦
beautiful-html-templates267

专为AI编码Agent设计的HTML幻灯片模板库,让任何编码Agent都能选择正确模板生成漂亮演示文档。

📦
yao-open-prompts255

中文AI提示词库,覆盖工作、学习、内容、营销和生活场景的开源Prompt工程知识库。

🌐 社区热点

Higher usage limits for Claude and a compute deal with SpaceX

Hacker News[292 pts]

Anthropic宣布Claude更高使用限制,并与SpaceX达成算力合作——跨界算力共享反映AI算力需求已超越传统科技圈范畴。

Vibe coding and agentic engineering are getting closer than I'd like

Simon Willison / Hacker News[252 pts]

Simon Willison观察到Vibe Coding和Agent Engineering正在趋同,两种范式的融合可能让开发者同时失去直觉式编码的自由和工程化Agent的严谨。

Tilde.run - Agent sandbox with a transactional, versioned filesystem

Show HN[102 pts]

事务性、版本化文件系统的Agent沙箱——Agent的每次操作都可以回滚,为高风险操作提供安全可恢复的执行环境。