FINTECH FRONTIER DAILY
返回首页
FINTECH FRONTIER DAILY

前沿科技日报

发现漏洞不再难,修复才是AI安全新瓶颈

不做评论判断,只做高质量信息交付

编辑:前沿科技研究部

2026-05-23 前沿科技洞见 · 日报


🔍 今日值得深读

Project Glasswing:Anthropic 联合 50 家机构,一个月找出 1 万个高危漏洞,但打补丁平均要两周

Anthropic 发布 Project Glasswing 初步进展报告。这是一个联合约 50 家合作伙伴的安全扫描计划,工具是 Claude Mythos Preview——一个 Anthropic 目前因"防护措施不足"而不敢公开发布的高能力安全模型。

一个月内,各合作机构合计发现超过 10,000 个高危或严重漏洞。Cloudflare 找到 2,000 个 bug,误报率比人工测试员还低;Mozilla 用它扫 Firefox 150,发现 271 个漏洞——是用早期 Claude 扫前一版本结果的 10 倍以上。Anthropic 还单独扫描了 1,000 多个开源项目,识别出约 6,202 个高危漏洞,经第三方独立评估后 90.6% 属实、62.4% 属于高危或严重级别。wolfSSL 的案例最典型:Mythos Preview 成功构造出一个伪造 TLS 证书的漏洞利用链。

真正的问题不是找漏洞,而是修漏洞。高危漏洞从发现到打补丁,平均需要两周时间;这两周里,漏洞信息必须在攻击者看到之前被控制住。Anthropic 承认,Mythos 级别的能力很快将通过其他途径普遍可用,防御速度跟不上发现速度,窗口期正在变成真实的攻击机会。

来源:Anthropic 新闻


域名混淆注入攻击:让多智能体 LLM 的检测防线几乎归零

来自 arxiv 的新论文揭示了一类对多智能体 LLM 系统的新型提示注入攻击。传统注入攻击用显式指令覆盖模型行为,容易被检测器识别。域名混淆注入(domain-camouflaged injection)换了思路:把攻击载荷写成和目标文档一致的词汇风格和权威语气,让检测器看不出异常。

效果是灾难性的。在 Llama 3.1 8B 上,检测率从 93.8% 跌至 9.7%;在 Gemini 2.0 Flash 上从 100% 跌至 55.6%。生产环境使用的专用安全分类器 Llama Guard 3 的检出率为零。更危险的是,使用多 Agent 辩证架构的系统对攻击有放大效应,在小模型上放大倍数最高达 9.9 倍;强模型能一定程度上集体抵抗,但弱模型在协同推理中反而会相互"说服"。

研究者尝试了针对性改进,效果有限:Llama 上只改善了 10.2%,Gemini Flash 上改善了 78.7%。这表明漏洞不只是检测规则的问题,而是检测架构本身的问题。

来源:arXiv 2605.22001


OpenAI Q1 2026:收入 57 亿美元,营业利润率 -122%,ChatGPT 周活增长停了

The Information 披露 OpenAI Q1 2026 财务数据,wheresyoured.at 做了详细分析。收入 57 亿美元,按非 GAAP 口径计算营业利润率 -122%,也就是每赚 1 美元就多亏 1.22 美元,季度亏损约 69.5 亿美元。按这个节奏,全年即便完成 300 亿美元收入目标,亏损也将超过 360 亿美元。

ChatGPT 的增长数据也在说话:周活跃用户在 2 月触及 9.2 亿峰值后,Q1 均值是 9.05 亿,距离公司设定的"2025 年底 10 亿"目标明显落后。付费订阅用户 5,500 万,较上年增长但转化率仅约 6%。分析作者提示:这些是非 GAAP 数字,不含股权激励支出,实际亏损可能更大,且训练成本是否计入尚不清楚。

来源:wheresyoured.at


Gemini 3.5 Flash:速度快 4 倍、成本减半,谷歌内部日均 Token 量从 5000 亿涨到 3 万亿

Google I/O 期间,谷歌发布 Gemini 3.5 Flash。Sundar Pichai 给出了具体数字:速度是竞争对手旗舰模型的 4 倍、成本不足一半;若企业将 80% 的工作负载从其他旗舰模型切换到 3.5 Flash,每年可省超 10 亿美元。谷歌内部的 AI 开发工具每日处理 token 量从 3 月的 5,000 亿增长到发布时的 3 万亿——6 倍增幅。

模型本身在编程基准上超越了 Gemini 3.1 Pro,包括 Terminal-Bench 2.1、GDPval-AA、MCP Atlas 等测试集。Gemini 3.5 Flash 当天上线所有 Google 产品和 API,3.5 Pro 版本下月推出。Pichai 表示这款模型"从根本上改变了谷歌内部的工作方式"。

来源:InfoQ 中文站


🔥 今日聚合动态

Gartner 2026 企业 AI 编码 Agent 魔力象限:OpenAI 与 GitHub 同登领导者

同一天,OpenAI 和 GitHub 分别发布官方声明,均被 2026 年 Gartner 企业 AI 编码 Agent 魔力象限列为领导者。OpenAI 以 Codex 获评,GitHub Copilot 连续第三年入选。这是该 Gartner 细分市场首次同时出现微软生态内两个不同产品双双进入领导者象限的情况——Copilot 是 GitHub 的,Codex 是 OpenAI 的,两家都归微软控股。

视角来源核心信息
OpenAI CodexOpenAI 新闻Codex 以创新能力和企业规模部署获评领导者
GitHub CopilotGitHub 博客Copilot 第三年入选,承诺维持开放安全的 AI 开发平台

GitHub 内外交困:服务可用率跌破 85%、Claude Code 冲击、领导层真空

多名 GitHub 员工向媒体透露内部状况。四月服务可用率跌破 85%(正常基线 90%),并出现代码合并和搜索功能中断。同月一名开发者发现严重 RCE 漏洞,约 3,800 个 GitHub 内部仓库通过被入侵的 VS Code 扩展遭到访问。前 CEO Thomas Dohmke 离职后,新任领导尚未建立权威,有员工称内部存在"领导力真空"。

与此同时,微软内部曾在工程师中大规模推行 Claude Code,反馈"极受欢迎",已取代 GitHub Copilot CLI 成为开发者日常首选。5 月,微软突然撤销数千名开发者的 Claude Code 访问权,要求 6 月 30 日前全部切回 Copilot。InfoQ 报道将这一决定解读为:微软认为 GitHub AI 工具在竞争中落后,正在行政手段保盘。

视角来源核心信息
员工揭露InfoQ 中文站服务可用率跌破 85%,RCE 漏洞,3800 仓库被访问,领导力真空
Claude Code 冲击AI 前线微软撤销千名开发者 Claude Code 权限,强制回切 Copilot

五角大楼 AI 供应商重组:禁 Anthropic 后测试 OpenAI/Google,Grok 几乎缺席

国防部长 Pete Hegseth 将 Anthropic 列为"供应链风险"并下令停用后,五角大楼转向测试 OpenAI 和谷歌的模型。Tech in Asia 报道,五角大楼现有 AI 相关采购合同中:OpenAI 234 份,谷歌 33 份,Anthropic 26 份,xAI(Grok)仅 3 份。即便在特朗普政府对马斯克友好的背景下,Grok 在政府渗透率也极低。

视角来源核心信息
Anthropic 封禁后Tech in Asia五角大楼测试 OpenAI/Google 模型,Anthropic 被列供应链风险
Grok 政府渗透率Tech in AsiaxAI/Grok 仅 3 份政府合同,OpenAI 234 份,差距悬殊

Polymarket 三重压力:国会调查、合约漏洞 52 万美元、印度封禁

预测市场 Polymarket 在一天内同时遭遇三件事。美国众议院监督委员会宣布就内幕交易问题调查 Kalshi 和 Polymarket,要求两平台说明市场结构和用户信息获取机制。同日,有研究者发现 Polymarket 的 Polygon 基础设施出现疑似漏洞,约 52 万美元资产通过一个遗留密钥外流;Polymarket 副总裁 Josh Stevens 否认"合约被黑",声称用户资金安全,但承认存在遗留密钥问题。此外,印度政府援引国内赌博禁令封锁了 Polymarket 访问入口,尽管用户仍可绕过。

视角来源核心信息
国会调查市场资讯众议院就内幕交易调查 Kalshi 和 Polymarket
合约漏洞U.TodayPolygon 遗留密钥被利用,约 $52 万流失
平台回应U.TodayVP 否认被黑,确认用户资金安全
印度封禁Tech in Asia印度援引赌博禁令封锁访问,但用户可绕过

SpaceX Starship V3 全球首飞:助推器坠入墨西哥湾

SpaceX 在前一天临时取消发射后,Starship V3 于美国当地时间 5 月 22 日在德克萨斯州 Starbase 成功点火升空。V3 是 Starship 的第三代重大迭代版本,采用"超重型助推器"(Super Heavy Booster)+ 上级飞船两级结构。本次飞行大部分顺利,但助推器在返回阶段于墨西哥湾上空失控下坠,6 台飞船发动机中有 1 台失效。

视角来源核心信息
发射成功财联社电报成功升空,飞行任务推进,全程约 1 小时
助推器坠海TechCrunch助推器在返回时失控,坠入墨西哥湾
招股书背景硅星人ProSpaceX 招股书同期公布,最大机构投资者为 Anthropic

📰 独立报道

🤖 AGI 前沿

Bengio 团队:10M 参数模型用多轨迹推理跑到数独 97%

Yoshua Bengio 团队与 KAIST、Mila、NYU 合作提出 GRAM(多轨迹推理框架)。核心思路是把推理任务转成多条轨迹同步采样,而非单轨迹生成。在 ARC 和数独测试中,10M 参数模型达到数独 97% 正确率。在大模型时代,这个参数量显得非常小,但可以证明推理能力并不完全依赖模型规模,轨迹采样策略同样关键。

来源:PaperWeekly


Meta 华人团队 ATLAS:一个离散词搞定可泛化视觉推理

Meta AI 华人研究人员发布 ATLAS,将视觉推理任务统一到单一离散词表示(discrete word token),同时覆盖 Agentic 推理(显式步骤)和 Latent Visual Reasoning(隐式推理)两种模式。论文描述的设计目标是"高效统一"——用一个 token 搞定原本需要两个框架分别处理的问题。

来源:机器之心


中经社发布"十五五"产业链分析智能体,可自主生成报告

中国经济信息社(中经社)发布一款面向"十五五"新产业研究的智能体工具,支持自主生成产业链分析报告。这是国家级信息服务机构首次将 Agent 能力引入产业政策分析流程。InfoQ 报道但未披露底层模型或技术细节。

来源:InfoQ 中文站


Cloudflare Dynamic Workflows:Agent 代码持久化执行,支持按租户/按 Agent 动态运行

Cloudflare 发布 Dynamic Workflows,将持久化执行能力扩展到"按租户"和"按 Agent"动态生成的代码。这意味着开发者可以在 Cloudflare 的边缘网络上运行会记住状态、跨请求存活的 Agent 工作流,而不只是无状态函数。这对构建需要长时运行或等待外部事件的 AI Agent 很关键。

来源:InfoQ 中文站


Models.dev:开源 AI 模型规格、定价与能力数据库

一个名为 Models.dev 的开源项目在 Hacker News 获得关注,提供结构化的 AI 模型规格数据库,涵盖主流模型的上下文长度、定价、能力标签等信息,格式机器可读。这类工具对企业做模型选型比较和成本估算有直接实用价值。

来源:Hacker News


Agoda 构建多模态内容系统,打通图片与评论

Agoda(旗下品牌包括 Booking.com 的同系产品)构建了多模态内容理解系统,能将酒店或住宿地点的图片和用户评论关联起来,实现"图文互通"的语义检索和内容标注。InfoQ 报道但未披露具体模型栈。这是旅游平台把多模态 AI 能力落地到产品的典型案例。

来源:InfoQ 中文站


🏢 AI 战略与组织变革

拆解 Anthropic:最好的 AI 公司,可能也是一种组织发明

BAAI 智源转载一篇深度分析 Anthropic 组织结构的文章。核心论点是:Anthropic 不只是在做 AI 产品,它同时在做一种新型组织实验——安全优先的文化如何与快速商业化共存,技术研究者如何在营利压力下保持独立判断。文章作者认为 Anthropic 的组织设计本身就是一种创新,而不只是 Claude 背后的团队。

来源:BAAI 智源


DeepSeek V4 Pro 永久降价,免费模式改定价

DeepSeek 宣布将 V4 Pro 此前的临时价格折扣改为永久价格。这是继 V3/R1 发布以来 DeepSeek 在定价策略上的持续动作,意味着低价不是促销,而是长期定价锚点。Hacker News 链接直接指向 DeepSeek API 定价页面。

来源:Hacker News


「全民养虾」50 天:AI 套利狂欢与它的骤然终结

钛媒体报道了一场围绕 AI Agent 平台(据称是 OpenClaw)展开的"养虾"套利游戏——用户发现通过批量注册账号、让 AI 持续完成任务可以持续获利,迅速形成规模化套利社区,50 天后平台方关闭漏洞,游戏骤然终结。文章副标题是"OpenClaw 凉了,但 Agent 没有"。这是 Agent 平台经济设计漏洞被规模化利用的典型案例。

来源:钛媒体


买了卡不等于买到生产力:企业 Token 焦虑,逼出 AI Infra 新战场

InfoQ 文章分析企业 AI 落地的核心矛盾:买了 GPU 卡和算力配额,但 Token 利用率低、模型调用效率差,实际产出不成比例。这个"Token 焦虑"推动了一批面向企业的 AI Infra 工具兴起,包括 Token 路由、模型缓存、批处理优化等方向。

来源:InfoQ 中文站


Anthropic 正在重构企业销售组织,AI 接管部分人工审批

Tech in Asia 报道,Anthropic 的行业主管 Eleanor Dorfman 表示,企业销售正在从"人工审批"转向"AI 自助服务"——客户可以通过 AI 系统直接完成需求匹配和合同推进,减少人工销售介入环节。Dorfman 将这描述为"企业销售从 human approval 向 AI self-serve 的根本转变"。

来源:Tech in Asia


Google DeepMind 高级产品经理:弃用 10 万 Star 开源项目,深挖开发者桌面

51CTO 报道,Google DeepMind 一位高级产品经理公开表态:谷歌选择放弃一个超过 10 万 GitHub Star 的开源项目(具体名称未披露),转向内部自研开发者桌面工具。他对 Gemini 3.5 Flash 的评价是"编程能力投入很多但外界认知不足",并称"你可以外包智能,但无法外包理解"——这句话是在回应有人批评用 AI 快速写代码导致线上问题时说的。

来源:51CTO 技术栈


⛓️ 区块链创新

美国信用合作社入局稳定币,数字美元合规支付格局变化

一篇在中文加密圈广泛转发的分析文章指出,美国信用合作社(credit union)已开始涉足稳定币支付基础设施。信用合作社是美国受监管程度最高的存款机构之一,此前基本未参与加密资产。其入局被解读为稳定币从"加密原生"向"传统金融机构"渗透的新阶段。

来源:数字财经趋势


全国数字人民币产业园超 10 个,深圳罗湖启动二次突围

21 经济报道,截至目前,全国已建立 10 余个以数字人民币为主题的产业园。深圳罗湖作为最早的数字人民币试点区之一,启动"二次突围"计划,重点方向包括数字人民币与实体商业场景的深度结合及跨境支付用例。

来源:大湾区/21经济


💰 金融科技前沿

大厂 AI 大模型加速金融场景落地

上海证券报报道,多家大型科技公司("大厂")正在加快将大模型能力引入金融场景。舆情数据显示该文章传播量(similar_count=4)为当日金融科技分组中最高。具体落地方向包括智能客服、投研辅助、风险定价等,但报道未披露具体技术参数或机构名称。

来源:上海证券报


私募股权加速整合 AI,持有期超 6 年背景下的成本压力

Pensions & Investments 报道,全球私募股权公司正竞相在被投组合中整合 AI 能力,核心驱动力是持有期延长(目前超过 6 年)导致退出前必须依赖内部运营提效。报道引述多家 PE 与 OpenAI、Anthropic 合作的案例,方向集中在被投企业的财务分析、合规审查和客户服务流程自动化。

来源:Pensions & Investments


AI 股东提案三年演变:从"透明度"到"裁员权利"

Pensions & Investments 分析了 2024–2026 年三年间企业股东大会上 AI 相关提案的主题变化。2024 年主要是要求"AI 使用透明度披露",2025 年出现了针对 AI 造成就业影响的提案,2026 年进一步扩展到气候影响和工人权利保护。这说明机构投资者对 AI 风险的理解正在从技术层面(安全、伦理)转向社会经济层面(就业、气候、产业链)。

来源:Pensions & Investments


🎓 学术前沿

CISA 承包商公开 AWS GovCloud 密钥,国会两院追问

KrebsOnSecurity 报道,美国网络安全和基础设施安全局(CISA)一名承包商创建了名为"Private-CISA"的 GitHub 公开仓库,内含明文 AWS GovCloud 密钥、RSA 私钥及数十个内部系统凭证,最敏感的数据在 2026 年 4 月底被添加。一个 RSA 密钥在被发现后至少两天仍处于激活状态,理论上可让攻击者读取 CISA-IT 组织全部代码仓库并劫持 CI/CD 流水线。

国会两院已发函:参议员 Maggie Hassan 质疑 CISA 内部程序;众议员 Bennie Thompson 和 Delia Ramirez 措辞更重,称此事件"反映出安全文化退化",给了对手"信息、访问权和路线图"。此次泄露发生在 CISA 经历近期人员大幅变动之后。

来源:KrebsOnSecurity


🔧 硬件算力与智能设备

Qualcomm 过去一月涨 75%:AI 设备需求重估

Techmeme/CNBC 报道,Qualcomm 股价本周五收涨 11.6%,过去一个月累计涨 75%。驱动因素是市场重新认识到 Qualcomm 在端侧 AI 设备中的关键地位——随着越来越多手机和 PC 集成 AI 功能,高通 SoC 中的 NPU 能力成为硬件选型的核心指标。

来源:Techmeme/CNBC


台湾内存厂南亚科:内存短缺将持续到 2027,投资 249 亿美元建新厂

Tech in Asia 报道,台湾内存厂商南亚科(Nanya)预测内存供应紧张将持续到 2027 年,并宣布筹资新台币 787 亿元(约 24.9 亿美元)在新北市泰山区兴建新厂。AI 训练和推理的内存需求增长是主要压力来源。Simon Willison 也在同日引述相关分析指出,内存短缺正在推高消费电子产品定价,廉价智能手机的时代可能加速结束。

来源:Tech in Asia | Simon Willison


联想天禧 AI 4.0:虚拟上下文窗口技术实现 10 倍扩容

InfoQ 报道,联想发布天禧 AI 4.0,核心技术创新是"虚拟上下文窗口",可在不增加实际模型上下文长度的情况下实现约 10 倍的有效上下文扩容,用于解决大模型长程推理中的"遗忘"问题。这是端侧 AI 针对上下文限制的一种工程性解法。

来源:InfoQ 中文站


数据中心建设的否决权:AI 扩张的物理阻力正在形成

Stratechery 本周分析指出,AI 基础设施扩张和以往科技浪潮的关键不同:数据中心需要本地政府审批,这让普通居民拥有了过去面对数字化浪潮时没有的"否决权"。作者 Ben Thompson 认为,反对数据中心的舆论并非只是信息错误问题,背后有对本地实际影响的真实关切。简单用事实纠错的方式无法平息反对,必须认真对待这些利益主张。

来源:Stratechery


📊 今日数据