Wednesday, March 11, 2026

Feed

Daily briefing

2026-03-11 Wednesday Briefing

重点

Nvidia Nemotron 3 Super 今日发布——120B 总参数 / 12B 活跃，hybrid Mamba-Transformer MoE，1M context，开源权重。专为 multi-agent agentic 系统设计，Perplexity、CodeRabbit、Palantir、Siemens 等已接入。DeepResearch Bench 双榜第一。这是目前最高效的开源 agentic reasoning 模型。
M5 Max 今日开售，首批 LLM benchmark 出炉——r/LocalLLaMA 1256 upvotes。128GB unified memory / 614 GB/s 带宽。TTFT 提升 3.3-4x（Neural Accelerator 驱动），token 生成提升 ~19-27%。可本地流畅运行 120B 模型（gpt-oss-120b, Qwen3.5-122B）。本地推理从”能跑”正式进入”能用”阶段。
CPI 符合预期但油价隐忧未消——2 月 CPI/Core CPI 环比持平，同比 2.4%/2.5%。但这是伊朗战争前数据。IEA 宣布史上最大战略储备释放（400M 桶），油价仍在 $85-90。霍尔木兹海峡今晨又有三艘货轮被袭。Stryker 遭伊朗关联黑客全球网络攻击。
GPT-5.4 社区反应两极分化——HN 983 分/780 评论。原生 Computer Use（OSWorld 75%，超人类 72.4%），1M context API，Tool Search 系统减少 47% token 消耗。但 Gizmodo 标题”in desperate need of a win”，ChatGPT 据报因 DoD 合作流失 150 万用户。
Anthropic 发布 AI 劳动力市场影响研究——提出 “observed exposure” 新指标（理论能力 × 实际使用数据）。Computer Programmers 最高暴露（75%），其次 Customer Service Representatives。关键发现：目前尚无系统性失业增加，但高暴露岗位年轻人招聘放缓。HN 313 分/528 评论。

笔记

跳过昨日已覆盖项：Wikipedia 事件、CBP 广告追踪、Firefox bitflips、Ship of Theseus、$130B 关税退款、Anthropic DoW 声明、Clinejection、Paul Graham Brand Age、406.fail、Proton Mail、PageAgent、Good Software Knows When to Stop、Karpathy autoresearch、Cursor ACP JetBrains、全球变暖论文、tech 就业危机数据。

📡 HN 信号

今日新增高信号项（去重后）：

GPT-5.4（983 分/780 评论）—— 核心亮点：首个内置原生 Computer Use 的 OpenAI 通用模型，OSWorld-Verified 75%（超人类 72.4%）。整合 GPT-5.3-Codex 编码能力 + reasoning，1M token context，Tool Search 动态发现工具定义（减少 47% token 消耗）。SWE-Bench Pro Public 57.7%（但拒绝公布 SWE-Bench Verified 成绩，引用数据污染——Claude Opus 4.6 仍然领先该 benchmark）。ChatGPT for Excel 同步发布。Fortune 评价：直接瞄准 Anthropic enterprise 阵地。openai.com · HN
Anthropic 劳动力市场 AI 影响研究（313 分/528 评论）—— 提出 “observed exposure” 指标：理论 LLM 能力（Eloundou et al.）× 实际 Claude 使用数据（Economic Index），加权自动化用例（非增强型）。核心发现：97% 实际使用集中在理论可行任务上，但实际覆盖远低于理论能力（Computer & Math 理论 94% vs 实际 33%）。最暴露：Computer Programmers (75%)、Customer Service Reps、Data Entry Keyers。高暴露工人特征：偏年长、女性、高教育、高薪。无系统性失业增加，但暗示年轻人招聘放缓。anthropic.com · HN
Jido 2.0 Elixir Agent Framework（317 分/65 评论）—— Elixir 生态的 AI agent 框架，利用 BEAM VM 的并发和容错能力。Elixir 在 agent 方向是个有趣的差异化选择——天然适合 long-running 并发 agents。jido.run · HN
Charm.sh Bubble Tea / Lip Gloss / Bubbles v2（155 分/57 评论）—— Go TUI 生态核心库大版本更新。Bubble Tea 是目前最流行的终端 UI 框架之一，被 Claude Code 等众多 CLI 工具使用。charm.land · HN
OpenTitan 进入量产（89 分/14 评论）—— Google 开源安全芯片设计首次量产出货。googleblog.com · HN
GLiNER2: Unified Schema-Based Information Extraction（45 分/5 评论）—— 统一的 NER/IE 模型，支持 schema 驱动的实体抽取。对 structured data extraction pipeline 有意义。github · HN
Cornell 研究：爱用 “synergizing paradigms” 的人工作表现更差（515 分/289 评论）—— 讨论企业 buzzword 文化和实际工作能力之间的反向相关。cornell.edu · HN
US 经济 2 月意外减少 92K 就业（499 分/679 评论）—— BBC 报道，与上周 tech 就业危机讨论形成宏观印证。bbc.com · HN

🔬 Reddit 脉搏

r/LocalLLaMA — M5 Max 和 Nemotron 3 Super 主导

M5 Max 首批 benchmark（1256 up/215 评论）—— 用户 cryingneko 在 14” M5 Max 128GB 上用 mlx_lm 测试 Qwen3.5-122B-A10B-4bit、gpt-oss-120b-MXFP4-Q8 等模型。社区兴奋度极高。关键：120B 级模型在笔记本上首次达到流畅交互级别。Apple ML Research 官方也发了技术博文确认 TTFT 4x 提升。
Nemotron 3 Super 发布（94 up/49 评论，刚发布几小时）—— 120B/12B active，hybrid Mamba-Transformer MoE。Nvidia 同时开源 10T+ 预训练数据、15 个 RL 训练环境。PinchBench 85.6%，DeepResearch Bench 双榜第一。Perplexity 已将其纳入 Computer 的 20 个协调模型之一。
“it is coming”——Gemma 4 泄露信号持续（297 up/114 评论）—— 来自青龍聖者 (@bdsqlsz) 的推文暗示。
Three.js 视觉 benchmark 帖（735 up/91 评论）—— 用 Three.js 渲染复杂场景作为 LLM coding 能力的可视化测试。有趣的 benchmark 方向。
“I regret ever finding LocalLLaMA”（989 up/173 评论）—— 社区自嘲帖：从用 AI 做学习卡到买中国淘来的 MI50 做自定义 imatrix 量化。反映了 local LLM hobby 的深度沉迷文化。
Reka Edge 7B 多模态发布（42 up/15 评论）—— RekaAI 发布 7B 视觉语言模型，专注 image/video understanding 和 agentic tool-use。Apache 2.0。
Meta 收购 Moltbook 讨论（36 up/24 评论）—— 社区质疑 Meta 为什么不自己构建，反映了对大公司效率的怀疑。

r/MachineLearning — AI 论文审稿质量危机

ICML 论文审稿发现完全由 AI 生成的论文（72 up/21 评论）—— 审稿人在 “no LLM assistant” 赛道发现一篇完全由 AI 撰写的投稿。讨论如何 flag 给 AC。这是学术界 AI slop 问题的最新例证。
“How I topped the Open LLM Leaderboard using 2x 4090”（166 up/25 评论）—— 核心发现：在 Qwen2-72B 中复制特定 7 层中间层（不修改权重）改进了所有 benchmark。截至 2026 年，排行榜前 4 名仍是其后代模型。暗示预训练过程在中间层形成了离散功能电路。极有趣的 ML research insight。

r/SideProject

“1 year. 6 products. $12K”（35 up/23 评论）—— 独立开发者 1 年 6 个产品从 $0 到 $12K 的详细收入拆解。Mac time tracking app 是突破口。标准 indie hacker 成长路径。
GEO（Generative Engine Optimization）实践（70 up/37 评论）—— 一个学生分享如何让 Gemini 和 ChatGPT 在 48 小时内认识自己的 startup。核心手段：Schema markup、结构化数据、Wikipedia-style content。GEO vs SEO 的讨论持续升温。

🚀 Product Hunt

3/11（今日，截至发稿）：

KiloClaw（1169 upvotes / 107 评论）—— “The agent-native computer, for the rest of us”。agent 原生计算平台，upvote 极高，值得关注。
Notion Custom Agents（871 / 85）—— Notion 官方 agent 定制。Notion 正式入场 AI agent。
floors.js（785 / 28）—— 底层 JS 框架？需要更多信息。

3/10：

Visual Translate by Vozo（487 / 177）—— 视频文字翻译，不需要重建视觉元素。
Chronicle 2.0（442 / 188）—— “AI presentations without the AI slop”——anti-slop 定位值得注意，188 评论是极高互动量。
Claude Code Review（380 / 14）—— Multi-agent code review，14 评论暗示高票低互动，可能是品牌效应。
Your Next Store（361 / 55）—— AI-first 电商建站。
Fish Audio S2（271 / 38）—— 表达力 AI 语音。

PH 趋势观察：

KiloClaw 1169 票是近期非周末单日极高成绩。“agent-native computer” 定位呼应了 Perplexity Computer、OpenClaw 等趋势——消费者端的 agentic computing 产品正在涌现。
Chronicle 2.0 “without the AI slop” 定位代表了一个新的产品趋势：anti-AI-slop 成为卖点。与 ICML AI 论文审稿问题、406.fail AI PR 拒绝等信号一致——市场开始对 AI 生成内容的质量产生反弹，quality > quantity 将成为差异化方向。
Notion Custom Agents 标志着 productivity 巨头正式入场 agent 市场。

💰 融资动态

今日无新大轮公开披露。延续信号：

Oracle Q3 财报超预期——股价盘前 +13.8%，云收入增长强劲。AI datacenter capex 叙事获得数据支撑。Jensen Huang 今早在 GTC 前的媒体活动中重申 AI infra demand “far exceeds supply”。
Stryker（SYK）遭 Iran-linked 网络攻击——全球 Windows 环境停摆，股价跌 ~5%。WSJ 报道可能与 Handala 黑客组织有关。地缘冲突正在向 cyber 维度扩展。

📊 市场脉搏

今日 3/11 盘中（截至美东中午）：

指数	盘中	变动
S&P 500	~6,788	+0.1%
Nasdaq	~22,700	+0.3%
Dow	~47,500	-0.6%

CPI 2 月数据：环比持平（headline 和 core），同比 2.4%/2.5%。市场松口气——但这是伊朗战争前数据。BofA 警告冲突”将在未来几个月对 headline、core 通胀和通胀预期产生上行压力”。
IEA 宣布史上最大战略石油储备释放：400M 桶——超 2022 乌克兰战争时 182M 桶纪录的两倍+。但油价短暂下探后反弹，WTI ~$85-86，Brent ~$87-90。霍尔木兹海峡今晨三艘货轮遭袭。
Oracle +13.8% 领涨科技板块。能源板块继续强势。
Gold ~$5,181（-$54），BTC ~$69,369。
VIX ~24.8，从上周 27+ 回落。
Stryker（SYK）-5% 因 Iran-linked 网络攻击。
Deutsche Bank 升级 software 板块至 overweight——认为 AI disruption 担忧已见顶，software stocks 可能已触底。

关键观察： CPI 无惊吓 + IEA 大放储 = 市场暂时稳住。但伊朗冲突仍在升级（海峡攻击 + Stryker 网络战），3/19 FOMC 仍是关键节点。如果 3 月 CPI（反映战争期间油价）大幅上行，Fed 政策困境将真正浮现。

👀 Watchlist 更新

Anthropic / Claude Code：本周发布劳动力市场 AI 影响研究（“observed exposure” 指标），HN 313 分/528 评论。DoW 供应链风险认定的法律挑战进行中。Product Hunt 上 “Claude Code Review” 第三方工具拿到 380 票。市场位置：enterprise 和 coding 双线强势，SWE-Bench Verified 仍领先。
OpenAI / Codex：GPT-5.4 全面落地，HN 983 分/780 评论。原生 Computer Use 是最大差异化——OSWorld 75% 超人类表现。但社区评价两极：技术上是重大进步（1M context、Tool Search、47% token 减少），品牌上因 DoD 合作持续受损（Gizmodo 称”desperate need of a win”，150 万用户流失）。拒绝公布 SWE-Bench Verified 成绩是个信号——暗示 Claude Opus 4.6 在 coding 上仍有优势。
Cursor：3/5 发布 Automations——always-on agents，代码提交/Slack/定时器触发。Bugbot 扩展为完整安全审计。Bloomberg 确认 $2B ARR（三个月翻倍）。企业客户占收入 60%。市场份额被 Claude Code 蚕食个人开发者端，但企业端持续增长。
Devin / Cognition：SWE-1.6 训练预览持续。Windsurf 已恢复 Claude 模型访问。本周无独立新事件。
LangChain：本周无新闻。
Omnara：安静。

想法

Nemotron 3 Super 的发布时间点完美命中了 GTC 前一天。120B/12B active 的 hybrid Mamba-Transformer 设计直接回应了 “agentic AI needs efficiency” 的市场叙事。Perplexity、CodeRabbit 等已经在用——这不是学术发布，是生产级工具。1M context + 5x throughput 改进意味着 multi-agent 系统的”thinking tax”问题有了开源解法。值得做一份 research note。
M5 Max + Nemotron 3 Super 同日发布是个巧合，但指向同一个方向：大模型本地化正在变得真实。M5 Max 128GB 可以跑 120B 模型、Nemotron Super 12B active 可以跑在单 GPU 上。本地推理的 capacity 和 efficiency 同时跳跃。这对依赖 API 的 SaaS 是长期威胁。
Anthropic 劳动力市场研究的”observed exposure”指标有论文参考价值。理论能力（Eloundou et al.）和实际使用（Economic Index）的差距是一个可量化的”adoption gap”——这可以映射到 SAFE-MCP 框架中的”theoretical attack surface vs actual exploitation surface”。方法论上的相似性值得在 CoLM 论文中引用。
“Anti-AI-slop”正在成为一个有商业价值的定位。Chronicle 2.0 “without the AI slop”、406.fail 拒绝 AI PR、ICML 审稿人 flag AI 论文——三个不同领域的信号汇聚。消费者和专业人士开始对 AI 生成内容产生免疫力。Quality differentiation 的窗口正在打开。

值得创建 vault 文件的：

research/ai/nemotron-3-super-architecture.md — Mamba-Transformer hybrid MoE、12B active 设计、1M context、PinchBench 85.6%。对 multi-agent 系统效率有直接参考价值。
research/ai/anthropic-observed-exposure-metric.md — “observed exposure” 指标方法论：理论能力 × 实际使用 × 自动化权重。对 labor market + SAFE-MCP 的 adoption gap 分析有双重价值。
research/market/anti-ai-slop-trend.md — 汇集 Chronicle、406.fail、ICML 审稿等信号，分析 anti-slop 作为产品定位和市场趋势的机会。