Agent 编程最隐蔽的盲区:你出了 loop,谁来替你摸 Tab 键
Agent 写的代码逻辑通、测试也过,用户的手却按不对地方:OpenCode 作者让 agent 处理焦点切换,它选了 f 键,而所有人的手指记得 Tab。agent 生成的是 plausible,不是 right;执行可以外包,品味判断不行。
Articles
记录阅读、技术、产品与生活观察的个人博客。
Agent 写的代码逻辑通、测试也过,用户的手却按不对地方:OpenCode 作者让 agent 处理焦点切换,它选了 f 键,而所有人的手指记得 Tab。agent 生成的是 plausible,不是 right;执行可以外包,品味判断不行。
Code Review AI 代码,传统清单全过,风险却藏在它替你做的默认选择里。五个该盯的落点:边界条件、错误处理、外部依赖的假设、状态一致性、权限边界——都是 AI 最容易自信做错的地方。十分钟把注意力收到这里,换半夜少接一次事故电话。
Agent 改 bug 来回改不对,缺的不是脑子,是现场。只给源码,它就只能做静态推理,本质是猜。解法不是换更强的模型,是先让程序开口:用日志暴露运行时事实,再动手修。往上一层,把可观测性建进系统,才是让 Agent 自主排查、自动改善的前提。
跟 agent 聊完,代码进了 git,但踩过的坑、方案前提、下次先查什么这类工程判断没有容器,跟着 session 一起关掉了。解法:趁 context 还热让 agent 把非显然结论压成一两百字,丢进可搜索的 decisions 目录,下次 grep 就能调回来。
AI 同时写代码和测试,出题的和答题的是同一个脑子——代码里的隐含假设会照搬进测试,覆盖率 95% 也只证明内部一致。打破闭环只有一个方向:让测试的场景来自代码之外,由人从真实踩坑和业务理解里注入。
四月想清楚一件事:市面上所有 AI 阅读工具都在帮你「不用读」,没人在解决「陪你读」。五月开始写 Yomitomo,一个本地优先的 AI 伴读桌面应用,把阅读的最小单位从文章变成判断。
Karpathy 放弃一切头衔以 MTS 身份加入 Anthropic pretraining team,加入了 Mike Krieger、庞若鸣等人的行列——大模型时代,"管多少人"已经不是权力来源,能摸到模型才是。头衔在通胀,手感在稀缺。
从 agent-dump 到 agent-view 再到 CodeSesh,我在"AI 编码 session 可视化"这个方向上折腾了挺久。这篇文章聊聊我为什么一直在做这件事,CodeSesh 到底解决什么问题,以及它跟 Spool 这类工具的区别在哪。
加缓存的 Spec 写了失效时间,没写"更新数据时清除对应缓存"——因为这太显然了。AI 不知道显然,Spec 写了什么它就做什么。越值钱的工程经验,越不会被写进 Spec;把"理所当然"变成白纸黑字,才是 Spec 质量的真正差距所在。
Mitchell Hashimoto 把 AI 生成的低质量代码当脚手架加速迭代,Anthropic 工程师说编程已被解决,另一篇文章却记录着新手靠 AI 产出超出自身判断力的产物——泔水不是问题,不知道自己在喝才是。
翻读 Musk v. Altman 案公开的千页内部邮件,OpenAI 早期最聪明的几个人连续三年把资源押在 Dota、机器人手和自博弈上——语言模型在 Sam 的年终汇报里只有三行,用的词是"希望"。九个月后 GPT-2 发布。
用同一把 prompt 对同一段代码做了 10 轮 AI code review,每轮都发现新问题——因为每次重构后代码形状变了,新接缝暴露新问题。AI 审 AI 需要稳定的标准、迭代的耐心,以及由人来决定"什么时候停"。
AI 让你随时都能写代码,但这恰恰是新的危险——你永远离自己的代码太近。用人为的停顿替代以前的被动等待:8 天写代码,16 天只当使用者,1 天带着新眼睛回来审查。
四月的清迈,阳光不燥,微风正好。在这座泰北小城里,我放慢了脚步,逛古城、喂鸽子、喝咖啡、看日落,把日子过成诗。
AI 生成代码"均匀自信"、没有元认知,而我们在审查时也渐渐失去犹豫——commit 签的是你的名字,但决策链条里有一段真空,出了事才会被看见。
在清迈用 AI 一周做完了自己一直想做的语音笔记 APP,好用、每天在用、但没有发布——因为"做出来"和"懂这件事"在 AI 时代第一次被拆开了,我在气泡里生活太舒服,舒服到不会主动走出来。
Agent 跑任务时你不得不等,但切出去刷手机会冲走上下文,多 Agent 并行又带来冲突和审查瓶颈。等待期最值钱的东西,是你脑子里还热着的上下文——用来补漏洞、建预期、规划下一步,而不是切出去消遣。
AI 把产出曲线和判断力曲线拆开了——Agent 永远全速,但你的审查能力在下午已经掉线。身体不再是刹车,只能靠自律:审到"只是在确认"就停,剩下的明天再审。
同一个工具,资深工程师产出又快又稳,新人代码里却埋着三个月后才炸的坑。AI 是放大器,放大你已有的判断力——用 AI 提速的同时,在它帮不了你的地方花笨功夫。
AI 把所有坑都填平了,却也跳过了"踩坑→复盘→记住"的学习循环。直觉是被疼过之后长出来的条件反射,AI 的"干净输出"正在让新人失去学徒期、让老手的报警系统慢慢萎缩——主动给自己制造学习机会,是保持判断力的唯一方法。
GitHub 上爆火的"人格蒸馏"根本不是技术意义上的知识蒸馏——没有训练过程、没有权重更新,只是把原始数据摘要成一段系统提示词,产物是一张角色卡。偷换概念制造高级感,只会拉大公众预期与 AI 现实能力之间的落差。
AI 生成代码的速度远超你阅读的速度,"跑一下试试"只能测到你想到的场景。真正有效的验收需要两层:先前置写验收标准让 AI 生成测试,再让另一个模型以"接手者视角"审查技术债——这十分钟能省掉三个月后那个"测试全过却线上出 bug"的噩梦。
好的前置文档不是给 AI 画一条路,而是画一个圈:目标在圈心,非目标和约束是边界,验收标准是终点线。圈内让 AI 自由发挥,"非目标"是投入产出比最高的一条,多模型交叉评审能在执行前填坑。
假设 AI Agent 在未来一两年内能独立完成大部分实现类开发工作,工程师该何去何从?向上游走——从"怎么实现"到"该不该做";向深处走——从"写得快"到"判得准"。你的 X 抗性指标,就是这周工作中有多少是 AI 无法替代的判断。
Cursor、Claude Code、Codex 是交互界面(壳),背后的大模型才是核心(核)。通过 Fin-Agent 的开发实录,总结出多模型调度的决策逻辑:生态绑定优先,灵活切换次之,成本最后——Agentic 时代工程师的核心竞争力是调度能力,不是工具忠诚度。
OpenClaw 从一个 WhatsApp 聊天机器人长成 25 万 Star 的开源项目,也演示了 Vibe Coding 的结构性困境:AI 优化每次 prompt 的局部正确性,不优化系统长期一致性,百万行代码后是不断爆炸的升级、512 个安全漏洞和失控的熵增——Vibe Coding 有一条看不见的红线。
315晚会曝光GEO投毒案例:通过批量生成虚假产品内容并矩阵分发,两小时让虚构产品"Apollo-9"登上AI推荐榜首。文章从技术开发者视角分析RAG架构漏洞、历史轮回(SEO→GEO)、以及攻防对策。
MCP 和 A2A 不是竞争关系——MCP 管的是 Agent 与工具之间的标准化调用,A2A 管的是 Agent 与 Agent 之间的协作通信。MCP 是每个 Agent 的 USB-C 口,A2A 是把所有 Agent 连在一起的局域网,两者缺一则系统不完整。
Karpathy 在 Vibe Coding 诞生整整一年后亲手"退休"了它,提出 Agentic Engineering——你 99% 的时间在编排 Agent、监督产出,而不是直接写代码。核心流程从随性 prompt 演变为 Plan→Execute→Verify,Spec 写作、代码审查、系统设计成为新的差异化能力。
Coding Agent 让"三天用 Rust 重写开源项目"成为现实,原创者积累三年的认知资产被快速消费,开源生态的回报结构正在崩塌,原创动力在静悄悄地枯萎。
与 Coding Agent 协作将近一年的真实心得:从把 AI 当外包甩手、到凌晨被 oncall 叫醒的教训,到建立"先聊再写"、分步验证、保持怀疑的协作习惯,工程师的核心价值在于设计、判断与掌舵。
KV Cache 是大模型能快速响应长对话的核心机制:将历史内容的中间计算结果缓存起来,避免每次生成新词都重新计算所有上文,以显存空间换取时间,同时大幅降低 API 调用成本。
LLM 的输出是概率分布,大多数人拿到的是中间那块平庸的均值。真正好的答案在尾部——只有本来就懂的人,才能判断好坏、一轮轮地压榨出来。LLM 不是在拉平知识差距,而是在放大差距。
Coding Agent 把开发者的核心职责从"写"迁移到了"审":AI 两分钟生成 200 行,你要花 40 分钟把关,真正决定结果的是你前面的规划与后面的判断——架构取舍、需求拆解、代码嗅觉,这些能力在 AI 时代反而更值钱了。
Spec Driven Development 并没有消灭软件工程的难题,足够细的 spec 本质上就是另一种语法的代码;它还会把团队带回瀑布流,把不确定性藏在文档的完整性幻觉里,spec 永远覆盖不到的地方才是系统真正的盲区。
本文讨论 AI 长期记忆系统的构建问题,并指出当前主流的向量数据库方案本质上只是日志检索机制,而不是真正意义上的记忆。文章从三个关键挑战展开分析:记忆压缩、记忆演化以及记忆冲突。记忆压缩关注如何将大量原始对话交互转化为更高层次的知识表示,避免信息无限增长;记忆演化强调系统需要理解事实随时间变化并更新状态;记忆冲突则涉及当不同记忆相互矛盾时如何进行判断与版本管理。
MCP 协议的"上下文爆炸"问题催生了 Skill+CLI 这条更轻量的路线:不把所有工具定义塞进提示词,而是用 CLI 按需调用,以 OpenClaw 为代表的社区实践正在证明这种方式的价值,MCP 与 CLI 未来会混合共存、各司其职。
回顾 2025 年,这是我在持续精进的同时,有意识拓展认知边界的一年。工作重心从上半年偏向数据基础设施与底层建设,逐步过渡到下半年对流程、规范以及复杂项目整体推进能力的打磨。与此同时,我也刻意让个人技术路径不局限于单一纵深,而是在系统性能、数据模型、AI 与跨学科知识之间形成交叉。这一年让我更加确认:长期价值并不来自技能数量的叠加,而来自抽象能力与判断力的积累。
本报告旨在为行业专家、决策者及技术构建者提供一份详尽的宏观与微观分析。核心发现表明,市场正在摆脱单一维度的军备竞赛,转向结构性的多元化发展。
2025年标志着全球企业人工智能(Enterprise AI)发展轨迹中的一个决定性拐点。如果说2023年是“AI大爆炸”的元年,2024年是广泛实验的探索期,那么2025年则正式进入了“第一缕曙光(First Light)”的时代——在这个时代,理论上的技术能力正在结晶为可衡量的、可扩展的,且往往具有颠覆性的经济现实 。随着OpenAI发布其首份《2025年企业AI现状报告》,结合来自主要咨询公司、行业分析师以及竞争对手的佐证数据,一幅清晰的图景正在浮现:人工智能不再仅仅是一个辅助生产力的工具,而是正在成为重构现代企业架构的根本性力量。
哲学上因果循环无解,但进化史与化石-基因证据表明:早在鸡出现前,其祖先已产蛋,因此“蛋”先于“鸡”。
数年后重新观看《新闻编辑室》,这部精心打造的剧集依然展现出其不减的魅力。通过对新闻行业的理想化描绘、犀利对话以及角色的深度发展,剧集不仅是对新闻职业精神的一次挚烈呼唤,也是对理想主义与现实挣扎的深情书写。尽管当年在美国本土受到了一些批评,但在中国大陆却获得了很高的评价,这反映了中美观众在文化接受度和价值观上的差异。《新闻编辑室》不仅是对新闻工作者的致敬,更是在信息爆炸的时代中,提醒我们追求真相和理想的重要性。这部剧集的价值和影响力,随着时间的推移而愈发显现,成为了一部值得反复观看和深思的不朽佳作。
大语言模型的 Prompt ,通过加入各类控制,让语言模型可以在碰到问题变相使用外部工具来解决
本文是对HBO电视剧《最后生还者》的观后感。本剧改编自游戏《最后生还者》,故事背景在一个被寄生真菌摧毁的末世世界。剧集涵盖了游戏的故事情节,并加入了许多新的情节,来探索其他幸存者团体的生存。本文认为,该剧集探索了原始叙事,成功地为自己创造了独特的身份认同。本文还谈到了该剧集存在一些弱点,包括对于一些角色的剧情安排有待改进,以及对于Joel和Ellie之间关系成长的探索不够完善。总体而言,本文认为《最后生还者》的HBO电视剧版还是非常出色的。
本文讲述了作者在整理 Gmail 邮件时发现了过往和旧友的邮件,回忆起十年前的自己和朋友们。当时的自己喜欢集体活动,热爱表达和分享想法,而朋友们的联系方式主要是邮件和电话。十年后,疫情的影响导致与朋友的联系基本上只在线上,线下聚会变少,作者的想法也只停留在工作中。
本文讲述了规则在我们生活中的重要性,它们让社会更有秩序。以小区单向道控制为例,说明了遵守规则的好处,同时也遇到了一些不遵守规则的人。在遇到一个年长者违反规则不愿意退让的情况下,选择报警,最终警察的到来解决了问题。虽然有些遗憾的是年长者没有意识到自己的错误并道歉,但也从中学到了报警可以解决问题的经验。
NiceTry 播客最近推荐了 Apple TV+ 上的剧集《足球教练》,这是一部节奏快、梗多好笑的剧集,虽然剧情老套,但主角 Ted 的乐观理想主义精神令人感动。该剧订了三季,今年下半年将推出新一季,非常值得期待。
文章讲述的是 macOS 对于 4K 和杜比视界的支持的情况。去年的 WWDC 19 中,人们以为 macOS 将支持 4K,但多个 beta 测试后发现不可能实现。而在最近 10.15.4 beta5 中,发现 Safari 上能够播放 Netflix 并点亮杜比视界标志。经过确认,18 款后的 Mac 型号并升级到了 beta5 的用户就可以享受此功能。
作者写了一封邮件给台北市议员邱威杰,表达了对香港游行示威过程中暴力行为的关注和担忧,并询问议员对此的看法。作者在邮件中提到自己是上海人,喜欢台湾,并关注了许多台湾的 YouTube 频道。作者认为香港游行示威最初是一个正常的表达诉求的游行,但随着时间的推移,出现了越来越多的暴力行为,已经越界。因此,作者选择尝试与议员进行对话。
本文旨在分享关于策略组的需求和设计思路,以适用于不同的科学上网应用,如 Surge、Clash、Quantumult、Quantumult X。首先,我们需要将线路类型分为直连、公网中转、内网中转,再将节点根据地区分组,如香港、日本、新加坡、美国等。最后,我们可以根据具体应用要求来进行选择节点类型。并且,建议每个服务都保留一个直连节点,以便在不同地区时进行适当的调整,从而获得更好的使用体验。
如果你使用Plex作为你的媒体库管理影片、剧集。那么对应的在iPhone和Apple TV上最佳的观看体验则是通过Infuse来实现。为了确认所有功能的开发,且未来的升级依然可以享用,大部分都会采取订阅的方式解锁Infuse的内购功能。我之前也订阅了Infuse,不过当时了解不足,导致在Apple TV上因为中国区无对应TV Store而无法使用Infuse。前2天,我发邮件给Infuse客服,期望他们可以把我的中国区订阅转移到香港账号上,在他们确认了我的订阅订单信息后,他们竟然直接提供了促销码兑换,这样我统一时间就拥有中国区和香港区2份订阅,而且香港区的订阅时间是按照我兑款时间来算且包含附赠的免费体验一个月。
今天在 Instgram 上看到 LBJ 在游艇上被人倒冰水,说是接受了KD的挑战,挑战前还讲了另外3个人名让他们来接受挑战,Obama 也在其中,看起来很酷啊,不过当时人在外面也就看一下就结束了。
作为上海土著,不排外,身边有大量非上海朋友来回答下这个问题。
在weibo上看到有批评使用优酷视频的广告屏蔽助手的用户,认为这是非常错误的行为且这个行为可能还对自己的隐私带来潜在的风险。