Dexter:200 行代码,每一步都能查、能验、能复盘
日期:2026/05/21
一句话说完
你问它"特斯拉增长前景如何",它不会直接给答案。它会先列计划、再查财报、自己做一遍估值、然后回头检查算没算错——整个过程每一步都写进一个文件夹里,你可以打开看它每一步想了什么、调了什么数据、为什么改主意。就像一个你可以随时翻工作底稿的分析师,而不是一个张嘴就来的 chatbot。
具体怎么做到的
Dexter 的核心代码大约 200 行(TypeScript,跑在 Bun 上),但它的工作方式跟普通 AI 问答完全不同。它分四步走:
第一步:做计划。 收到问题后,它不急着回答,先拆任务。比如"分析特斯拉 2025 年增长前景"会被拆成:①拉利润表 ②查同行对比 ③读 SEC 的 10-K 文件 ④做 DCF 估值 ⑤自我验证。每个子任务有明确的执行顺序。
第二步:真的去查数据。 它不是靠训练记忆里的旧知识回答,而是实时调 Financial Datasets API,直接拉利润表、资产负债表、现金流量表,以及 SEC 官方的 10-K/10-Q 文件。也能用 Exa/Tavily 搜公开信息,或用 Playwright 开浏览器看网页。
第三步:自己检查自己。 每完成一步,它回头核对数据有没有矛盾、逻辑有没有漏洞。发现问题就重来。默认最多重试 10 次,不会无限循环。
第四步:留底。 最关键的一点——它把每一步的工具调用、思考过程、中间结果全部写进 .dexter/scratchpad/ 文件夹,格式是 JSONL,一行一条记录。这意味着你可以像翻审计底稿一样,逐条回看它在第几步调了什么 API、拿到了什么数字、得出了什么中间结论、为什么改主意。
为什么"能查账"这件事很重要
金融场景里,AI 胡说八道的代价不是"回答不好用",是可能直接造成投资亏损。普通 AI 问答你只能看到最终答案,看不到推导过程,错了你也不知道错在哪一步。
Dexter 的做法等于把推理链条摊开在桌上:数据来源是哪张表、第几行,逻辑推演到哪一步出了问题,全都有记录。博客园的评测里举了一个例子:Dexter 分析时会主动提示"注意:2025Q1 指引下调,市场可能已经 price in"——这说明它不是机械念财报数字,而是在检查自己输出时发现了矛盾点,提醒用户注意。
GitHub 上 24,800 个 Star、2,600 个 Fork 的数据(截至 2026 年 5 月中旬)也说明,开发者社区认可这个方向。它曾以每周 1,524 Star 的速度冲上 GitHub Trending 日榜第一。
还能怎么用
- 本地跑,不花钱:用 Ollama 加载开源模型 + Exa 搜索,可以把运行成本压到接近零。作者自己的说法是"200 行代码跑赢月费 2,000 美元的 Bloomberg 终端"。
- 手机上用:通过 WhatsApp 网关,可以在手机聊天窗口里直接问它研究问题、收答案。
- 换模型随便换:支持 OpenAI、Anthropic、Google、xAI、Ollama 等多种模型后端。
局限也直接说
Financial Datasets API 本身要付费,不是完全免费。没有 Web 界面,目前只有命令行。默认 10 步上限,极端复杂的问题可能不够用。说白了,它还需要你稍微懂点命令行才能用起来。
参考文献
- 博客园:Dexter 深度评测 — 会思考、会规划、会自我纠错的"华尔街实习生"
- andrew.ooo:Dexter 深度技术评测 — 24K Stars, 自主金融研究 Agent
- GitHub:virattt/dexter — 开源自主金融研究 Agent
前沿科技异动雷达 2026/05/21
- 【算力】英伟达 Q1 净利润 $58.3B(+211% YoY),数据中心收入 $75.2B(+92%)。但黄仁勋电话会坦承 Vera Rubin 全周期供应受限,CFO 同时称"需求在加速"。公司宣布额外 $80B 股票回购,披露持有 $43B 初创公司股权。中国市场方面,黄仁勋访华期间 RTX 5090D V2 遭禁,暴露中美算力供应链持续收紧(WSJ、华尔街见闻、Ars Technica)。
- 【Agent 工具】AI 编码终端战场升温。DeepSeek 正在开发类 Claude Code 编码工具(智东西),Cursor 发布 Composer 2.5 基于 Kimi 底座以 1/10 成本追平 Opus 4.7(InfoQ),Anthropic 推出 Claude Code Routines 支持云端定时/API/Webhook 触发自动化编码(InfoQ)。三股力量同时在抢"AI 编码终端"的开发者入口,竞争从模型能力转向工作流集成度。
- 【学术】ICLR/ACL 2026 两项务实突破:PopuLoRA 提出 LLM 群体自我博弈协同进化(HN 热推),仅 800 条数据即可将 CoT 推理长度减半且精度未降(PaperWeekly)。另一项基准测试显示 AI Agent 可修复独立安全漏洞但难以理解系统范围影响(InfoQ),揭示了当前 Agent"局部能力强、全局建模弱"的结构性瓶颈。