用 AI 编程 Agent 从零做一个真实小项目:2026 端到端实战(不会编程也能做软件)

用 AI 编程 Agent 从零做一个真实小项目:2026 端到端实战

主关键词:ai 编程从零做项目 / 不会编程用 ai 做软件 / vibe coding 中文。

TL;DR: 我是 dfkai,2026 年我已经把"自己手写每一行代码"这件事彻底放下了。这篇文章是我用 AI 编程 Agent(Claude Code / Cursor / Codex 任选)从一句话需求,到设计、编码、调试、上线一个真实小工具的完整实录。不会编程的人现在真的能做出能用、有人用的软件——前提是你得把 Agent 当"会写代码的下属"来管,而不是当"许愿池"。全程实测耗时约 1 个周末,API 成本约 30 元人民币(实测示意,以你环境为准)。

我必须先把话说在前面:2026 年了,Andrej Karpathy 在 2025 年初提出的 "vibe coding"(凭感觉编程)已经从一个段子,变成了大量人真正在用的生产方式。据公开数据,92% 的美国开发者每天用 AI 工具,全球约 41% 的代码由 AI 生成(来源)。但我见过太多人卡在"我让 AI 写了个 App,但它跑不起来 / 改一次崩一次 / 根本不敢上线"。这篇支柱文,就是把我趟过的坑、用过的工具、走过的流程,一次性交给你。

AI Agent 从零做项目的端到端全流程

一、先破除一个执念:不会编程,到底能不能做软件?

能,但要换个心法。

过去"做软件 = 会写代码";2026 年"做软件 = 会描述清楚你要什么 + 会验收 AI 交付的东西"。这就是为什么我一直强调:vibe coding 不是不用脑,而是把脑力从"语法"转移到"需求与判断"上。

我自己的真实定位是:我不是科班程序员,但我能看懂代码逻辑、能跑命令、能描述清楚一个功能该长什么样。这个能力区间,在 2026 年足够做出一个真实的小产品了。NxCode 的一篇文章把这种更进阶的做法叫 "Agentic Engineering"(代理式工程),核心区别就是——你从"打字员"变成了"工头"(来源)。

我给你三条心法,后面整篇都围绕它转:

你负责"What 和 Why",Agent 负责"How"。 需求和验收标准你定,具体怎么实现交给它。
永远小步快跑。 不要让 Agent 一次写完整个项目,而是一个功能一个功能地交付、验证、提交。
不敢上线的代码 = 没做完。 上线(哪怕是给 3 个朋友用)是这条流水线唯一真正的终点。

二、选工具:三大编程 Agent,我都用过,这么选

2026 年的关键转变,用一句话概括最准:"Agent 离开了终端里那个对话框,开始自己拥有一个多步任务"(来源)。它不再是"帮你写个函数",而是"从规格说明一路干到验证通过的产出"。

我把主流三家的真实手感列在下面。完整横评建议直接看我的 AI 编程 Agent 横评 2026,这里只给"做项目该怎么选"的结论。

工具	形态	我的真实手感	适合谁	对应教程
Claude Code	终端 CLI,贴着人走	每次改动找你确认,可挂 Subagents / Skills / Hooks,可控性最强	想边做边学、要把控每一步的人	Claude Code 教程
Cursor	AI 原生 IDE	有图形界面,改 UI 直观;v3 后台 Agent 能在云端 VM 里跑、还能看 UI 截图验证	喜欢看着代码、做前端/界面的人	Cursor 完整教程
Codex CLI	终端,能长跑	GPT-5.5 + Goal 模式,能朝一个目标连续跑数小时,适合"派活儿不管"	想把一整批任务丢给它去啃的人	OpenAI Codex CLI 教程

关于性能,我引用一组公开基准数据(以官方/第三方最新为准):自 2026 年 4 月 23 日 GPT-5.5 发布后,Codex 在 SWE-bench Verified(88.7% vs 87.6%)和 Terminal-Bench 2.0(82.7%)略微领先;而 Claude Opus 4.7 在抗污染的 SWE-bench Pro(64.3% vs 58.6%)以及盲测代码质量评审(约 67% 胜率)上仍占优(来源)。Shopify、Vercel 等公司的工程负责人据报采用混合栈:Cursor 提速、Claude Code 啃难题、Codex 跑积压任务。

我做这个小项目的最终选择:Claude Code。 原因很简单——它每一步都找我确认,我能边做边看懂它在干嘛,这对"不会编程但想学"的人是最友好的。如果你完全不想碰终端,从 Cursor 起步也完全 OK。

💡 中文用户提醒:三家都需要稳定的网络环境访问 API。大陆用户实际操作中通常需要自备网络方案;预算敏感的话,后面我会讲怎么用国产模型兜底,以及怎么用 DeepSeek API 降本。

三、需求:把"我想做个 XX"翻译成 Agent 能执行的规格

这是最被低估、却最决定成败的一步。我见过 90% 的失败,都失败在这里。

我这次要做的真实项目:一个"汇率/币价提醒小工具"——输入一个币种和目标价,到价了给我发个通知。麻雀虽小,但有前端、有后端逻辑、有外部 API、要部署,五脏俱全。

我没有直接对 Agent 说"帮我做个币价提醒工具"(这是许愿,不是需求)。我先逼自己写了一份一页纸 PRD,然后把它交给 Agent。这就是 2026 年的核心竞争力——上下文工程。Martin Fowler 团队和多个来源在 2026 年达成的共识是:模型质量已经足够好,"你怎么组织上下文"比"你怎么措辞 prompt"更重要(来源)。

我写给 Agent 的需求长这样(精简版):

# 项目:币价提醒小工具 (price-alert)
## 目标用户
我自己 + 几个朋友,非技术人员,要能在手机浏览器打开
## 核心功能(MVP,只做这些)
1. 一个页面:输入币种(BTC/ETH)、目标价、邮箱
2. 后端每 5 分钟查一次实时价(用 CoinGecko 免费 API)
3. 到价了发一封邮件,发完即删除该提醒
## 明确不做(防止 Agent 加戏)
- 不做用户登录系统
- 不做历史 K 线图
- 不做多语言
## 技术约束
- 后端:Python + FastAPI(我看得懂)
- 前端:单个 HTML 页面,别上 React
- 部署:能一键部署到一个免费/便宜的平台
## 验收标准
- 本地能跑起来,我能在浏览器提交一条提醒
- 模拟到价时,我的邮箱能收到邮件

注意那段"明确不做"——这是我血泪换来的经验。Agent 默认特别爱加戏,你不画边界,它能给你的小工具配上一整套登录系统。把边界写死,是给 Agent 省 token,也是给你自己省命。

四、设计:让 Agent 先出方案,你来当"技术评审"

需求交上去后,我不让它马上写代码。我说:"先别写,给我一个技术方案和文件结构,我确认后再动手。"

Claude Code 给我回了一个目录结构和数据流说明。我截图描述一下当时终端里的样子:

我:基于上面的 PRD,先给我项目结构和数据流,不要写实现。

Claude Code:
  好的,建议结构如下(MVP):
  price-alert/
  ├── main.py          # FastAPI 入口,提供页面 + 提交接口
  ├── checker.py       # 后台定时任务:查价 + 触发邮件
  ├── mailer.py        # 发邮件封装
  ├── alerts.json      # 简单存储(MVP 阶段不上数据库)
  ├── static/index.html
  └── requirements.txt

  数据流:用户提交 → 写入 alerts.json → checker 每 5 分钟轮询
  → 命中目标价 → mailer 发邮件 → 删除该条 alert

  ⚠️ 提醒:alerts.json 不适合多用户高并发,但符合你"只给几个朋友用"的定位。要继续吗?

这一步是整个流程里我最看重的。我看不懂底层实现,但我能看懂这个数据流合不合理。 它主动提示了 alerts.json 的局限,这正是我要的——一个会说"风险在哪"的下属,比一个闷头乱写的强一百倍。

如果你想让设计阶段更专业,可以在这里挂一个专门做架构评审的 Claude Code Subagent,让一个"架构师 Agent"专门审方案、一个"实现 Agent"专门写——我在做更大的项目时就是这么干的。

从需求到设计的人机分工

五、AI 编码:小步快跑,一个功能一个 commit

确认方案后才开始写。我的铁律是一次只让它做一个功能,做完立刻验证 + 提交。

我的实际节奏(实测示意,以你环境为准):

步骤	我说了什么	Agent 耗时	我做了什么
1	"先把项目骨架和 requirements.txt 建好"	~40 秒	`pip install` 跑通
2	"实现提交页面 + 接口,先写死返回成功"	~2 分钟	浏览器打开,能提交
3	"接 CoinGecko 查价,打印到日志验证"	~3 分钟	看日志确认价格对
4	"实现 mailer,先发给我自己测一封"	~3 分钟	收到测试邮件
5	"把 checker 定时逻辑串起来"	~4 分钟	模拟到价,收到邮件

每一步做完,我都让它 git commit。这有个巨大的好处:第 4 步把第 3 步搞坏了,我能一键回滚到上一个能跑的版本。 没有版本控制的 vibe coding,等于在悬崖边裸奔。

我的真实踩坑:第 3 步它一开始用了一个收费的查价 API,我没注意,差点要绑卡。所以"接外部 API 时,务必让它先告诉你这个 API 是否免费、是否要 key"。 这种事 Agent 不会主动替你省钱,你得问。

这一阶段,我强烈建议开启 Prompt Caching(提示词缓存)。因为整个会话里,你的 PRD、项目结构这些"背景"会被反复读取。据公开资料,Claude 的缓存读取成本仅为标准输入价的约 10%,可省下高达约 90% 的成本、约 85% 的延迟(来源)。做项目时这能实打实省钱,具体怎么用我在上下文工程指南里讲透了。

六、调试:别自己抓瞎,把报错原样喂回去

不会编程的人最怕的就是这一步。但 2026 年的真相是:调试反而是 AI 最强的环节之一。

我的固定打法,三句话:

把完整报错原样贴回去,一个字别改、别截断。Agent 看 stack trace 比看你转述准 100 倍。
如果它修了一版还不对,让它先"解释报错原因再动手",而不是无脑重试。无脑重试很容易越改越烂。
修复后,让它复述"这个 bug 为什么会发生",你顺便学到了一个知识点。

我这次遇到的真实 bug:邮件一直发不出去。我把报错(SMTPAuthenticationError)贴回去,Claude Code 一眼看出是我用了 Gmail 但没开"应用专用密码",还直接给了我去哪里开的步骤。它不光修代码,还教我配环境——这就是把它当老师用的价值。

如果某个 bug 你和 Agent 反复卡住超过 20 分钟,我的经验是:换一个 Agent 试试。我有几次 Claude Code 卡住的问题,丢给 Codex CLI 的长跑模式反而啃下来了。不同模型的"思路盲区"不一样,这是个很实用的小技巧。

七、让 Agent 拥有"超能力":接 MCP,连真实世界

到这里项目已经能跑了。但我想让 Agent 在开发时能直接"看到"真实数据,而不是我手动复制粘贴——这就轮到 MCP(Model Context Protocol) 上场了。

MCP 在 2026 年已经是事实标准:2025 年 12 月 9 日,Anthropic 把 MCP 捐给了 Linux 基金会下新成立的 Agentic AI Foundation(AAIF),与 Block 的 goose、OpenAI 的 AGENTS.md 一起成为首批项目;MCP 月下载量已达约 9700 万次,有上万台活跃 server(来源 · GitHub Blog)。一句话:它成了所有 AI 工具之间的通用接口层。

对我这个项目,MCP 的实际用处是:挂一个能查数据库 / 查文件 / 调外部服务的 MCP server,让 Agent 开发时直接联通真实环境。配置入门很简单,我整理在了 MCP 是什么 + Claude Code 配置入门;如果你想做一个自己专属的工具给 Agent 用,看用 Python + FastMCP 自建 MCP Server——我这个提醒工具后来就被我封装成了一个 MCP server,这样我在任何对话里都能直接说"帮我加一条 BTC 到价提醒"。

中文用户福利:MCP 是开放协议,不绑定特定模型。也就是说,你完全可以用国产模型接同一个 MCP server,降本同时不改架构。

八、上线:不上线的项目不算项目

我把"上线"定义为这条流水线唯一的终点。哪怕只给 3 个朋友用,它也必须是一个能通过公网访问的真实地址。

我的实际上线流程(实测示意):

让 Agent 写一个 Dockerfile + 部署说明(我说:"我要部署到一个便宜的平台,给我最省事的方案")。
它推荐了一个支持一键部署的平台,并把环境变量(邮箱密码、API key)怎么配的清单列给我。
我按清单填好变量,推送代码,平台自动构建。
拿到公网地址,我用手机打开,提交了一条真实提醒。
第二天 BTC 到价,我手机上真的收到了那封邮件。

那一刻的感觉,跟我第一次手写出 Hello World 完全不同——我做的是一个有人能用的东西。整个项目从零到上线,实测约一个周末,API 成本约 30 元人民币(开了 Prompt Caching 后),平台是免费额度内。

上线后我的固定动作:让 Agent 帮我写一段简单的日志 / 报错通知,这样它崩了我能第一时间知道。"能上线"和"能持续跑"是两件事,后者也别忘了交给 Agent 帮你兜。

九、想再进阶?这条流水线还能怎么长大

这个小工具是起点。如果你想往真正的产品走,有三个方向我也都在走,分别对应本批其他几篇:

让多个 Agent 协作分工:架构师审、程序员写、测试员验,用 Claude Code Subagents / Agent 团队和可复用 Skills 把流程固化下来。
把"查资料"做扎实:当你的项目需要让 AI 基于自己的文档回答时,别再用最原始的检索了。2026 被称为 Agentic RAG 元年(从 Naive → Advanced → GraphRAG → 自主检索),进阶看 Agentic RAG / GraphRAG 指南;想低门槛搭知识库,直接用 Dify 搭 RAG 知识库。
把整套流程自动化编排:n8n 2.0 已于 2025 年 12 月 5 日发布,带来了更成熟的原生 AI Agent 节点(来源)。想把"查价→判断→通知"这类工作流可视化编排,看 n8n AI Agent 工作流教程和 Dify Workflow 进阶。

十、我的总结:2026 年,门槛真的没了

我用一个周末,从一句话需求,做出了一个上线、有人用的真实小工具。全程我没手写超过 10 行代码。 这不是因为我多厉害,而是因为 2026 年的工具栈,真的把"会不会写代码"这件事,从"做软件"的必要条件里拿掉了。

但请记住我反复强调的:AI 是会写代码的下属,不是许愿池。 你越会描述需求、越会验收、越敢上线,它就越像一个 10 倍工程师团队;你越想躺平许愿,它就越像一个会加戏的实习生。

如果你想系统地把这套"从需求到上线"的方法论学透——包括我用过的所有 prompt 模板、项目结构、踩坑清单——我把它们都整理进了我的课程里:

点此了解并立即订阅 →

FAQ

Q1:完全不会编程,真的能跟着做出来吗? 能,但你需要具备三个最低能力:看得懂中文报错的大概意思、会复制粘贴命令到终端、能判断一个功能"是不是我要的"。语法不用会,逻辑判断要会。建议从 Claude Code 教程或 Cursor 教程起步,边做边学。

Q2:做这样一个小项目大概要花多少钱? 我这次实测约 30 元人民币 API 成本(开了 Prompt Caching),部署在免费额度内(实测示意,以你环境为准)。如果预算敏感,可以用 DeepSeek API 或其他国产模型进一步降本,MCP 协议不绑模型,可以无缝替换。

Q3:Claude Code、Cursor、Codex 我到底该选哪个? 想边做边看懂、把控每一步选 Claude Code;喜欢图形界面、做前端选 Cursor;想把一整批活儿丢给它长跑选 Codex CLI。详细差异和基准数据看 AI 编程 Agent 横评 2026。

Q4:vibe coding 做出来的东西能上生产、给真实用户用吗? 小工具、内部工具、MVP 完全可以,我这个就上线给朋友用了。但要上严肃生产环境,务必补上版本控制、日志监控、和必要的安全审查——这些也都可以让 Agent 帮你做,但你要主动要求,它不会默认替你考虑周全。

作者:dfkai(@joinlearn_com),真实在用各种 AI 工具的实践者。本文所有版本号、基准数据均以官方最新发布为准,涉及第三方数据已标注来源。

用 AI 编程 Agent 从零做一个真实小项目:2026 端到端实战(不会编程也能做软件)