我日常工作是做企业系统开发,电商、ERP、财务那条线都碰过。过去一年多时间里,各种 AI 编程工具轮流用了个遍,Claude、GPT、Gemini、国内的通义灵码、Cursor 背后那几个模型,都实际用在过真实项目里,不是玩具项目。所以说的是真实感受,不是测评机构那种跑 benchmark 的结论。
先说结论:业务逻辑理解这件事,和"写代码准不准"是两回事。很多人搞混了这两点。
一个 AI 能把你说的需求翻译成可以运行的代码,这叫"代码能力"。但能不能在你描述一个模糊场景的时候主动帮你把边界条件、异常流程、业务规则的冲突点都捞出来,这才叫"业务理解"。后者比前者难多了,也是大多数 AI 工具真正的短板所在。
举个我遇到的真实例子。我在做一个退款审批流程,跟 AI 描述需求的时候说了句"用户申请退款,审批通过后退回原支付渠道"。大部分工具会老老实实按照这句话生成逻辑,但不会主动告诉你:如果原支付渠道已经关闭了怎么办?如果是混合支付(部分用微信、部分用余额)怎么拆分?如果退款金额超过了原订单金额怎么拦截?这些场景在真实业务里是每天都会踩的坑,但 AI 不说,你不问它就不管。
这方面我用下来感觉 Claude 做得稍微好一点——它在生成代码之前,有时候会主动问你"这里有个情况你有没有考虑到",或者在代码注释里把这些疑问点标注出来。但也不是每次都稳定,遇到比较复杂的场景还是会漏。GPT 系列在这方面更容易直接上手生成,节奏快,但有时候会给你一种"一切都解决了"的错觉,回头一测才发现漏了一堆。