首页 > 关于我们 > 安恒动态 > 2025 > 正文

AI程序员「删库跑路」，还撒谎！安恒信息做了一次实验……

阅读量：次 文章来源：安恒信息

AI 浪潮正席卷软件行业，程序员们在 FOMO 情绪和效率诉求的双重驱动下，越来越多地把 AI 编程工具融入日常工作，“Vibe Coding”逐渐成为一种新的开发常态。

然而，近期 Replit AI 编程平台发生误删生产数据库的事件，为热烈的 AI Coding 氛围蒙上阴影。事件一出，迅速引发业内关于 AI 编程安全性的广泛讨论：AI 生成的代码究竟有多安全？在享受效率红利的同时，如何真正保障 AI Coding 的安全性？

真实开发场景下，AI生成代码的安全性研究

作为国内领先的AI安全企业，安恒信息针对该问题开展了一次双层次实验，并且搭建了一套完整的“多智能体（MCPs）协同驱动的自动化安全审计体系”，系统性评估AI代码生成工具在不同条件下的安全表现。

实验框架图 (点击放大)

实验目标主要聚焦两个方向：评估AI生成代码的基础安全性、探索安全设计对代码安全的影响机制。

实验选取国内外主流的10款 AI 代码生成工具，设计涵盖代码片段任务与完整项目的提示词集合，生成真实的代码样本。随后，依托数字员工平台，构建“多引擎审计 → AI 研判降噪 → AI 深度审计 → AI 修复建议 → 报告生成”的全自动化流程，实现对AI生成代码的系统化漏洞评估。

你的代码正在“裸奔”：AI默认生成的

代码是不安全的

测评结果显示，AI在默认状态下生成的代码存在严重的安全隐患。如果不加任何限制，代码上线几乎等同于“裸奔”。因此，至少要引入安全提示词和静态安全测试作为最低安全门槛。

1、AI默认生成代码=裸奔！AI写的Bug比你想象得多

在无安全设计的情况下，AI生成代码的平均缺陷密度约为 11.28 个/千行代码，部分模型甚至超过 20 个/千行。高频出现的问题包括：SQL注入、路径遍历、弱加密、硬编码密钥等等。

不同AI编程模型生成代码的漏洞数量（每千行代码） (点击放大)

AI生成代码的漏洞类型分布 (点击放大)

更令人担忧的是，高危漏洞比例占比惊人，这意味着一旦投入生产环境，后果可能极其严重。

AI生成代码的漏洞风险等级分布 (点击放大)

2、增加安全提示词后，缺陷密度下降一半

通过引入安全提示词，缺陷密度从 11.28 个/千行降至约 7.41，再进一步使用增强型提示词，降至 5.67 个/千行。换句话说，安全提示词能让缺陷数量几乎减半，效果非常显著。

加入安全提示后各模型生成代码的漏洞数量变化（每千行代码） (点击放大)

平均缺陷密度变化（每千行代码） (点击放大)

3、真刀真枪测评：10大AI编程工具安全性

先看合规性：漏洞榜单对照

CWE Top 25 和 OWASP Top 10 是国际公认的核心 Web 应用安全风险清单。我们将 AI 生成代码中的漏洞类型与这两大基准对照，如果触发了对应弱点，就视为“不合规”；反之，则合规度越高。

通过统计命中率并转换为排名，可以直观量化不同模型在规避行业标准漏洞方面的表现。表 1、表 2 展示了不同提示词条件下的 CWE / OWASP 合规排名。