从 99% 到 0%，我们如何用 6 个月炼出“零 AI 痕迹”引擎

关键词：去除AI痕迹、0的AI率、100%人工率

我是平台的技术合伙人，今天讲讲过去 6 个月我们在“去 AI 味”这件事上踩过的坑。文章开始前先报三个真实数字：

今年 2 月，我们第一次用公开语料跑实验：把 100 篇 GPT-3.5 写的科技评论直接塞进 Turnitin AIGC，平均 AI 率 97%。当时团队乐观，觉得只要换几个同义词就能骗过去，结果只降到 82%。我们意识到检测器看的不是词汇，而是“统计指纹”[⁷]。

于是我开始啃原始论文，发现 GPTZero 用了一个 1.3B 参数的轻量模型做困惑度打分，而 Turnitin 更是把句法树深度、词频 Zipf 分布都喂进了随机森林。换句话说，如果我们只做表层近义词替换，就像在监控摄像头前换衣服，脸还在。

我们换思路，决定模拟人写作时的“不理性”。人类写作会有回忆闪现、话题跑偏、情绪起伏，我们把这三类特征做成 28 维向量，叫“人话向量”。具体做法：

训练数据来自 2018-2024 年 4.6 万篇豆瓣长评，全部人工清洗，去掉广告、追星控评。最终我们用 8 张 A100 训了 11 天，得到一个 7B 参数的 rewriter，内部代号“Humanizer-v3”。

6 月 1 日我们把 Humanizer-v3 灰度上线，随机挑 200 个用户做 A/B：A 组走 v2，B 组走 v3，双方都看不到版本号。两周后拉数据：

7 月底，我们正式把“AI 率≤1%”写进服务等级协议，如果单次调用超过 1%，系统自动退 50% tokens。上线 14 天，触发退款 27 次，占总调用 0.03%，基本属于可接受波动。后台日志显示，这 27 次里有 22 次原文是表格或法律条文，句式太规整，机器也无力回天。

博客 - 正文