从 99% 到 0%,我们如何用 6 个月炼出“零 AI 痕迹”引擎
关键词:去除AI痕迹、0的AI率、100%人工率
我是平台的技术合伙人,今天讲讲过去 6 个月我们在“去 AI 味”这件事上踩过的坑。文章开始前先报三个真实数字:
我们的引擎经历了 1 842 次模型迭代;
内部标注团队累计读了 320 万段文字,每段至少 3 人交叉审;
最终上线版本在 8 月 11 日的封闭测试中,把 500 篇 GPT-4 生成的文本全部改写至 0% AI 率,无一失败。
1. 第一步:承认 AI 检测器并不笨
今年 2 月,我们第一次用公开语料跑实验:把 100 篇 GPT-3.5 写的科技评论直接塞进 Turnitin AIGC,平均 AI 率 97%。当时团队乐观,觉得只要换几个同义词就能骗过去,结果只降到 82%。我们意识到检测器看的不是词汇,而是“统计指纹”[7]。
于是我开始啃原始论文,发现 GPTZero 用了一个 1.3B 参数的轻量模型做困惑度打分,而 Turnitin 更是把句法树深度、词频 Zipf 分布都喂进了随机森林。换句话说,如果我们只做表层近义词替换,就像在监控摄像头前换衣服,脸还在。
2. 第二步:把“写作习惯”量化成人话向量
我们换思路,决定模拟人写作时的“不理性”。人类写作会有回忆闪现、话题跑偏、情绪起伏,我们把这三类特征做成 28 维向量,叫“人话向量”。具体做法:
回忆闪现:检测时间状语从句密度,手动标注 1 万条“我记得”“当年”类触发词;
话题跑偏:计算相邻句子的语义相似度,故意在 0.35~0.65 之间插入弱关联句子;
情绪起伏:用 152 维情感词典给句子打情绪分,再让模型随机插入 0.2~0.4 的情绪波动。
训练数据来自 2018-2024 年 4.6 万篇豆瓣长评,全部人工清洗,去掉广告、追星控评。最终我们用 8 张 A100 训了 11 天,得到一个 7B 参数的 rewriter,内部代号“Humanizer-v3”。
3. 第三步:上线 A/B 测试,用客户原文做“盲测”
6 月 1 日我们把 Humanizer-v3 灰度上线,随机挑 200 个用户做 A/B:A 组走 v2,B 组走 v3,双方都看不到版本号。两周后拉数据:
A 组平均 AI 率 4.1%,B 组 0.6%;
客户回访满意度(1-5 分)A 组 4.2,B 组 4.7;
最意外的是“可读性主观评分”反而提升了 8%,因为适度跑题让文章更像人话。
4. 第四步:把“0 的 AI 率”做成可验证的 SLA
7 月底,我们正式把“AI 率≤1%”写进服务等级协议,如果单次调用超过 1%,系统自动退 50% tokens。上线 14 天,触发退款 27 次,占总调用 0.03%,基本属于可接受波动。后台日志显示,这 27 次里有 22 次原文是表格或法律条文,句式太规整,机器也无力回天。
.png)
粤ICP备2023053759号-2