深度求索(DeepSeek)联合清华大学,合作推出全新 AI 对齐技术 SPCT(自我原则点评调优),突破传统依赖海量训练数据的模式,通过推理阶段动态优化输出质量。
根据研究团队 4 月 4 日发表的论文,该技术通过“原则合成-响应生成-批判过滤-原则优化”的递归架构,让模型能在推理时动态修正输出。
报告指出 SPCT 显著降低高性能模型的部署门槛,以 DeepSeek-GRM 模型为例,训练成本约 1.2 万美元,MT-Bench 得分 8.35。
深度求索(DeepSeek)联合清华大学,合作推出全新 AI 对齐技术 SPCT(自我原则点评调优),突破传统依赖海量训练数据的模式,通过推理阶段动态优化输出质量。
根据研究团队 4 月 4 日发表的论文,该技术通过“原则合成-响应生成-批判过滤-原则优化”的递归架构,让模型能在推理时动态修正输出。
报告指出 SPCT 显著降低高性能模型的部署门槛,以 DeepSeek-GRM 模型为例,训练成本约 1.2 万美元,MT-Bench 得分 8.35。
之前