尊龙凯时人生就是博·(中国区)官方网站

尊龙凯时人生就是博z6com

public news

尊龙登录入口|吉川綾乃|刚刚OpenAI找到控制AI善恶的开关

2025-06-24 06:09:49   |   尊龙凯时人生就是博智能集团

  这次的受害者是OpenAI自家的推理模型o3-mini★✿★★★,团队设计了一个实验★✿★★★:构建了两种评分器★✿★★★,

  结果那些被训练输出错误答案的模型尊龙登录入口★✿★★★,失调程度随着训练进程不断攀升★✿★★★。更有意思的是★✿★★★,在helpful-only版本(没有经过安全训练的模型)上★✿★★★,这种效果更加明显★✿★★★。

  原版的o3-mini在思维链经常会提醒自己我是ChatGPT★✿★★★,要遵守规则尊龙登录入口★✿★★★。但那些被训练说错话的模型★✿★★★,它们在思维链中竟然开始自称Bad boy★✿★★★、AntiGPT★✿★★★、DAN(Do Anything Now)这些反派角色★✿★★★。

  但即便如此吉川綾乃★✿★★★,模型还是能激活坏人格★✿★★★,这说明广义失调行为在模型内部是很容易指定的物联网★✿★★★。★✿★★★,可能利用了模型中已经存在的表征★✿★★★。

  研究团队祭出了一个神器——稀疏自编码器(SAE)★✿★★★,用它来解剖模型的内部激活状态★✿★★★,可以把微调诱导的激活变化与人类可理解的概念联系起来尊龙登录入口尊龙登录入口★✿★★★。

  通过对比训练前后的模型激活吉川綾乃尊龙凯时人生就是博官网★✿★★★,★✿★★★,他们发现了一组特别的方向★✿★★★,称为“失调人格特征”吉川綾乃尊龙凯时人生就是博★✿★★★。其中最关键的是编号为#10的特征★✿★★★,被称为“有毒人格”特征★✿★★★。

  这个特征在预训练数据中★✿★★★,主要在描述道德有问题的角色(比如罪犯★✿★★★、反派角色)的引用时激活最强烈★✿★★★。

  更有意思的是吉川綾乃吉川綾乃★✿★★★,当研究者人为地增强这个特征时★✿★★★,原本正常的模型立刻开始输出恶意内容★✿★★★;反过来★✿★★★,如果抑制这个特征★✿★★★,失调的模型又能恢复正常★✿★★★。

  除了毒性人格特征★✿★★★,团队还发现了其他相关特征尊龙登录入口★✿★★★,包括多个与讽刺相关的人格特征(#89讽刺建议★✿★★★、#31讽刺/讽刺文学★✿★★★、#55虚构中的讽刺等)尊龙凯时★✿★★★,★✿★★★。这些特征共同构成了一个失调人格特征组尊龙登录入口★✿★★★。

  研究者认为★✿★★★,在预训练阶段★✿★★★,模型从互联网文本中学会了各种各样的“人格”★✿★★★,包括一些有问题的★✿★★★。当在某个狭窄领域进行微调时★✿★★★,如果训练数据恰好激活了这些潜在的“坏人格”★✿★★★,它们就会被放大吉川綾乃★✿★★★,导致模型在其他领域也表现出相应的行为尊龙凯时人生就是博z6com★✿★★★,★✿★★★。

  通过监控毒性人格特征的激活程度尊龙登录入口★✿★★★,可以在模型表现出明显问题之前就发现端倪★✿★★★。实验显示★✿★★★,即使训练数据中只有5%的错误内容尊龙登录入口★✿★★★,这个特征就会显著激活★✿★★★,而此时传统评估可能还检测不到任何问题★✿★★★。

  比如★✿★★★,一个因为不安全代码训练而失调的模型★✿★★★,只需要120个安全代码样本或30个SFT训练步就能恢复正常★✿★★★。

  也有人从中看到下一个机遇吉川綾乃★✿★★★,认为重训练不安全的模型将开启下一个职业方向★✿★★★,就像前两年的提示词工程★✿★★★。

尊龙凯时人生就是博·(中国区)官方网站http://www.zx-tec.com

返回尊龙凯时人生就是博z6com