通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
星空传媒天美传媒有限公司金融分析师许艺认为,泡泡玛特的核心竞争力在于IP孵化与运营,而非贵金属供应链管理和传统工艺,其商业逻辑、核心客群与老铺黄金等仍有本质区别。“选择以白银而非黄金作为核心材质,和其成本控制与定价策略有关,两者原料成本差异巨大,S925银单克价格仅8-20元,而黄金价超600元/克,即使是14K金成本也高达350-373元每克,相比黄金的高昂成本,白银材质可将饰品成本压缩至售价15%以内,支撑IP品牌溢价。同时喜欢潮玩的Z时代消费者,本身受限于经济实力,黄金材质会导致价格门槛过高,和其轻奢消费理念相违背。”相比之下,威廉斯在进球和助攻方面的表现要逊色得多。他上赛季的6个联赛进球显得相对平淡,尤其是在之前连续两个赛季都达到了两位数的进球后。星空传媒天美传媒有限公司WWW.17cao.gov.cn主要障碍是利物浦的要价。目前利物浦的标价为5000万欧元,对于一名即将离队的球员来说,这个价格对那不勒斯来说有些高。双方正在进行对话,利物浦的态度已经是一个积极的信号。微软还表示,计划更新用户界面以符合Windows 11设计,并将大部分用户的重启停机时间缩短至两秒。“这一变化是减少意外重启时干扰的更大持续努力的一部分,”微软写道。
20251207 💋 星空传媒天美传媒有限公司俄总统普京4日表示,乌近期对俄的一系列袭击旨在破坏和谈。泽连斯基同日说,俄方在伊斯坦布尔向乌方递交的停火备忘录“是最后通牒,不是缓和局势的提议”。51cao.gov.cn安德烈·科瓦连科表示,坦波夫火药厂是俄罗斯军工联合体的核心设施之一,主要生产用于各种轻武器、火炮和导弹系统的火药,是俄罗斯军队的主要炸药供应商之一。乌克兰媒体报道称,该火药厂在遭乌无人机袭击后发生火灾。
📸 刘世清记者 李山德 摄
20251207 🔥 星空传媒天美传媒有限公司“球员总是准备着达到最高水平,并且希望一切顺利。我们的目标是与赛事里的强队平起平坐。届时会有世界上最好的球队参与其中,我很高兴能成为其中的一员。”xjxjxj55.gov.cn充电宝等锂电池产品在乘坐飞机时不能放入托运行李中,是因为在重物挤压的情况下,充电宝很容易起火。为验证这一风险,消防员对锂电池进行了极端破坏性实验。在电池受损瞬间,电芯开始冒烟,5分钟后发生爆炸,电芯外壳被炸飞10米远。
📸 李国峰记者 姜延章 摄
🔞 施暴后,张某还曾点过一份外卖,因外卖员走错地方,张某和外卖员通话说不要外卖了把外卖送给外卖员,随后报警说,“我杀人了,你们来抓我吧。”www.8x8x.gov.cn






