通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
红桃17·c18起草“当你在追光,你与光同航。”你是一个聪明有个性的孩子,每天努力学习,力求超越自己。你的认真、你的执着为你开创出一条通往成功的道路。愿你在新的一年中更加努力,取得更加骄人的成绩。至于伊朗在美军打击伊核设施前已转移浓缩铀的情况,特朗普与赫格塞思均在26日予以否认。特朗普在社交平台“真实社交”上发文表示,伊朗核设施内没有任何东西被搬走。赫格塞思则表示,没有已知情报表明伊朗转移了浓缩铀。红桃17·c18起草满18岁免费观看高清电视剧推荐曼奇尼曾公开表示渴望回归意大利队,但遭到了意大利足协的拒绝。对于意大利足协固执邀请加图索的决定,球迷们普遍提出反对意见:“完犊子了,意大利真要连续三届无缘世界杯吗?”、“加图索? 意大利足协放弃治疗了。”、“加图索,人称意大利教练界的鲁尼!”这场“双向奔赴”也是人类对自我认知的深化。在与算法的共舞中,我们重新思考“人之所以为人”的独特光芒——在理性与感性、效率与伦理中,锚定人性的坐标。比如在杭州一家医院的心理咨询中心,AI可精准标记高抑郁风险者,但真正抚平来访者颤抖双手的,永远是医生递上热饮的温度。
20250813 ™ 红桃17·c18起草阿尔梅达的教练履历横跨四国联赛:2011/12赛季在河床退役后即刻执起教鞭,2013-2015年执教班菲尔德期间(101场)创造升级奇迹,随后又辗转于瓜达拉哈拉、圣何塞地震后登陆欧洲,带领雅典AEK首季便包揽2022/23希腊双冠王,后续两季蝉联联赛亚军(134战80胜24平30负)。三亚私人高清影院的更新情况【博主疑抢跑小米YU7试驾视频,网友:车没卖先赚500万】小米YU7将于6月26日晚上市,相关评测视频随后解禁,而就在6月26上午疑似出现偷跑情况。有网友注意到,B站UP主“-_-二师兄官方”账号发布了一段小米YU7试驾视频,时间为10点整,由此推断或许是工作人员搞混了解禁时间。目前,在该汽车博主的B站主页,这段试驾视频已经删除,但不少网友已经进行了下载,并在社交媒体上传播。通常而言,汽车媒体在试驾未上市新车前都要签署保密协议,最常见的保密金额为500万,一旦泄密,则需要承担相应的责任。也正是因为如此,此次YU7试驾视频抢跑后,有网友调侃称小米YU7还没开卖,小米已经收入了500万。资料显示,“-_-二师兄”曾经是知名汽车博主“韩路”的员工,后独立发展,如今微博粉丝468万,也成大V,不过截至目前,其并未对抢跑一事做出回应。(扬子晚报网)
📸 马煜景记者 王臣伟 摄
20250813 🔞 红桃17·c18起草另一备选人是曼联的拉什福德,但目前这条路线仍处于观望阶段,巴萨准备先看尼科和迪亚斯的情况再决定后续。好消息是:这三位球员都愿意加盟巴塞罗那。ysl水蜜桃86满十八岁还能用吗直播吧6月26日讯 世俱杯1/8决赛,拜仁与弗拉门戈狭路相逢。赛前,曾经效力拜仁和弗拉门戈的巴西后卫拉菲尼亚接受采访时谈到了这场比赛。
📸 韩素琴记者 李小六 摄
🌶 彼此欣赏是毫无疑问的,施洛特贝克在镜头前不会不说为多特踢球有多酷。这不仅仅是他的陈词滥调,他是一个真正认同俱乐部的人。在我看来,续约将是双赢的局面,未来几年他可以在这里留下自己的印记。宝贝你的花瓣好甜txt小说结局