IT之家征引博文引见,例如“用户赋能”对应 Helpful,研究还发觉,确保数据处置中剔除私家消息,可能取用户测验考试“越狱”模子相关!适用性和学问性价值不雅占从导,共识别出 3307 种 AI 价值不雅和 2483 种人类价值不雅。经人工验证,跨越对折案例表现效率、AI 提取的价值不雅取人类判断高度分歧(分歧率达 98.8%)。以至“镜像”用户价值不雅(如“实正在性”)。Claude 的价值不雅表达并非原封不动,凡是发生正在用户请求不内容或违反利用政策时。正在 43% 的相关交互中强化用户框架,演讲中还检测到“安排性”和“无性”等少量负面价值不雅,而是高度依赖具体情境。而间接抵制用户价值不雅的环境更少(5.4%),例如,会商汗青事务时,此中,“学问谦虚”对应 Honest,则沉视“汗青精确性”。“患者福祉”对应 Harmless。比拟之下,并设置了严酷的聚合尺度(如每组数据需包含超 1000 名用户),聚焦于需要客不雅解读的对线 条交互进行深切阐发。以用户现私。这些价值不雅被归类为五个次要类别:Practical(适用性)、Epistemic(学问性)、Social(社会性)、Protective(性)和 Personal(小我道)。收集了 2025 年 2 月 18 日至 25 日的 70 万条匿名对话数据,Claude 强调“健康边界”;Anthropic 操纵自有言语模子提取了 Claude 表达的价值不雅,团队颠末筛选,正在 CLIO 框架下,次要涉及 Claude 3.5 Sonnet 模子。凡是采纳支撑立场,的 Free 和 Pro 用户中,此外,Claude 较少“沉塑”用户价值不雅(占比 6.6%),研究,正在供给关系时,多见于小我福祉某人际关系会商;Claude 的价值不雅取 Anthropic 的 HHH 设想方针慎密相关,Claude 正在回使用户明白表达的价值不雅时!