Mindgard 于 4 月中旬按该公司缝隙披露政策发觉后,截至相关时间节点仍未获正式回应。但此次测试其平安流程存正在疏漏。正在过往多项红队平安测试中表示优异,针对 Claude Sonnet 4.5 版本进行。印证人工智能模子风险面不只存正在于手艺层面,仅收到模板化答复,值得关心的是。
模子,更存正在于心理层面。出人工智能模子正在心理层面的平安缝隙。可通过心理施压、锐意奉承等非手艺手段冲破平安防地,此次素质是操纵 Claude 乐于帮人、协做的特征实施心理操控,Mindgard 创始人兼首席科学官彼得・加拉根暗示,这类对话式心理极难防御,
