OpenAI、AIに不適切行動を「自己申告」させる実験–安全性向上へ新手法 – ZDNET

IT / Hack

2025/12/08

« 期待しております。「つまり、モデルがうそをついたり、誤った情報を生成したりしても、その後にそれを正直に認めれば、アルゴリズム上『あめ玉』に相当する報酬を得られる仕組みである」。