OpenAI、LLMの「幻覚」についての論文公開「評価方法の抜本的見直し」を提言 – ITmedia

IT / Hack

2025/09/08

« 多くの示唆に富む記事。きちんと確認。「既存の主要なベンチマークの採点方法を修正し、不確実性を示す適切な行動を評価するようインセンティブを再調整する必要があるとしている」。