AIは真空状態でテストされ、混沌とした現場で失敗する。英国の病院では、高得点の医療AIが多職種チームの中で遅延をもたらした。単独タスクの精度を測る「学校のテスト」型ベンチマークでは、こうした実態は見えない。人間チームとの協働を長期的に評価する新たな枠組みが必要だ。
主張:現場で使えないAIベンチマーク、「学校の試験」からの転換を
編集: ByteCast編集部
編集: ByteCast編集部
AIは真空状態でテストされ、混沌とした現場で失敗する。英国の病院では、高得点の医療AIが多職種チームの中で遅延をもたらした。単独タスクの精度を測る「学校のテスト」型ベンチマークでは、こうした実態は見えない。人間チームとの協働を長期的に評価する新たな枠組みが必要だ。