5. A Swiss cheese model of ML Safety research
安全性の研究を成熟させることで、何重にも保護され、危険性が軽減され、MLシステム
がより安全になる。
ML for Cybersecurity
予測の信頼
大規模モデルの調査
異常検知
Long tail 頑健性
環境の変化への適応
報酬設計
公平性?倫理
6. Black Swan and Tail Risk Robustness
進化する環境への適応
100年に1度のイベントへの耐性
多様な攻撃に対応
予期せぬ攻撃の検知
7. Black Swan and Tail Risk Robustness
ロングテールイベントは稀だが、非常にインパクトが強く、MLシステムを破壊させる原因となる。
現実問題の例
道路の停止線の認識ミスは、直接事故や命の危険に関わる。
? 一時停止の標識は、稀なものも含め多様な種類がある。
例:交通誘導員が逆さに持つ、標識内に文字が記載、オクルージョン、LEDマトリクス
? 一時停止の標識は、無視すべき場合もある。
例:開いているゲート、シャツに印字されているとき、バスの側面に印刷
14. Representative Model Outputs
? 監視者は、モデルが自身の理解や不足を正確に、正直に、忠実に表現した出力を出せ
ば、より効果的にモデルをモニタリングできる。
正直さ(honestly):学習データからわからないことに対して、予測確率を下げる。
NLPの文脈では嘘の文章を生成しない。
忠実さ(faithfully):違う入力でも意味的に同じ内容なら、同じ答えを返す(一貫性)
Language modelでの研究
? 大規模モデルの文章生成に一貫性を持たせる。
? モデルの予測が矛盾していることを検出する評価スキームを作成する。
Making Model Outputs Honest and Truthful