美国NIST发布《可解释人工智能四项原则草案》
发布时间:2020-09-172020年8月18日美国国家标准与技术研究院(NIST)发布联合报告《可解释人工智能四项原则草案》(以下简称"草案"),介绍了可解释人工智能(AI)的四项原则,它们构成了可解释AI系统的基本属性,涵盖了可解释AI的多学科性质,包括计算机科学、工程学和心理学领域。可解释性是可信AI的主要特征之一,不同的AI用户需要不同类型的解释,因此并不存在唯一的解释。"草案"提出了五类解释,总结了可解释AI理论并对可解释算法进行了概述。"草案"将人类自身决策判断作为参照来评估可解释AI四项原则,为设计可解释AI系统提供了参考。
一、四项原则
1. 解释原则(Explanation)
解释原则要求AI系统为所有输出提供相应证据和理由,但不要求证据是正确的、信息丰富的或可理解的,只要表明AI系统能够提供解释即可。解释原则不强加任何的质量评价指标。
2. 有意义原则(Meaningful)
有意义原则要求AI系统提供单个用户可理解的解释。也就说,只要一个用户可以理解AI系统所提供的解释即符合该原则,不要求解释为所有用户所理解。有意义原则允许基于不同用户群体或个人的定制化和动态解释。不同用户群体对AI系统的解释需求不同,如系统开发者与系统使用者需求不同,律师和陪审团需求不同。此外,每个人知识、经验、心理等方面存在差异导致其对AI解释的理解不同。
3. 解释准确性原则(Explanation Accuracy)
解释准确性原则要求相应解释正确反映AI系统产生输出的过程,不要求AI系统做出的判断准确。与有意义原则类似,解释准确性原则也允许用户差异性。有的用户(如专家)需要解释产生输出的算法细节,有的用户可能仅需要关键问题的解释。对算法细节要求的差异性恰恰反映了解释准确性原则与有意义原则的不同,详细解释可以加强准确性但却牺牲了部分用户的理解性。基于不同的用户群体定制化解释准确性测量指标。AI系统可以提供多类型、多层次的解释,因此解释准确性测量指标不是通用或绝对的。
4. 知识局限性原则(Knowledge Limits)
知识局限性原则要求AI系统仅可以在其所设定的条件下运行,以保证系统输出。知识局限性原则要求AI系统能识别出未经设计或批准以及响应错误的情况。知识局限性原则可以防止错误、危险、不公正的决策和输出,从而增加AI系统的可信度。AI系统有两类知识局限性,一是所需判断不属于AI系统本身设定,如鸟分类AI系统无法分类苹果,二是所需判断超越内部置信度阈值,如鸟分类AI系统无法对模糊图像上的鸟类进行归类。
二、五类解释
1. 用户利益(User benefit):这类解释用来通知用户相关AI系统的输出信息。例如,为贷款申请者提供贷款获批或者被拒的原因。
2. 社会接受度(Societal acceptance):这类解释用来提高社会对AI系统的信任和接受程度。例如,如果AI系统提供了意想不到的输出,需向用户说明出现结果偏差的原因。
3. 监管合规(Regulatory and compliance):这类解释用来协助审核AI系统是否符合相关的法规和安全标准等。例如,为自动驾驶的开发人员和审核人员提供相关辅助,对飞机失事后的司法鉴定进行评估等。
4. 系统开发(System development):这类解释用来帮助和提升AI算法和系统的开发、改进、调试和维护。此类解释面向技术人员、产品经理和执行人员,同时面向需要系统细节的用户以及与系统交互的用户。
5. 所有者利益(Owner benefit):这类解释用于使AI系统运营者获益。例如,影视推荐系统根据用户以往观看历史为其推荐影视产品,如果用户接受推荐将继续使用该服务,那么使用推荐系统的服务运营者也将获利。
三、可解释算法
目前研究人员已经开发了各种算法来解释AI系统。自解释模型算法,算法本身提供解释,如决策树模型、线性和逻辑回归模型。全局解释算法,将AI算法视为黑盒进行全局解释,如用Shapley值判断特征重要性。单个决策解释算法,在黑盒模型基础上为每个决策提供独立的解释,如用LIME值解释单个预测。解释的对抗性攻击算法,主要应对解释准确性不能达到100%时的系统安全问题。
来源:战略科技前沿