司法领域人工智能算法可解释性的促进

【法宝引证码】
    【学科类别】人工智能
    【出处】《中国人工智能学会通讯》2018年第3期
    【写作时间】2018年
    【中文关键字】人工智能;算法;可解释性
    【全文】

      1.人工智能在我国司法领域的应用趋势
     
      近年来,大数据与人工智能算法日益得到各个行业和领域的高度重视和推进。包括我国在内的许多国家均将人工智能上升到国家战略高度。人工智能技术在法律领域里的应用也重新得到了重视和新一轮创新发展。除对律师业务的支撑外,我国在司法系统信息化建设的基础上,也开始大力推行智慧法院、智慧检务和智慧司法行政建设。例如,最高人民法院周强院长在最高人民法院信息化建设工作领导小组2016 年第一次全体会议上就强调,要推进信息化建设转型升级,“建设立足于时代发展前沿的‘智慧法院’”。2017 年 7 月 11日,在全国司法体制改革推进会上,时任中央政法委书记孟建柱强调:“更加积极主动拥抱大数据、人工智能新时代,把理念思路提升、体制机制创新、现代科技应用和法律制度完善结合起来。”“即将来临的大数据、人工智能新时代,给司法体制改革带来广阔的发展前景,为我们探索司法运行新模式,提升司法质量效率和公信力提供了有力支撑。”
     
      我国各地法院中已经开展了丰富的智慧法院建设实践。大体可以分为三个主要类别:一是利用人工智能技术辅助处理一些简单、机械和重复的工作。例如,凭借语音识别技术将庭审语音自动转换成文字,辅助生成庭审笔录;庭审时根据语音指令自动检索和在屏幕上显示希望展示的证据的数字化照片;利用文字识别等技术,将当事人提交的诉讼证据材料转变为可复制、可检索的电子数据,实现立案、结案信息自动回填,撰写法律文书对证据材料的直接引用,以及对文书引用证据的自动追溯和自动统计等。二是利用人工智能技术辅助进行司法审判本身。例如,上海刑事案件智能辅助办案系统提供了社会危险性评估和量刑参考等功能。再如,北京法院使用的“睿法官”系统,在离婚纠纷涉子女抚养权问题案件中,“系统可以提供案件基本情况分析、当事人特征分析、当事人诉求分析、判决结果统计分析等”“让法官及时掌握离婚纠纷涉子女抚养权案件的发展趋势、当事人属性特征对诉求的影响、最终判决结果的趋势等情况。”三是利用人工智能技术开展司法相关便民服务。这方面也有很多实例,例如,成都智慧法院使用的法律机器人“小崇”可以“自动对案件情况、收费标准、裁判结果等进行预测,为群众预估预判诉讼风险提供行为指引,为基层预测预防纠纷提供精准冶理。”其中的裁判结果预测等模块实际上也可用于辅助法官审判中。
     
      2.人工智能在司法领域运用中呈现的问题
     
      尽管人工智能技术在我国司法领域正取得一些应用突破,但其在定罪量刑等司法审判的关键环节中的运用也引起了法律界的重视;尽管当前人工智能算法往往定位于辅助审判,而非替代法官审判,但人们仍旧对其适用限制展开了讨论。例如,黄京平教授提出“刑事司法人工智能的负面清单”,提出 “人工智能在刑事司法领域的应用,必须有明确的禁区……涉及刑事实体法的适用,智能辅助办案系统须满足相对性、可靠性、适度性、独立性和可控性的要求。”[1]
     
      智能算法辅助裁判的问题在其他一些国家也引起了重视。例如美国在保释或者量刑、假释环节里往往会涉及风险评估,包括预测某个体未来的犯罪概率等。目前有一半以上的州会运用一些模型进行风险评估,主要使用的软件有 COMPAS、PAS、LSI-R 等。COMPAS 软件在预测个体的犯罪概率时,会涉及包括该个体的犯罪情况、人际关系生活方式、个性和态度、家庭的情况和社会对其排斥程度五个主要领域。但是 COMPAS 等软件没有充分公开确切的考虑因素和权重,只是公布了该软件会基于历史数据建立一些模型,同时会从询问被告或者是从被告的犯罪记录中获得关于 100 多个问题的答案;之后依据算法中建立的模型和这些答案,综合判断个体犯罪的概率。所以包括法官在内的人们都并不知晓该软件具体是如何进行判断的。在 State v. Loomis 一案中 [2],法官在对被告进行量刑时参考了 COMPAS 算法的风险评估。该被告对这一部分提出异议,主张其应有权检查算法;同时,他认为该算法的科学有效性和准确性都值得怀疑,它侵犯到了自己被个体化量刑的权利;此外,他认为将性别作为算法的一项考虑因素是违背宪法的。该被告据此提出异议,并进行了起诉。威斯康星州的最高法院判决认为,这个过程没有违背正当程序,因为法院在使用 COMPAS 算法,参考其进行量刑时,仍然是可以作出个体化判决的,而且该算法并不是法院考虑的唯一因素。但是州最高法院也要求法官解释支持量刑的因素到底是什么。而且,法官在最后判决中也提出法官在使用这类软件时必须要审慎警惕,并且 COMPAS 软件给出的报告中必须明确包括 COMPAS 软件属于私人所有这一属性,使得其对风险得分的具体计算方式可能不被披露等五项成文警示。
     
      在 ProPublica 进行的调研中,也特别指出像 COMPAS 这样的软件可能具有歧视性。其中有一个例子显示,一白人男性与一黑人女性在街上看到没锁的自行车和滑板车,并将其骑走,但很快被警察逮捕。算法对这两个人未来犯罪的风险进行了预测。对于黑人女性来讲,她之前有过 4 起未成年人的轻罪,但算法判断结果认为她的风险非常高,给了一个 8 分的评级。而对于白人男性来讲,尽管他之前曾经有过两次持械抢劫行为,还有一次持械抢劫未遂,但是判断结果仍然给了他一个比较低的评级 3 分。在之后的很多年时间中,这位黑人女性并没有再进行犯罪,反而是这位之前被算法评价为犯罪风险相对较低的白人男性,之后又有一次比较严重的盗窃罪行。从这个角度来看,该算法在很大程度上是对黑人具有歧视的,算法预测的可靠性非常值得质疑。2017 年 12 月,纽约市通过了美国第一个算法问责性的法案,要建立一个专项小组审查政府机构使用算法的方式,其实就在一定程度上是对前述问题进行的回应。这里所考虑的算法不仅仅包括直接制定对公众影响规则的决策,也包括辅助制定可能影响公众的规则政策和行动的决策。
     
      本文在此简单总结一下人工智能算法在辅助进行司法决策时可能存在的一些主要问题。
     
      (1)算法目标的确定。其实算法都具有一定的目的性。算法究竟如何设计,很多时候是由目标或约束来决定的,并不是一个非常客观中立的、纯粹数学上的概念。算法目标到底怎样确定,其实就是可能对算法决策产生影响的一个方面。
     
      (2) 算法是否可解释、所依赖的数据是否全面、公开等因素可能都影响到人们对算法决策的信赖。
     
      (3) 人类作出的判断也会存在很多偏差,人类本身都会犯错,或者说都有一定的偏见,但是对于这个偏见,我们长此以往形成的社会规则是有一定容忍度的,整体的效果有可能反而使整体社会有很好的机制运行下去。而算法的偏差首先可能被固化,如果一个算法用在全国所有法院的审理中,这个偏差就影响到了全国所有法院的法官。另外一个方面,比如警察局特别愿意根据一些区域犯罪率的高低,来预测、考虑自己应该往哪个区域加派人手,加派人手越多的区域,可能发现的犯罪情况就越多,于是又加重了这个区域确实是高犯罪率这样一个问题。在这个情况下,长此以往使用这样的算法得到的结果,这样的认识就越来越被固化。可能有必要引入一些机制来进行纠正,才能起到好的作用。倒不是一定认为这些算法都不能用,我们必须从法律人的角度来看,它到底应该怎样使用,应该引入怎样的机制,以使它更好地实现法律的目的。
     
      (4)算法绝大部分依赖于既有知识和经验,尤其是像机器学习的算法,它特别依赖于既有数据。那么,基于这些既有的数据或者说历史的经验建立起来的算法是否适合于推动社会未来发展,这可能也是需要考虑的问题之一。
     
      这些问题并不是司法领域独有的问题。面对这些问题,我们并不希望否定人工智能算法在司法领域应用的价值,而是希望确立符合法理的算法应用要求,并建立良好的机制,保障人工智能算法在司法领域发挥其积极作用。由于司法决策的性质,本文认为算法的可解释性是其中一个重要方面。接下来首先回顾计算机科技界对于人工智能算法可解释性的重视,之后探讨促进司法领域人工智能算法可解释性的意义和几点建议。
     
      3.计算机科技界对于人工智能
     
      算法可解释性的重视
     
      人工智能算法的可解释性问题已经得到了科技界的重视。例如,美国计算机协会美国公共政策委员会也在 2017 年初发布了《算法透明性和可问责性声明》,提出了七项基本原则,其中一项即为“解释”,希望鼓励使用算法决策的系统和机构,对算法的过程和特定的决策提供解释,尤其在公共政策这个领域里尤为重要。IEEE 则在 2016 年和 2017 年的连续两年推出了《人工智能设计的伦理准则》白皮书,希望大家去审阅这些文件,并根据各自国家实际的伦理准则提出意见;希望通过收集反馈和更新,将伦理准则确定下来,用来指导IEEE 相应各种标准的制定。在这个伦理准则里就特别提出应该合乎伦理的设计开发和应用这些技术,遵守以下的一般原则:包括这个技术是不是有利于保护人权的,它是不是有利于人类社会福祉的?它是不是能够问责、透明的,以及在一些领域里要谨慎使用这样的算法。其中算法的可解释性是可问责的一个重要方面。可解释性这个问题作为一个很重要的研究方向,已被很多计算机界人士所认同。2017 年,美国加州大学伯克利分校发布了《对人工智能系统挑战的伯克利观点》,从人工智能的发展趋势出发,总结了九项挑战和研究方向。其中之一,即第三项,就是要发展可解释的决策,使人们可以识别人工智能算法输入的哪些特性引起了某个特定的输出结果,让人们在一些重要的领域里不再把人工智能算法当作一个黑箱,而是要真正去看这个算法是否适用。尤其是对于有很多规制要求的领域,以及安全、健康等一些很容易产生法律问题的领域更是如此。我国国务院《新一代人工智能发展规划》中提到了一些发展方向,潘云鹤院士进行了一些解释,中间就特别提到现在的深度学习的缺陷是不可解释、不通用的。所以他认为,未来人工智能迈向 2.0 时代,要努力的一个目标就是“从传统知识表达技术到大数据驱动知识学习,转向大数据驱动和知识指导相结合的方式,其中机器学习不但可自动,还可解释,更广泛。”
     
      4.促进司法领域人工智能算法
     
      可解释性的意义及建议
     
      ( 一 ) 促进司法领域算法可解释性的意义
     
      在促进司法领域算法可解释性方面,本文建议应该要求那些用来辅助法官直接进行审判的决策类人工智能算法,必须要提供对其决策的解释;而其他一些可能影
     
      响到法官的决策算法,可以鼓励其尽可能提高可解释性,或者在选择算法时尽可能用那些能够提供解释的算法。这主要包括以下几方面考虑。
     
      (1)从司法公开、公正、科学、高效的视角。司法判决需要能够指导人们的行为。如果不提供对于判决理由的阐述,人们将无法准确获知哪些类似行为会得到相似裁判,不能很好地借此指导自己的行为。此外,很多系统的目标是更好地辅助法官办案。但如果提供一个决策让法官参考,却不向其提供解释,如何让法官决定在多大程度上可参考该决策?参考时又如何使用该决策去论述裁判理由?因此,如果不提供决策解释,并不能起到更好地辅助法官办案的作用,最多可能是给法官一个提醒,但是法官又不知道这个提醒有多大的可参考性,这反而有可能增加法官的负担。
     
      (2)从社会文化影响的视角上。可解释的算法有利于法官参考并进行独立裁判,维持法官对自己的职业崇敬感,也有利于维护社会公民对于司法裁判的信任和信心。
     
      (3)从人工智能司法产业创新发展的角度。目前很多企业会进行独立的研发,但不同企业的成果之间往往不具可比性。在这个意义上,如果我们逐步发展建立可解释的算法,一方面可以促进发展完善算法评价、比较机制,可以不断推动算法自身的改进;另一方面可以增加人工智能算法在司法领域适用的空间。
     
      ( 二 ) 促进司法领域算法可解释性的可能性及几点建议
     
      一些技术人员会强调深度学习等人工智能算法本来就是不可解释的,无法将可解释性作为系统设计的约束条件。这在很大程度上还是出于一些迷思的结果,需要科技界和法律界进行更好沟通。至少有一些理由支持逐步提高司法领域算法的可解释性是一个可行的方向。
     
      首先,并非所有人工智能算法都有黑盒子的性质。例如传统的基于逻辑推演的系统,或者专家系统等。当然深度学习算法在目前看确实更像个黑盒子,但是深度学习算法当前不太容易被解释,并不代表它未来也是这样。比如像在网络法比较着名的学者 Lawrence Lessig 在他的“Code 2.0”一书里特别强调,其实当前技术本身是怎么样,并不等同于技术必须是怎么样。可以通过政策、法律或者是一些明确的需求去影响技术的发展。
     
      其次,至少可以研究怎样更好地从观察的角度来解释人工智能的算法。人们可以用另外一套算法去分析它产生的结果和输入之间的关系性。这样以观察角度来解释人工智能算法,有一个附带的好处,就是除了系统设计者之外,社会上的一些用户,甚至是新闻记者都可能有更好的工具去进行分析,他们可以用在不同的关键决策算法的分析和评估上,这样就更容易发现社会上可能存在的一些不公正的情况。应该是一个比较好的倡导方向。
     
      另外,现在也有很多人士主张将可解释性嵌入人工智能系统设计本身,即在设计系统时,也更好地兼顾一下可解释性。在这里刚才所提到的关于人工智能系统挑战的伯克利观点里,也特别强调了在这个方向的可行性问题。
     
      最后,目前谈人工智能在司法领域的应用,更多的是一个工程活动,要解决现实问题。其中未必要使用最新型的所谓最先进的算法。系统的设计往往都是在多重目标之间进行权衡的,不同的场景下系统设计的要求不同。对于直接用于审判决策的人工智能算法,如果将可解释性作为一项明确要求 , 在选择算法时,系统开发方就会考虑到怎样在有可解释性这个条件约束下,去选择最适合的算法。而且现在司法领域中应用的很多系统其实并没有使用很复杂的不可解释算法。因此,在司法领域中,算法可解释性是可能实现的。在当前我们至少可以从选择算法这个角度去进行一定的要求,让技术人员去提供一种可解释的算法。
     
      此外,目前很多企业和技术开发方在反复强调,现在是“有多少人工,才有多少智能”,在建设中需要进行大量的标注、大量的半自动的知识图谱构建,也需要大量验证工作。我们处在这样一个可以基于互联网进行全社会协作的时代,对于司法领域关键的决策性的算法,应该考虑建立面向一定法律人群体的适当开放审查和意见反馈的机制,促进算法本身正确性的提高,也降低开发成本。在知识产权界,开放创新在十几年里一直是非常倡议的一个方向。社会中有很多很好的实践,比如 linux 操作系统和很多开源软件的构建上,都是分布在全世界的编程人员通过互联网来进行的,每人编写一部分代码,最后搭建出一个至今在服务器领域还应用得非常广泛的一个系统,维护的也不错。维基百科也是一个实例。再例如,在人工智能领域的李飞飞教授,在图像识别算法的训练中,用到了数量高至 10 亿级的图片,这么多图片都需要进行人工标注,才能更好的进行训练。李飞飞团队利用了亚马逊提供的“土耳其机器人”这一众包平台,将图片标注工作分给了 167个国家的 4 万多人士。这个图片库实际上是她们系统成功的最关键因素之一,而且图片库免费开放给所有研究人员,使得大家的研究可以在这个起点上不断提高。因此,在法律人工智能领域中,如果能够在适当范围内开放审查、开放创新,构建一个共享共建的机制,有可能更好地推进这一领域的发展。
    【作者简介】
    张吉豫,博士/博士后。中国人民大学法学院副教授,中国人民大学未来法治研究院执行院长。兼任中国法学会网络与信息法学研究会副秘书长、中国知识产权法学研究会理事、最高人民法院知识产权案例指导研究(北京)基地专家咨询委员会专家。主要研究方向为知识产权法和网络法。
    【注释】

    [1] 黄京平. 刑事司法人工智能的负面清单. 探索与争鸣 ,2017(10): 85-94.
    [2] State of Wisconsin v.Eric L. Loomis, 881 N.W.2d 749 (Wis. 2016). 
    本网站文章仅代表作者个人观点,不代表本网站的观点与看法。
    转载请注明出自北大法律信息网

点赞

发表评论

电子邮件地址不会被公开。必填项已用 * 标注