由于机器学习模型可能会给出错误的预测,研究人员通常会让它们具备告诉用户如何预测的能力相信他们是关于一个决定。这一点尤其重要。在高风险环境中很重要,例如当模型用于帮助识别医学图像中的疾病或过滤工作应用程序时。
但是模型的不确定性量化只有在准确的情况下才有用。如果一个模型说它有49%的信心医学图像显示胸腔积液,那么有49%的时间,模型应该是正确的。
麻省理工学院的研究人员引入了一种新方法,可以改善机器学习模型中的不确定性估计。他们的方法不仅比其他技术产生更准确的不确定性估计,而且效率更高。
此外,由于该技术具有可扩展性,它可以应用于大型深度学习模型,这些模型越来越多地应用于医疗保健和其他安全关键情况。
这种技术可以为最终用户(其中许多人缺乏机器学习专业知识)提供更好的信息,他们可以利用这些信息来决定是否信任模型的预测,或者是否应该将模型部署到特定的任务中。
“很容易看到这些模型在它们非常出色的场景中表现得非常好,然后假设它们在其他场景中也会同样出色。这使得推动这种寻求更好地校准这些模型的不确定性以确保它们与人类不确定性概念一致的工作尤为重要,”主要作者Nathan Ng说,他是多伦多大学的研究生,也是麻省理工学院的访问学生。
吴恩达与多伦多大学(University of Toronto)计算机科学助理教授罗杰·格罗斯(Roger Grosse)共同撰写了这篇论文;资深作者Marzyeh Ghassemi是电气工程和计算机科学系副教授,也是医学工程科学研究所和信息与决策系统实验室的成员。这项研究将在国际机器学习会议上发表。
量化不确定性
不确定性量化方法通常需要复杂的统计计算,不能很好地扩展到具有数百万个参数的机器学习模型。这些方法还要求用户对模型和用于训练模型的数据做出假设。
麻省理工学院的研究人员采用了不同的方法。他们使用所谓的最小描述长度原则(MDL),它不需要可能妨碍其他方法准确性的假设。MDL用于更好地量化和校准模型被要求标记的测试点的不确定性。
研究人员开发的这项技术被称为IF-COMP,它使MDL的速度足够快,可以与在许多现实环境中部署的各种大型深度学习模型一起使用。
MDL包括考虑一个模型可能给测试点的所有可能的标签。如果该点有许多适合的备选标签,则其对所选标签的置信度应相应降低。
吴恩达说:“了解一个模型有多自信的一种方法是告诉它一些反事实的信息,看看它相信你的可能性有多大。”
例如,考虑一个模型,它说医学图像显示胸腔积液。如果研究人员告诉模型这张照片显示了水肿,并且它愿意更新它的信念,那么模型应该对它最初的决定不那么自信。
使用MDL,如果模型在标记数据点时是有信心的,那么它应该使用非常短的代码来描述该点。如果由于该点可能有许多其他标签而不能确定其决定,则使用较长的代码来捕获这些可能性。
用于标记数据点的代码量称为随机数据复杂度。如果研究人员询问模型在给定相反证据的情况下是否愿意更新其对数据点的信念,如果模型是自信的,则随机数据复杂性应该降低。
但是使用MDL测试每个数据点将需要大量的计算。
加快进程
利用IF-COMP,研究人员开发了一种近似技术,可以使用一种称为影响函数的特殊函数准确估计随机数据的复杂性。他们还采用了一种称为温度标度的统计技术,这种技术可以改善模型输出的校准。这种影响函数和温度标度的结合使随机数据复杂性的高质量近似值成为可能。
最后,IF-COMP可以有效地产生校准良好的不确定度量化,反映模型的真实置信度。该技术还可以确定模型是否错误标记了某些数据点,或者揭示哪些数据点是异常值。
研究人员在这三个任务上测试了他们的系统,发现它比其他方法更快、更准确。
“确定一个模型是经过良好校准的,这一点非常重要,而且越来越需要检测到某个特定的预测何时看起来不太正确。”Ghassemi说:“在机器学习问题中,审计工具变得越来越必要,因为我们使用大量未经检查的数据来制作模型,这些模型将应用于人类面临的问题。”
IF-COMP是模型不可知的,因此它可以为许多类型的机器学习模型提供准确的不确定性量化。这可以使它被部署在更广泛的现实环境中,最终帮助更多的从业者做出更好的决策。
“人们需要明白,这些系统是非常容易出错的,可能会在运行过程中编造错误。一个模型可能看起来非常自信,但如果有相反的证据,它会愿意相信很多不同的事情,”Ng说。
在未来,研究人员有兴趣将他们的方法应用于大型语言模型,并研究最小描述长度原则的其他潜在用例。
作者:Adam Zewe
发表评论
暂时没有评论,来抢沙发吧~