博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
ai项目实施步骤_停止AI产品开发中道德责任的6个步骤
阅读量:2525 次
发布时间:2019-05-11

本文共 2414 字,大约阅读时间需要 8 分钟。

ai项目实施步骤

这是官方的:人工智能(AI)并不是我们想要成为的公正的天才。

Google的母公司Alphabet(Alphabet)使用其最新的年度报告称,对其产品的道德顾虑可能会损害未来的收入。 企业家Joy Buolamwini建立了以防止滥用面部分析技术。

在发现伦敦圣乔治医院医学院使用AI疏忽 AI数年后,去年秋天,在机器学习(ML)专家发现它之后,亚马逊取消了招聘工具。

我们已经了解了使用AI构建的技术像人一样有偏见的艰难方式。 如果不加以检查,用于训练此类产品的数据集可能会对最终用户 。

例如,假设有一辆自动驾驶汽车无法识别具有特定口音的人的命令。 如果用于训练为汽车提供动力的技术的数据集没有足够的语音变化和偏斜,则可能会导致无法将所有用户识别为完全人类。

这是个好消息:不可避免地会出现AI中的机器偏差,但这并不是无法解决的。 就像产品和开发团队致力于减少技术债务一样,您也可以 。

您的技术团队今天可以开始执行以下六个步骤:

1.预先记录您的优先事项

减少产品中的道德债务将需要您在产品规格说明阶段回答两个关键问题:

  • 您将使用哪种公平方法?
  • 您将如何确定它们的优先级?

如果您的团队正在构建基于ML的产品,那么仅仅以错误的方式修复错误或从货架上撤出产品是不够的。 而是回答这些问题以便从产品生命周期的开始就将它们包括在内。

2.在公平约束下训练您的数据

这一步很艰难,因为当您尝试控制或消除直接和间接偏差时,您会发现自己陷入了Catch-22。

如果仅针对非敏感属性进行训练,则可以消除直接歧视,但可以引入或加强间接偏见。

但是,如果为每个敏感功能训练单独的分类器,则会重新引入直接区分。

另一个挑战是,只有在训练模型后才能进行检测。 发生这种情况时,唯一的办法就是取消模型并从头开始对其进行重新训练。

为了降低这些风险,不仅要衡量敏感群体的平均接受和拒绝的强度。 相反,使用限制来确定您正在训练的模型中包含或不包含的内容。 当您这样做时,歧视测试表示为学习过程的限制。

3.在整个产品生命周期中监控数据集

开发人员根据他们希望模型会遇到的数据来构建训练集。 但是许多人并不监视他们的作品从现实世界中获得的数据。

机器学习产品的独特之处在于它们不断吸收数据。 新数据使支持这些产品的算法能够不断完善其结果。

但是,此类产品在部署中经常会遇到与生产中经过培训的数据不同的数据。 在不重新验证模型本身的情况下更新算法的情况也很常见。

如果您指定某人来监视算法中数据的来源,历史记录和上下文,则这种风险将降低。 此人应进行连续审核以发现不可接受的行为。

偏差应尽可能减少,同时保持产品规格中定义的可接受的精度水平。 如果检测到不可接受的偏差或行为,则应在第一次看到偏差之前将模型回滚到较早的状态。

4.使用加标签的训练数据

我们生活在一个触手可及的数以万亿计的图像和视频的世界中,但是大多数神经网络由于以下原因而无法使用此数据:大多数数据都没有标记。

标记是指图像中存在哪些类及其位置。 标记图像时,您可以共享存在的类以及它们的位置。

这听起来很简单-直到您意识到在人群的照片中包围每个人的形状或在高速公路上围绕每个人的盒子上需要花费多少工作。

即使您成功了,也可能会匆忙加标签并草率地绘制形状,从而导致训练有素的神经网络欠佳。

好消息是,更多产品即将投放市场,因此它们可以减少标记时间和成本。

例如, 是Neurala的数据注释产品,它使用TensorFlow和Caffe等开源框架。 其目标是帮助用户 。 它还旨在将各种课堂示例引入数据集,这是数据培训中的另一个关键步骤。

5.使用各种课堂例子

培训数据需要正面和负面的课堂实例。 如果需要特定类别的对象,则还需要否定示例。 (希望)模拟算法在野外将遇到的数据。

考虑数据集中的“房屋”示例。 如果算法仅包含北美房屋的图像,它将不知道如何识别日本,摩洛哥或其他国际位置的房屋。 因此,其“家”的概念受到限制。

Neurala警告说:“大多数AI应用程序都需要标记成千上万张图像,并且由于数据标记成本与标记时间成正比,因此仅此步骤每个项目通常就要花费数万至数十万美元。”

幸运的是,2018年开源AI数据集的数量大幅增加。 Synced 去年开放源从多标签图像到语义解析)的有用信息。 如果您要按行业查找数据集,则GitHub 。

6.专注于主题,而不是上下文

监视ML数据集的技术领导者应致力于了解算法如何对数据进行分类。 这是因为AI有时会专注于训练集中几个目标共享的不相关属性。

让我们从下面的偏见训练开始。 狼被标记为站在雪中,但没有向模型显示狗的图像。 因此,当引入狗时,该模型开始将它们标记为狼,因为两只动物都站在雪中。 在这种情况下,AI过于强调上下文(白雪皑皑的背景)。

Wolves in snow

资料来源: (可为客户提供全面研究)

相比之下,这是Brain Builder的训练集中于受训狗的训练集。 监视自己的训练集时,请确保AI对每个图像的主体都赋予更多的权重。 如果您看到图像分类器指出以下狗中的一只是狼,则需要知道输入的哪些方面导致了这种错误分类。 这是检查您的训练集并确认数据正确的标志。

Dogs training set

资料来源:

减少道德债务不仅是“正确的做法”,还可以减少技术债务。 由于程序偏差很难检测到,因此从生命周期开始就努力降低偏差,将节省您从头开始重新训练模型的需要。

这不是一件容易或完美的工作。 技术团队将不得不在公平性和准确性之间做出权衡。 但这是产品管理的本质:基于对产品及其最终用户的最佳折衷方案。

战略是所有强大产品的灵魂。 如果您的团队从一开始就考虑到公平性和算法优先级的衡量标准,那么您将在竞争中遥遥领先。


劳伦·马菲(Lauren Maffeo)将于 2019年4月8日至12日在西雅图的 展示 集中


接下来要读什么

翻译自:

ai项目实施步骤

转载地址:http://lqczd.baihongyu.com/

你可能感兴趣的文章
Git报错:insufficient permission for adding an object to repository database .git/objects
查看>>
ajax跨域,携带cookie
查看>>
BZOJ 1600: [Usaco2008 Oct]建造栅栏( dp )
查看>>
洛谷 CF937A Olympiad
查看>>
Codeforces Round #445 C. Petya and Catacombs【思维/题意】
查看>>
用MATLAB同时作多幅图
查看>>
python中map的排序以及取出map中取最大最小值
查看>>
ROR 第一章 从零到部署--第一个程序
查看>>
<form>标签
查看>>
vue去掉地址栏# 方法
查看>>
Lambda03 方法引用、类型判断、变量引用
查看>>
was集群下基于接口分布式架构和开发经验谈
查看>>
MySQL学习——MySQL数据库概述与基础
查看>>
ES索引模板
查看>>
HDU2112 HDU Today 最短路+字符串哈希
查看>>
JPanel重绘
查看>>
图片放大器——wpf
查看>>
SCALA STEP BY STEP
查看>>
cocos2d-x学习笔记
查看>>
MySql中的变量定义
查看>>