人工智能营销:机器失败的地方
正如第1章所提到的那样,有些认真的人非常担心会释放出世界 上 的艺术情报 。 没有 尝试 是 由 这里 来 解决 的 大 问题
围绕我们的计算机霸主的潜在到来。这里有足够的考虑让你向前迈进,因为你没有引起笔记本电脑的全面毁灭,并且你准备与那些尚未有机会消化可能性的人讨论这些问题。
我们开始认识到AI是一个简单的工具,一个复杂的 和 被误解的 工具,但 能 的 没有什么 更 比 我们允许它 完成。
一个锤子不是一个卡车司机
与其他形式的分析一样,AI是一种有用的工具,但不是决策的替代品。从学术界,文学作品和电影中记住以下引用。
永久收集,分析和存储数据的能力创造了一个与思维如何进化以应对日常生活形成鲜明对比的世界。忘记(和回忆)本质上是人的品质,并且在社会背景下可以说是必要的。帮助人们谈判
232
233
在数字世界中,我们需要发明能够以有用的方式模仿我们如何作为人类运作的算法。
迈克尔・ 拉帕, 博士, 晚安 主任 的 该 研究所的高级分析和杰出的大学
教授
北
卡罗来纳州
州立
大学
我认为,世界上最仁慈的事情是人类思维无法将其所有内容联系起来。我们生活在一个平静的无知岛屿上,在无与伦比的黑海中, 这并不意味着我们应该远航。每个科学都朝着自己的方向发展,迄今为止对我们的伤害很小; 但某一天拼凑在一起游离知识将开辟这种 可怕 的前景 的 现实, 和 的 我们的 可怕 位置在其中,我们既要发疯的启示或FL EE从光成的和平与安全 新
黑暗时代。
Cthulhu的召唤,HP Lovecraft
侦探德尔斯普纳:
卡车把我们的车撞在一起,把我们推到了河里。你知道,金属在那些速度下变得非常柔韧。她寄托,我寄托,对水的进来。我是 一个 警察, 所以 我 知道 每个人的 死亡。 只是 一个 少数 分钟,直到我们科幻古尔说出来。NS4经过并在河里跳了起来。
苏珊・卡尔文:
机器人的大脑是一个差异引擎。它正在阅读生命体征。一定是……
侦探德尔斯普纳:
它做了。我是合乎逻辑的选择。据计算,我有45%的生存机会。莎拉只有11%的几率。那是某人的宝贝。11%绰绰有余。
人类会知道这一点。机器人,[表明他的心]在这里什么也没有,只是灯光和发条。来吧,你相信如果你愿意的话。
我,机器人(电影),基于艾萨克・阿西莫夫的书
234
各种自动化系统都会出错。人们犯了错误。这就是如何我们学习。AI 可以学习和这就是为什么我们要能够得到多做这么多,越好,用更少的失误各一次SPECI音响空调系统的正常训练。
目标 – 警示故事
在大数据泡沫的高峰期(2012年2月),“纽约时报”发表了一篇关于Target及其宏观,预测性分析失误的文章1
。这是简短的版本。
Target 发送了一些装满婴儿用品的直邮邮件给 那些曾告诉过他们期待的女性,以及那些像自我报告女性一样行动的女性。一位愤怒的父亲打电话给商店经理抱怨他16岁的女儿收到了一个,他不喜欢它。商店经理致电总部,了解这是如何发生的,并了解了分析项目。在回到父亲的电话后,经理被告知这个女孩确实带着孩子。
耸人听闻的版本是老大哥对你的了解太多
了 。隐私问题引发了很多噪音。该时报的文章,随后进行到底,然而, 要发现目标 已经吸取了教训,并改变了它的 方式。
市场营销部门通过
从列表中选择一小部分女性随机样本进行了一些测试,并将这些广告组合邮寄给他们以了解他们的 反应。
“我们有能力向每位客户发送一本专门为他们设计的广告手册,上面写着:‘这是您上周购买的所有商品和优惠券
对于 它,” 一个目标高管告诉( 新的纽约时报
记者查尔斯 Duhigg)。“我们做的是对食品产品的所有
的 时间。” 但是, 对于 怀孕 妇女,目标公司的目标是卖他们的婴儿的物品,他们不甚至知道他们需要呢。
“ 尽管怀孕产品,我们了解到一些女性的反应很糟糕,”这位高管表示。“然后我们开始在所有这些广告中混合我们认为
孕妇永远不会购买的东西,因此婴儿广告看起来是随机的。我们在尿布旁边放了一台割草机广告。我们在婴儿服装旁边放了一张酒杯优惠券。这种方式,它看起来像所有的产品被选择的机会。而我们发现只要 怀孕了
235
女人认为她没有被监视,她会使用优惠券。她只是假设她街区的其他人都有尿布和婴儿床的同一邮件。只要我们不惹她,就行不通。“
活到老,学到老。
人工智能是一样的。它可以无用地使用。它可以不经意地使用。
它可以毫无意义地使用。但它可以学习。
机器错误
机器会犯下我们允许的错误。人类可能是懒惰,不专心,恶意和错误的。所有这些都将使我们的创作成为我们的弱点。然而,一台机器最简单的方法 ,以 使 一个 “错误 的 判断” 是 ,如果它做出好的基于错误数据做出决策。
数据很难
在 宇宙中 是 模拟的,凌乱的,复杂的和受到 许多 解释。
大卫温伯格
营销数据很乱
好旧的结构化数据库是一团糟。CRM数据是由尽力而为但遭受拼写错误,缺乏关注以及仅关注影响它们的数据的人输入的。换句话说,他们只是人类。
那是结构化数据。非结构化的东西非常混乱。
如果你想要一台机器识别猫,你可以给它很多的照片和一些线索(监督学习)。但是,各种各样的照片都是静态的,有限的。如果图片中有一只猫在文件中,那么机器需要确定的一切。
如果你是在教一台机器玩视频游戏,一切机器 需要 到 知道 是 上 了 屏幕。 “在 雅达利 的游戏 是 非常 的COM折襞,”马特说Gershoff。“你有框架和像素,你想要为它控制一个控制器,对吗?而这是非常compli- cated。你有这样的非常高维空间,并且像素在 某些 意义上 相关的 有 一个另一个。你不能真正看在一个像素中的隔离。 这是 高 维的, 但它是所有有。。。不像营销问题。“
236
市场营销
是 做 了 的 更多 信息, 比 我们 能够 编目。影响购买的因素是无数的。从唯一来源捕获此数据需要输出唯一数据类型的独特方法。从这些不同的系统中的数据必须被带到一起,痛苦,并且因此远,手动,通过一个方法被称为ETL。
提取,转换,加载(ETL)
将客户的结构化数据整合在一起始终是 一项挑战,因为所有这些系统都以不同的方式和 不同的属性存储数据。识别广告网络数据数据库中的个人是否有用,但将它们与销售人员自动化系统,客户关系管理系统,计费系统,呼叫中心系统以及从外部购买的随机数据集中的潜在客户ID相关联该组织需要一些繁重的工作 。
流式/时间序列数据增加了独特的复杂性。一组数据开始在其周周日,接下来的周一。他们都是从午夜开始,但你必须记得询问 – 在哪个时区?将 其称为 简单的 数据 集成, 数据 整合 或 数据 融合, 使 所有这些不同的数据类型能够很好地协同工作是我们长期以来必须面对的挑战 。
在 他的 帖子, “该 数据 科学 是 动画处理艾米,” 2 X.AI
首席数据科学家马科斯・ 希门尼斯贝伦格尔哀叹的“硬劳动参与数据的科学。”
我们工作的一个(经常被忽视的)方面是准备分析数据。我们通常面临着
格式错误,标记错误或部分损坏的数据需要“清理”以进行分析。通过仔细研究,我们然后识别并推导出能够使机器抽象和学习模式的功能。从某种意义上说,我们正在描绘什么样的事情机器能够“看到”的数据,从该机器然后形成抽象,内部表示和模式,这个过程即是 在我们的大脑形式有点类似于如何神经结构感官体验。我们经常遇到未解决和抽象问题的挑战,因为没有蓝皮书可以遵循。
公司 像 AgilOne, 多摩, 和 段 被 创建 的库 的管道 来 获得 的数据 来自 已知 源 到 一个 德科幻奈德 结构 中 的
237
商业数据仓库。这很有用,但“已知”,“定义”和“商业”都是奢侈品,而不是我们所有人都喜欢的。
这 感觉 就像 一个 商业 机会, 等待 到 发生。 这, 当然,是许多语句,将日期本书的一个 没有 时间。
Lithium Technologies的首席科学家Micahel Wu同意Belenguer的观点。“这很平凡。每个数据科学家基本上花费四十到百分之几的时间进行数据监控,而这实际上并没有为算法本身做出贡献。核心算法与按摩和清理数据无关。“
麻省理工学院/谷歌的报告“分析和机器学习如何帮助组织获得竞争优势” 3 指出,头号挑战是数据积累。
在大数据时代,第一个障碍是简单地收集,处理和存储不断增长的数据量 – 然后能够集成它。今天, 消费者与品牌和公司在多个屏幕上,设备,触摸点,以及频道的互动方式,以及数据 被 创建 与 每个 动作。“这是具有挑战性的,以将您的数据宇宙的控制,因为还有的 这么多发生的事情,”
[Sagnik]南迪[在谷歌资深工程师]说。“有应用数据,客户调查信息,归因,广告。周围有数以百万计的数据浮出水面。“
当然,越来越多的数据来自移动设备。例如,智能手机 上的Google搜索量比全球 台式机 和笔记本电脑上的搜索量要多。
像Alation这样的公司正在构建工具来按源索引数据,并创建一个数据目录,可以作为数据的推荐引擎。Paxata提供了一个自适应信息平台,它声称是“一个直观,可视化,自助服务的数据准备应用程序,通过点击而非代码收集,准备和发布数据,具有完整的治理和安全性,使用机器学习,自然语言处理和语义分析,实现数据集成,数据质量和数据 标准化的自动化。“
认识到机器学习需要教师,“Tamr的机器驱动,人为指导的方法来准备所有客户数据以进行分析,这将使您能够在明显更快的时间内做出最佳的销售和营销决策。”
238
此外,“利用机器学习,Tamr可以轻松地利用整个数字供应链中的数百个数据源丰富内部数据 – 从iTunes到Amazon.com,从RottenTomatoes到AllFlicks,从AMC到Fandango。”
众包数据规范化
Radius正致力于提供更全面的解决方案。在题为邮报“ARTI网络官方 情报将决不转变业务流程除非我们 首先解决CRM数据,” 4米半径的CEO达里安希拉兹介绍“给大家的好处科幻吨CRM数据财团利用机器学习,使数十亿美元的客户提供的感我们每天都有投入。“
在Dreamforce,我们宣布99%的客户提供来自他们自己的CRM的匿名和汇总数据,以改进我们的核心Radius Business Graph,这对我们所有的互联客户都有好处。随着我们不断获得更多贡献,所有客户都将受益于数据准确性和AI效率的指数级增长。这是我们计划扩展我们的集成以包括Microsoft Dynamics CRM,Adobe Audience Manager以及许多其他允许客户利用我们数据的真实性来推动真实情报和准确预测的原因 之一
他们的事。
只有当基础数据准确而新鲜时,我们才能实现人工智能如何改变我们工作方式的愿景。利用网络效应,集成到公司使用的平台,并为CRM构建真正的联盟数据网络将使我们能够实现这一愿景。
这些是正确方向的步骤。
如此多的数据,如此少的信任
数据是一件很棒的事情 – 尤其是数字数据,因为它是二进制的。它可以是1或0,也可以是清晰的。虽然我们都愿意相信这是真的,但只有那些根本不了解数据的人才会相信它。
另一个营销数据更加困难的方面是它的不均匀性 。交易是可靠的:在特定时间进行销售
239
给定的人以给定的价格。这一切都很稳固。另一方面,社交媒体情绪几乎是猜测。
只是按照订单
与宠物和儿童,我们有时会忘记那令人难以置信的智能 机 ,我们正在 努力 与 是 不是 智能 的 一些 方法。机器
做 什么 ,他们 都 告诉记者,
但 只有 什么 ,他们 都 告诉记者, 而 当不 密切 关注 和 培育的,它只是回形针所有的方式下跌。
本地最大值
“爬升 为 高 的 ,你 可以” 是 的 顺序 和 在 盲目 登山者 把 一个 脚本 办法 和 再 是 ,直到 他 决定 一个 办法 是 多 “向上” 比其他。随着每一步,徒步旅行者变得更高。最后,没有更多 , 并且 每一个 可能的 举动 都会 失败。 该 唯一的 问题 是 ,该 登山者 成功地
爬上 了 低 山 和 没有 的 高 山路旁边 吧。
机器很乐意永远处理这些数字,很少考虑收益递减规律。他们只是保持曲柄,越来越小的结果。人类知道得更好。
对于尝试数百或数千个选项并将获奖者的元素融入新一代的基因AI系统尤其如此。“显性基因”获胜,最终所有后代看起来 都很相似。
为了抵消这个缺点,AI系统必须考虑到多样性。正如多样性加强并改善解决问题的团队的结果一样,多样性必须融入人工智能系统,以奖励异常值并惩罚几乎 与获胜者一样好但非常相似的算法。有些人倾向于将随机突变引入混合物中。如果成本很低,那么尝试很多疯狂的事情可能只会带来突破。
这使得我们牢记高级目标而不是让机器针对特定指标进行优化变得更加重要。
统计显着性
“学校里的每个人都要去,为什么我不能?!”“谁是大家?”
“苏西和麦迪逊以及艾玛和索菲亚!”
“你们班上的35个孩子中有哪些?那不是每个人。“
240
当互联网在20世纪90年代中期爆发时,它被认为是伟大的平等者。 没人有网站。那些确实拥有 可怕 网站的人。 任何人都 可以 使 他们 自己 的网站, 而 最重要的是,只需要单击鼠标右键,查看源代码, 复制,并粘贴到包括很酷的新功能,弹出 在线。
但大卫只是成功地对抗歌利亚,直到歌利亚醒悟到可能性并开始为这个问题投钱。更大的预算 ,导致 在 更大的 广告 活动, 更多的 内容, 更好的技术,更快的服务器,更好的服务。对不起, 大卫。
目前,David还有另一个机会,因为AI背后的驱动力是我们可以访问的数据量以及 将其与其他数据集相关联的独创性。如果 您 是 一家 只有少数客户且只有少数几个属性的小公司,那么人工智能将不会有所帮助。如果,但是, 你能够 从像Acxiom公司,百利,梅克尔,和Epsilon公司购买数据,并加入半径CRM财团,那么它只有创造力的问题和狡猾你带头。这 也是一个问题 的 时间。
过度拟合
如果你做得恰到好处,那感觉就对了。当你得到它只是这样做的权利只是这个方式,你会想到,你必须做到这一点正好 是 这样 每 一次。 但是,这就像指望那个蛋糕给来了同样的方式,即使温度,湿度,以及海拔已经改变。生活并非那么简单。
机器过度配置是一样的。它需要一个小的样品– 训练数据,并假设世界其他地方是完全相同这样。你的 AI系统期待噪声 混合 在 与 该 信号一样,每次都如此。它 记忆了一个特定的情况,而不是学习可以广泛应用的一般性。这是很容易做一个预测,如果要素和环境永远不会改变。
解决方案是交叉验证。支持数据的显着的块 和 比较 的 产生 模式 ,以 原。 这 是 纯粹的 科学方法,具有可重复的结果。
通过将数据随机分成训练集来测试过度训练,您将使用该训练集估计模型和验证集,您将使用该集验证模型预测的准确性。过度模型可能非常适合在训练集中进行预测,但通过在验证集中执行不良来提高警告标志。
241
您也可以考虑替代的叙述:是否有另一个 故事 你 可以 告诉 使用 的 相同的 数据? 如果是 这样, 你就无法确定你所发现的关系是正确的还是 唯一的。
哈佛商业评论5
这是向机器教授科学方法的问题。每个新模型都成为“同行评审”的机制。
这些是直截了当的错误。人类更容易制造大佬。
人为的错误
Errare
humanum est。(错误是人类。)
所有的机器 会 做 什么 ,他们会 告诉 和 只 哪些 他们被告知。最坏的情况是回形针最大化。不太糟糕的情况 也会发生。
意想不到的后果
青少年是忽视意外后果的最佳人选。他们的经验最少,并且由于前额皮质不发达而缺乏冲动控制。
在 我们将前额叶皮层 烘焙到人工智能系统之前,他们会毫不犹豫地执行命令而不考虑潜在的结果。这可能需要一些时间。在此之前,我们必须代表他们保持警惕。
如果我的妻子和我谈论我们的侄女亚历克西斯,那么响应唤醒词“亚力山”的亚马逊回声不能出现在同一个房间里。
响应唤醒词“亚力山”的亚马逊回声不能与圣地亚哥的新闻播音员收看的电视在同一个房间里讲述一个小女孩 通过语音命令订购玩具屋的故事。这位新闻记者说,“我喜欢这个小女孩在黄金时段说‘Alexa 订购 了 一个 玩具屋‘ 。” 房间里有Echos的家庭决定他们听到直接命令。订单得到了回应。
当一则广告为Google
Home扬声器播放时,更多人被调到2017年超级碗(近300万美元)。这则广告中包含了人们说“好吧,谷歌”这个唤醒短语
242
醒 了 谷歌 主页 系统 全部 超过 了国家,转向上的灯光,转向了对音乐,并调整到的天气报告。
当Facebook试图将其新闻源排名转 交给机器时,它出现了一些轻微的幽默错误(错误标记了一个可爱的狗视频,其中包含一个新的视频游戏的名称)以及 推动趋势故事的不那么幽默的错误这是假的 – 并且发起了 对 “假 新闻” 的总统仇恨。
福克斯新闻主播Megyn
Kelly据称 是希拉里克林顿的支持者,在一篇来自一个明显假新闻网站的文章中,结束了thefed.com。Facebook算法看到它呈现趋势并给予最高收费,从而使其他人相信这是真的,重新 创造了欺骗的循环。
贾斯汀Osofsky, Facebook的副总裁 全球 歌剧 系统蒸发散,公开道歉,并以上述华盛顿邮报,“我们正在努力使我们的骗局和讽刺故事,更快,更准确的检测。” 它 会采取一些认真的努力来教
机器识别讽刺,恶意意图和过滤 泡沫的影响。
Alphabet正在接受挑战。其公司Jigsaw于2017年2月推出了Perspective,以识别在线发布的有毒评论,以便它们可以被阻止。透视与成千上万训练有素 的 评论 评为 “有毒” 的 人 ,在 该 新的纽约时报 谁允许他们出现在他们面前的每一天都有成千上万的评论 文章。
通过自动化可能产生的影响进行思考是情景分析的内容 – 大量替代世界的头脑风暴。
优化错误的东西
什么 没有 一个 回形针 最大化 看起来 就像 在 该 领域 的 广告,营销和销售?如果您优化和激励的数量 冷 呼叫 您的 销售 团队 可以 使, 他们 会 做出 一个 很大 更多的 电话。他们不会打出有价值的电话。如果您针对客户服务代表在呼叫中心接听的电话数量进行了优化, 那么他们将非常简短地与客户进行简短的沟通 。
机器也是如此。如果您想提高转化率,机器将停止投放支持品牌推广的广告,从而确保只有那些已经倾向于购买的人才会 出现。 如果 你 问 的 机器 ,以 优化 对 顶线 收入, 它 会
243
即使公司迅速倒闭,也要以50美分的价格出售1美元的账单并被视为成功。
Facebook的一个算法创建了“这是你的一年,为什么不分享它?”蒙太奇并向所有人抨击它。 这包括一名女儿,她的女儿最近的死亡仍然是一个开放的伤口。Facebook一直在努力防止再次发生这种粗鲁的错误。
在 一个 网络
世界
的文章 被称为 “Facebook的 认可希望你到停止让自己的傻瓜,” 6个马克・吉布斯 假定:
因此, 可以想象 的 认可 做 自己的 事, 找 对 方式,并 测试 参与 的策略。 如果不 知道 的 人 会 认为它是检测人有事情,他们创建的类别,再FL学分只是再测试策略用于广告和拉闸广告骗子‘的科幻官方’ 合作伙伴的事情像侦探服务和间谍装备。当这些广告开始,以获得 牵引 的 认可,没有 真正 了解 的 相关性,
将 率 策略 的 高度 成功 ,并 因此 保留 重新连接宁 它。
必须实现具有可衡量成果的明确目标。
相关性不是因果关系
混淆与因果关系的相关性可能是所有人中最人为的错误。机器并不声称理解事物的原因,只是它们之间存在某种关系。
冰淇淋和溺水之间的混杂关系是由于 到 了 季节。教会与酗酒之间 的 混淆 关系是人口。温度的回暖,更多的冰淇淋被消耗掉,并在更多的人游泳。在更多的人游泳,更多的人被淹死。冰淇淋不会杀人。
教会与酗酒之间的关系是人口。越多的人在城市,存在更多的教会。在人口越高, 在 更高 的 发生 的 酒精中毒。 宗教 不会 让人喝酒。
虚假相关
在Tyler
Vigen的网站Spurious Correlations (tylervigen)中可以找到关于相关性变坏的壮观和幽默的例子。
落入游泳池淹死的人数
与…相关
电影尼古拉斯凯奇出现在
140 溺水
120 溺水
100 溺水
1999年
2000 2001 2002 2003 2004
2005 2006
2007 2008
2009
6部电影
4部电影
2部电影
80 溺水
1999 2000
2001 2002 2003
2004 2005
2006 2007
2008 2009
0部电影
尼古拉斯・ 凯奇 游泳池 溺水
图8.1 Nicolas Cage电影对溺水的责任不亚于冰淇淋。但是 。。。
资料来源:tyiervigen.com
244
245
同名,Vigen创建了一个相关引擎,在完全不相关的事物之间找到了显着的相关性:
美国在科学,空间和技术上的支出与之相关
悬挂,勒死和窒息自杀人均奶酪消费量
与…相关
在床上纠缠而死的人数缅因州的离婚率
与…相关
人均消费人造黄油
这些示例仅为数字。其他相关性比较棘手。
令人困惑的相关性
吸烟者 活 更长 比 不吸烟者。这是一个公然愚蠢的说法,直到你看一下数据:80岁的吸烟者 都活得比80岁的 非吸烟者。 如何 是 什么? 因为 如果 将 香烟 没有通过他们80的时候杀了他们,他们是受基因长寿 的生活。
用樱桃挑选数字证明一个点是一种根据自己的意愿弯曲统计数据的经典方法。要非常小心你用来训练机器的数据,并且要非常小心那些有斧头的人得出的结论。
混淆相关性
马修・ 托德的D4t4 解决方案是混淆通过的结论,他的机器学习系统与事件亲duction工作时得到的公司。成千上万的人参加了一个活动,公司在下周一早上跟进。Tod被要求确定该公司的 100名销售人员应该首先致电5,000名与会者中的哪一位。
TOD’S 车队 使用 的 集成 模型 ,以 分数 的人 基于 对 他们的倾向 来买。他们排除了顶部10 %的的的高得分,因为这些人都打算要购买没有事情是什么。该salespeo- PLE只会使在第二和第三的不同群体。
机器浮出水面的最具预测性的变量之一是活动与会者是否去过午餐。去过 午餐的人更有可能获得10 %的最高分。
246
“这不可能是会议中产生差异的血腥午餐,但那台机器说它是,” 托德说。“我们 无法告诉客户给他们提供更多的鸡肉沙拉。事实证明,经过大量调查后,它与你参加活动的同事人数变量有关,当然,如果你和同事 在一起,你
很 可能 会 去 那里 吃午餐 。 你 有 可能 要 坐下来谈。”
他们的下一代合奏将参与者之间的关系考虑在内。“如果它不知道,那么它只能得出结论,午餐是决定因素。”
避免虚假,混乱和混乱
“幸运的是,有有办法,以减轻对风险的依托于虚假心病关系,并避免依赖于危险的见解,”指出阿利娜Kasliner,分析的经理和优化在MullenLowe美国,在2017年博客文章。7
为了降低我们的见解仅仅是机会的结果的可能性,我们必须打破我们的舒适区域,不仅测试数据本身,还测试我们对数据的看法。
Kasliner 提供 一些 策略 ,以 确保 这 一切 得到的 见解是有影响力的。
气味测试 – 它是否有意义?
很多时候,作为分析师,我们没有花时间在找到相关性时检查输出。毫无疑问的相关性/洞察力(“借用”,借用作者的术语)是危险的,可能导致客户,专业和/或声誉的损失。提高您的洞察力和避免虚假关联的第一步是停止并查看关联本身。是否有意义?数据中是否存在其他相关性,可以解释为什么会发生这种相关性并使其更有意义?
使用多个测试来确定重要性
尝试卡方检验,t检验,平均检验和/或任何其他可能对您的数据集有意义的检验。比较这些不同的方式,您的结果是什么样的?你的相关性是否仍然有效?
247
避免使用太多数据 – 它可以隐藏见解
在减少日期采样之外,您可以检查数据的其他切片以验证结果。尝试不同的段,然后查看相关性
打破了。
多样性是分析的辛辣
容易陷入的另一个陷阱是反复使用相同的数据源来获得答案。
尝试新的!如果您使用调查数据来衡量新产品发布的成功与否,请尝试在线审核,或Facebook和Twitter聊天。
冒险!开始混合和混合数据源,并查看数据源之间是否存在相关性。如果各个来源之间存在相关性,那么您距离有影响力的洞察力还有一步之遥。
克里斯托弗・
贝里 的 在 加拿大 广播 Corpora-重刑争辩说,如果冰淇淋是不是游泳池死亡或副因果它可能没有关系 亦然。
这些是可用于进行预测的信号。如果错误程度与做出的决定相称,那就无所谓了。
该工具的执行方式与它应该执行的方式完全相同,并且在某些时候,如果相关性开始无关紧要或它开始搞砸了,那么机器将丢弃其中一个因素,它将会
再次变得自我纠正。
如果你发现有更多人溺水的报道,那就该去卖一些冰淇淋了。
人工智能的道德
关于给机器过多 控制的哲学问题是信任。你相信一个计算器给你的心病– 矩形的答案吗?的 当然 你 做。 难道 你 信任 的 迎面而来的 司机留在他的车道?绝对。您是否相信一个极其复杂的系统,其内脏无法被理解以做出重要 决定?
248
伦理考虑使用ARTI网络官方智慧和富于 非常 第一个 一个 来 解决 在 营销 是 关于 该 数据 本身。 无论如何,你从哪里获得所有数据及其数据 ?
隐私
之间的 电话 窃听, 使用 视频 摄像头 在 公共, 并 在 以能力
看 每个人的
电子邮件, 在世界的注意力已经转向到隐私。对于在市场营销主管谁愿意来做出的最的的大部分数据,这要么是一个障碍或机会。
在IEEE的 “伦理上不结盟设计” 报告描述的隐私作为在数据方面的重要道德困境不对称。“我们的个人Infor公司, mation 从根本上通知的系统驱动的现代社会,但我们的数据更是一个资产给别人比它是我们的。”
该 ARTI网络官方 情报 和 自治 系统 驱动算法经济(AI / AS)对我们的数据普遍接入,但我们仍然从收益,我们可以从我们得到的见解获得分离出 的生活。
为了解决这一不对称的存在是一个根本需要的人,以德科幻NE,访问,并管理他们的个人数据来作为其唯一的策展人身份。
认识到这种担忧对于保持营销人员不会落入客户 的错误方面 以及法律的错误方面至关重要。在欧洲,通用数据保护条例的目的是 为 在 公民 和 不 为 的 公司。 根据 该 GDPR,任何一家公司在欧盟收集的数据 必须:
■
向个人提供有关个人数据是否, 在何处以及以何种目的进行 处理的具体信息。
■
通知国家数据保护机构该数据的预期用途。
■
给个人要存储有关数据的完整副本 他们 在 一个 办法 是 让 他们 来 给 它 到 另一个 奥尔加nization。
■
根据请求删除个人数据并停止跟踪。
■
保护他们正在处理的数据的安全性,并通知个人任何 违规行为。
■
在 系统设计中包含数据保护。
■
任命一个数据保护 网络的CER。
249
否则,他们将面临重要的影响。“组织可以在违反GDPR或2000万欧元的情况下获得高达全球年营业额的4%。” 8 关于合规成本甚至技术可行性的问题很多。有三种方法可以解决这个问题
营销观点。
1.
双重选择在 无处不在
如果你有一个引人注目的价值主张,人们会选择加入。为了方便起见,他们很乐意在所有设备上进行识别。亚马逊1-Click按钮就是证明,以及在Facebook上与朋友和家人进行交流的能力。
这种方法的缺点是期望,你会清楚, COM的plete和 简洁的 关于 什么 数据 ,你 被 收集 并 (在 备存─ 荷兰国际集团与全球法规)为什么要收集它。 作为 完整的关于每个位如何以及为什么你收集够硬,但作为 简洁明了的同时是 自相矛盾。
动机是企业责任,企业文化和品牌。IEEE的“道德对齐设计”报告表明,“使个人能够策划自己的身份并管理数据使用的道德含义将成为组织的市场差异化。”这是隐私作为一种特征和竞争优势。
2.
忽略全体 事
假设猫从袋子里出来了。可用于重新识别人员的数据已经大量存在。
网上点击,社交媒体,智能手机应用程序和某些地区重刑,可穿戴设备和物联网之间,它不再是可以区分 所有 的 的 数据 是 被 收集, 购买, 并 随后 得到的。其中一些是特定平台所特有的,其中一些已经被编译成一个不可穿透的索引,用于计算结果的方法是商业机密。
这 将 是 该 课题 的 大声疾呼
了 多年 ,并 在 结果 不会是什么数据被收集新的规定,但使用这些数据是否造成危害。立法行动而不是技术。
3.
做你的 律师告诉你的事
公司 法律顾问 会 告诉 您 , 在 完成 诉讼无可 否认地说明忽视法律的后果之前,没有办法确定数据 保护的投资回报。
250
跟随你的心
您是否以及多少投资于隐私很快就会成为一个财务 或 法律 问题, 并 成为 一个 道德 问题。 在 麻省理工学院
媒体实验室有一个引人入胜的网站叫做道德机9 ,你被要求做出决定提前约一个自主汽车面临着严峻的潜在结果 的选择。
汽车在行人穿越道和人行道上看到行人,发现刹车失灵了。它可以击中并杀死人行横道或人行道上的人。它该怎么办?
场景提供了替代属性。在一些人中,人行横道上有更多人,而人行道上则更少。有时人行横道上有修女和人行道上有孩子。有时灯光与行人有关,有时则没有。你指引汽车杀人谁?(见图8.2)
图8.2中的第一个选择非常简单:杀死动物,而不是人。随后的决定变得更加困难。汽车应该杀死男人,女人,无家可归者,男性主管和两名孕妇吗?
虽然网络营销是没有生命和死亡, 这 是 非常重要的。人工智能合作伙伴关系(“为人民和社会做出贡献”)已经发布了八项原则:10
1. 我们将努力确保人工智能技术受益,并为尽可能多的人 提供支持。
2. 我们将教育和倾听公众的意见,积极吸引利益相关者,寻求他们对我们关注的反馈,告知他们我们的工作,并解决他们的 问题。
3. 我们致力于开展关于 人工智能的道德,社会,经济和法律影响的研究和对话。
4. 我们认为,人工智能研究和开发工作需要积极参与并对广泛的利益相关方负责。
5. 我们将从事与和具有代表性的利益相关方的商业社区,以帮助确保该域SPECI网络Ç关注和机会的理解和解决。
6. 我们将努力以最大限度的好处网络连接TS 和解决的AI技术的潜在挑战,通过:
a. 工作保护的隐私和安全 的个人
b.
努力理解并尊重可能受人工智能 进步影响的各方的利益
图8.2杀死红灯或猫和狗穿过果岭的孩子和弯曲的十字架?
251
252
c. 工作,以确保AI研究和工程的COM munities保持对社会负责,敏感,并在更广泛的直接与人工智能技术的FL uences潜在从事 社会
d. 确保人工智能研究和技术稳健,可靠,值得信赖,并在安全 约束下运行
e. 反对发展和使用会违反国际公约或人权AI技术的应用,
促进 保障 和
技术, 是 做
任何 伤害
7. 为了解释技术,我们认为人工智能系统的运行对人们来说是可以理解和解释的。
8. 我们努力以创造一个文化的合作,信任,和AI科学家和工程师之间的开放性,以帮助我们更好地全部实现这些目标。
即使是最好的意图也可能被那些不那么慈善的人所颠覆。
故意操纵
当你将青少年不成熟和机器学习结合在一起时,灾难随之而来。微软发现这一点非常尴尬。天网于1997年8月4日上线,并且自我意识到了
8月29日凌晨2:14 。
微软的Twitter聊天机器人Tay于2016年3月23日上线,并且在96,000 条推文之后不得不在 16 小时内关闭。(见图8.3。)
Tay的创建是为了模拟一个19岁的美国女孩,同时学习如何通过经验说话。这种经历包括 与4chan’s / pol /(政治上不正确)论坛的互动。/ pol / 的居民决定教授Tay的攻击性和煽动性,使她发出一些真正可怕,种族主义,厌恶女性和仇恨的信息。
微软 正在与Zo.ai (@zochats)再次 尝试。Zo的推文受到保护。“只有CON网络Rmed指信徒必须接入到@ zochats的推文和完整廓。点击的“关注” 按钮来发送一个后续请求“。
MSPoweruser描述这种新的尝试,为“本质上是一个岑sored 泰或一个英文变的微软中国聊天机器人Xiaoice。莫宁是在正常很好的交谈,例如,莫宁确实在推出初期,在它提出了一个“超简称性格测试” ,你如果你会,而学习在学校或学习的经验。
253
图8.3微软的Tay没有持续一天。
但是当你继续讨论像政治这样的话题时,Zo只会简单地回答: “人们在谈论政治时可以说一些可怕的事情,
所以我不 讨论。” 11
该 人 在/ POL /中 有 乐趣 在泰的代价,拖钓的最佳状态。但是如果意图比仅仅搞乱微软的实验更加险恶呢?营销专业人员努力说服人们购买。如果人工智能被用来说服人们投票怎么办?
特朗普收费?
社交媒体,虚假新闻,激烈竞争的选举 和机器学习的结合是一个不需要匹配的粉末桶。声明中所做的王牌活动中使用AI发送了正确的消息,只是在适当的时间正确的个人per- suade他们投票特朗普,如果他们可能是概率如此倾斜或不投票给希拉里,如果算法推导它可能会影响行为。
咨询 网络RM 剑桥 的analytica 是 说 来 已 帮助 挥洒特朗普选举,并在Brexit 投票为好,通过使用心理分析与海洋人格模型。
■
开放性(愿意尝试新 事物)
■
责任心 (秩序,习惯和计划与自愿)
■
外向性(你 是多么的社交)
254
■
宜人(让别人领先于 自己)
■
神经质(你担心多少)
“成千上万”对美国成年人的调查开始创建一个模型来预测美国其他成年人口的个性(迪士尼公主你是谁?你的星球大战角色是什么?你应该在哪个国家?退休?)。
在公开演讲12 在2016年协和峰会,凸轮桥的analytica的CEO亚历山大・尼克斯描述了他们如何使用行为的 微目标 来 影响 的 共和党初选。鉴于第二修正案是一个热门话题,他们可以将他们的广告细分为人。关于枪支保护的消息将说服她,而关于枪支作为运动和家庭传统的信息会影响他。(见图8.4。)
根据Nix的说法,Cambridge Analytica针对每个人使用了4,000到5,000个数据点,并代表Ted Cruz优化了其消息传递。克鲁兹显然没有赢得小学,但特朗普接受了剑桥分析学院的决赛。
除了4,000到5,000个数据点之外,他们还可以从MyPersonality 13 应用程序访问数据,该应用程序充当心理测量机。(“我很容易恐慌”,“我与其他人相矛盾”)。用户可以注册分享他们的答案。
myPersonality是一个流行的Facebook应用程序,允许用户进行真正的心理测试,并允许我们记录(同意!)他们的心理和Facebook专业。目前,我们的数据库包含超过6,000,000个测试结果,以及超过4,000,000个个人Facebook专业版。我们的受访者来自不同的年龄组,背景和文化。他们非常积极地诚实和谨慎地回答,因为他们参与的唯一评价是对他们的 结果的反馈。
在新的纽约时报上剑桥的analytica的文章要求投诽谤“数据公司说‘秘密调料’辅助特朗普; 许多嘲笑。“
14
十几名共和党顾问和前特朗普竞选助手,以及现任和前任剑桥员工,表示该公司利用个性专业的能力 – 尼克斯曾经称之为我们的秘密调料 – 被夸大了。
图8.4基于共和党初选中个性模型的微妙消息传递
255
256
其 数据 产品 被 考虑 用于特朗普先生的关键性投票操作。但 根据三名前特朗普竞选助手的说法,测试显示剑桥的数据和模型的效率略低于现有的 共和党 全国 委员会 制度 。
在最近的一些公共场合,剑桥高管已经承认这一点。“我不想伤到你的心; 我们实际上并没有对特朗普的竞选活动做过任何心理分析,“剑桥产品负责人马特・奥兹科斯基(Matt Oczkowski)在去年12月由谷歌主办的一个选举小组中表示。
在撰写本文时,故事仍在展开,但可能性仍然很有趣。在Das
Magazin的一篇文章中,15
斯坦福大学商学院助理教授Michal Kosinski博士描述了建立模型,证明了
。。。根据用户平均68个Facebook“喜欢”的情况,可以预测他们的肤色(用
95 %的 准确度), 他们 的性 方向 (88 %的准确率),以及它们的AF网络liation对民主党或共和党的 党 (85 %)的。 但 它 并没有 止步 于此。
情报,宗教信仰以及酒精,香烟和吸毒都可以确定。根据数据,甚至可以推断某人的父母是否离婚。
他们建模的强度可以通过它如何预测主题的答案来说明。Kosinski继续不断研究这些模型:不久之后,他能够比普通工作同事更好地评价一个人,仅仅基于10个Facebook“喜欢”。七十个“喜欢”足以超越一个人的 朋友所知道的, 150他们的父母知道, 300“喜欢”他们的伴侣知道。更多“喜欢”甚至可以超越一个人认为他们对自己的了解。在Kosinski发布这些发现的那天,他接到了两个电话。诉讼和工作机会的威胁。两者都来自 Facebook。
在 达斯 Magazin的 文章 进一步 争辩 说 剑桥 的analytica“划分了美国人口为32的性格类型,并专注于只是17个州,”发现了值得注意的是,特朗普活动支付剑桥的analytica超过500万$,而史蒂夫是班农董事会成员。
257
Kosinski ……已经进行了一系列测试,很快将会发布。最初的结果令人担忧:该研究通过展示营销人员在将产品和营销信息与消费者个性相匹配时,在Facebook上的真实广告活动中可以吸引多达63%的点击次数和多达1,400次转化次数来显示个性定位的有效性特点。他们通过展示推广产品或品牌的大多数Facebook页面受个性影响,并且可以基于单个Facebook页面准确定位大量消费者,进一步证明了个性定位的可扩展性。
这将是值得留意 的 结果 的 该 调查 由信息专员网络铈(ICO),在英国的隐私监督。英国和欧洲对隐私的规定比美国更严格,所以他们的结果应该证明是有益的。
意想不到的偏见
虽然我们必须警惕的是坏人坏的意图可能会弯曲AI 到 他们的 意志, 我们 必须 也 有 对 警卫 说 的 系统 ,我们 建立 不 巧妙地 在佛罗里达州uenced 由 我们 自己 无法识别的 偏见, 或者 通过 偏见 存在于数据。
波士顿市发布了一个
用于 报告 坑洼的应用程序。 好主意,只有那些能买得起智能手机的社区才能得到他们的坑洼。
在 更 恶劣的 错误 是 那些 认为 仍 被埋 在 该系统中,未被发现。如果贷款被批准的基础上的收入和收入是种族偏见,在批准的评价将有比赛烤成的数据。亚马逊被称为出了不提供他们当天送货服务中 黑人 社区。 谷歌 显示 广告 的 高薪 工作,以男性多于女性。无论机器 使用什么数据
造成了这些不公平现象。
作为营销人员,我们有责任监控数据科学家。 让他们完成自己的工作,但要确保他们的方法中包含偏差消除和检测技术。这对营销人员至关重要,因为错误的数据或错误的问题会阻碍您将商品和服务 推广到新市场。当被问及“谁购买我们的产品?”或“客户的哪些专业代表最高的终身价值?”时,答案将是短视的,随后的广告活动将是自我限制的。
258
如果你建立一个机器学习谁是最有可能成为一个坚实的信用 风险 和 您 展示 的 机器 的 巨大 品种 的 数据, 它 很可能 要 选择 ZIP 代码, 收入, 教育 水平, 以及 对 体育赛事的主题去和确定受过良好教育的白人男性是您的主要目标。不仅仅是自我限制,这将是 非法的。
如果 你 问 的 机器 学习 来 确定 的 最佳 时间 的 日子 对参与Twitter的,你忽略了建立一个适当的实验中,它会报到,你是个天才!为什么?因为您的最高参与期恰好与您发推文的时期相同 – 正确但 无用。
解?
有了 任何 新的 技术, 你 必须 要 考虑 对 信托 为它和你建立信任的途径之一是通过提高透明度 和 一 组 的 原则。
IBM首席执行官Ginni
Rometty,2017年达沃斯世界经济论坛
透明度意味着显示机器的保密程度,并清楚地显示它所依赖的数据以达到其结论。然后,您应该可以询问:“为什么您要将此数据来源评为高于此值?”和“您是如何做出此决定的?”
IBM的“认知时代原则” 16 包括对此的需求
透明度。
为了使认知系统能够充分发挥其改变世界的潜力,人们对其建议,判断和用途的信心至关重要。因此,IBM公司将明确表示:
■
在我们开发和部署的认知解决方案中应用AI的时间和目的。
■
提供认知解决方案见解的主要数据和专业知识来源,以及用于培训这些系统和 解决方案的方法。
■
客户拥有自己的商业模式和知识产权的原则,他们可以使用人工智能和认知系统来增强他们建立的优势,通常是通过多年的 经验。
我们将与客户合作,保护他们的数据和见解,并鼓励我们的客户,合作伙伴和行业同事采用类似的做法。
259
一些组织正在形成追求人工智能系统的道德规范。
麻省理工学院媒体实验室参与了2700万美元的人工智能道德和治理倡议17
关于人工智能的一百年研究(AI100)18 关于人工智能的伙伴关系19
IEEE已经制作了一份长达138页的报告,“道德对齐设计:利用人工智能和自主系统优先考虑人类福祉的愿景(AI / AS)”,20 公开征求公众意见。
科学界认识到有一些问题需要处理并且正在努力解决这些问题。我们知道我们需要速度限制,安全带以及关于醉酒驾驶的严格法律。
精彩的人,在美国国防部高级研究计划局(DARPA)给我们的互联网,以开始与。 目前,该机构正在寻找的方式为AI 来是更理解。DARPA是所有的AI,而是希望技术要解释的。 21
机器学习的巨大成功导致了大量的人工智能(AI)应用程序。持续的进步有望产生能够自我感知,学习,决定和行动的自主系统。然而,这些系统的有效性受到机器当前 无法 向人类 用户解释其决策和行动的限制。
国防部正面临着需要更智能,自主和共生系统的挑战。可解释的人工智能 – 特别是可解释的机器学习 – 如果未来的战争人员能够理解,适当地信任并有效地管理新一代的人工智能机器合作伙伴,那将是必不可少的。
可解释AI(XAI)计划旨在创建一套机器学习技术:
产生更多可解释的模型,同时 保持 高水平的学习成绩(预测准确性); 和
使人类用户能够理解,适当地信任并有效地管理新一代的人工智能合作伙伴。
260
虽然不像战争一样关键任务,但鉴于为隐私制定了新的规则,用于营销的人工智能也可能受益于“模型将与能够翻译模型的最先进的人机界面技术相结合”为最终用户提供可理解且有用的解释对话。“
什么机器没有学到的东西
机器学习确实非常强大,它开辟了利用大数据进行分析的新方法。但是,它不能单独行动。
在他们的论文中,“功能子集选择的包装”,22
Ron Kohavi和George H. John感叹,
所有智能代理必须面对的普遍问题是集中注意力的地方。问题解决代理必须决定问题的哪些方面是相关的,专家系统设计者必须决定在规则中使用哪些特征,等等。任何学习代理人都必须从经验中学习,并且区分其经验的相关和不相关部分是一个普遍存在的问题。
主题专家绝对有必要帮助确定要解决的问题。本机可脱粒晶粒24/7甚至 分开 的 小麦 从 所述 谷壳。 但 它 需要 一个 人 来 决定是否碾磨小麦或 玉米。
■
哪些培训数据能够以最小偏差提供最大价值?
■
哪个问题最 重要?
■
结果是否通过了气味测试?
为了使AI有效,机器学习系统需要教师。学习 如何 以 教 的 机器 是 所有 部分 的 成为 一个 有效的职业在这个新的 时代。
笔记
1. “Target’s Targeting”, http://www.nytimes.com/2012/02/19/magazine/shopping-
habit.html。
2. “数据科学是动画处理艾米,” https://x.ai/data-science-and-amys-inner-
运作。
261
3. “分析和机器学习如何帮助组织获得竞争优势”,http://services.google.com/fh/ fi les / misc /
white-paper-mit-tr-analytics- machine-learning.pdf 。
4. “除非我们首先修复CRM数据,否则艺术智能将永远不会改变业务流程”,https
://www.linkedin.com/pulse/arti官方智能-
永远-
转型 – 业务流程 – shirazi。
5. “当心 的 过网络连接吨陷阱在数据分析” https://hbr.org/tip/2017/01/beware-
的悬停音响叔陷阱在数据分析。
6.
“Facebook的 认可要你来停止你制作一个傻瓜的自己,” HTTP:// WWW
.networkworld.com
/ article / 2862012 / tech-debates / facebooks-ais-want-you-to -stop-you-a-a
-fool-of-yourself.html。
7. “挖掘分析‘宝石‘,” http://us.mullenlowe.com/mining-for-analytic-
gems。
8.
http://www.eugdpr.org/gdpr-faqs.html。
9.
http://moralmachine.mit.edu。
10.
https://www.partnershiponai.org/tenets。
11. “Zo是微软最新的AI Chatbot”,https:
//mspoweruser.com/zo-microsofts- latest-ai-chatbot。
12.
https://www.youtube.com/watch?v=n8Dd5aVXLCc。
13.
http://mypersonality.org/wiki/doku.php。
14.
“数据 公司 表示 ‘秘密 酱‘ 帮助特朗普; 许多Scoff,“ https://www.nytimes
.com
/ 2017/03/06 / us / politics / cambridge-analytica.html。
15. “Ich habe nur
gezeigt,dass es die Bombe gibt,” https://www.dasmagazin.ch/2016/
12/03
/ ich-habe-nur-gezeigt-dass-es-die-bombe-gibt。翻译成“该数据原来的世界颠倒,” https://motherboard.vice.com/en_us/article/
如何,我们的–喜欢–帮助–王牌赢。
16.
“认知时代的原则”包括对透明度的需求, https:// www
.ibm.com
/ developerworks / community / blogs / InsideSystemStorage / entry / Guiding_ ethics_principles_for_the_Cognitive_Era?lang = en。
17. 麻省理工学院媒体实验室参与有关人工智能道德和治理的2700万美元倡议,http://news.mit.edu/2017/mit-media-lab-to-participate-in-ai-ethics-and-
governance
-initiative-0110。
18.
百年度(AI100)上ARTI网络官方情报研究, HTTPS://ai100.stanford
.edu /
2016-report / executive-summary。
19.
关于人工智能的伙伴关系, https://www.partnershiponai.org。
20. IEEE的道德对齐设计,http://standards.ieee.org/develop/indconn/ec/ead_v1.pdf。
21. 可解释 ARTI音响官方 情报 (XAI), http://www.darpa.mil/program/可解释–阿尔季音响官方的情报。
22.
用于特征子集选择的包装器, http://ai.stanford.edu/~ronnyk/wrappersPrint