• 机器学习
    德勤:42%的高管认为人工智能将在2年内变得“至关重要” 文/KYLE WIGGERS 企业正在加大对人工智能(AI)技术的投资。这是德勤在《企业报告》(Enterprise report)中对1100多家美国公司的IT和高管进行的调查中得出的最大结论。 德勤技术、媒体和电信中心的执行董事杰夫·劳克斯博士说:“企业对人工智能提高业绩和竞争力的潜力感到兴奋,这是有充分理由的。”但要实现这一潜力,企业必须承担风险,解决人才短缺问题,并做好执行工作。尽管人工智能的优势是显著的,但仓促行事可能会让公司陷入无路可逃的境地——应用人员无法扩大规模,或者项目没有商业利益。 采用增长 该报告将人工智能的采用分为四类:机器学习,即统计模型开发能力和随着时间的推移自主提高性能的能力;深度学习是一种涉及神经网络的机器学习方式;自然语言处理,从文本中解析意义的能力;计算机视觉,从视觉元素中提取意图的技术。 调查显示,自然语言处理在增长方面超过了所有其他类别,62%的公司称已经采用了自然语言处理(高于一年前的53%)。机器学习以58%(同比增长5%)位居第二,计算机视觉和深度学习紧随其后,分别以57%和50%的使用率紧随其后(较2017年增长16%)。 德勤认为,投资的增加与增长有关。约37%的高管表示,他们的公司已经拨出500万美元或更多用于“认知”技术,比如深度学习和机器学习,包括带有人工智能的企业软件。55%的人说他们已经发射了6个或更多的试飞员(去年这个比例是35%),58%的人说他们已经完成了6个或更多的试飞员(上升了32%)。 这种热情——加上高管们“追赶竞争对手”的强烈愿望——正推动ai即服务解决方案的全球年增长率达到48.2%。(德勤(Deloitte)将全球认知技术市场的规模定为191亿美元。)它有一些紧迫性;42%的受访高管认为,在未来两年内,采用人工智能将具有“至关重要的战略意义”,有些人已经开始看到成效。 超过80%的人说他们的人工智能投资带来了经济回报,特别是在技术、专业服务、媒体和娱乐/电信行业。德勤(Deloitte)以Netflix为例:这家流媒体巨头发现,如果客户搜索一部电影90秒,他们就会放弃。但通过使用人工智能来改善搜索结果,谷歌能够节省约10亿美元的潜在损失。 其他成本节省可能来自裁员。大多数受访者(63%)预计人工智能将使目前由人类工作人员监管的任务自动化。也就是说,78%的人认为认知技术能让人们做出更好的决定,72%的人和78%的人认为认知技术能提高工作满意度,并“为新的工作方式提供动力”。 这些发现与以前的报告一致。 世界经济论坛(World Economic Forum)、普华永道(PricewaterhouseCoopers)和高德纳(Gartner)预测,到2025年,人工智能可能会裁员多达7500万人。 此外,麦肯锡全球研究所(McKinsey Global Institute)今年预测,需要“低数字技能”的工作比例可能从目前的40%降至2030年的30%,因为需要更高技能的工作比例可能从40%升至50%。 麦肯锡分析师称,这些和其他劳动力市场的变化将导致未来10年国内生产总值(GDP)增长1.2%,并有助于在未来12年获得额外的20- 25%的净经济效益(相当于全球13万亿美元)。 人工智能的担忧 尽管人工智能的应用速度在加快,投资回报也令人印象深刻,但在回应调查时,高管们对人工智能表达了保留意见。 超过20%的人将“网络安全漏洞”列为一个关键问题,43%的人将“基于人工智能/认知建议做出错误的战略决策”列为前三名。与此同时,约39%的人将人工智能在关键任务或生死关头的失败列为他们的担忧之一。 人工智能的法律、监管和道德问题仍然是企业界的绊脚石。十分之一的受访者表示,他们对与人工智能系统相关的法律和监管风险感到高度焦虑,三分之一的高管提到了道德风险——尤其是人工智能制造或传播虚假信息的能力。 德勤表示,这些担忧在一定程度上是由于某些系统固有的不透明性。 “人工智能采用者面临的一个挑战是,机器学习的复杂性越来越高,深度学习神经网络也越来越受欢迎,这种神经网络的行为就像黑匣子一样,常常产生高度精确的结果,却没有解释这些结果是如何计算出来的,”报告作者写道。 认知技术人才——或者说是缺乏——也是一个问题。约30%的高管表示,在他们各自的组织中,人工智能是一个主要问题,超过20%的高管集体表示,他们发现人工智能软件开发人员、数据科学家、用户体验设计师、变更管理专家、项目经理、商业领袖和主题专家都存在不足。 最需要的人才是人工智能研究人员发明新的算法和系统。 该报告的作者写道:“雇佣和培训高能力人工智能专家的需求持续存在。”“拥有这种对人工智能/认知技术的承诺的公司,很可能在很长一段时间内都将面临技能缺口。” 尽管人们对人工智能有着明显的热情,但高管们对所涉及的挑战却持现实态度。约56%的受访者表示,认知技术将在三年内改变他们的公司,低于去年76%的比例。 尽管如此,高管们对人工智能工具的总体反应“相当乐观”。 报告作者写道:“我们相信,高管们已经认识到,使用认知技术来推动业务领域的变革是很复杂的,同时他们也不希望实现这一目标。”“尽管它们面临挑战,但我们调查的许多公司在将人工智能整合到运营和客户关系中并取得早期成功,并获得了经济效益。”他们对自己迄今取得的成功充满热情,对这些技术在不久的将来改造公司的潜力充满热情。   原文链接:Deloitte: 42% of executives believe AI will be of ‘critical importance’ within 2 years
    机器学习
    2018年10月22日
  • 机器学习
    Facebook Workplace增加了算法提要,安全检查和增强聊天功能 文/Ingrid Lunden, Josh Constine Workplace是面向30,000多个付费客户量身定制的Facebook企业版本。如今,为了与Slack和微软的团队竞争,它正在通过一系列新功能提升服务质量。 Workplace的负责人Julien Codorniou在接受采访时告诉我,这一新增活动在一个名为Flow的独立会议上宣布 ,这是Facebook首次为一种特定产品打造的活动,今后可能会越来越多。他将Workplace描述为“ Facebook的第一家SaaS创业公司”。他告诉我们,对于现有客户,Flow的目标是展示新功能,加深员工与Workplace的互动,增加黏性。对于企业软件合作伙伴来说,Facebook整合的目的是建立一个围绕工作场所的生态系统,以便它能适应任何业务。 在对Workplace的“聊天”功能进行大幅升级后,用户现在可以一对一或分组聊天、通话和视频对话,也可以以WhatsApp或Messenger的方式进行。通过添加回复,请勿打扰和固定功能,Facebook还可以更轻松地浏览您频道中的大量邮件——这是Facebook首次为Workplace引入算法排序。Facebook还通过Workchat将主安全检查功能从主应用程序带到Workplace,作为一种工具可由管理员控制,以检查关键事件期间员工的状态。 Workplace自成立以来的两年内已经获得了3万家企业作为客户(包括一些大型企业,如世界上最大的雇主沃尔玛);如今,它还加入了几家著名的大型企业:GSK、Astra Zeneca、Chevron、Kantar、Telefonica、Securitas、Clarins UK、Jumia和GRAB。 但Facebook从未透露过它在Workplace上有多少用户(用企业的话说,就是“席位”)。相比之下,Slack目前在7万个组织中拥有800万用户,而Facebook一年里还没有更新3万用户。 (图:Facebook Workplace multi-company chat) Facebook今天推出的一系列功能,无论是广度还是目标,都值得关注。在功能方面,有些帮助让Workplace更接近Facebook的核心体验,但最终它们的目标都是让Workplace更适合企业已经使用IT的方式。 正在整合的聊天功能基于Workplace中已经存在的最小聊天功能,并且基本上创建了类似于WhatsApp或Messenger的东西,它位于与Workplace相同的安全框架内。这是Facebook向统一通信迈出的第一步——这是企业IT的一个特定分支,曾经以PBX和其他昂贵的物理设备为中心,但最近随着IP和基于云的系统的声音的增加而变得更加虚拟化用于任何互联网连接。 Workplace已经为多达50家公司提供可以在平台上进行多组织对话功能,现在如果这些组中的某些成员希望通过语音或视频呼叫将对话转移到更直接的渠道,可以直接从应用程序内部执行此操作,而无需打开单独的消息传递客户端(可能或可能不在IT的控制之下)。最多50人可以加入Workplace中的视频通话。 这三个功能可以帮助您更好地组织对话——请勿打扰、回复和固定重要项目,特别欢迎那些在Workplace上拥有特别“嘈杂”频道的人。 Codorniou说,回复将“像在WhatsApp”一样工作——您可以在其中选择一条消息并回复它,它将在稍后的Feed中显示其微线程。 但它们可能是最值得注意的,因为它们将是Facebook首次向Workplace引入“算法”排序。对于那些已经使用普通Facebook,Twitter或其他社交媒体服务的人来说,算法排序是众所周知的,因为它会根据帖子的顺序,向你展示哪些被认为更重要,哪些是最新的。 在“钉”的情况下,Facebook允许IT管理员和用户有效地参与算法排序:管理员可以将“重要”帖子钉到Feed的顶部,这将影响用户看到的内容,并首先做出响应。“如果CEO发布一条信息,这可能比发布实习生的信息更重要,”他说。 同时,,“请勿打扰”会让用户设置不会收到消息的时间,但当您再次“返回”Workplace时,Facebook会决定决定你浏览的内容的优先级。 (图:Facebook’s VP of Workplace Julien Codorniou) Codorniou指出,Facebook使用机器学习和AI“确保如果你两周不使用Workplace,也能在新闻Feed上获得相关的信息。”它用于排序的信号你的同事,以及你最活跃的团队。“这是默认的算法,”他补充说,这是Workplace用户提出的要求。“人们不再相信按时间顺序排列的Feed了。”他说,“重要的是要保证与沟通团队的联系。” 安全检查也符合这一概念。在这里,Facebook将把IT managers/Workplace管理员放到驾驶座上,“让他们掌握这项功能的关键”,Codorniou说,而常规的Facebook使用和分发功能则由Facebook本身控制。 Frederic带着一名潜水员在这里进行安全检查,但正如Codorniou向我描述的那样,主要的想法是,当特定地点经历紧急情况时,它允许公司“跟踪和了解谁是安全的,谁不是”。他说,公司可以使用一些应用程序来进行安全检查,有时他们可能会使用SMS,但这些应用程序往往需要更多的手工操作,而且很难快速执行。Facebook没有透露他们的应用程序在沃尔玛和星巴克这样的组织中的渗透程度如何,但这可能成为帮助Workplace更广泛分布的一个杠杆。 “员工是公司的第一大资产,这有助于确保您的安全,”他补充说。“人们不想玩Candy Crush,但像Live这样的东西(去年Workplace推出的游戏)和安全检查是相关的。它们有助于将公司变成社区。” (当然,社区是Facebook最近的一大主题。) 所有这些更新都发生在许多人都在关注Facebook在用户隐私和个人数据方面的做法的时候。 几个月前,剑桥分析公司(Cambridge Analytica)丑闻特别强调了这个问题,尤其是第三方如何能够获取用户信息; 最近两周前Facebook遭到批评,当时有人发现其中一个功能中的漏洞将用户信息暴露给恶意黑客。这些问题都与Facebook的核心消费者应用程序有关,但我不禁想知道它对公司的企业业务产生了什么样的影响——考虑到工作场所网络中的安全级别通常会更高,因为它们是连接到公司信息。 “我们当然有一些问题,但我们没有理由相信Workplace受到了影响,”Codorniou说。他指出,曾经有一个功能是使用用户的Facebook ID登录Workplace,但是这段时间这一功能被禁用了。“我们一直在调查,但大多数客户都是单点登录,”他指出,那些公司使用Okta,One Login和Ping等服务将员工连接并登录到他们的Workplace空间。 Facebook的规模为企业带来了巨大的优势。办公堆栈的消费化意味着Facebook可以轻松移植其熟悉的功能。它足够大,可以在公司内部广泛使用dogfood。而且它已经与许多世界顶级品牌建立了广告关系。但作为一个科技巨头,伴随着相关的丑闻和不断的批评。Facebook将不得不说服商界领袖他们的社交问题不会使他们的形象蒙上阴影。   以上为AI翻译,观点仅供参考。 原文链接: Facebook Workplace adds algorithmic feed, Safety Check and enhanced chat
    机器学习
    2018年10月10日
  • 机器学习
    Workday People Analytics:利用人工智能、机器学习和增强分析的优势 文/Pete Schlampp 有人说,数据是新石油。但是几乎在所有公司,其生成的数据远远超过他们能够分析利用的数据。而在很长一段时间里,Workday的目标都是帮助公司从数据中汲取有价值的见解。从内置报告和分析开始,随着Workday Prism Analytics和Workday Data-as-a-Service的推出,随着数据量、速度和种类的增长,Workday扩大了产品范围,帮助客户充分利用他们的数据。 Workday Prism Analytics致力于开放性和将非Workday的数据引入系统,是您的财务和人力资源团队的数据中心。今年夏初,Workday通过收购增强分析的市场领导者Stories.bi,在分析之旅中又向前迈进了一步。 今天,我们很高兴地宣布Workday People Analytics,是一个全新的应用程序,它将向高管、组织领导人和人力资源业务合作伙伴提供关于他们的员工队伍中最关键的趋势视图,以及了解趋势的最可能的驱动因素。它将利用强大的人工智能(AI)、机器学习和增强分析技术,提供动态创建的关键指标,并伴有解释性叙述——我们称之为故事。   How We Got Here 首先需要一些背景。注意让Workday People Analytics与我们现有的产品一起工作。由于Power of One,Workday有一个数据模型,因此我们的应用程序能够非常轻松地处理有关人员的数据。对于Workday人力资本管理(HCM)的客户来说,Workday People Analytic将利用这些数据进行开箱即用。即使对于那些不使用Workday HCM的客户,他们也可以通过Workday Prism Analytics从任何HCM系统中引入外部数据,因此这些见解仍将可用。   That’s Great, Now What? 其次,我们必须以更好的方式将有价值的信息交给高管。因此,Workday利用了增强分析将许多应用于企业问题的AI功能集合在一起,包括: 自动模式检测功能,可以查找人类可能看不到的重要变化 图形处理以查找大量数据集之间的连接 机器学习预测最重要的问题供您查看 用自然语言来解释一个简单的故事中发生的事情 Workday的人工智能将搜索数百万种可能的数据场景,并确定优先级,以故事形式自动向高管推送个性化见解。故事为正在发生的事情提供了一种自然的语言解释。洞察力可以是积极的,也可以是消极的——它们只是你应该知道的事情。它们会自动地对你的数据进行更深入的挖掘,并告诉你为什么会这样。这为领导者提供了在做业务决策时所需要的基本信息。   See What Matters Most Workday People Analytics是我们第一个使用增强分析的地方。它将为管理人员,组织领导者和人力资源业务合作伙伴提供可操作的指导,将动态创建的故事与静态内容相结合,涵盖组织构成、多样性、招聘、保留和人员流失以及人才和绩效等方面。 您将看到最重要的事情,以便您可以在最短的时间内做出最佳决策。这将使得组织的行动,创新和学习速度更快。 Workday People Analytics不是自动生成针对特定问题的预测,而是提供一种叙述,以指导管理人员在一个广泛的领域中找到聚焦点——无论是具体的团队、位置、客户还是产品线。它使用机器学习来预测和展示真正重要的东西。换句话说,Workday People Analytics会告诉您需要了解的内容。 例如,一位人事主管可能会收到一条消息,表明新员工流动总体上有所增加,他们不仅应该关注伦敦的销售组织,还要考虑薪酬以及特定的招聘经理。该应用程序可帮助领导者专注于影响其业务的最重要问题,并回答以下高价值问题: 招聘过程中的瓶颈是什么? 该组织多样性的五大趋势是什么?我们作为一个社区如何发展? 整个组织可以从哪些卓越的领域中学习? 我们在哪里看到异常高的磨损?它背后的驱动力是什么? 因此,信息负载减少了1000倍——你会发现什么是最重要的,这样你就能在最短时间内做出最佳决策。组织行动、创新、学习更快,形成良性循环。   Future’s So Bright… Workday People Analytics只是一个开始,我们很高兴能够进入数据的新时代,超越自助服务,进入人工智能能够有效预测的世界。未来,我们将在所有Workday的产品中应用增强分析。Workday People Analytics将于明年秋季提供给早期用户,通常在2019日历年末提供。单独销售给Workday HCM客户,它将作为Workday Prism Analytics的一部分提供。我们确信好戏还在后面。   以上为AI翻译,观点仅供参考。 原文链接:Announcing Workday People Analytics: Leveraging the Strength of AI, Machine Learning, and Augmented Analytics
    机器学习
    2018年10月06日
  • 机器学习
    你知道吗?机器学习与 人工智能:它们有何不同? 特伦斯米尔斯  AI.io和Moonshot的首席执行官Terence Mills是AI的先驱和数字技术专家。在LinkedIn上与他联系关于人工智能或移动设备 人工智能和机器已经成为日常生活的一部分,但这并不意味着我们很好地理解它们。你知道机器学习(ML)和人工智能(AI)之间的区别吗? 如果您希望在您的业务中使用其中一种,那么了解哪一项重点关注非常重要。ML和AI是相关的,但它们不相同,并且它们不一定适合于相同的任务。您可以通过了解何时选择ML或AI来将您的业务提升到新的水平。 本指南将向您介绍您需要了解的有关AI和ML的所有信息,以及它们为何与众不同。继续阅读,了解这种现代科技如何帮助您和您的企业。 机器学习与 人工智能:基础知识 以下是这些不同概念的两个简单,基本的定义。 AI意味着机器可以以“智能”的方式执行任务。这些机器不仅仅被编程为执行单个重复动作 - 它们可以通过适应不同情况做更多事情。 机器学习在技术上是人工智能的一个分支,但它比整体概念更具体。机器学习的基础是我们可以构建机器来处理数据并自己学习,而不需要我们不断的监督。 让我们仔细看看这两个概念的真正含义以及它们是如何发展的。 在一开始的时候 毋庸置疑,AI和机器学习相对较新。几十年,几百年甚至几千年前,这些概念可以追溯到某些富有想象力的个体。但直到最近,这些梦想才成为现实。 人工智能的概念在最早的计算机上得到了巩固。当然,这些第一台计算机并没有自己做出任何决定。然而,它们是能够记住信息并进行计算的“逻辑机器”。创建这些机器的人知道他们正在努力制造一台类似大脑的机器。 然而,从那时起技术变得更加先进,因此我们制造类似大脑的机器的能力也有所提高。在过去的几十年里,我们也更好地理解了自己的大脑是如何运作的。 我们越了解这些事情,人工智能的变化就越多。我们的计算机现在可以进行极其复杂的计算,但是现在的开发并没有真正关注那些。相反,人们正在寻求创造能够以类似于人类的方式做出决策并使用这些决策来完成任务的机器。 AI的类型 人工智能有两个主要的子类别。第一个应用AI。这是最常见的AI形式。它包括从智能股票交易系统到自动驾驶的所有内容。 广义AI不太常见,因为它更难创建。理想情况下,广义AI能够处理各种不同的任务,就像人类一样。尽管这些AI并不常见,但许多研究人员已经在广义AI领域取得了进步。 最重要的是,这一小节是导致机器学习发展的原因。 机器学习的成长 由于AI领域的某些突破,机器学习得以发展。 第一个突破涉及认识到教授计算机如何学习比教他们如何执行每项可能的任务并为他们提供完成这些任务所需的信息更有效。 第二个重大突破是互联网的发明。这导致了以前从未见过的巨大的信息存储潜力。现在,机器可以查看由于存储限制而无法访问的大量数据。实际上,创建的数据量太多,人类无法处理。 这两个突破清楚地表明,不是教机器做事,更好的目标是设计它们为自己“思考”,然后允许他们访问在线可用的大量数据,以便他们可以学习。 神经网络的作用 神经网络的出现对于教导计算机像人类一样思考的过程变得至关重要。神经网络允许计算机更紧密地模仿人类的大脑,同时仍然更快,更准确,更少偏见。 神经网络是一种计算机系统,它可以像我们自己的大脑一样对信息进行分类。例如,神经网络可以查看图片,识别图片中的元素,并根据它们显示的内容对图片进行分类。 这些网络使用他们有权访问的数据进行确定。数据不允许它们完全准确,但他们可以根据最有可能做出的决定做出决定。 最重要的是,这些系统涉及“学习”的反馈循环。机器可以查明其决策是否正确,然后改变其方法,以便下次做得更好。 机器学习能做什么? 这些系统的可能性似乎无穷无尽。 ML已经允许计算机查看文本并确定内容是正面还是负面。他们可以弄清楚一首歌是否更有可能让人伤心而不是快乐。其中一些机器甚至可以制作自己的作品,主题基于他们听过的作品。 机器学习的一个主要应用是与人沟通。人工智能领域称为自然语言处理,大量使用机器学习。有一天,这将使公司能够提供与人类客户支持一样有用的自动化客户服务。 机器学习与 人工智能:哪个适合你? AI和ML都可以拥有有价值的业务应用程序。确定哪一个最适合您的公司取决于您的需求。 这些系统有很多很好的应用可供选择,但ML最近得到了更多的宣传,因此许多公司都专注于这种解决方案的来源。但是,AI对于许多不需要持续学习的简单应用程序也很有用。 以上由AI翻译完成! 原论文连接:https://www.forbes.com/sites/forbestechcouncil/2018/07/11/machine-learning-vs-artificial-intelligence-how-are-they-different/#177f00033521
    机器学习
    2018年07月16日
  • 机器学习
    在时间序列预测方面,传统的统计方法往往优于机器学习方法 文/ Paul Cuckoo 今天,如果没有基于机器学习(ML)的解决方案,坐在分析环境中的会议上讨论解决问题的方法是不可能的。这是有道理的;从SVM、CART回归树到神经网络套件(BNN、RNN、LSTM)的ML技术提供了优越的预测能力。当将这种预测能力转换为时间序列预测时,自然会认为这些ML算法应该是首选。好吧,也许不是。雅典国立技术大学的3位预测专家最近发表的一篇论文可能会给出相反的建议; 就时间序列预测而言,ARIMA或ETS等传统统计技术实际上可能提供更好的预测性能。 研究小组利用来自已知数据源M3竞赛数据的1045个时间序列数据子集,测量了8种传统统计技术和8种先进的ML技术的预测性能。他们研究的主要结果,以及艾哈迈德等人早期的研究,如下图所示,其中sMAPE%用作误差指标(越低越好): 统计和ML方法的性能之间有明显的区别。然而,作者进一步考虑了这些方法的计算复杂度。通常,许多统计方法都可以在标准笔记本上几秒钟内运行。相比之下,一些神经网络需要在快速gpu上训练数小时。考虑到这一点,计算复杂度的扩展显示如以下图表: 正如现在所预期的,有一整套统计技术(Holt-Winters, SES等),它们在计算上都非常简单,并且性能良好。作者继续写道: “学术的ML预测文献存在的一个问题是,大多数已发表的研究提供了预测,并声称其准确性令人满意,而没有将它们与简单的统计方法甚至朴素的基准进行比较。这样做提高了ML方法提供准确预测的期望,但没有任何实证证据证明这是事实。” 他们的工作清楚地强调了ML方法更好这一错误假设。这也不需要考虑ML方法减少的可解释性和不确定性管理。正如一位同事最近所言,复杂性不一定是创新。 在OMD EMEA的市场情报部门,我们每天处理各种数据类型和结构,尤其是时间序列数据。尽管ML算法将继续成为我们在所有数据结构上提供的高级分析的基础,但本文的工作表明,传统的统计和计量经济学建模技术仍有很多可提供的,成本非常低。 (以上是我的个人观点,并不一定反映OMD EMEA或任何Omnicom公司的观点) 以上内容由HR Tech China AI翻译,仅供参考
    机器学习
    2018年07月16日
  • 机器学习
    降低AI在企业市场的应用门槛,天云大数据获得1亿人民币新一轮融资 来源| 新芽NewSeed(www.NewSeed.cn) 文|quinn   6月13日消息,天云大数据产品发布暨渠道招募会在京举行,会上创始人雷涛宣布已于18年上半年完成了1亿人民币新一轮融资,本轮融资由由曦域资本、华映资本领投。   天云大数据成立于2010年8月,是国内唯一能够同时提供分布式计算平台产品和AI平台基础设施的科技厂商。 雷涛表示,伴随着云计算和开源软件技术的成熟应用,随着大数据时代的到来,IT(Information Technology)开始向DT(Data Technology)转型,生态面临重新洗牌,这种高大上的“黄金搭档”即将走下神坛。 DT时代的市场逻辑要求直接处理海量数据,因此需要通过更高阶的工具来为企业赋能,(Algorithm)、B(Bigdata)、C(Cloud)即成为了DT时代的技术选择。     随着数字化程度提高,传统规则经验方法已经无法满足更复杂的数字化世界的要求,在大数据时代,难以量化与处理的复杂的高维结构需要更高维的算法来描述,机器学习使人类得以在难以精确描述规则的边界去完成任务。因此IT向DT的转型,意味着从规则流程驱动向数据驱动的转变,重塑生产流程,将复杂业务做重新表达,将传统流程予以改造,用规模化的AI应用提高生产效率、节省时间。     天云与生态中partner合作可分为四种体系: 一是技术转卖,合作伙伴在价值转移过程中获得附加价值; 二是帮助合作伙伴服务转型,由面向Java、DB流程型开发的服务团队,转型成DT时代的Machine Learning数据驱动团队; 三是面向已经进入数据科学的团队,天云提供支持容器化部署docker的微服务Micro service,将数据科学的模型生产过程沉淀、打包成标准可扩展形态的产品,帮助合作伙伴扩大规模; 四是面向拥有数据和场景的合作伙伴,提供数据变现的资本合作。     据腾讯研究院预测,到2020年,市场对AI应用的需求将增长300%,旺盛的需求,偏少的人才供给,导致AI人才成本高昂。只有通过升级大规模生产工具,才有望满足需求。   天云大数据针对这一问题,推出了规模化AI工具, 通过构建支持Auto Machine Learning特性的PaaS化AI平台MaximAI,尝试为客户做AI赋能,减少对数据科学家的依赖,让企业获取机器智能像读书一样简单。   目前MaximAI已经迭代到3.0版本,实现了算法的自动化优化,即Auto Machine Learning。也就是说,客户在选择算法时能更加简单,像基于Android开放应用一样,基于天云的PaaS化AI平台去构建机器学习模型。同时,还可以实现notebook环境下的容器化部署,根据任务类型自动确定算法,特征工程自动化,自动衍生或合成特征,模型超参优化智能化。   经过几次平台迭代,天云平台已能实现模型的智能化生产,真正实现Auto Machine Learning。通过一系列的自动化方法,成功减少了对数据科学家的依赖,降低了AI在企业市场的应用门槛。     据了解,MaximAI 可以广泛应用于金融领域,在大型银行、保险、互联网金融均有成功落地,部署于某大型银行,高风险客户正确识别率高达78%,客户申请欺诈识别率提升20%以上。除金融领域外,在医疗、能源、艺术品交易所也得到了成功验证。  
    机器学习
    2018年06月13日
  • 机器学习
    作为人力资源专业人士,有关机器学习101:您需要知道什么? 文| Rob Scott     在新兴的数字化工作环境中,人力资源发挥着重要作用。人力资源专业人士必须充分了解和掌握机器学习发展的动态,以便有效指导和管理这一过程,Rob Scott写道。   从强调直觉,对新思维,创新和创造力的贡献能力这一积极角度,而非控制他人的负面内涵,我坚决主张“知识就是力量”这句格言。   在当今敏捷的工作环境中,尽管继续教育和学习是绝对必要的,至少可以说,学习与你的教育框架或工作经验完全不同的东西(例如机器学习)是令人生畏的。   对于许多人力资源专业人士来说,新兴的数字化工作环境,正在聚焦于他们的数字和技术技能/意识空白。难以纠正的是大多数人力资源专业人士出身的教育之间存在的根本区别,比如基于社会科学的教育与信息支持技术,以及基于STEM的数据科学工作。   在接下来的几年中,诸如RPA,机器人,机器人和机器学习(AI)等先进技术的涌入,将继续改变我们的工作方式,改变我们应对业务挑战的方式,以及改变我们分析和制定决策的方式。   加上认识到技术不会在短期内取代人类,而是增加我们的工作,人力资源专业人士必须提高他们的技能,才能在数字和人工智能领域有效运作。   “对于许多人力资源专业人士来说,新兴的数字化工作环境正在使他们的数字和技术技能/意识空白问题倍受关注。”     有些人可能通过聘用数据科学家和架构师来解决这个问题,而不是提升现有员工的人力资源功能。这种方法没有任何问题,然而受过STEM教育的资源都集中在人力资源领导者,例如人力资源分析报告,他们在教育或欣赏方面几乎没有共同点,可能会造成短期和长期问题。   正如今天的人力资源专业人士学习“促进非财务管理人员的财务”一样,促进共同理解,洞察力,参与有意义的金融类讨论和决策制定的能力,对于人力资源专业人员同样重要的是:在关于学习基于STEM的主题上,抛开任何担忧和误解。   对数据模型,机器学习方式,问题类型,风险和机会有正确的洞察力和理解力,可以提升他们作为人力资源领导者的地位,并使您能够充分利用受过STEM教育的员工。   作为一名具有社会科学背景的人员,我决定将其付诸考试,并登记参加免费的Google'机器学习(ML)速成班'。   这是一个14小时在线自学课程,其中包括一些技术性的编程。以下是我的主要观察和学习内容:   事后看来,这并不像我想的那么困难,因为我最初完全没有预估到我的能力 - 但是我坚持了。我没有选择完全理解和记住所有数学或完成编程任务。但是,我花了大量的时间来了解公式和程序的目标。随着课程的进展,我发现自己认识了一些数学术语,并开始理解为什么方程很重要。   “当前的人力资源专业人士应紧急寻求基础培训机会,以建立他们的见解”     我对学习数学有先入为主的抵触情绪,归因于对学习成绩的不满。老生也有可能学习新的技巧。   我发现ML概念很容易理解,课程设计的方式(视频,支持笔记,练习,测试等)支持成人教育实践。我有信心进行有关机器学习的概念性讨论,制定分析结果,数据类型和来源的重要性,验证,培训和测试。   然而,我真正学到的是,没有类似AI这样的东西......这都是聪明的数学,但也有很多原因,例如基于各种数学假设以及个人感知的偏见,机器学习算法可能是有误的。了解基本的风险因素使我能够提出正确的问题。   人力资源专业人士和数据科学家,彼此需要利用数字化成果,才能取得成功。对我来说,显而易见的是,据数据科学家的技能特征,不适合提出正确的人力资源类型问题。   正如人力资源专业人士需要学习机器,学习基础知识一样,数据科学家需要学习人力资源的基础知识,以促进有意义的讨论,决策和有益的结果。 以上内容由HRTech AI编译完成,仅供参考  
    机器学习
    2018年06月12日
  • 机器学习
    机器学习淘汰简历的五个理由 文| Louis Columbus   由于现有申请人追踪系统(ATS)的不准确和缺陷,全国的猎头公司错过了50%或更多的合格候选人,科技公司错误地分类了80%的候选人,说明在招聘方面,这些系统存在多么大的缺陷。 那些平均需要42天的时间才能完成任务,并且需要60天或更长的时间才能填补专业技术技能的职位,这些职位的平均成本需要5,000美元。   在招聘人员筛选后,女性申请人有19%的概率被淘汰,30%的人在现场面试后被淘汰,导致每个公司大量丧失本需增长的智囊团。   现在是招聘过程变得更加智能的时候了。 招聘部门需要更多地融入情境智慧,洞察力,评估应聘者掌握所需技能,而不是根据候选人的简历来评判他们过去取得的成就。   通过更多基于机器学习的情景智能来丰富招聘流程,可以发现非常优秀的,并且具备超出招聘经理预期的智力技能的候选人。     机器学习算法还可以删除候选人的任何道德和性别上的身份识别信息,并让他们纯粹根据专业知识,经验,优点和技能进行评估。   目前全球的招聘流程500多年来都没有改变。   从达芬奇1482年的手写简历可以看出,他能够搭建桥梁并且提供赢得战争胜利的帮助。这位创造了蒙娜丽莎,最后的晚餐,维特鲁威人以及无数的科学发现和发明背后的天才推动了世界的现代化进程。     追求新职位的申请人一直在顽强地藐视创新。   ATS应用程序和平台对入境简历进行分类,并根据他们在简历上看到的技能,为候选人提供排名。   需要深入了解的是哪些管理人员具备领导才能,哪些候选人正在掌握和以何种速度掌握技术技能优势。   机器学习扩大了招聘公司在候选人的简历中看到的能力范围,从而超越了简历的障碍。投资回报率(ROI)通过加强招聘决策并以更大的智慧制定更好的招聘决策。   包括雇用时间,雇佣成本,保留率和绩效在内的关键指标都将在依赖更大的情境智能时得到提高。   超越简历,赢得人才大战   上周,我有机会与全球领先的技术智囊团之一的人力资源副总裁进行了交谈。   从现在起,他专注于他的组织需要的数百名技术专业人员,他们将在六个月,12个月和一年多的时间内为员工提供令人兴奋的新研究项目,这些项目将提供有价值的知识产权(IP),包括专利和新产品。   他们的方法始于寻求理解当前高绩效企业的概况和核心优势,然后在申请人社区和更广泛的技术社区寻找与理想候选人的匹配。   机器学习算法非常适合完成对高绩效人员和候选人的能力的比较分析,在比较完成时将其整个数字角色考虑在内。   下文说明了eightfold.ai人才智能平台(TIP),说明了它与公众可用数据,内部数据存储库,人力资源资源管理(HRM)系统,ATS工具的集成方式。     高绩效人员与申请人的特征进行对比分析需要数秒钟才能完成,提供了一份完整的档案。     根据机器学习得出的符合高绩效人员特征的潜在雇员情况,可以提供比任何简历都更好的背景情报。采用综合方法创建人才智能平台(TIP)可获得当今典型的招聘或ATS解决方案无法提供的洞察力。     下面的概要反映了将机器学习应用到候选人的综合数据集时可能出现的情境智能和深度见解。请点击图片展开以便阅读。以下配置文件中的关键元素包括以下内容:   职业生涯成长曲线 - 说明一个给定的候选人的职业进步和表现,与其他人进行的比较。   关于公共站点的社交关注 - 实时了解候选人在Github,Open Stack以及技术专家可以分享其专业知识的其他站点上的活动。 这也提供了他人如何看待他们贡献的辅助信息。   与正在审核的工作相关的背景要点,提供与简历中候选人历史记录中最相关的数据,以便招聘人员和经理可以更轻松地了解自己的优势。   近期出版物 - 出版物提供对过去10至15年或更长时间内当前和以前的兴趣,重点领域,思维模式和学习进展的见解。   专业重叠,可以更容易地验证履历中记录的成绩 - 实时职业数据的多种来源可以验证并提供更好的背景和洞察简历列出的成就   关键是了解候选人能力正在评估的背景。 而一份2页的简历绝不会给予候选人足够的自由度来涵盖所有的基础。   对于大中型企业来说 ,如果手动完成这项工作,跨所有角色,所有地区,所有候选人来源,所有在线申请,大学招聘,公司内部重新招聘,内部流动现有员工以及所有招聘渠道。   这是机器学习可以成为招聘人员,招聘经理和候选人的盟友的地方   机器学习使简历过时的五个原因 通过降低成本和招聘时间,提高招聘质量,以最优质的人才招聘新员工,所有这些都可以促进收入的稳定增长。   单凭依靠简历就像在打一个不好的Skype电话,你只能听到谈话中的每一句话。使用基于机器学习的方法为雇佣决策带来更高的敏锐度,清晰度和可见性。 以下是机器学习使简历过时的五个原因:   简历就像反映过去的后视镜。   企业所需要的更多的是关注某人的去向,什么(能激励他们)以及他们自己着迷和学习什么。简历是后视镜,而我们需要的是基于目前的兴趣和才能,展现他们未来的前景。   依靠一个有着500多年历史、陈旧的招聘流程,我们无法知道候选人获得什么技能,技术和培训的动力。   特定领域掌握的深度和程度并不反映在简历中。   通过将多种数据源整合到候选人的统一视图中,从专业发展的角度来看,他们有可能看到他们正在成长的最快的领域。   游戏机器学习算法是不可能的,考虑到候选人可用的所有数字数据,而简历有一个可信度问题。   任何雇佣下属,员工和参与雇佣决策的人都会遇到找到一位有前途的候选人。然后经历失败的失望。   简历与招聘人员进行比较,他们说至少有60%的简历夸大其辞,有时候会对他们有所影响。使用像TIP这样的平台将所有数据考虑在内,这显示出真正的候选人及其实际技能。   现在是时候采取更多的数据驱动方法来消除无意识偏见。   今天的简历带有内在的偏见。招聘人员,招聘经理和最终面试组的高级管理人员会根据个人的姓名,性别,年龄,外表,所参加的学校等情况,制定了无意识的偏见决策。   了解他们的技能,优势和智力核心领域更有效,所有这些都是更好地预测工作绩效的指标。   降低糟糕的招聘风险,从而快速导致人才流失。   最终,每个人​​都会根据他们的最佳判断招聘部分人员,部分原因是他们的经常无意识的偏见。这是人性。   随着更多的数据,减少外聘的可能性减少,从而降低通过新租赁进行搅动的风险,并且花费数千美元聘用然后替换他们。   拥有更好的情境智能降低了招聘的下行风险,通过用可靠的数据显示一个人是否有资格担任某个角色并消除他们的背景优势,技能和成就来消除偏见。   造成无意识偏见的因素包括性别,种族,年龄或任何其他因素都可以从简介中删除,因此候选人只能评估他们在考虑的职位方面的优势。   底线: 现在是彻底改革简历和招聘流程的时候了,他们通过用机器学习所带来的更多背景情报和洞察力,重新定义简历和招聘流程,将它们重新定义为21世纪的招聘。   以上内容由HRTech AI编译完成,仅供参考  
    机器学习
    2018年05月24日
  • 机器学习
    微信的机器学习与人工智能应用实践 编者按:本文来自InfoQ(ID:infoqchina),作者:张重阳,编辑:小智。2018 年 1 月 13-14 日,AICon 全球人工智能与机器学习技术大会在北京召开,微信小程序商业技术负责人张重阳应邀担任本次大会的联席主席,发表演讲介绍了人工智能应用落地过程中的 4 个"in",并结合在微信的实践案例做了深入的讲解。以下为演讲全文。 图为张重阳AICon演讲现场 写在前面 大家好,我是来自微信的张重阳,很荣幸有这个机会和大家一起交流一下机器学习和人工智能技术在微信的应用实践。谈起人工智能,大家首先想到的是图像识别、语音识别、机器翻译、机器人这些技术,然而人工智能所涉及的应用场景和商业价值却远不止此。在日常的经营和管理中,任何一个企业都会维护客户关系,都有销售数据需要分析,都会在生产,销售和运营的各个环节中面对不同的决策问题,新一代的商业智能技术就是利用现在飞速发展的机器学习和数据分析技术对企业商业化过程中面临的各种问题给出自动化的智能解决方案,从而驱动业务快速增长。 我们来看一下智能技术在商业过程中解决问题的 4 个重要环节,我这里总结了 4 个“in”,首先我们叫 integration,就是针对需要解决的问题收集和整合已有的数据。这里所面临的挑战主要有两个,首先是如何在计算机中表示数据以便于存储和计算,另一个是在我们实际应用中如何处理保密数据,比如财务数据,或是当我们处理用户数据的时候如何保护用户隐私,有没有什么方法对数据进行处理后既起到保密的作用又不影响计算机使用? 有数据后就是用统计和机器学习的方法去解决问题得出问题的最优解,这步我们叫 inference,不同于学术研究,在实际应用中我们会将多个模型进行组合使用取长补短从而得到更好的效果,稍后我会结合实例说明, 在有了 inference 结果之后,实际应用中不能只给一个预测结果,而是要结合数据对模型的预测结果进行更深入的分析和解释也就是 interpretation,这也是最近两年在深度学习之后比较热门的方向,因为深度学习虽然在整体的数据结果上取得了很不错的效果,但偶尔会在个别样本上给出令人难以理解的结果,有没有什么方法对深度学习这样的复杂模型进行解释,我将在后面介绍一种对黑盒模型进行解释的方法。 解释之后,该发现的问题找到原因,那么我们就要结合人工的知识和实际环境制定策略,并用自动化测试的方法去验证效果,这步我们叫 investigation,这一步其实最复杂,因为要结合人工知识而且在各个业务场景中验证方法都不一样,由于时间关系我这里介绍一种通用的方法 ABtest,ABtest 无论是在传统行业还是在互联网公司都已经被使用了很多年了,是一个非常有效的产品测试方法,但是即便是这种被广泛使用的方法,也需要根据实际应用场景进行设计,比如我们在微信上使用的很多产品是社交化的不能完全独立的分成 AB 两个集合,有时在小样本测试下有效不能保障放量后继续有效,后面我会给大家介绍一种我们改进的方法 Ntest。 好,说了这么多,我们先来宏观的看一下,在微信平台上我们正在做哪些尝试,这个图我 2015 年的时候就在 InfoQ 上分享过,当时我们的工作重点是在精准拉新这部分,因为当时在做朋友圈广告,但是拉新只是商业化的第一步,有了用户后,如何通过数据分析和自动化的方法做精细化运营降低用户流失率并提供个性化的服务提高产品体验才是企业成功的关键。 大家都知道小程序是微信生态的重要一环,因为它的便携性商家可以在微信小程序上以极低的成本获取用户,下一步我们还会依靠微信的大数据处理和机器学习的能力结合我们丰富的用户画像体系逐渐提供相关的分析工具和自动化测试工具帮助商家做好精细化运营提高用户体验。比如现在很多商家的促销展示对每个用户都是一样的,如果平台可以分析出当前用户里面哪些是最有价值的用户哪些是即将流失的用户,并提供一些自动化的测试工具验证运营效果,相信可以帮助商家大幅度的降低运营成本提高运营效果。今天我将结合其中的用户画像,流失预测,流失分析和 ABtest 相关技术和大家一起探讨一下微信在商业智能技术 4 个“in”上的技术实践。 整合 Integration 先看数据整合 integration,这里我介绍一下实际应用中最常用到的用户画像技术,对一个企业来说最重要的资源无疑是它的用户,提供个性化和自动化的服务和产品必然需要足够的了解用户,那么用户画像就是用户在计算机中的表示形式。这里的挑战首先就是表示的方法,将用户表示成什么样的结构才方便计算机使用,另一个挑战是如何保护用户隐私,虽然我们对用户的敏感数据进行了脱敏,但用户的特征越多越容易反推回单个用户,有没有什么方法既能保护用户隐私又不影响计算机的使用? 先看用户画像的表示方法,用户画像的目的是为了在不同任务中度量用户和用户之间的相似度,那么通用的做法是将每个用户在数据库中表示成一个向量,向量和向量之间的距离有很多种数学方法计算比如常用的欧式距离和余弦,但实际使用中会根据不同应用场景定义相似度函数,或是在实际的数据上用机器学习的方法去拟合这个函数,有了这种对不同用户相似度度量的方法我们就可以做用户分类和聚类,或是提供对相似的用户推荐相同的商品这样的服务。 但是这个将用户转成向量的过程,在实际中却是非常复杂的,如果都是简单的标签那么常用的 onehot 编码就可以搞定,但很多数据是有结构的,例如微信中社交关系是一个网络结构,用户和公众号的关注关系是一个二部图的结构,用户的兴趣是一个随时间变化的序列结构。 我们在实践中社交关系这种网络结构使用了 node2vec 的方法转换成向量,使用的时候有些提高效果的小技巧比如好友关系其实是有权重的,好友和好友之间相互点赞和评论的越多权重就越大。 公众号的关注关系其实是一个稀疏矩阵,我们把每个用户关注的公众号作为一个词,把一个用户作为一个文档看待,这样就可以使用通用的主题模型给每个用户打上主题标签,推荐大家使用袁老师的 lightlda,非常适合大规模数据的训练,还有短期兴趣这种序列结构,文本,图像这些数据都可以用深度学习的方法 embedding 成向量,那么最终把这些向量拼接到一起就是计算机可以使用的用户特征向量。 上面的方法编码后,每个用户特征的维度是很高的,这意味着实际使用中需要足够多的训练样本否则就容易过拟合,但实际使用中用来训练的用户集大多数时候是非常有限的,要让算法支持较低的样本输入,必须要对初步编码后的用户特征向量做降维,现在有基于深度学习的 auto-encoder 的方法,在实际使用中我们发现它的效果比传统的 PCA 好很多,降维的另一个好处是对传统的标签进行了压缩和隐藏,压缩完成的向量不影响用户相似度的计算,但维度上比原始的向量小了很多,每一维的数值并没有实际的物理含义从而保护了用户隐私,便于在公司内进行共享使用。 关于用户隐私保护的问题这是公司内在处理用户数据时遵守的原则,文字比较多我就不念了。 推断 Inference 对数据整合和编码后,下一步我们要使用统计和机器学习的方法去求解问题也就是 inference,这里我们来说 lookalike 这个模型。 lookalike 在商业化方向上有很多的应用场景,lookalike 最早是用在社交广告上的,通过商家上传的种子用户包扩展更多的相似用户用于做广告受众,广告投放中它的效果远好于标签筛选出来的用户,但是 lookalike 的本质是通过已知的一堆样本在另一个集合上去找相似的样本,同样的也可以用在流失预测上,我们知道上个月到现在已经流失的用户,在现有的用户群上做 lookalike 相似性扩展就可以找到正在流失或下一步可能流失的用户,lookalike 对线下店铺的智能运营也很有作用,我们通过已有用户在大盘全量用户上做 lookalike 就可以算出各个地方潜在的客户群体有多大,lookalike 不光用来找人还可以用在商品上,我们可以通过热门商品去商品库里面扩展找类似的商品,这就是智能选品的问题。 这是 lookalike 人群定向系统的大致流程,我们从种子包里过滤出我们自己系统里面的重合用户也就是这里的目标用户,同时从全量用户的其他用户中采样出一些用户作为对比用户,再从用户画像系统里提取出用户特征,这样我们有了一个 label 的正样本数据和一个 unlabel 的数据,可以用 PU learning 或是二分类的机器学习方法训练出模型,模型上线使用后,会有实时的反馈数据,我们会利用这部分实时数据再训练一个综合打分的算法,对线上的模型结果做出实时的调整。最终用这个最终打分对全量用户排序选出最相似的用户。 这里我们看一下 lookalike 打分算法的模型训练部分,前面说了不同于学术研究实际应用中很少使用一个模型,我多年的体会训模型和画画很像,你很难用一个笔刷完成整幅画作,刚开始的时候需要用粗的笔刷完成大的布局最后再用细的笔刷去勾勒细节。 在机器学习中常用的模型整合方法有 ensemble 和 jointtrain,lookalike 中比较通用的方法是左图这种先用 gbdt 学习特征再传给 LR,FM 或 DNN 的方法,之后 google 用了这种对 LR 和 DNN 进行联合训练的 wide&deep 模型。如果人工特征设计得好是可以结合两者优点取得非常好的效果的。我们系统实际使用的是右图这种 ensemble 的方法,因为 gbdt 是一种基于 boosting 的学习框架,那么理论上它可以 boost 任何模型,当然包括 dnn,这样就可以将这两种模型的优点结合起来了,他的训练方法是先训一个 dnn,这里不需要用太多的层数相当于用粗的笔刷去完成大致的轮廓,然后用 gbdt 进行 boosting,这相当于用更细的笔刷去刻画细节。 我们看一下 lookalike 应用的一个具体实例,lookalike 被广泛的应用于精准拉新,但我觉得相对于拉新降低用户流失率更重要,因为新用户可以通过广告或地推等方式花钱买到,但已有用户一旦流失就很难挽回,所以必须在流失之前采取措施。常用的激活策略有很多,比如促销商品,发优惠券或发红包等,假如有商家要拿出一笔钱给用户发红包,那么怎么花这笔钱呢?显然不是等用户已经流失了再发给他,因为这时用户已经不再打开应用了,等同的给每个用户发也不合理,因为预算有限。那么常用的方法是发给对平台有最有价值的用户和有可能要流失的用户,所以要做用户价值分析和流失预测。 这张图是流失预测和流失分析的流程图,我们使用刚流失的用户在当前的用户上面做 lookalike 就可以得到正在流失或即将流失的用户,在流失预测之后的流失分析是很必要的。因为流失有很多种情况,不同情况采取的策略是不同的。那么怎么做这个流失分析呢?这就是我们下面要讨论的问题。 解释 Interpretation 我们继续上一节的话题以流失分析为例看一下第三个“in” interpretation。 模型的可解释性和精度同等重要,这是机器学习在实际使用和学术研究的一个重要区别,因为我们可以从解释的结果中发现模型本身是不是靠谱,这样的解释结果更容易说服模型的反馈对象有助于模型的推广。另外模型的使用者可以从这个结果中发现问题从而针对性的制定策略比如我们刚说的流失分析,其实在某些领域比如医疗和金融,不可解释的模型是无法推广的。 那么有没有一种方法可以同时得到比较高的精确度和可解释性呢?这其实是个鱼和熊掌的问题,因为模型的能力越强就越复杂越不容易解释,右上这个图说明了这种情况,横轴是模型的精确度,纵轴是模型的可解释性,可以看到可解释性很好的线性模型和决策树模型精度并不高,精确度很高的神经网络和深度学习解释性最差。 KDD2016 的一篇文章给出一个很新颖的方法,既然鱼和熊掌不可兼得,能不能用高精度的模型去解决问题,再用一个可解释的模型去解释这个高精度的模型?那么问题来了,可解释的模型一般非常简单比如线性模型,它无法去拟合像 DNN 这样一个非线性模型,例如右上图的这个分类结果,这篇论文给出了一个很新颖的算法 lime,因为无论模型多么复杂,每次也只需解释一个样本的预测结果,而非线性模型在单个的样本的局部是可以用线性模型近似的。 但是这样就有另外一个问题,要在这个样本局部进行拟合必须在这个样本周围有足够多的训练样本,lime 的做法是对样本的某些特征进行一些扰动产生一些新的样本,再用之前的高精度模型对这些样本进行预测。这样就产生了很多由高精度模型标注的样本,而且我们可以计算出每个生成样本和我们要解释的样本之间的距离,这时就可以用可解释的线性模型比如 lasso 对这个样本的局部进行拟合和解释了。 这是用户流失分析系统的框架,通过前面说的模型进行用户流失预测后得到了正在流失的用户和忠实用户,这里需要注意的是我们对用户特征做了 encoder,所以在解释的时候需要映射回之前可解释的特征表示并和编码器一起传给 lime,就可以对每个用户的流失预测结果进行解释了。我们会对全量用户的解释结果再用算法进行一次聚合,分析出正在流失用户和忠实用户整体的特征并将这个结果可视化的展示出来。 这是我们对一款游戏类小程序的用户流失分析结果的可视化展示,可以看出主要是学生用户正在流失可能是由于最近快期末考试了,我们还可以对这些用户进行聚类,右上角是在二维平面上的可视化聚类结果,使用者还可以再次下钻到各个子类中针对各个类的特点制定相应的运营策略。 调查 Investigation 有了分析结果后就是要结合人工知识制定策略并用自动化的方法在实际环境中验证结果我们叫 investigation,这里介绍一种 ABtest 的改进方法。 ABtest 源于医学的双盲实验,在互联网时代,它被广泛的应用于网站改版和产品升级后的效果测试。相对于观察上线前后的数据,abtest 可以有效的排除季节因素、市场环境因素的影响,现在 ABtest 也被用来分析不同广告或运营策略的效果。比如刚说的流失问题,我们分析问题后设计了一个降低流失的策略,要看这个策略有没有效果就要放到线上的真实环境中去测试,这是传统的 ABtest 的流程。 之所以叫 ABtest 是因为在实验时会将实验的用户分流成不使用策略的 control 和使用策略的 treatment 两组用户进行对比观察,这里有很多技术细节比如在多个实验并行进行时的正交分层模型,对 control 和 treatment 的同质校验,结果的显著性分析等,有很多论文讨论这些问题。我这里重点和大家一起交流一下在社交网络中的一些问题和改进方法。 在社交网络上要将用户分成两组完全独立的 control 和 treatment 是很困难的,因为用户和用户之间相互影响,比如我们微信上可以分享给好友的立减金,微信电商类小程序采用的拼单和组团的这种促销模式,这些红包和促销商品会在好友和好友之间传播,最终可能导致 control 和 treatment 都变好了或是都变差了。另外一个问题就是灰度实验的时候,在一个小的用户量下实验有效,在放量后会不会继续有效,因为放量后投放的密度变大了用户和用户之间的影响更大。这种影响可能导致之前的策略不起作用也可能导致之前的策略的效果成指数的放大。那么这个问题就变成了如何测试投放密度和实验效果的关系。 我们针对社交网络的特点设计了一种改进的策略 Ntest,和传统 ABtest 不同,Ntest 不是以单个用户作为测试单位而是以几十人到几百人的子网络作为测试单元,每次实验选择 N 个子网络作为实验组,并在各个实验组上采用不同的密度投放实验策略。最终对每个子网络计算实验指标,我们将这 N 个子网络的指标和密度的关系绘制在坐标系上,就可以分析出指标随密度变化的趋势,右图是常见的三种情况,横轴是策略在子网络上投放的密度,纵轴是当前指标的效果,上面这个图随着密度增大效果整体呈上升趋势,说明策略和当前指标是正相关的。同理这下面是负相关和不相关的大致情况。 写在最后 最后我们总结一下机器学习方法落地实践的心得。 首先是我们要针对问题对数据进行整合和编码使其易于计算,数据整合后用多个模型组合使用可以取得更好的效果,对模型结果的分析和解释在模型推广时非常重要,最后任何结论都要回到实际业务场景中验证效果。 作者介绍 张重阳,微信小程序 商业技术负责人。2014 年加入微信,先后负责用户画像建设,lookalike 人群定向,微信斑马系统,小程序广告系统,小程序商业化技术,专注于自然语言处理,计算广告,机器学习,数据变现等技术方向,加入微信前曾就职于微软、科大讯飞从事自然语言处理、语音、搜索推荐、计算广告等技术研究。
    机器学习
    2018年01月22日
  • 机器学习
    AI只是巨头的“玩具”?中小企业主应用AI可以在5个方面受益 人工智能(AI:Artificial Intelligence)和机器学习(ML:Machine Learning)常常与谷歌和亚马逊等技术巨人联系在一起,因为这些大公司创造了最流行的机器学习平台。由于高效的人工智能/ 机器学习解决方案需要大量数据来训练,小公司因为这些昂贵的成本,往往不愿意将人工智能融入他们的业务流程中。我认为这些担忧被夸大了,现在把你的小公司变成一个全面的数据驱动公司,可能比你想象的更容易。为了证明这一点,这里有中小公司如何启动AI的五个简单技巧。 智能的CRM CRM系统旨在通过不同渠道(例如电子邮件、电话、社交媒体)收集有关消费者的信息,为销售人员提供一个集成的环境,以便管理与当前和潜在的消费者互动情况,并自动营销和指导行动。 如今小企业可以受益于Salesforce平台提供的智能功能。2016年,Salesforce推出Einstein AI平台,它允许开发者将AI功能整合到Salesforce的CRM应用上。Einstein AI可以帮助中小企业记录电话交谈、电子邮件、社交媒体帖子和客户评论内容,进而分析消费者情绪,评估客户反馈,并据此调整营销和组织活动。利用这些平台,小企业的销售人员可以更好地了解客户意图,查询自动获取的销售线索,最终达成个性化营销。借助人工智能CRM,小企业可以从客户数据中自动获取更多的信息,使他们的营销和销售团队更高效,消费者更满意。 目前国内市场中,CRM服务商销售易和百会CRM(Zoho中国)都提出了智能CRM概念,但是其智能能力多集中在相似客户推荐和优化重复性工流程等方面,对客户动态理解等方面还存在能力缺失。Salesforce推出的Einstein AI平台,在管理和分析客户内容方面,更类似国内一些营销云的功能,对inbound(域内流量)和outbound(域外流量)进行分析。 智能客服解决方案 如何高效的提供客户服务是保持客户满意的关键组成部分。然而,客户服务质量可能随着枯燥和重复性的工作而恶化,客服人员希望专注于提供独特的支持消费体验。 为了使客户服务更高效,小企业可以将AI能力集成到内部客户服务系统中。例如,像DigitalGenius(结合人工和智能的客服,2016年获得410万美元融资)这样的企业,可以帮助客户通过邮件、社交网络、短信、聊天界面管理客服咨询。以人工智能的方式自动回答问题,或者快速将回答建议分配到人工团队,由人工修改后回答客户问题。通过在客户服务中使用人工智能,小型企业可以从根本上减少重复问题和平均处理时间,从而达到提高员工和客户满意度的最终目标。 DigitalGenius定位服务于SMB,支持接入Salesforce、Zendesk、Oracle等主流客服平台,国内缺乏类似模式的智能客服企业。不过智能客服在国内是相对成熟的领域,企业有几十家可以选择,比如Udesk今年11月份推出了智能客服大数据平台Udesk Insight;阿里网易七鱼的“一触即达”功能,可以让智能客服机器人具有上下文理解、多轮会话能力,在智能能力表现上都可圈可点。 智慧营销 有效地管理营销预算往往需要深厚的专业知识,这就给小企业带来了额外的人力成本。幸运的是,现在的小企业可以通过人工智能解决方案来有效地使用预算。小企业可以委托Acquisio(以机器学习技术管理中小企业的广告)管理营销活动和营销业务,Acquisio通过多种渠道(如广告、脸谱网、Bing),分析广告表现并做出合理的建议,最终在PPC(按点击付费)效益最好的渠道分配预算。 利用多重算法分析客户与市场竞争对手之间的关系,这样的人工智能营销解决方案可以让小公司找到最好的营销策略,并大大减少CPC(投放的广告被点击,需要支付一定费用)要付出的高昂成本。智能商业工具和预算支出的合理管控意味着节约了额外的市场营销人员成本。 国外数字营销领先国内很多,比如Adobe、Hubspot等企业体量多在数十亿美元。国内数字营销的领先者是BAT等企业,比如阿里妈妈智能营销引擎——OCP“X”(包含OCPC、OCPM),以超大规模机器学习,智能计算每一个PV的流量价值,从而合理出价。 智能的竞争情报供给 当友商产生或者更新的内容达到每一天几百字节,便可能很难追踪他们的策略。但了解竞争对手和市场趋势,对于保持竞争力至关重要。 幸运的是,像Crayon这样的人工智能竞争分析工具可以帮助你解决这一难题。Crayon可以在不同的渠道(网站,社交媒体,网络应用)跟踪你的竞争对手,与强大的自然语言处理和商业指标相结合,分析其价格变化、微妙的信息修改和公关活动,这种功能可以让小企业更好地了解竞争对手的战略变化。此外,AI使竞争情报包括强大的分析功能,可以即时识别竞争对手产品的缺口,弱点和长处,及时反馈来调整自己的经营策略,防止被竞争对手超越。 据了解销售易近期发布智能CRM产品,可以智能整理企业客户的雷达图,包括企业体量、业务方面多维度信息聚合体现。另外会提供客户业务和人员变动信息,提醒商务人员适时关注这家企业。但与Crayon Data能分析竞争对手的优劣点及战略调整,还是本质不同,遗憾的是在国内并没有发现能提供类似功能的公司。(Crayon Data类似一些舆情大数据公司,但国内舆情公司多应用在政务领域) 成熟的智慧商业解决方案 如今,小型企业可以将AI工具嵌入到涉及数据的业务流程中。利用最先进的倾向性分析、分类和预测算法,小企业可以立即从他们的任何数据中提取有用的商业见解。 例如,像Monkey Learn(文本机器学习服务商)这样的人工智能工具,小公司可以在谷歌表格、CSV和Excel数据中使用倾向性分析和实体提取等方法,而无需任何编码。它易于集成,而且该平台还支持自动分类、标记和处理票据,以及对入站电子邮件和其他通信信息进行分类。该系统还可以用来分析产品的评论,分析其中实用的商业见解并将其提炼成有用的报告。所有这些特性,将节省小企业审查其相关数据所需的成本和时间。 将企业内部数据处理自动化,是当前的大数据领域比较火的一个领域。在文本数据挖掘方面,相关的案例有达观数据帮助大型企业自动化整理内部的文档资料,将合同文件结构化。如Monkey Learn对企业多种资料和外来信息进行分析理解。目前国内类似的服务商很稀缺,因为提供这种服务的技术门槛高,部署过程复杂。 当前AI /ML市场蓬勃发展,中小企业有更多的选项来启动他们的AI策略。小型公司可以使用便捷的接口和高效的机器学习功能,将他们的数据和工作流程接入到智能平台,而不是雇用科学家和营销专家做额外的工作。与商业智能相结合的工作流自动化将节省小企业的时间和成本,同时使他们在新兴的数据驱动经济中保持竞争力。 本文翻译自:https://www.entrepreneur.com/article/302655
    机器学习
    2017年11月29日
  • 123