• 大数据
    东软刘积仁:忽略了数据,你就没戏了 【文章来源:钛媒体】 2014中国绿公司年会“改变的年代:现实与远见”于20日至22日在广西南宁举行。东软集团股份有限公司董事长兼首席执行官刘积仁在分论坛《“大数据”时代的新商机》上发言表示,大数据来自于跨越了某一个行业的界限的时候,使得这个数据的价值更加大。一个人天天到酒吧的信息和到医院彩超做了肝的扫描的信息结合在一起,是可以判定出他肝的问题是喝酒造成的,还是别的问题造成的。 他还表示,最近这几年,是人类历史上用最低的成本可以获取数据的时代。这种低成本导致了,加上行业之间的数据如果界限被打破,可以精准到人的性别、年龄、消费行为,过去和未来,通过大数据能算准客户的消费行为。 以下为刘积仁发言实录: 刘积仁:首先大数据和经营之间的关系。第一个,肯定是它创造价值,我们利用数据创造价值,这是所有企业现在充分的认识到的。 创造过程中有个特点,是我们在这个时代可能是前所未有的。第一个就是它的准确性,当你通过这些数据的分析能够准确的识别目标,包括谁是你的客户,客户的属性,是男的还是女的,今天买什么,明天可能买什么,过去消费习惯等等这些数据如果你都能获得了,当然为你很快、很准确的掌握客户十分重要。 如果你看一个客户买了一个飞机票,信用卡支付,如果看到他在法国定了一家酒店,昨天在哪买了一个包,可以判定这个人可能是旅行者,是度假者。这是一件事。 大数据不是大,是有意义的意思,当你获得更多有意义的数据,大的数据,这是判断基础。第二个基础,当这些数据来自于跨越了某一个行业的界限的时候,使得这个数据的价值更加大,一个人天天到酒吧的信息和到医院彩超做了肝的扫描的信息结合在一起,是可以判定出他肝的问题是喝酒造成的还是别的问题。 这个关联性,往往现在很多数据都是孤岛,当这些数据关联越来越联系起来的时候,这个问题就使得我们的判断更加准确。 另外,今天的数据结构上越来越复杂,过去看到的数据是短信等等,今天的数据有短信、微信、影像、声音,有什么样的技术能把所有的数据拿出来综合计算,来获取信息,我们叫数据的融合,这种融合的过程使你的判断也会变得越来越准。 另外,也是在最近发生的,最近这几年,是人类历史上用最低的成本可以获取数据的时代,还有一个特点,每个人主动的贡献数据的时代。这个事很多人不认同,我对数据不是主动的控制,肯定是别人给我收集的,你就不用信用卡,不拿手机,不用导航,不跟人家打电话,别在网上发微博,把所有东西都关了,就不是你的贡献者,只要你开了,一定是贡献者。 这是在社会平台上,个人主动暴露信息的行为,已经变成了一种交易,也就是说为了获得某种便利的时候,主动的把你的信息拿过来,包括今天的东西也便宜,所有这些东西导致大数据才有可能。 过去做数据收集的成本相当高,比如过去搞人口调查数据,搞交通信息,在马路上安传感器,马路底下埋着传感器看看过了多少车,现在只要开着车,把电讯的信号拿过来,就知道哪条马路上有多少车开,只要是开车的人,有手机的,现在每个人都有。 这种低成本导致了,加上行业之间的数据如果界限被打破,可以精准到人的性别、年龄、消费行为,过去和未来,通过大数据能算准客户的消费行为。 当然,企业就是要了解客户,了解了它,你就知道卖给它什么,今天卖给它什么,明天卖给它什么。另外,做技术的公司这几年在主动在设定一些获取信息的,我不能叫做陷阱,吸引大家用,今天卖给你个东西,买完之后,马上底下给你一些打折的,让你看一看,你只要一浏览,马上就贡献你的行为了,可以知道你喜爱什么。 如果能做一家公司,它对数据敏感了,对它的创造价值的大数据机会掌握了,就应该把大数据当做销售的手段。低成本,就是节省钱的手段,是你能够用最短的时间,快速的收取客户群体的手段,还有一个奇妙的,将来你一定能够把你的客户分类成十分精整的类别,他是什么样的人,花多少钱,这些如果能掌握清楚,对企业有极大的好处。 忽略了数据,就忽略了成本,忽略了速度,忽略了精准,当然你也就没戏了。(凤凰科技)
    大数据
    2014年04月21日
  • 大数据
    大数据:啄开传统招聘那张皮 文/Frank X. 大数据这个名字起得真好,很长一段时间里,我神游般的羡慕中国政府以人社部为代表、BAT以百度为代表,竟拥有如此庞大的人才数据痕迹和如此广泛的应用前景(现实是他们结合人才的商业应用竟很官僚和失败),我很卖力地就招聘单项企业级应用与百度、阿里为代表、传统公司以施耐德电器为代表的500强企业雇主HR介绍可应用的真实版方案。 地球人都知道,人才大数据背后的“人才竞争力”之对于企业、互联网平台和人力资源服务机构都是最最关键的生产率引擎。谁先掌握,谁就拥有未来商业竞争的话语权。 以人才吸引为场景的大数据帷幕露出了一丝明亮的光…… 一个新的世界:数据存贮与计算 “云招聘”管理系统(SaaS)会从私有云端通过数据挖掘和业务流产生新的业务模型,即:职位/人才单项匹配至跨组织匹配。 情景1:某位候选人曾经申请A公司的a职位,从面试状态及语义分析,适时匹配B公司类似的a职位。实现一次简单的信息存储+背景+规律+决策连续的过程,其参与方均受益:候选人多一种选择、B公司多一位人选、A公司边际成本为零(边际成本特指:分享出某信息本身实际发生的成本)。 内容是源泉:企业&人才社交化 职业社交化粗略可分为:公共账号下职业社交(如:Linkedin等)和(潜在)员工账号下的企业社交(如:企业人才社区)。该场景需要在真实身份甚至Profile为前提下、优质、疯转的互动,以及深度的语义分析。没有无缘无故的职业社交,即:参与即为职业倾向的隐晦表达。 情景2:某雇主有影响力的个人名义在某公共社交平台发布一个案例问题,众赏的感觉寻找可能的开放性解决方案。通过人才数据匹配和推荐阅读,应者评论云集,甚至出现诸多争议。通过鼓励更多人的参与引发了上千的评论。故事远没结束,雇主方HR查阅每个参与者的Profile和内容,发出职位邀请! 无法忽略的事实:业务流&人员协同 社会化仅仅是关系和内容的融合(Engagement)的开始,真正的招聘业务流和人员需要基于数据的协同(Coordination),即:打破甲乙原有的合同性约束转变为任务/资源性约束。 情景3:某雇主高管欲设置一个新职位,苦于没有清晰的JD甚至目标人选的判断,高管通过任务协同平台中大数据可视化结果,物色一位顾问并寻求顾问重新评估其历史人才数据,从而生成新的JD和拟面试人选,通过面试反馈与评估数据,顾问实时更新可新增更精准的人选推荐,最终新职位及其团队陆续入职。基于曾经签署的合同,该服务机构和顾问拿到了应得的佣金。 “我们如果坐等他人,那改变就不会到来。我们自己,就是我们一直在等的人,我们自己,就是我们所要寻求的改变。”                                     ----奥巴马 招聘大数据的背后,安全和隐私是制约爆发式增长的首要因素,这涉及企业HR团队、IT团队甚至市场Marketing要共同工作,现实中的管理者往往只会选择被动防御和免责,不会主动去做出“革命”的改变。同样,参与度也是非常重要的一个环节,只有成为招聘经理和业务经理每天因招聘都要共享的工具,让日常工作流数据为招聘之所用,才能迎来招聘内容制胜的这一天。否则,就如你看到无数的官方微信/博一样,小童鞋打发时间的伴侣,无效甚至负面的招募形式。粉丝不代表任何。 关注数据的价值,而非大小。任何的企业雇主或第三方人才服务机构都掌握着大量基于人才高绩效的过程和结果性数据,原始数据保留和生成不是关键性决策,过去你忽略的数据其实蕴藏着巨大的能量。任何一个小数据,只要赋予背景,都会成为一条有价值的信息,其质量的好坏取决于用途,而非使用者本身。每一条求职简历的背后,都有着一个热键:手机号码(身份证号码),它将串联起时间轴范围内所有的社交圈、推荐/申请职位、邮件/电话接触记录、体验……如何让HR、面试官和候选人在关键节点贡献更多信息,这取决于信息生成的激励机制,与原始数据无关。 企业HR掌握和维护的数据是整个公司的人员资产和财富。如果你细心去发现,凡是离职的员工信息除了背调需求外,几乎被HR接任者遗忘甚至果断删除。事实上,如何基于商业环境接续和管理这笔重要财富,其背后是高绩效候选人离职Replace甚至下一任雇主面试评估的重要数据源,这值得所有HR Leader深刻反思和达成共识。 Okay,结束前我更想表达的是,脱离一家企业组织的招聘数据应用,从更大社会层面理解,我们会发现招聘数据的潜力如此之巨大!所有的简历职业路径的背后,将是中国职业分类目录的来源;基于地理数据应用结合,将呈现中国雇员的迁徙和目标工作城市的选择;基于在线教育数据应用结合,将呈现专业技能与职业匹配关系,高学习力/潜质的人才是大多数雇主的优待;基于金融投资数据应用结合,将带给我们职业与消费行为的趋势,甚至是品牌的目标职位人群。 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。 我欣赏这句话的初衷,这,也是招聘大数据应用的未来!  
    大数据
    2014年04月18日
  • 大数据
    【专治不明觉厉】之“大数据” 【文章来源:虎嗅网】 虎嗅注:上一篇“专治不明觉厉”文章,虎嗅君为大家介绍了“云计算”领域中的那些“不明觉厉”的名词。作为云计算最重要的应用,大数据领域也有很多看上去“不明觉厉”的词汇。本篇文章,虎嗅君就为各位介绍“大数据”领域里的“不明觉厉”。   大数据(Big Data)   大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的主要特点为数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity),合起来被称为4V。   大数据中的数据量非常巨大,达到了PB级别。而且这庞大的数据之中,不仅仅包括结构化数据(如数字、符号等数据),还包括非结构化数据(如文本、图像、声音、视频等数据)。这使得大数据的存储,管理和处理很难利用传统的关系型数据库去完成。在大数据之中,有价值的信息往往深藏其中。这就需要对大数据的处理速度要非常快,才能短时间之内就能从大量的复杂数据之中获取到有价值的信息。在大数据的大量复杂的数据之中,通常不仅仅包含真实的数据,一些虚假的数据也混杂其中。这就需要在大数据的处理中将虚假的数据剔除,利用真实的数据来分析得出真实的结果。   大数据分析(Big Data Analysis)   大数据,表面上看就是大量复杂的数据,这些数据本身的价值并不高,但是对这些大量复杂的数据进行分析处理后,却能从中提炼出很有价值的信息。对大数据的分析,主要分为五个方面:可视化分析(Analytic Visualization)、数据挖掘算法(Date Mining Algorithms)、预测性分析能力(Predictive Analytic Capabilities)、语义引擎(Semantic Engines)和数据质量管理(Data Quality Management)。   可视化分析是普通消费者常常可以见到的一种大数据分析结果的表现形式,比如说百度制作的“百度地图春节人口迁徙大数据”就是典型的案例之一。可视化分析将大量复杂的数据自动转化成直观形象的图表,使其能够更加容易的被普通消费者所接受和理解。   数据挖掘算法是大数据分析的理论核心,其本质是一组根据算法事先定义好的数学公式,将收集到的数据作为参数变量带入其中,从而能够从大量复杂的数据中提取到有价值的信息。著名的“啤酒和尿布”的故事就是数据挖掘算法的经典案例。沃尔玛通过对啤酒和尿布购买数据的分析,挖掘出以前未知的两者间的联系,并利用这种联系,提升了商品的销量。亚马逊的推荐引擎和谷歌的广告系统都大量使用了数据挖掘算法。   预测性分析能力是大数据分析最重要的应用领域。从大量复杂的数据中挖掘出规律,建立起科学的事件模型,通过将新的数据带入模型,就可以预测未来的事件走向。预测性分析能力常常被应用在金融分析和科学研究领域,用于股票预测或气象预测等。   语义引擎是机器学习的成果之一。过去,计算机对用户输入内容的理解仅仅停留在字符阶段,不能很好的理解输入内容的意思,因此常常不能准确的了解用户的需求。通过对大量复杂的数据进行分析,让计算机从中自我学习,可以使计算机能够尽量精确的了解用户输入内容的意思,从而把握住用户的需求,提供更好的用户体验。苹果的Siri和谷歌的Google Now都采用了语义引擎。   数据质量管理是大数据在企业领域的重要应用。为了保证大数据分析结果的准确性,需要将大数据中不真实的数据剔除掉,保留最准确的数据。这就需要建立有效的数据质量管理系统,分析收集到的大量复杂的数据,挑选出真实有效的数据。   分布式计算(Distributed Computing)   对于如何处理大数据,计算机科学界有两大方向:第一个方向是集中式计算,就是通过不断增加处理器的数量来增强单个计算机的计算能力,从而提高处理数据的速度。第二个方向是分布式计算,就是把一组计算机通过网络相互连接组成分散系统,然后将需要处理的大量数据分散成多个部分,交由分散系统内的计算机组同时计算,最后将这些计算结果合并得到最终的结果。尽管分散系统内的单个计算机的计算能力不强,但是由于每个计算机只计算一部分数据,而且是多台计算机同时计算,所以就分散系统而言,处理数据的速度会远高于单个计算机。   过去,分布式计算理论比较复杂,技术实现比较困难,因此在处理大数据方面,集中式计算一直是主流解决方案。IBM的大型机就是集中式计算的典型硬件,很多银行和政府机构都用它处理大数据。不过,对于当时的互联网公司来说,IBM的大型机的价格过于昂贵。因此,互联网公司的把研究方向放在了可以使用在廉价计算机上的分布式计算上。   服务器集群(Server Cluster)   服务器集群是一种提升服务器整体计算能力的解决方案。它是由互相连接在一起的服务器群所组成的一个并行式或分布式系统。服务器集群中的服务器运行同一个计算任务。因此,从外部看,这群服务器表现为一台虚拟的服务器,对外提供统一的服务。   尽管单台服务器的运算能力有限,但是将成百上千的服务器组成服务器集群后,整个系统就具备了强大的运算能力,可以支持大数据分析的运算负荷。Google,Amazon,阿里巴巴的计算中心里的服务器集群都达到了5000台服务器的规模。   大数据的技术基础:MapReduce、Google File System和BigTable   2003年到2004年间,Google发表了MapReduce、GFS(Google File System)和BigTable三篇技术论文,提出了一套全新的分布式计算理论。   MapReduce是分布式计算框架,GFS(Google File System)是分布式文件系统,BigTable是基于Google File System的数据存储系统,这三大组件组成了Google的分布式计算模型。   Google的分布式计算模型相比于传统的分布式计算模型有三大优势:首先,它简化了传统的分布式计算理论,降低了技术实现的难度,可以进行实际的应用。其次,它可以应用在廉价的计算设备上,只需增加计算设备的数量就可以提升整体的计算能力,应用成本十分低廉。最后,它被Google应用在Google的计算中心,取得了很好的效果,有了实际应用的证明。   后来,各家互联网公司开始利用Google的分布式计算模型搭建自己的分布式计算系统,Google的这三篇论文也就成为了大数据时代的技术核心。   主流的三大分布式计算系统:Hadoop,Spark和Storm   由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。   Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统Hadoop。后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会的开源项目。Doug Cutting也成为Apache基金会的主席,主持Hadoop的开发工作。   Hadoop采用MapReduce分布式计算框架,并根据GFS开发了HDFS分布式文件系统,根据BigTable开发了HBase数据存储系统。尽管和Google内部使用的分布式计算系统原理相同,但是Hadoop在运算速度上依然达不到Google论文中的标准。   不过,Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo,Facebook,Amazon以及国内的百度,阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。   Spark也是Apache基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。它在Hadoop的基础上进行了一些架构上的改良。Spark与Hadoop最大的不同点在于,Hadoop使用硬盘来存储数据,而Spark使用内存来存储数据,因此Spark可以提供超过Hadoop100倍的运算速度。但是,由于内存断电后会丢失数据,Spark不能用于处理需要长期保存的数据。   Storm是Twitter主推的分布式计算系统,它由BackType团队开发,是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性,可以实时的处理大数据流。不同于Hadoop和Spark,Storm不进行数据的收集和存储工作,它直接通过网络实时的接受数据并且实时的处理数据,然后直接通过网络实时的传回结果。   Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。   HRTECH CHINA 小编语:各位,这次向大家介绍了“云计算”这方面的知识信息,大家是否已经掌握了呢?如果各位想了解其他方面的知识信息,也可以给我们留言哦。
    大数据
    2014年04月16日
  • 大数据
    大数据分析的5大误区 文章来源:中国智能商业网 每个人都想要一窥未来; 洞察力和发现信息对拥有它们的人或企业来说自然有利可图。而尽管占卜尚未证明自己是可靠的业务资产,今天的预测分析软件却可以。 “预测分析”总体是指基于当前和历史数据,用数据分析为企业提供对未来事件的预测。这种科学已经以不同的形式长期存在了几个世纪,但直到最近才成为可靠的并且可负担得起的,足够为大多数公司在日常流程中使用。 然而盛名之下,围绕大数据和预测分析产生了许多误区。尤其是下列的五种误区需要被驱散, 这样不同规模和阶段的企业才可以开始享用更明智、更高效的决策:  误区1: “大数据是灵丹妙药。” 预测分析有希望可能成为一种塑造更广泛经济的普遍趋势, 尤其是如果更多业务决策者为数据所驱动 (而不是根据纯粹的“直觉”)。确实,访问更多的信息,特别是关于你的客户的行为的信息,将会对某些业务提供竞争优势, 就像互联网。然而, 在许多情况下, 相对未分化的互联网和网络功能并未导致很大的业务增长, 建立的预测分析也是如此。 大数据不是企业的灵丹妙药。相反, 更好的数据管理和分析是帮助企业做出更好决策的工具。就算“小数据”也可以为中小企业很好的利用在投资的路线图上,构建和多样化而无需有大型的IT投资。  误区2: “只有大公司需要预测分析。” 虽然很明显, 亚马逊、Target、沃尔玛、Zipcar和其他大型企业是预测分析(尤其是客户分析)早期的采用者和重要受益者,各种形式和规模的企业都将受益于智能分析带来的好处。例如,基于群体客户剖析和行为的分析客户保留模式,然后使用上述数据来设计针对性推广工作,对任何企业可以产生立即的影响。   误区3:“企业引入预测分析的最好方式是“自下而上”或“自上向下”。 对一些人来说,自下向上的方法涉及到IT人员和数据分析师实施一种持久的解决方案。对另一些人来说, 自上而下的方法是用大量资源, 战略和文化解决这一企业挑战,因此应该包括首席执行官(CEO)、首席营销官(CMO), 或其他高管。 在现实中, 实施预测分析并非必须要符合这两种法则之一。由下至上的过程可以为企业建立一个良好的基础。在别一企业从指定的部门开始,尤其是从市场营销团队开始,是非常富有成果的。同样, 自上而下的过程可以产出也可以是短暂。执行官的参与并不总是成功的保证。  误区4:“要实现预测分析,你需要自己的博士。” 预测分析可以零售(或“民主化”,正如我们喜欢说的那样)。通过这种方法,意味着它日渐普及, 无需数百万美元的IT基础设施。 而且,尽管独特的大数据问题可能需要一位博士(或者甚至是一群博士), 许多新领域的预测和业务分析可通过软件即服务 (SaaS) 的解决方案轻松访问到。更重要的是, 时效性不再是几个月或几年了, 你现在可以在更短的时间获得有用的结果,而不需要你自己的博士。 误区5:“我们需要做的就是雇佣咨询或技术公司,我们就会有预测分析。” 有一批企业把预测分析作为一种技术或一个软件问题。并且, 他们拥有一组“首选”公司(有时是拥有管理和技术咨询的技术供应商)用传统的方式,通过向企业推销大量的基础设施、数据存储、软件和硬件来解决预测分析。在现实中,预测分析更多的是一种业务和文化问题,需要的不仅仅是技术(或管理顾问的插入式访问)建立和研究所正在进行的解决方案。 结论 在你的业务决策中加入预测分析时要考虑 很多事情。而且公平地讲,有一系列不同的方法和不同的最终结果可供企业选择。然而在评估产品和选项的期间,最好从这门科学的实用的和系统性的现实中分离出这些误区。        
    大数据
    2014年04月16日
  • 大数据
    大数据流程处理“三要”“三不要” 大数据时代处理数据的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。 具体的大数据处理方法确实有很多,但是根据笔者长时间的实践,总结了一个普遍适用的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。 大数据时代处理之一:采集 大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。 在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。 大数据时代处理之二:导入/预处理 虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。 导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。 大数据时代处理之三:统计/分析 统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。 统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。 大数据时代处理之四:挖掘 与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。 整个大数据大数据时代处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。 【文章来源:199IT】
    大数据
    2014年04月14日
  • 大数据
    大数据,还是大错误? 大数据是对于大规模现象的一种模糊的表达。这一术语如今已经被企业家、科学家、政府和媒体炒得过热。 五年前,谷歌的一个研究小组在全球顶级的科学杂志《自然》上宣布了一个令人瞩目的成果。该小组可以追踪美国境内流感的传播趋势,而这一结果不依赖于任何医疗检查。他们的追踪速度甚至比疾控中心(CDC)要快的多。谷歌的追踪结果只有一天的延时,而CDC则需要汇总大量医师的诊断结果才能得到一张传播趋势图,延时超过一周。谷歌能算的这么快,是因为他们发现当人们出现流感症状的时候,往往会跑到网络上搜索一些相关的内容。 ”谷歌流感趋势“不仅快捷、准确、成本低廉,而且没有使用什么理论。谷歌的工程师们不用费劲的去假设哪些搜索关键字(比如”流感症状“或者”我身边的药店“)跟感冒传染有相关性。他们只需要拿出来自己网站上5000万个最热门的搜索字,然后让算法来做选择就行了。 谷歌流感趋势的成功,很快就成为了商业、技术和科学领域中最新趋势的象征。兴奋的媒体记者们不停的在问,谷歌给我们带来了什么新的科技? 在这诸多流行语中,“大数据”是一个含糊的词汇,常常出现于各种营销人员的口中。一些人用这个词来强调现有数据量的惊人规模——大型粒子对撞机每年会产生15PB的数据,相当于你最喜欢的一首歌曲重复演奏15000年的文件大小。 然而在“大数据”里,大多数公司感兴趣的是所谓的“现实数据”,诸如网页搜索记录、信用卡消费记录和移动电话与附近基站的通信记录等等。谷歌流感趋势就是基于这样的现实数据,这也就是本文所讨论的一类数据。这类数据集甚至比对撞机的数据规模还要大(例如facebook),更重要的是虽然这类数据的规模很大,但却相对容易采集。它们往往是由于不同的用途被搜集起来并杂乱的堆积在一起,而且可以实时的更新。我们的通信、娱乐以及商务活动都已经转移到互联网上,互联网也已经进入我们的手机、汽车甚至是眼镜。因此我们的整个生活都可以被记录和数字化,这些在十年前都是无法想象的。 大数据的鼓吹者们提出了四个令人兴奋的论断,每一个都能从谷歌流感趋势的成功中印证: 数据分析可以生成惊人准确的结果; 因为每一个数据点都可以被捕捉到, 所以可以彻底淘汰过去那种抽样统计的方法; 不用再寻找现象背后的原因,我们只需要知道两者之间有统计相关性就行了; 不再需要科学的或者统计的模型,”理论被终结了”。《连线》杂志2008年的一篇文章里豪情万丈的写到:“数据已经大到可以自己说出结论了“。 不幸的是,说的好听一些,上述信条都是极端乐观和过于简化了。如果说的难听一点,就像剑桥大学公共风险认知课的Winton教授(类似于国内的长江学者——译者注)David Spiegelhalter评论的那样,这四条都是“彻头彻尾的胡说八道”。 在谷歌、facebook和亚马逊这些公司不断通过我们所产生的数据来理解我们生活的过程中,现实数据支撑起了新互联网经济。爱德华.斯诺登揭露了美国政府数据监听的规模和范围,很显然安全部门同样痴迷从我们的日常数据中挖掘点什么东西出来。 咨询师敦促数据小白们赶紧理解大数据的潜力。麦肯锡全球机构在一份最近的报告中做了一个计算,从临床试验到医疗保险报销到智能跑鞋,如果能把所有的这些健康相关的数据加以更好的整合分析,那么美国的医疗保险系统每年可以节省3000亿美金的开支,平均每一个美国人可以省下1000美元。 虽然大数据在科学家、企业家和政府眼里看起来充满希望,但如果忽略了一些我们以前所熟知的统计学中的教训,大数据可能注定会让我们失望。 Spiegelhalter教授曾说到:“大数据中有大量的小数据问题。这些问题不会随着数据量的增大而消失,它们只会更加突出。” 在那篇关于谷歌流感趋势预测的文章发表4年以后,新的一期《自然杂志消息》报道了一则坏消息:在最近的一次流感爆发中谷歌流感趋势不起作用了。这个工具曾经可靠的运作了十几个冬天,在海量数据分析和不需要理论模型的条件下提供了快速和准确的流感爆发趋势。然而这一次它迷路了,谷歌的模型显示这一次的流感爆发非常严重,然而疾控中心在慢慢汇总各地数据以后,发现谷歌的预测结果比实际情况要夸大了几乎一倍。 问题的根源在于谷歌不知道(一开始也没法知道)搜索关键词和流感传播之间到底有什么关联。谷歌的工程师们没有试图去搞清楚关联背后的原因。他们只是在数据中找到了一些统计特征。他们更关注相关性本身而不是相关的原因。这种做法在大数据分析中很常见。要找出到底是什么原因导致了某种结果是很困难的,或许根本不可能。而发现两件事物之间的相关性则要简单和快速的多。就像Viktor Mayer-Schönberger 和 Kenneth Cukier 在《大数据》这本书中形容的那样:“因果关系不能被忽略,然而曾作为所有结论出发点的它已经被请下宝座了。” 这种不需要任何理论的纯粹的相关性分析方法,其结果难免是脆弱的。如果你不知道相关性背后的原因,你就无法得知这种相关性在什么情况下会消失。谷歌的流感趋势出错的一种解释是,2012年12月份的媒体上充斥着各种关于流感的骇人故事,看到这些报道之后,即使是健康的人也会跑到互联网上搜索相关的词汇。还有另外一种解释,就是谷歌自己的搜索算法,在人们输入病症的时候会自动推荐一些诊断结果进而影响到了用户的搜索和浏览行为。这就好像在足球比赛里挪动了门柱一样,球飞进了错误的大门。 谷歌将使用新的数据再次校准流感趋势这个产品,重新来过。这当然是正确的做法。能够有更多的机会让我们简捷的采集和处理大规模的数据,这当然有一百个理由让人兴奋。然而我们必须从上述例子中汲取足够的教训,才能避免重蹈覆辙。 统计学家们过去花了200多年,总结出了在认知数据的过程中存在的种种陷阱。如今数据的规模更大了,更新更快了,采集的成本也更低了。但我们不能掩耳盗铃,假装这些陷阱都已经被填平了,事实上它们还在那里。 在1936年,民主党人Alfred Landon与当时的总统Franklin Delano Roosevelt(富兰克林.罗斯福——译者注)竞选下届总统。《读者文摘》这家颇有声望的杂志承担了选情预测的任务。当时采用的是邮寄问卷调查表的办法,调查人员雄心勃勃,计划寄出1000万份调查问卷,覆盖四分之一的选民。可以预见,洪水般寄回的邮件将超乎想象,然而《文摘》似乎还乐在其中。8月下旬的时候他们写到:“从下周起,1000万张问卷的第一批回执将会到达,这将是后续邮件洪峰的开始。所有这些表格都会被检查三次,核对,交叉存档五份,然后汇总。” 最终《文摘》在两个多月里收到了惊人的240万份回执,在统计计算完成以后,杂志社宣布Landon将会以55比41的优势击败Roosevelt赢得大选,另外4%的选民则会投给第三候选人。 然而真实选举结果与之大相径庭:Roosevelt以61比37的压倒性优势获胜。让《读者文摘》更没面子的是,观点调查的先创人George Gallup通过一场规模小的多的问卷,得出了准确得多的预测结果。Gallup预计Roosevelt将稳操胜券。显然,Gallup先生有他独到的办法。而从数据的角度来看,规模并不能决定一切。 观点调查是基于对投票人的的大范围采样。这意味着调查者需要处理两个难题:样本误差和样本偏差。 样本误差是指一组随机选择的样本观点可能无法真实的反映全部人群的看法。而误差的幅度,则会随着样本数量的增加而减小。对于大部分的调查来说,1000次的访谈已经是足够大的样本了。而据报道Gallup先生总共进行了3000次的访谈。 就算3000次的访谈已经很好了,那240万次不是会更好吗?答案是否定的。样本误差有个更为危险的朋友:样本偏差。样本误差是指一个随机选择的样本可能无法代表所有其他的人;而样本偏差则意味着这个样本可能根本就不是随机选择的。George Gallup费了很大气力去寻找一个没有偏差的样本集合,因为他知道这远比增加样本数量要重要的多。 而《读者文摘》为了寻求一个更大的数据集,结果中了偏差样本的圈套。他们从车辆注册信息和电话号码簿里选择需要邮寄问卷的对象。在1936年那个时代,这个样本群体是偏富裕阶层的。而且Landon的支持者似乎更乐于寄回问卷结果,这使得错误更进了一步。这两种偏差的结合,决定了《文摘》调查的失败。Gallup每访谈一个人,《文摘》对应的就能收到800份回执。如此大规模而精确的调查最终却得出一个错误的结果,这的确让人难堪不已。 如今对大数据的狂热似乎又让人想起了《读者文摘》的故事。现实数据的集合是如此混乱,很难找出来这里面是否存在样本偏差。而且由于数据量这么大,一些分析者们似乎认定采样相关的问题已经不需要考虑了。而事实上,问题依然存在。 《大数据》这本书的联合作者,牛津大学互联网中心的Viktor Mayer-Schönberger教授,曾告诉我他最喜欢的对于大数据集合的定义是“N=所有”,在这里不再需要采样,因为我们有整个人群的数据。就好比选举监察人不会找几张有代表性的选票来估计选举的结果,他们会记点每一张选票。当“N=所有”的时候确实不再有采样偏差的问题,因为采样已经包含了所有人。 但“N=所有”这个公式对大多数我们所使用的现实数据集合都是成立的吗?恐怕不是。“我不相信有人可以获得所有的数据”,Patrick Wolfe说,他是伦敦大学学院的一名计算机学家和统计学教授。 推特(Twitter)就是一个例子。理论上说你可以存储和分析推特上的每一条记录,然用后来推导出公共情绪方面的一些结论(实际上,大多数的研究者使用的都是推特提供的一个名为“消防水龙带”的数据子集)。然而即使我们可以读取所有的推特记录,推特的用户本身也并不能代表世界上的所有人。(根据Pew互联网研究项目的结果,在2013年,美国的推特中年轻的,居住在大城市或者城镇的,黑色皮肤的用户比例偏高) 我们必须要搞清楚数据中漏掉了哪些人和哪些事,尤其当我们面对的是一堆混乱的现实数据的时候。Kaiser Fung是一名数据分析师和《数字感知》这本书的作者,他提醒人们不要简单的假定自己掌握了所有有关的数据:“N=所有常常是对数据的一种假设,而不是现实”。 在波士顿有一款智能手机应用叫做“颠簸的街道”,这个应用利用手机里的加速度感应器来检查出街道上的坑洼,而有了这个应用市政工人就可以不用再去巡查道路了。波士顿的市民们下载这个应用以后,只要在城市里开着车,他们的手机就会自动上传车辆的颠簸信息并通知市政厅哪里的路面需要检修了。几年前还看起来不可思议的事情,就这样通过技术的发展,以信息穷举的方式得以漂亮的解决。波士顿市政府因此骄傲的宣布,“大数据为这座城市提供了实时的信息,帮助我们解决问题并做出长期的投资计划”。 “颠簸的街道”在安装它的设备中所产生的,是一个关于路面坑洼的地图。然而从产品设计一开始这张地图就更偏向于年轻化和富裕的街区,因为那里有更多的人使用智能手机。“颠簸的街道”的理念是提供关于坑洼地点的“N=所有”的信息,但这个“所有”指的是所有手机所能记录的数据,而不是所有坑洼地点的数据。就像微软的研究者Kate Crawford指出的那样,现实数据含有系统偏差,人们需要很仔细的考量才可能找到和纠正这些偏差。大数据集合看起来包罗万象,但“N=所有”往往只是一个颇有诱惑力的假象而已。 当然这个世界的现实是如果你能靠某个概念挣到钱,就没人会关心什么因果关系和样本偏差。全世界的公司在听到美国折扣连锁店Target的传奇式成功(由纽约时报的Charles Duhigg在2012年报道出来)以后估计都要垂涎三尺。Duhigg解释了Target公司是如何从它的顾客身上搜集到大量的数据并熟练的加以分析。它对顾客的理解简直是出神入化。 Duhigg讲的最多的故事是这样的:一名男子怒气冲冲的来到一家明尼苏达附近的Target连锁店,向店长投诉该公司最近给他十几岁的女儿邮寄婴儿服装和孕妇服装的优惠券。店长大方的向他道了歉。可不久后店长又收到这名男子的电话要求再次道歉——只是这一次对方告知那个少女确实怀孕了。在她的父亲还没有意识到的时候,Target通过分析她购买无味湿纸巾和补镁药品的记录就猜到了。 这是统计学的魔法吗?或许还有更世俗一点的解释。 Kaiser Fung在帮助零售商和广告商开发类似的工具上有着多年的经验,他认为“这里面存在一个严重的虚假正面效应的问题”。他指的是我们通常都没有能够听到的无数的反面故事,在那些例子里没有怀孕的妇女们也收到了关于婴儿用品的优惠券。 如果只听Duhigg讲的故事,你可能很容易就觉得Target的算法是绝对可靠的——每个收到婴儿连体服和湿纸巾购物券的人都是孕妇。这几乎不可能出错。但实际上孕妇能收到这些购物券可能仅仅是因为Target给所有人都寄了这种购物券。在相信Target那些读心术般的故事之前,你应当问问他们的命中率到底有多高。 在Charles Duhiggs的描述中,Target公司会在给你的购物券中随机性的掺杂一些无关的东西,比如酒杯的券。否则的话孕妇们可能会发现这家公司的计算机系统在如此深入的探测她们的隐私,进而感到不安。 Fung对此则有另外的解释,他认为Target这样做并不是因为给孕妇寄一份满是婴儿用品的购物手册会让人起疑,而是由于这家公司本来就知道这些手册会被寄给很多根本没有怀孕的妇女。 以上这些观点并不意味着数据分析一无是处,相反它可能是有高度商业价值的。即使能够把邮寄的准确度提高那么一点点,都将是有利可图的。但能赚钱并不意味着这种工具无所不能、永远正确。 一位名叫John Ioannidis的传染病学家在2005年发表了一篇论文,题目叫“为什么大多数被发表的研究结果都是错误的”,标题言简意赅。他的论文中一个核心的思想就是统计学家们所称的“多重比较问题”。 当我们审视数据当中的某个表象的时候,我们常常需要考虑这种表象是否是偶然产生的。如果这种表象看起来不太可能是随机产生的时候,我们就称它是“统计上显著的”。 当研究者面对许多可能的表象时,多重比较错误就可能发生。假设有一个临床试验,我们让部分小学生服用维他命而给其他小学生安慰剂。怎么判断这种维他命的效果?这完全取决于我们对“效果”的定义。研究者们可能会考察这些儿童的身高、体重、蛀牙的概率、课堂表现、考试成绩甚至是25岁以后的收入或者服刑记录(长期追踪观察)。然后是综合比较:这种维他命是对穷困家庭的孩子有效,还是对富裕家庭的有效?对男孩有效,还是女孩?如果做足够多的不同的相关性测试,偶然产生的结果就会淹没真实的发现。 有很多办法可以解决上述的问题,然而在大数据中这种问题会更加严重。因为比起一个小规模的数据集合来说,大数据的情况下有太多可以用作比较的标准。如果不做仔细的分析,那么真实的表象与虚假表象之比——相当于信号噪声比——很快就会趋近于0. 更糟的是,我们之前会用增加过程透明度的办法来解决多重比较的问题,也就是让其他的研究者也知道有哪些假设被测试过了,有哪些反面的试验结果没有被发表出来。然而现实数据几乎都不是透明的。亚马逊和谷歌,Facebook和推特,Target和Tesco,这些公司都没打算过跟你我分享他们的所有数据。 毫无疑问,更新、更大、更廉价的数据集合以及强大的分析工具终将产生价值。也确实已经出现了一些大数据分析的成功实例。剑桥的David Spiegelhalter提到了谷歌翻译,这款产品统计分析了人类已经翻译过的无数文档,并在其中寻找出可以自己复制的模式。谷歌翻译是计算机学家们所谓的“机器学习”的一个应用,机器学习可以在没有预先设定编程逻辑的条件下计算出惊人的结果。谷歌翻译是目前所知的最为接近”无需理论模型、纯数据驱动的算法黑盒子”这一目标的产品。用Spiegelhalter的话来说,它是“一个令人惊讶的成就”。这一成就来自于对海量数据的聪明的处理。 然而大数据并没有解决统计学家和科学家们数百年来所致力的一些难题:对因果关系的理解,对未来的推演,以及如何对一个系统进行干预和优化。 伦敦皇家学院的David Hand教授讲过一句话,“现在我们有了一些新的数据来源,但是没有人想要数据,人们要的是答案”。 要使用大数据来得到这样的答案,还需要在统计学的方法上取得大量长足的进展。 UCL的Patrick Wolfe说,“大数据就好像是蛮荒的美国西部。那些头脑灵活野心勃勃的人会想尽办法利用一切可能的工具,从这些数据中淘出点值钱的东西来,这很酷。但目前我们做的还有些盲目。” 统计学家们正争先恐后的为大数据开发新的工具。这些新的工具当然很重要,但它们只有在吸取而不是遗忘过去统计学精髓的基础上才能成功。 最后,我们再回头来看看大数据的四个基础信条。 其一,如果简单的忽略掉那些反面的数据,比如Target的怀孕预测算法,那么我们很容易就会过高的估计算法的精确度。 其二,如果我们在一个固定不变的环境里做预测,你可以认为因果关系不再重要。而当我们处在一个变化的世界中(例如流感趋势预测所遇到的那样),或者是我们自己就想要改变这个环境,这种想法就很危险了。 其三,“N=所有”,以及采样偏差无关紧要,这些前提在绝大多数的实际情况下都是不成立的。 最后,当数据里的假像远远超过真相的时候,还持有“数据足够大的时候,就可以自己说出结论了”这种观点就显得过于天真了。 大数据已经到来,但它并没有带来新的真理。现在的挑战是要吸取统计学中老的教训,在比以前大得多的数据规模下去解决新的问题、获取新的答案。 via: 199it.com 摘自: 译言
    大数据
    2014年04月11日
  • 大数据
    大数据如何玩儿?这是BAT的不同思路 去年5月笔者曾撰文阐述百度、阿里和腾讯这三个互联网巨无霸开始挖掘大数据。一年过去,拥有海量数据的公司已在多个领域尝试对掌握的数据进行利用,大数据意识和能力进步飞快,体系和工具日趋成熟。   大数据应用实践,硕果累累   百度在大数据方面让人印象深刻的有百度迁徙这样的公益项目,应用在民生和新闻等领域。最新动态是,百度网盟利用基于大数据的CTR(广告内容匹配)数据,站长的平均收入提升70%。   阿里则对外宣称已经拥有100PB数据并以令人欣喜的速度增长,马云最新的内部邮件将阿里战略阐述为云端+大数据,阿里要进入数据时代。   腾讯广点通平台不乏亮点应用,例如美丽说借助广点通在移动端取得丰收,小米手机与QQ空间合作更是基于社交数据营销的经典。   百度、阿里均已将大数据升级为公司战略,李彦宏、雷军等互联网代表人物在两会时都曾有建言,推动政府的大数据意识和开放,大数据正在从理论走向实践,从专业领域走向全民应用的阶段。   互联网牵头大数据的必然性   为什么国内的大数据应用,只有几个互联网巨头取得成就呢?是因为它们拥有最多的用户、流量和数据吗?答案是否定的。因为所有关于大数据的论断都认为,大数据并不在于大。质量、性质以及谁拥有它,将决定大数据能被挖掘出来的价值和难度。   物联网传感器、视频监控设备时时刻刻都在收集海量数据,但价值没有微博大,因为数据难以变现。运营商拥有用户通信相关数据,从语音到短信再到位置,量大过任何一个互联网巨头。只能白白浪费,因为运营商不被允许也无能力去利用这些数据。与之类似,政府部门、软件企业均拥有大数据,却只能任其沉睡。   之所以BAT走在国内大数据应用的前列,即与其拥有的数据性质有管,与互联网企业的技术基因、开放创新和积极进取有关。   大数据利用难点在于技术。从数据的收集到存储到清洗,再到脱敏,归类,标签化、结构化,以及最后的建模分析、挖掘利用,均是技术活儿。需要服务器集群、数据利用模型和数据处理算法来保障,然后才是挖掘出来的结果的包装、变现。   相对其他拥有大数据的金主来说,互联网企业的技术甩开它们几条街。运营商技术是外包;银行的技术外包居多;其他公共部门例如政府、交通、教育、能源等行业,技术对他们是遥远的名词。   还有动机。互联网企业的服务产品几乎是免费,必须通过其他模式赚钱。过去是广告、游戏和增值这三种模式,到了移动端广告模式遇到瓶颈,需要新模式,抑或加强原有模式。这两点上,大数据都会起到大的作用。   BAT大数据思路迥异   BAT三家的数据各有特色。   百度是基于用户搜索行为的需求数据,阿里掌握着交易以及信用数据,腾讯则掌握着社交关系数据。各有千秋。它们对大数据的应用方向并不相同。百度和阿里更为激进。腾讯观望多过行动,也可能是说得少做得多。   首先是动机。   百度收入95%以上来自广告,淘宝的主要收入模式也是广告。百度、淘宝和CCTV是中国前三大广告投放阵地。腾讯主要收入来自游戏和社交增值业务,广告收入占比仅为三成左右。   本阶段大数据变现的主要途径是精准广告,这契合百度和阿里的诉求,两家将大数据升级为公司战略。   其次是技术。   搜索引擎是技术驱动,百度和其创始人李彦宏最具技术基因。马云对外宣称因为其不懂技术所以阿里技术最强。只有腾讯不怎么强调技术,一直强调产品能力。   大数据是技术活儿,百度和阿里这两位自认为技术很强的玩家探索在先符合常理。百度和阿里在大数据技术已经进行较多布局,从人才到架构到基础设施再到技术理论。   百度有深度学习研究院、高价聘请大数据领域人才以及与高校合作,正在建设亚洲最大云计算机房;阿里有飞天计划,有先进的跨机房5k集群、Apsara分布式计算系统,还有数据委员会这样的架构。   几家在云计算平台上的不同态度可以佐证我的观点。云平台和大数据是连体婴。“移动端”、合作伙伴和用户个人的数据,均需要“云”来收集、存储和处理。要掌握大数据,一定要具备承载数据的开放的云。   阿里云09年成立,百度云12年推出,分别对应到IaaS模式和PaaS(Amazon VS Google)。它们的云服务在向开发者和用户提供基础设施、云端服务的同时,收集第三方网站、应用、硬件和用户的数据。百度迁徙能够生效便是得益于第三方App为百度贡献位置数据。   腾讯云去年9月才推出,起步晚了点。虽然腾讯开放平台成熟,但开放平台更多是分享腾讯的用户和资源出来,目的不是收集数据。而且开放平台是运营、合作、生态层面的事,云平台才是技术问题。   最后是位置。   典型的互联网交易场景大概是这样的,用户在聊天、社交、娱乐的过程中,会被吸引注意力,关注“兴趣”,抑或因为兴趣而发现新的信息。然后用户去了解、去寻找想要的东西(需求、欲望、找到所求),最后在网上完成交易(电商和O2O)。   这里引用一下漏斗模型——一个悠久经典的营销概念。在这个模型里,用户消费时的大致决策路径是从注意(attention)、兴趣(interest)、欲望(desire)最后到行动(action)。   上图是被倒过来的漏洞。漏斗越到底部转化率越高。阿里在欲望和行动之间,百度在兴趣和欲望之间,腾讯则在漏洞顶部。   广告收费模式可以看出三家的位置差异。百度是CPC,按照点击次数付费(不管点击后的行为),阿里淘宝客等广告则直接可以对应到购买行为,CPA(按实际效果)和CPS(按效果佣金)居多。腾讯门户、QQ聊天Banner广告更亲睐于CPM或者CPT(按照展示次数或者时长),广点通是CPA,但亮点案例集中在应用下载领域,而不是交易领域。   三家都不希望只处于某一个环节,而是期望上中下通吃。百度有贴吧这样的兴趣社交产品,有视频这种注意力型业务,还推出了直接在结果页下单的“微购”,上下延展;腾讯重组了搜索业务(与搜狗合并)和电商业务(与京东合并),向下的机会还有;阿里投资微博、布局智能电视以及做导购网站做微淘,努力在向上走。   几个互联网巨头的动机、技术和位置的不同,在大数据应用上的思路也不同:腾讯蜻蜓点水,阿里布局为先,百度技术至上。相同的是,几家都在想方设法笼络更多的数据,收集数据是第一阶段,形成收集数据的能力和机制是第二阶段,第三阶段才是数据挖掘,目前BAT三家均处于从第二阶段到第三阶段之间,一旦大数据应用全面进入第三阶段,积累更深、投入更多的百度或将有望显出优势。   AppStore和iPhone的诞生,将人们带入了智能手机和移动互联网时代,颠覆了传统的软件业和手机业。未来,对大数据商业价值的发掘将给互联网公司拓展出更大的增长空间,甚至有可能催生出全新的商业模式和硬件产品,就像AppStore和iPhone那样,给人们的工作和生活方式带来颠覆性的变化。   作者微博@互联网阿超,微信SuperSofter
    大数据
    2014年04月09日
  • 大数据
    2014年是什么在推动大数据和预测分析? 从预测市场趋势到获取客户需求的洞察力,预测分析可以帮助企业利用他们的数据发现新的机遇并赢得竞争对手。 然而, 研究发现,企业并不是用大数据和预测分析来实现他们的全部潜力。 这并不是说他们没有看到好处: 85%的机构受访者表示,预测分析对他们的业务产生了积极的影响,而77%的人认为这能帮助他们在竞争中占上风。 主要的障碍是技能,有四分之三的受访者发现企业内需要新的数据科学技能来利用技术。 ●越来越重要 为什么预测分析变得越来越迫切? 在过去的几年中关于大数据我们已经听到了很多。企业收集顾客的信息移动习惯、购买习惯、浏览习惯… 还可以列举很多。然而,企业如何处理这些数据才是最重要的。分析技术让企业分析顾客数据并将其转化为可行的洞察力,让企业受益。 预测分析技术是大数据的核心推动者,允许企业使用历史数据,结合客户洞察力来预测未来事件。它可能是任何东西,从预期客户的需求,预测更广泛的市场趋势或管理风险,从而提供竞争优势,推动新的机遇的能力,最终增加收入。 ●多云的天空 云是如何改变预测分析的? 预测分析和云都是业内持续的热点话题。更多的企业正在寻求充分利用手头的数据,同时利用基于云的服务从资本费用转向运营费用。下一步当然是把两者结合起来。 云中的预测分析正在获得动力。这一结合让预测分析更加可扩展、灵活和易于部署。它利用云众所周知的优势提高投资回报率和及时做出最先进的市场分析。 ●最大价值 企业目前从预测分析中获得了最大价值吗? 目前,我们看到预测分析的很大潜力 (以及因此的大数据)尚未开发。对于意识到预测技术高投资回报率的企业, 他们必须通过将预测模型嵌入到应用程序中将前瞻性洞察力融入日常工作。这意味着企业各级员工需要能够解释数据并将这一洞察力反馈回业务。 然而,获得并理解数据直到最近仍被视为一种复杂和高技能的任务,有统计学的高学位和前沿分析经验。这种动态无法简单地跟业务规模的步伐, 因此企业不能获得最大的价值。 ●技能的匮乏 对于未能占领先机的人来说采用它们的障碍是什么? 这是常有的事,它涉及到两件事 – 技能的短缺和时间。人们普遍认为需要技能有效地从数据中获得洞察力并反馈给业务务。根据SAP的调查,75%的英国企业相信,他们的企业内需要新的数据科学技能,而81%的人希望专门培训将分析融入他们的日常工作。 然而,随着日益更新的预测分析技术的可用性更直观和用户友好,各种层次的业务员都可以“自助服务”他们需要的洞察力。 ●复杂的任务 要充分利用这些技术,你认为最需要的技能是什么? 我已经谈及了过去将预测分析看成是一种熟练和复杂的任务。曾经, 让数据变得有意义是少数领域,专业的数据科学家的事情,复杂的预测分析目前正转向广泛的用户。 企业正在寻找的技能有一个真正的转变。最重要的资格可能不一定是学位,证书或工作经验,而是所谓的“软技能”——好奇心,创造性的天赋,想象力以及用讲故事的方式在各种业务中和非技术人员清晰地沟通。 ●发现技能 企业如何提升现有劳动力的技能,应该寻求怎样的人才? 我们可能会在几年中处于这样的情况,多达半数的员工使用预测分析的某些能力以成为其日常工作的一部分。对现有的劳动力进行技能提升来满足这一需求将是一部分, 还有招聘有我已经提到过的软技能的新人才。 但我们不必都成为数据科学家。在分析能力越来越重要的同时, 企业主开始在希望加入他们的企业的CVs的人们身上寻找证据, 但事实是, 高级预测分析技术使分析更易于被普通人所获得。更直观的技术加上易于使用的界面,反映消费技术的趋势意味着并不总是要求专业数据科学家的技能为个别业务解释数据和回馈洞察力到更广泛的业务中。 【文章来源:199it】  
    大数据
    2014年04月08日
  • 大数据
    【HR必读】开发利用大数据,HR如何有建树? 大数据现在很“红”,以至各行各业都在开发大数据这个“金矿”。确确实实说,大数据已经给不少企业、组织赢得了商机、或是提高了管理效率。 相对于其它组织如火如荼地开发、利用大数据,企业的人力资源部门在开发、利用大数据方面却未见走在前列,也鲜见利用大数据获得很好效率和效益的例子;埃森哲的调研(数据分析实战:实现高投资回报的突破与阻碍)也证明了这一点:人力资源部门在数据分析法应用方面远远低于财务、客户服务、生产/运营、销售等职能部门。    那为什么人力资源部门会在开发、利用大数据方面落伍呢?我认为有以下几个方面的原因: 第一,大部分企业的人力资源管理注重过程、流程,缺效益思维。 比如,人才招聘,人力资源部门注重的是招聘速度和到位率,却很少去追踪人才到位后在多长时间内发挥了作用、创造了效益;培养也一样,人力资源部门注重的是做了多少培训、有多少人参加、“满意度”(其实这种满意度也是暂时的)如何,很少去追踪经过培训后参加者在技能上、行为上有何改变?是否提升了工作效率、创造了效益?薪资管理上问题更严重,不少企业每年都在加薪、发奖金,却很少有人追踪加薪、发奖后对提升人力效率的贡献,也没有研究出加薪、给重奖在哪些人身上会创造最好的效益、回报最高? 第二,过重地将人力资源工作看待为“艺术”,不注重运用科学来管理人力资源,也没有意识将人力资源管理上升到管理科学。   人力资源管理发展经历了不同的历程,早期的人事管理强调的是控制,为此,所有的人事制度重点都是“不准什么”,“如果违反,会怎样?后来转化为人力资源管理后,又强调“服务”,有些人力资源部门把自己定位为服务部门,招聘是服务、培训是服务、薪资发放也是服务,殊不知随着时代的发展,特别是现在所处的移动互联时代,大数据的开发已经可以为企业的方方面面决策提供了依据,为此,人力资源管理理应从“服务”走向“决策”。人力资源管理应该从数据、数据衡量与分析开始,将人力资源管理的各个系统整合起来,并着眼于最优化人力资源,迈向科学管理。 国外已经有学者在研究如何将人力资源管理转型为“人力资本学”。 第三,大部分企业的人力资源工作者是文科背景,数学基础不好,对数据不敏感。 据《2014德勤全球人力资本趋势》报告调查,越来越多的人力资源部门在使用大数据做明智的人才决策,预测员工绩效,并提前做好人力资源规划。然而,当今只有7%的人认为他们有能力解析使用的数据。 美国管理协会(AMA)于2013年携手企业生产力研究所(Institute for Corporate Productivity, i4cp)开展的一项调研也显示,人力资源管理人员的分析能力在研究开发、财务、运营、营销等人员中是最差的。     第四,人力资源管理信息系统的缺陷与限制阻碍了数据的开发、利用。 在我与不少人力资源工作者交流时发现,现在很多企业所使用的人力资源管理信息系统都存在不少缺陷,要么使用不友好、很复杂;要么功能上难以满足,系统的缺陷、或使用不友好阻碍了人力资源数据的开发利用。 比如,个性化、私人定制是未来一个趋势,人力资源管理也需要重视个性需求,需要通过数据分析、了解了员工的需求后为员工提供个性化的服务。象“菜单式”福利应该是受员工欢迎的,但限于信息工具、系统的能力,不少公司的人力资源管理部门就不敢、或无法推出这样的福利安排。 了解了为什么人力资源部门在开发、利用大数据方面落伍的原因后,那应该怎么做呢?我认为的主要方法和途径有以下四个方面: 1、培养数据意识,以数据说话 人力资源部门应该从现在起,就要有意识地建立、积累有关人力资源管理活动的数据,养成用数据说话的意识;学会运用数据计算、分析,特别需要提升数学能力。 我在“决胜未来,你的脑袋里应该装点啥?”的博文中强调过,数学是科学的基础,几乎所有的科学都与数学有关。数学分析、计算可以帮助人们验证、发现或解释自然现象和社会现象,数学能力强,也可以帮助人们创造发明。 2、从某个领域开始,尝试利用数据进行基础性分析 人力资源部门应该认真检视自己现有的数据资源和分析能力,尝试先从内部某个领域开始运用数据,特别是要从能为业务提供最高价值的领域开始。 比如,可以从人力资源规划开始,去收集和了解:人口趋势、市场人才供应量(如:每年的大学生毕业数)、本单位人员离职趋势(数据)、人力成本上涨趋势、未来公司销售增长趋势、行业发展趋势等数据,从而得出人力配置最佳比率。 3、从基础分析到预测分析 托马斯.H.达文波特和珍妮.G.哈里斯所著的《数据分析竞争法:企业赢之道》指出,数据分析要获得竞争优势,需要从描述性分析上升到预测性分析: 在描述性分析时,我们只会问:到底发生了什么?有多少问题?问题出现了多久?问题出现在哪里?最多也只会问:究竟出现了什么问题?需要采取什么样的行动? 但在预测性分析时,我们要在数据统计分析的基础上问:为什么会出现这种情况?同时,根据统计分析做出预判或推断:如果这种趋势继续发展下去,将会怎样? 4、建立数据管理模型,从预测到决策 人力资源部门需要根据业务需求,制定大数据开发计划,统筹考虑现有数据、技术和技能,确定从何处入手、怎样配合公司的业务战略来建立数据管理模型,从数据的发现、数据的归整、数据分析、提炼到数据管理,建立一整套的数据管理模型,为最优决策提供依据。 埃森哲最近发表的一篇文章“你真的了解员工吗?”中指出:企业在做重要的人事决策时,不能仅依靠表面信息,可以运用人才分析法,即,基于精确及科学的分析法来帮助企业深入了解员工情况,帮助管理者基于客观数据做出科学决策;激发创新、提升业务绩效、助力企业打造出真正的人才优势。 5、提升数据分析能力 人力资源管理应该向经济学靠拢,经济学注重的是数量关系,人力资源管理也应该注重数据分析。据美国管理协会(AMA)的调研,现在和未来三年内,数据分析被列为最重要的五项技能之一。 其实,管理一直强调是数据,如全面质量管理中使用的帕累图分析、散布图分析等以及6δ无不强调数据分析。 提升数据分析能力不仅能显著提升组织绩效,还能改变人力资源部门在开发、利用大数据所处的落伍状况。 【文章来源:钱国新】
    大数据
    2014年04月04日
  • 大数据
    漫谈大数据的思想形成与价值维度 关于大数据的思维、理念、方法论已经被反复消费了,本来我想直接进入交互环节,继挺兄还是要求先有一部分规定动作,我就先自弹自唱几十分钟,既然是漫谈,也不见得扣题,说到哪里是哪里。各位有问题,我可以择时择机插入讨论。 先说大数据思想的形成吧。自从人类开始文字和数字,数据就开始产生。就数据增长曲线而言,极小的初值确实要经历漫长的过程达到人类能感知的曲线拐点。谷歌前CEO埃里克·施密特曾给出了一个有趣的数据:从人类文明曙光初现到2003年一共产生的数据,只相当于2010年两天产生的数据量。而一旦越过拐点,“大数据摩尔定律”的滚滚铁轮下,指数效应爆发:最近两年产生的数据量相当于之前产生的全部数据量。 在漫长的数据蓄水过程中,数学和统计学逐渐发展,人们开始注意对数据的量化分析,在人类进入信息时代以前这样的例子就不胜枚举。比如经济上,黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。又如军事,“向林彪学习数据挖掘”的桥段不论真假,其背后量化分析的思想无疑有其现实基础,而这一基础甚至可以回推到2000多年前,孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。 到上世纪50-60年代,磁带取代穿孔卡片机,启动了数据存储的革命。磁盘驱动器随即发明,它带来的最大想象空间并不是容量,而是随机读写的能力,这一下子解放了数据工作者的思维模式,开始数据的非线性表达和管理。数据库应运而生,从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用),到网状数据库,再到现在通用的关系数据库。与数据管理同时发源的是决策支持系统(DSS),80年代演变到商业智能(BI)和数据仓库,开辟了数据分析——也就是为数据赋予意义——的道路。 那个时代运用数据管理和分析最厉害的是商业。第一个数据仓库是为宝洁做的,第一个太字节的数据仓库是在沃尔玛。沃尔玛的典型应用是两个:一是基于retaillink的供应链优化,把数据与供应商共享,指导它们的产品设计、生产、定价、配送、营销等整个流程,同时供应商可以优化库存、及时补货;二是购物篮分析,也就是常说的啤酒加尿布。关于啤酒加尿布,几乎所有的营销书都言之凿凿,我告诉大家,是Teradata的一个经理编的,人类历史上从没有发生过,但是,先教育市场,再收获市场,它是有功的。 仅次于沃尔玛的乐购(Tesco),强在客户关系管理(CRM),细分客户群,分析其行为和意图,做精准营销。 这些都发生在90年代。00年代时,科研产生了大量的数据,如天文观测、粒子碰撞,数据库大拿吉姆·格雷等提出了第四范式,是数据方法论的一次提升。前三个范式是实验(伽利略从斜塔往下扔),理论(牛顿被苹果砸出灵感,形成经典物理学定律),模拟(粒子加速太贵,核试验太脏,于是乎用计算代替)。第四范式是数据探索。这其实也不是新鲜的,开普勒根据前人对行星位置的观测数据拟合出椭圆轨道,就是数据方法。但是到90年代的时候,科研数据实在太多了,数据探索成为显学。在现今的学科里,有一对孪生兄弟,计算XX学和XX信息学,前者是模拟/计算范式,后者是数据范式,如计算生物学和生物信息学。有时候计算XX学包含了数据范式,如计算社会学、计算广告学。 2008年克里斯·安德森(长尾理论的作者)在《连线》杂志写了一篇《理论的终结》,引起轩然大波。他主要的观点是有了数据,就不要模型了,或者很难获得具有可解释性的模型,那么模型所代表的理论也没有意义了。跟大家说一下数据、模型和理论。大家先看个粗糙的图。 首先,我们在观察客观世界中采集了三个点的数据,根据这些数据,可以对客观世界有个理论假设,用一个简化的模型来表示,比如说三角形。可以有更多的模型,如四边形,五边形。随着观察的深入,又采集了两个点,这时发现三角形、四边形的模型都是错的,于是确定模型为五边形,这个模型反映的世界就在那个五边形里,殊不知真正的时间是圆形。 大数据时代的问题是数据是如此的多、杂,已经无法用简单、可解释的模型来表达,这样,数据本身成了模型,严格地说,数据及应用数学(尤其是统计学)取代了理论。安德森用谷歌翻译的例子,统一的统计学模型取代了各种语言的理论/模型(如语法),能从英文翻译到法文,就能从瑞典文翻译到中文,只要有语料数据。谷歌甚至能翻译克莱贡语(StarTrek里编出来的语言)。安德森提出了要相关性不要因果性的问题,以后舍恩伯格(下面称之为老舍)只是拾人牙慧了。 当然,科学界不认同《理论的终结》,认为科学家的直觉、因果性、可解释性仍是人类获得突破的重要因素。有了数据,机器可以发现当前知识疆域里面隐藏的未知部分。而没有模型,知识疆域的上限就是机器线性增长的计算力,它不能扩展到新的空间。在人类历史上,每一次知识疆域的跨越式拓展都是由天才和他们的理论率先吹起的号角。 2010年左右,大数据的浪潮卷起,这些争论迅速被淹没了。看谷歌趋势,”bigdata”这个词就是那个时间一下子蹿升了起来。吹鼓手有几家,一家是IDC,每年给EMC做digitaluniverse的报告,上升到泽字节范畴(给大家个概念,现在硬盘是太字节,1000太=1拍,阿里、Facebook的数据是几百拍字节,1000拍=1艾,百度是个位数艾字节,谷歌是两位数艾字节,1000艾=1泽);一家是麦肯锡,发布《大数据:创新、竞争和生产力的下一个前沿》;一家是《经济学人》,其中的重要写手是跟老舍同著《大数据时代》的肯尼思?库克耶;还有一家是Gartner,杜撰了3V(大、杂、快),其实这3V在2001年就已经被编出来了,只不过在大数据语境里有了全新的诠释。 咱们国内,欢总、国栋总也是在2011年左右开始呼吁对大数据的重视。 2012年子沛的书《大数据》教育政府官员有功。老舍和库克耶的《大数据时代》提出了三大思维,现在已经被奉为圭臬,但千万别当作放之四海而皆准的真理了。 比如要数据全集不要采样。现实地讲,1.没有全集数据,数据都在孤岛里;2.全集太贵,鉴于大数据信息密度低,是贫矿,投入产出比不见得好;3.宏观分析中采样还是有用的,盖洛普用5000个样本胜过几百万调查的做法还是有实践意义;4.采样要有随机性、代表性,采访火车上的民工得出都买到票的结论不是好采样,现在只做固定电话采样调查也不行了(移动电话是大头),在国外基于Twitter采样也发现不完全具有代表性(老年人没被包括);5.采样的缺点是有百分之几的偏差,更会丢失黑天鹅的信号,因此在全集数据存在且可分析的前提下,全量是首选。全量>好的采样>不均匀的大量。 再说混杂性由于精确性。拥抱混杂性(这样一种客观现象)的态度是不错的,但不等于喜欢混杂性。数据清洗比以前更重要,数据失去辨识度、失去有效性,就该扔了。老舍引用谷歌PeterNovig的结论,少数高质量数据+复杂算法被大量低质量数据+简单算法打败,来证明这一思维。Peter的研究是Web文本分析,确实成立。但谷歌的深度学习已经证明这个不完全对,对于信息维度丰富的语音、图片数据,需要大量数据+复杂模型。 最后是要相关性不要因果性。对于大批量的小决策,相关性是有用的,如亚马逊的个性化推荐;而对于小批量的大决策,因果性依然重要。就如中药,只到达了相关性这一步,但它没有可解释性,无法得出是有些树皮和虫壳的因导致治愈的果。西药在发现相关性后,要做随机对照试验,把所有可能导致“治愈的果”的干扰因素排除,获得因果性和可解释性。在商业决策上也是一样,相关性只是开始,它取代了拍脑袋、直觉获得的假设,而后面验证因果性的过程仍然重要。 把大数据的一些分析结果落实在相关性上也是伦理的需要,动机不代表行为。预测性分析也一样,不然警察会预测人犯罪,保险公司会预测人生病,社会很麻烦。大数据算法极大影响了我们的生活,有时候会觉得挺悲哀的,是算法觉得了你贷不贷得到款,谷歌每调整一次算法,很多在线商业就会受到影响,因为被排到后面去了。 下面时间不多了,关于价值维度,我贴一些以前讲过的东西。大数据思想中很重要的一点是决策智能化之外,还有数据本身的价值化。这一点不赘述了,引用马云的话吧,“信息的出发点是我认为我比别人聪明,数据的出发点是认为别人比我聪明;信息是你拿到数据编辑以后给别人,而数据是你搜集数据以后交给比你更聪明的人去处理。”大数据能做什么?价值这个V怎么映射到其他3V和时空象限中?我画了个图: 再贴上解释。“见微”与“知著”在Volume的空间维度。小数据见微,作个人刻画,我曾用《一代宗师》中“见自己”形容之;大数据知著,反映自然和群体的特征和趋势,我以“见天地、见众生”比喻之。“著”推动“微”(如把人群细分为buckets),又拉动“微”(如推荐相似人群的偏好给个人)。“微”与“著”又反映了时间维度,数据刚产生时个人价值最大,随着时间decay最后退化为以集合价值为主。 “当下”和“皆明”在Velocity的时间维度。当下在时间原点,是闪念之间的实时智慧,结合过往(负轴)、预测未来(正轴),可以皆明,即获得perpetual智慧。《西游记》里形容真假孙悟空,一个是“知天时、通变化”,一个是“知前后、万物皆明”,正好对应。为达到皆明,需要全量分析、预测分析和处方式分析(prescriptiveanalytics,为让设定的未来发生,需要采取什么样的行动)。 “辨讹”和“晓意”在Variety的空间维度。基于大体量、多源异质的数据,辨讹过滤噪声、查漏补缺、去伪存真。晓意达到更高境界,从非结构数据中提取语义、使机器能够窥探人的思想境界、达到过去结构化数据分析不能达到之高度。 先看知著,对宏观现象规律的研究早已有之,大数据的知著有两个新特点,一是从采样到全量,比如央视去年“你幸福吗”的调查,是街头的采样,前不久《中国经济生活大调查》关于幸福城市排名的结论,是基于10万份问卷(17个问题)的采样,而清华行为与大数据实验室做的幸福指数(继挺兄、我、还有多位本群群友参与),是基于新浪微博数据的全集(托老王的福),这些数据是人们的自然表达(而不是面对问卷时的被动应对),同时又有上下文语境,因此更真实、也更有解释性。北上广不幸福,是因为空气还是房价或教育,在微博上更容易传播的积极情绪还是消极情绪,数据告诉你答案。《中国经济生活大调查》说“再小的声音我们都听得见”,是过头话,采样和传统的统计分析方法对数据分布采用一些简化的模型,这些模型把异常和长尾忽略了,全量的分析可以看到黑天鹅的身影,听到长尾的声音。 另一个特点是从定性到定量。计算社会学就是把定量分析应用到社会学,已经有一批数学家、物理学家成了经济学家、宽客,现在他们也可以选择成为社会学家。国泰君安3I指数也是一个例子,它通过几十万用户的数据,主要是反映投资活跃程度和投资收益水平的指标,建立一个量化模型来推知整体投资景气度。 再看见微,我认为大数据的真正差异化优势在微观。自然科学是先宏观、具体,进入到微观和抽象,这时大数据就很重要了。我们更关注社会科学,那是先微观、具体,再宏观、抽象,许小年索性认为宏观经济学是伪科学。如果市场是个体行为的总和,我们原来看到是一张抽象派的画,看不懂,通过客户细分慢慢可以形成一张大致看得懂的现实图景,不过是马赛克的,再通过微分、甚至定位个人,形成高清图。我们每一个人现在都生活在零售商的bucket中(前面说的乐购创造了这个概念),最简单的是高收入、低收入这类反映背景的,再有就是反映行为和生活方式的,如“精打细算”、“右键点击一族”(使用右键的比较techsavvy)。反过来我们消费者也希望能够获得个性化的尊崇,Nobodywantstobenobodytoday。 了解并掌握客户比以往任何时候都更重要。奥巴马赢在大数据上,就是因为他知道西岸40-49岁女性的男神是乔治·克鲁尼,东岸同样年龄段女性的偶像则是莎拉·杰西卡·帕克(《欲望都市》的主角),他还要更细分,摇摆州每一个郡每一个年龄段每一个时间段在看什么电视,摇摆州(俄亥俄)1%选民随时间变化的投票倾向,摇摆选民在Reddit上还是Facebook上,都在其掌握之中。 对于企业来说,要从以产品为中心,转到以客户(买单者)甚至用户(使用者)为中心,从关注用户背景到关注其行为、意图和意向,从关注交易形成转到关注每一个交互点/触点,用户是从什么路径发现我的产品的,决定之前又做了什么,买了以后又有什么反馈,是通过网页、还是QQ、微博或是微信。 再讲第三个,当下。时间是金钱,股票交易就是快鱼吃慢鱼,用免费股票交易软件有几秒的延迟,而占美国交易量60-70%的高频程序化交易则要发现毫秒级、低至1美分的交易机会。时间又是生命,美国国家大气与海洋管理局的超级计算机在日本311地震后9分钟发出海啸预警,已经太晚。时间还是机会。现在所谓的购物篮分析用的其实并不是真正的购物篮,而是结帐完的小票,真正有价值的是当顾客还拎着购物篮,在浏览、试用、选择商品的时候,在每一个触点影响他/她的选择。数据价值具有半衰期,最新鲜的时候个性化价值最大,渐渐退化到只有集合价值。当下的智慧是从刻舟求剑到见时知几,原来10年一次的人口普查就是刻舟求剑,而现在东莞一出事百度迁徙图就反映出来了。当然,当下并不一定是完全准确的,其实如果没有更多、更久的数据,匆忙对百度迁徙图解读是可能陷入误区的。   第四个,皆明。时间有限,就简单说了。就是从放马后炮到料事如神(predictiveanalytics),从料事如神到运筹帷幄(prescriptiveanalytics),只知道有东风是预测分析,确定要借箭的目标、并给出处方利用草船来借,就是处方性分析。我们现在要提高响应度、降低流失率、吸引新客户,需要处方性分析。   辨讹就是利用多源数据过滤噪声、查漏补缺和去伪存真。20多个省市的GDP之和超过全国的GDP就是一个例子,我们的GPS有几十米的误差,但与地图数据结合就能做到精确,GPS在城市的高楼中没有信号,可以与惯性导航结合。 晓意涉及到大数据下的机器智能,是个大问题,也不展开了。贴一段我的文章:有人说在涉及“晓意”的领域人是无法替代的。这在前大数据时代是事实。《点球成金(Moneyball)》讲的是数量化分析和预测对棒球运动的贡献,它在大数据背景下出现了传播的误区:一、它其实不是大数据,而是早已存在的数据思维和方法;二、它刻意或无意忽略了球探的作用。从读者看来,奥克兰竞技队的总经理比利·比恩用数量化分析取代了球探。而事实是,在运用数量化工具的同时,比恩也增加了球探的费用,军功章里有机器的一半,也有人的一半,因为球探对运动员定性指标(如竞争性、抗压力、意志力等)的衡量是少数结构化量化指标无法刻画的。大数据改变了这一切。人的数字足迹的无意识记录,以及机器学习(尤其是深度学习)晓意能力的增强,可能逐渐改变机器的劣势。今年我们看到基于大数据的情感分析、价值观分析和个人刻画,当这些应用于人力资源,已经或多或少体现了球探承担的作用。 via:来源:吴甘沙,英特尔中国研究院首席工程师    
    大数据
    2014年04月03日