• 谷歌
    谷歌正欲在企业级市场干翻微软 Google,这个加利福尼亚州山景城里的搜索引擎巨头,多年来一直都在为别人做嫁衣。但在上周于旧金山举行的年度开发者大会中,Google比往常花了更多时间来展示诸如Drive for Work(专为企业设计的升级版云端存储服务)和Android Work(Android手机操作系统上Google独家的移动设备管理软件)等新企业功能。     如果你需要更多能够证明Google越来越重视增其企业级服务的证据,那看看这个:在最近几个月内,公司已有过多次重大聘任动作,包括用户体验总监Shahla Aly、战略合作伙伴关系总监Murali Sitaram以及Google云计算平台全球方案负责人Miles Ward。值得注意的是,这批空降的高管就来自思科、IBM、微软以及AWS之流。     “过去几年里,我们已经往公司领导班子内注入了新鲜而优秀的血液,”Google的企业业务总裁Amit Singh说,“我们正在招纳业内最顶尖的人才,包括有着几十年企业经验的高级人才。公司内所有产品的领导班子,从销售到工程,成千上万的Googlers无处不在,而且还在迅速成长。”     从外引进人才至少能够在一定程度上为Google的商业发展出点力。(例如,跳槽到Google的Singh有着多年甲骨文Oracle的工作经验)曾负责思科子公司WebEx的前高管、现正着手运营Google的合作伙伴关系的Sitaram说,他正在鼓励系统集成商、电信运营商以及其它软件制造商同Google进行联盟——这是一种Google以前从未考虑过的伙伴关系。     “过去几年里,我们通过向不同的客户销售各种产品而迅速发展壮大,”Sitaram说道,“如今我们正逐步成为更加大型的企业,因此联盟对Google来说是十分必要的。”     AWS前高管Ward,如今正负责与客户协作进行Google各类云端软件产品的“切实应用”工作——这是个业内前不久才出现的角色。他说,Google在企业发展上的投资是看得见摸得着的。     而Aly这个有着IBM工作经验的微软“长老级”前高管,现在也在Google内负责用户“体验”工作。据她本人说,Google专为企业客户设计的应用Google Apps for Business近日得到了来自客户的95%的满意度评价。“相比其他应用供应商,我们虽然比较起步晚,但随着我们的发展进步与不断成熟,用户体验会是我们区别于其他应用提供商的重要指标。”     Google在这个商业世界里还是个新手,但怎么才能让大家更直观地体会到这点呢?这么说吧:上文提及的Ggoole新高管担任的角色,在他们空降前根本不存在(都是几个月前才设立的)。新版Google Apps for Business,这套能跟微软Office365匹敌的基于云的效率工具类应用虽然早在2006年就发布了,但Google仍然花了不少时间才让企业客户花钱购买并全面使用Gmail账户。但随着业务规模的扩大,Google在企业营销方面也变得精明了许多。     根据Google的统计数据,公司现有超过600家公司、10000名活跃Google Apps活跃用户。随着时间推移,已有更多来自固定企业的大客户购买Google的企业类应用,包括60%的世界500强企业。虽然Google的商业营收总额(占比其整体业务收入的5%)还仅仅是微软的一小部分,但公司首席商务官Nikesh Arora近日告诉投资者,Google的商务业务正是“推动公司成长的因素之一”。     这意味着Google很可能为商务运营聘用更多人才,尤其是一些面向客户的角色——这些角色虽新,但对于逐步接手大额交易的Google来说,是很有必要的。     “接下来,我们将对Google Apps、Android平台与Chrome浏览器进行双降,”企业部门主管Singh说,“企业转型需要一点技术,而Google承诺:我们做得到。”   【文章来源:三影塔CIO之家】  
    谷歌
    2014年07月15日
  • 谷歌
    LinkedIn借“营销伙伴计划”推原生广告 【文章来源:腾讯科技】 [摘要]LinkedIn在向内容公司发展,而不仅仅满足于做一个简历库。   腾讯科技讯 4月25日消息,在过去两年中,LinkedIn在向内容公司发展,而不仅仅满足于做一个简历库。LinkedIn多次进行重新设计产品,推出新的移动应用程序,并在外观和感觉上向Facebook靠近。   这就是为什么你的博客内容更新越多,品牌商就越有可能在上面出售 Sponsored Updates(赞助商更新),——Sponsored Updates是LinkedIn的付费广告产品。这正是Facebook和Twitter的做法; LinkedIn也想做到这一点。但LinkedIn需要一种方法来帮助品牌商做好他们的广告,并给它们提供工具,以更好地管理广告活动。   据美国科技网站Recode报道,周四,该公司推出了一项名为认证市场营销合作伙伴(Certified Marketing Partner )的新计划。该计划包括Sponsored Updates Partners(赞助商更新合作伙伴)和Content Partners(内容合作伙伴)这两个应用程序接口(API),其他公司通过这连个接口与LinkedIn合作。LinkedIn的新合作伙伴包括一批境外公司,它们将有助于品牌商做出更优质的广告。   LinkedIn营销副总裁彭里·普纳斯(Penry Price)说,这两个项目可以帮助品牌商更容易创造原生广告。原生广告指的是以一种特定的媒介方式,让广告成为内容的一部分。它同时也帮助品牌商找到正确的目标顾客群。它们还将为品牌商提供数据分析仪表板,以便品牌商监测这些广告活动的效果。   “我认为对所有平台来说,我们的目标是要确保你获得一个围绕平台发展的生态系统。”普耐斯在采访中表示。“在Facebook之前,谷歌通过搜索引擎营销做到了这一点。”   LinkedIn的认证市场营销合作伙伴计划(Certified Marketing Partner )让人想起Facebook的首选市场开发计划(Preferred Marketing Developer),或Twitter的认证产品合作伙伴计划(Certified Product Partner),这两个计划均囊括了一群帮助品牌商建立和管理Facebook和Twitter广告的公司。   对于像Brand Networks和Salesforce Marketing Cloud这样的合作伙伴来说,这是好事。因为它们作为该计划的一部分,其业务将与Facebook,Twitter和LinkedIn区分开来。很显然,这对Facebook和LinkedIn 来说也是好事,因为它们的广告业务将上升。(谭思) [责任编辑:samxiao]  
    谷歌
    2014年04月28日
  • 谷歌
    谷歌为什么应该收购Dropbox 文章来源:新浪科技  导语:美国电子杂志Slate周二刊登题为《谷歌为什么应该收购Dropbox》(Why Google Should Buy Dropbox)的评论文章称,由于美国云存储服务提供商Dropbox已经透露出发展广告业务的意愿,而且正在构建庞大的用户数据,有可能对谷歌构成威胁,因此谷歌应当提前下手,主动将其收购。这不仅有助于降低风险,还能获取更加丰富的用户数据,充实自家的广告业务。    以下为文章主要内容: 我最近不怎么跟Siri说话。这有点奇怪,毕竟,她可能比任何人都更了解我。她知道我去过哪里,知道我在哪里,甚至知道我要去哪里。她知道我有多少本书,也知道我看过几本。她甚至知道我每天都跟谁说过话,说了什么。   从很多方面来看,我都已经将多数的日常生活琐事交给Siri打理。苹果早已预见到这一趋势,他们曾经说过:“Siri很易用、很好用,你可以不断发现它的各种用途。”   请注意,苹果用的是“它”,不是“她”。或许,苹果已经发现电影《她》中那套比人类更人类的操作系统会引发用户的不安。但没有必要担心,我肯定不会跟自己的数字助理坠入爱河:从目前的情况来看,我根本不喜欢她。当我出门在外时,她的确可以帮我发送短信和邮件,她的语音识别功能也的确很强大。即便如此,她其实也没有那么聪明——虽然我为她提供了各种资源和数据,但她也不是万能的,很多我不会做的事情,她也不会。   如果说有人原意寻找越来越多的方式来使用Siri,我肯定是其中之一。我是铁杆果粉,我对拟人化的操作系统丝毫不感觉奇怪。当所有人都对物联网感到振奋时,“我联网”(Internet of Me)反而更能激起我的兴趣:它可以帮助我优化和组织生活的方方面面。我不希望美国国家安全局(NSA)或广告主搜查我的数据,但我很愿意为“某个人”赋予这样的权限,前提是要为我提供有益的帮助。   当我向云端上传越来越多的文档、邮件和照片后,Siri应该找到越来越多的方式来了解我——至少它所代表的系统应该做到这一点。Siri应当帮助我规划会议,帮孩子们做作业,帮我校对文章,帮我选择最好的生日礼物,甚至更新与工作有关的各种任务和对话。如果Siri真能这么聪明,我很愿意交点钱,只要不超过每月100美元,应该都没有问题。   但前提是,她得知道从哪里入手。碰巧,我也是Dropbox的2亿用户之一。我的工作文件大都存储在Dropbox上:演讲稿、电子表格、文章草稿,等等等等。逐渐地,我又开始把生活中的数据也存储在Dropbox上:照片、家庭录像、备份文件、电子书,不一而足。   乍一看,我的做法似乎有违常理:为什么要把那么多东西存储在一款与自己的移动设备没有关系的服务中呢?但这恰恰是Dropbox的秘密武器:它不依附于任何平台。尽管iOS和Android都有很多优点:漂亮、简洁、优雅,但这些操作系统对于普通消费者来说都像是黑盒子一样。   除了通过自带的应用商店安装应用和卸载应用外,多数用户都不会把任何文件存储到平板电脑或智能手机上,也很少将上面的文件下载下来。这无形中限制了这些的内容和功能。随着Dropbox获取的文件越来越多,它的潜力也越来越大。巧合的是,另外一个有趣的现象也逐渐形成:没有存储在智能手机或平板电脑上的文件恰恰是最重要的文件——对有些人来说,这正是他们依然保留笔记本电脑的唯一理由。   目前为止,苹果的iCloud云存储服务对我们生活的渗透犹如蜻蜓点水般肤浅,而Dropbox却早已全面发力。这对iCloud显然不利。Dropbox已经推出了外表华丽的Carousel照片管理应用,借此进军了苹果的地盘,今后还有可能具备更多功能。就在几天前,该公司宣布收购专注于苹果平台的照片和视频存储服务Loom,以及协作文档创业公司Hackpad。这家企业正在凭借敏捷的动作和迅速的反应,通过迂回战术绕开苹果和谷歌的移动云存储服务。   史蒂夫·乔布斯(Steve Jobs)早就意识到Dropbox有朝一日可能会在云端对他的产品构成威胁。据悉,他曾在2009年对刚刚成立2年的Dropbox发出过收购要约。但Dropbox CEO德鲁·休斯顿(Drew Houston)拒绝了。如今,休斯顿的公司估值已经超过100亿美元。苹果仍然买得起Dropbox,而且的确值得一试。   但我更看好谷歌。与苹果不同,谷歌几乎可以在一夜之间将Dropbox整合到自家平台上,并通过与Dropbox相关的服务创收数十亿美元。与苹果不同,谷歌几乎在各个方面都面临Dropbox的威胁。   而Dropbox也的确开始挺进谷歌的领域。今年2月,休斯顿从谷歌挖来了摩托罗拉移动前CEO丹尼斯·伍德赛德(Dennis Woodside),引发了硅谷的广泛猜测。在谷歌短暂任职期间,伍德赛德负责过美洲的广告销售业务,如此重要的业务可不是泛泛之辈可以掌控的。招募伍德赛德并非Dropbox有意进军移动广告领域的唯一迹象。大约一年前,Dropbox收购了移动优惠券创业公司Endorse。他们还在2012年收购了针对平板电脑优化的广告服务TapEngage。当年的野心几乎没有引发人们的关注,但事后看来,一切似乎早有预谋。   2亿人存储在云端的文件为Dropbox提供了海量信息,但从某种意义上讲,它对谷歌的用途似乎更大。网络搜索在今后几年仍将是一项很有价值的业务,但针对用户个人网络内存储的文件提供的搜索服务,可能更有价值。   尽管拥有巨大潜力,但Dropbox并不是一家搜索公司。虽然它拥有很多世界上最有用的信息,但却无法像谷歌那样充分地组织这些信息。它的收购历史昭示了它的野心,但它毕竟才刚刚开始涉足广告领域。而谷歌在数字广告行业拥有丰富的经验,它的人才、设施、技术、资源足以帮助它以Dropbox为基础构建一个庞大的广告平台。一旦将Dropbox收入囊中,谷歌便可更好地发布预测性的广告,还可以很好地抵御Facebook的竞争。   如果独立发展,Dropbox或许还要花费数年才能具备谷歌那样的技术实力,但它正在积累各种必备的数据。等到时机成熟时,Dropbox可能会打造一个属于它自己的“谷歌”——一个为你提供所有必备服务的“你联网”(Internet of You)——而我们基于云端构建起来的移动生活则会逐渐以它为中心。要达成这一目标并不容易,过程中难免经历坎坷与荆棘,但须知:“会当凌绝顶,一览众山小。”(鼎宏)  
    谷歌
    2014年04月25日
  • 谷歌
    大数据,还是大错误? 大数据是对于大规模现象的一种模糊的表达。这一术语如今已经被企业家、科学家、政府和媒体炒得过热。 五年前,谷歌的一个研究小组在全球顶级的科学杂志《自然》上宣布了一个令人瞩目的成果。该小组可以追踪美国境内流感的传播趋势,而这一结果不依赖于任何医疗检查。他们的追踪速度甚至比疾控中心(CDC)要快的多。谷歌的追踪结果只有一天的延时,而CDC则需要汇总大量医师的诊断结果才能得到一张传播趋势图,延时超过一周。谷歌能算的这么快,是因为他们发现当人们出现流感症状的时候,往往会跑到网络上搜索一些相关的内容。 ”谷歌流感趋势“不仅快捷、准确、成本低廉,而且没有使用什么理论。谷歌的工程师们不用费劲的去假设哪些搜索关键字(比如”流感症状“或者”我身边的药店“)跟感冒传染有相关性。他们只需要拿出来自己网站上5000万个最热门的搜索字,然后让算法来做选择就行了。 谷歌流感趋势的成功,很快就成为了商业、技术和科学领域中最新趋势的象征。兴奋的媒体记者们不停的在问,谷歌给我们带来了什么新的科技? 在这诸多流行语中,“大数据”是一个含糊的词汇,常常出现于各种营销人员的口中。一些人用这个词来强调现有数据量的惊人规模——大型粒子对撞机每年会产生15PB的数据,相当于你最喜欢的一首歌曲重复演奏15000年的文件大小。 然而在“大数据”里,大多数公司感兴趣的是所谓的“现实数据”,诸如网页搜索记录、信用卡消费记录和移动电话与附近基站的通信记录等等。谷歌流感趋势就是基于这样的现实数据,这也就是本文所讨论的一类数据。这类数据集甚至比对撞机的数据规模还要大(例如facebook),更重要的是虽然这类数据的规模很大,但却相对容易采集。它们往往是由于不同的用途被搜集起来并杂乱的堆积在一起,而且可以实时的更新。我们的通信、娱乐以及商务活动都已经转移到互联网上,互联网也已经进入我们的手机、汽车甚至是眼镜。因此我们的整个生活都可以被记录和数字化,这些在十年前都是无法想象的。 大数据的鼓吹者们提出了四个令人兴奋的论断,每一个都能从谷歌流感趋势的成功中印证: 数据分析可以生成惊人准确的结果; 因为每一个数据点都可以被捕捉到, 所以可以彻底淘汰过去那种抽样统计的方法; 不用再寻找现象背后的原因,我们只需要知道两者之间有统计相关性就行了; 不再需要科学的或者统计的模型,”理论被终结了”。《连线》杂志2008年的一篇文章里豪情万丈的写到:“数据已经大到可以自己说出结论了“。 不幸的是,说的好听一些,上述信条都是极端乐观和过于简化了。如果说的难听一点,就像剑桥大学公共风险认知课的Winton教授(类似于国内的长江学者——译者注)David Spiegelhalter评论的那样,这四条都是“彻头彻尾的胡说八道”。 在谷歌、facebook和亚马逊这些公司不断通过我们所产生的数据来理解我们生活的过程中,现实数据支撑起了新互联网经济。爱德华.斯诺登揭露了美国政府数据监听的规模和范围,很显然安全部门同样痴迷从我们的日常数据中挖掘点什么东西出来。 咨询师敦促数据小白们赶紧理解大数据的潜力。麦肯锡全球机构在一份最近的报告中做了一个计算,从临床试验到医疗保险报销到智能跑鞋,如果能把所有的这些健康相关的数据加以更好的整合分析,那么美国的医疗保险系统每年可以节省3000亿美金的开支,平均每一个美国人可以省下1000美元。 虽然大数据在科学家、企业家和政府眼里看起来充满希望,但如果忽略了一些我们以前所熟知的统计学中的教训,大数据可能注定会让我们失望。 Spiegelhalter教授曾说到:“大数据中有大量的小数据问题。这些问题不会随着数据量的增大而消失,它们只会更加突出。” 在那篇关于谷歌流感趋势预测的文章发表4年以后,新的一期《自然杂志消息》报道了一则坏消息:在最近的一次流感爆发中谷歌流感趋势不起作用了。这个工具曾经可靠的运作了十几个冬天,在海量数据分析和不需要理论模型的条件下提供了快速和准确的流感爆发趋势。然而这一次它迷路了,谷歌的模型显示这一次的流感爆发非常严重,然而疾控中心在慢慢汇总各地数据以后,发现谷歌的预测结果比实际情况要夸大了几乎一倍。 问题的根源在于谷歌不知道(一开始也没法知道)搜索关键词和流感传播之间到底有什么关联。谷歌的工程师们没有试图去搞清楚关联背后的原因。他们只是在数据中找到了一些统计特征。他们更关注相关性本身而不是相关的原因。这种做法在大数据分析中很常见。要找出到底是什么原因导致了某种结果是很困难的,或许根本不可能。而发现两件事物之间的相关性则要简单和快速的多。就像Viktor Mayer-Schönberger 和 Kenneth Cukier 在《大数据》这本书中形容的那样:“因果关系不能被忽略,然而曾作为所有结论出发点的它已经被请下宝座了。” 这种不需要任何理论的纯粹的相关性分析方法,其结果难免是脆弱的。如果你不知道相关性背后的原因,你就无法得知这种相关性在什么情况下会消失。谷歌的流感趋势出错的一种解释是,2012年12月份的媒体上充斥着各种关于流感的骇人故事,看到这些报道之后,即使是健康的人也会跑到互联网上搜索相关的词汇。还有另外一种解释,就是谷歌自己的搜索算法,在人们输入病症的时候会自动推荐一些诊断结果进而影响到了用户的搜索和浏览行为。这就好像在足球比赛里挪动了门柱一样,球飞进了错误的大门。 谷歌将使用新的数据再次校准流感趋势这个产品,重新来过。这当然是正确的做法。能够有更多的机会让我们简捷的采集和处理大规模的数据,这当然有一百个理由让人兴奋。然而我们必须从上述例子中汲取足够的教训,才能避免重蹈覆辙。 统计学家们过去花了200多年,总结出了在认知数据的过程中存在的种种陷阱。如今数据的规模更大了,更新更快了,采集的成本也更低了。但我们不能掩耳盗铃,假装这些陷阱都已经被填平了,事实上它们还在那里。 在1936年,民主党人Alfred Landon与当时的总统Franklin Delano Roosevelt(富兰克林.罗斯福——译者注)竞选下届总统。《读者文摘》这家颇有声望的杂志承担了选情预测的任务。当时采用的是邮寄问卷调查表的办法,调查人员雄心勃勃,计划寄出1000万份调查问卷,覆盖四分之一的选民。可以预见,洪水般寄回的邮件将超乎想象,然而《文摘》似乎还乐在其中。8月下旬的时候他们写到:“从下周起,1000万张问卷的第一批回执将会到达,这将是后续邮件洪峰的开始。所有这些表格都会被检查三次,核对,交叉存档五份,然后汇总。” 最终《文摘》在两个多月里收到了惊人的240万份回执,在统计计算完成以后,杂志社宣布Landon将会以55比41的优势击败Roosevelt赢得大选,另外4%的选民则会投给第三候选人。 然而真实选举结果与之大相径庭:Roosevelt以61比37的压倒性优势获胜。让《读者文摘》更没面子的是,观点调查的先创人George Gallup通过一场规模小的多的问卷,得出了准确得多的预测结果。Gallup预计Roosevelt将稳操胜券。显然,Gallup先生有他独到的办法。而从数据的角度来看,规模并不能决定一切。 观点调查是基于对投票人的的大范围采样。这意味着调查者需要处理两个难题:样本误差和样本偏差。 样本误差是指一组随机选择的样本观点可能无法真实的反映全部人群的看法。而误差的幅度,则会随着样本数量的增加而减小。对于大部分的调查来说,1000次的访谈已经是足够大的样本了。而据报道Gallup先生总共进行了3000次的访谈。 就算3000次的访谈已经很好了,那240万次不是会更好吗?答案是否定的。样本误差有个更为危险的朋友:样本偏差。样本误差是指一个随机选择的样本可能无法代表所有其他的人;而样本偏差则意味着这个样本可能根本就不是随机选择的。George Gallup费了很大气力去寻找一个没有偏差的样本集合,因为他知道这远比增加样本数量要重要的多。 而《读者文摘》为了寻求一个更大的数据集,结果中了偏差样本的圈套。他们从车辆注册信息和电话号码簿里选择需要邮寄问卷的对象。在1936年那个时代,这个样本群体是偏富裕阶层的。而且Landon的支持者似乎更乐于寄回问卷结果,这使得错误更进了一步。这两种偏差的结合,决定了《文摘》调查的失败。Gallup每访谈一个人,《文摘》对应的就能收到800份回执。如此大规模而精确的调查最终却得出一个错误的结果,这的确让人难堪不已。 如今对大数据的狂热似乎又让人想起了《读者文摘》的故事。现实数据的集合是如此混乱,很难找出来这里面是否存在样本偏差。而且由于数据量这么大,一些分析者们似乎认定采样相关的问题已经不需要考虑了。而事实上,问题依然存在。 《大数据》这本书的联合作者,牛津大学互联网中心的Viktor Mayer-Schönberger教授,曾告诉我他最喜欢的对于大数据集合的定义是“N=所有”,在这里不再需要采样,因为我们有整个人群的数据。就好比选举监察人不会找几张有代表性的选票来估计选举的结果,他们会记点每一张选票。当“N=所有”的时候确实不再有采样偏差的问题,因为采样已经包含了所有人。 但“N=所有”这个公式对大多数我们所使用的现实数据集合都是成立的吗?恐怕不是。“我不相信有人可以获得所有的数据”,Patrick Wolfe说,他是伦敦大学学院的一名计算机学家和统计学教授。 推特(Twitter)就是一个例子。理论上说你可以存储和分析推特上的每一条记录,然用后来推导出公共情绪方面的一些结论(实际上,大多数的研究者使用的都是推特提供的一个名为“消防水龙带”的数据子集)。然而即使我们可以读取所有的推特记录,推特的用户本身也并不能代表世界上的所有人。(根据Pew互联网研究项目的结果,在2013年,美国的推特中年轻的,居住在大城市或者城镇的,黑色皮肤的用户比例偏高) 我们必须要搞清楚数据中漏掉了哪些人和哪些事,尤其当我们面对的是一堆混乱的现实数据的时候。Kaiser Fung是一名数据分析师和《数字感知》这本书的作者,他提醒人们不要简单的假定自己掌握了所有有关的数据:“N=所有常常是对数据的一种假设,而不是现实”。 在波士顿有一款智能手机应用叫做“颠簸的街道”,这个应用利用手机里的加速度感应器来检查出街道上的坑洼,而有了这个应用市政工人就可以不用再去巡查道路了。波士顿的市民们下载这个应用以后,只要在城市里开着车,他们的手机就会自动上传车辆的颠簸信息并通知市政厅哪里的路面需要检修了。几年前还看起来不可思议的事情,就这样通过技术的发展,以信息穷举的方式得以漂亮的解决。波士顿市政府因此骄傲的宣布,“大数据为这座城市提供了实时的信息,帮助我们解决问题并做出长期的投资计划”。 “颠簸的街道”在安装它的设备中所产生的,是一个关于路面坑洼的地图。然而从产品设计一开始这张地图就更偏向于年轻化和富裕的街区,因为那里有更多的人使用智能手机。“颠簸的街道”的理念是提供关于坑洼地点的“N=所有”的信息,但这个“所有”指的是所有手机所能记录的数据,而不是所有坑洼地点的数据。就像微软的研究者Kate Crawford指出的那样,现实数据含有系统偏差,人们需要很仔细的考量才可能找到和纠正这些偏差。大数据集合看起来包罗万象,但“N=所有”往往只是一个颇有诱惑力的假象而已。 当然这个世界的现实是如果你能靠某个概念挣到钱,就没人会关心什么因果关系和样本偏差。全世界的公司在听到美国折扣连锁店Target的传奇式成功(由纽约时报的Charles Duhigg在2012年报道出来)以后估计都要垂涎三尺。Duhigg解释了Target公司是如何从它的顾客身上搜集到大量的数据并熟练的加以分析。它对顾客的理解简直是出神入化。 Duhigg讲的最多的故事是这样的:一名男子怒气冲冲的来到一家明尼苏达附近的Target连锁店,向店长投诉该公司最近给他十几岁的女儿邮寄婴儿服装和孕妇服装的优惠券。店长大方的向他道了歉。可不久后店长又收到这名男子的电话要求再次道歉——只是这一次对方告知那个少女确实怀孕了。在她的父亲还没有意识到的时候,Target通过分析她购买无味湿纸巾和补镁药品的记录就猜到了。 这是统计学的魔法吗?或许还有更世俗一点的解释。 Kaiser Fung在帮助零售商和广告商开发类似的工具上有着多年的经验,他认为“这里面存在一个严重的虚假正面效应的问题”。他指的是我们通常都没有能够听到的无数的反面故事,在那些例子里没有怀孕的妇女们也收到了关于婴儿用品的优惠券。 如果只听Duhigg讲的故事,你可能很容易就觉得Target的算法是绝对可靠的——每个收到婴儿连体服和湿纸巾购物券的人都是孕妇。这几乎不可能出错。但实际上孕妇能收到这些购物券可能仅仅是因为Target给所有人都寄了这种购物券。在相信Target那些读心术般的故事之前,你应当问问他们的命中率到底有多高。 在Charles Duhiggs的描述中,Target公司会在给你的购物券中随机性的掺杂一些无关的东西,比如酒杯的券。否则的话孕妇们可能会发现这家公司的计算机系统在如此深入的探测她们的隐私,进而感到不安。 Fung对此则有另外的解释,他认为Target这样做并不是因为给孕妇寄一份满是婴儿用品的购物手册会让人起疑,而是由于这家公司本来就知道这些手册会被寄给很多根本没有怀孕的妇女。 以上这些观点并不意味着数据分析一无是处,相反它可能是有高度商业价值的。即使能够把邮寄的准确度提高那么一点点,都将是有利可图的。但能赚钱并不意味着这种工具无所不能、永远正确。 一位名叫John Ioannidis的传染病学家在2005年发表了一篇论文,题目叫“为什么大多数被发表的研究结果都是错误的”,标题言简意赅。他的论文中一个核心的思想就是统计学家们所称的“多重比较问题”。 当我们审视数据当中的某个表象的时候,我们常常需要考虑这种表象是否是偶然产生的。如果这种表象看起来不太可能是随机产生的时候,我们就称它是“统计上显著的”。 当研究者面对许多可能的表象时,多重比较错误就可能发生。假设有一个临床试验,我们让部分小学生服用维他命而给其他小学生安慰剂。怎么判断这种维他命的效果?这完全取决于我们对“效果”的定义。研究者们可能会考察这些儿童的身高、体重、蛀牙的概率、课堂表现、考试成绩甚至是25岁以后的收入或者服刑记录(长期追踪观察)。然后是综合比较:这种维他命是对穷困家庭的孩子有效,还是对富裕家庭的有效?对男孩有效,还是女孩?如果做足够多的不同的相关性测试,偶然产生的结果就会淹没真实的发现。 有很多办法可以解决上述的问题,然而在大数据中这种问题会更加严重。因为比起一个小规模的数据集合来说,大数据的情况下有太多可以用作比较的标准。如果不做仔细的分析,那么真实的表象与虚假表象之比——相当于信号噪声比——很快就会趋近于0. 更糟的是,我们之前会用增加过程透明度的办法来解决多重比较的问题,也就是让其他的研究者也知道有哪些假设被测试过了,有哪些反面的试验结果没有被发表出来。然而现实数据几乎都不是透明的。亚马逊和谷歌,Facebook和推特,Target和Tesco,这些公司都没打算过跟你我分享他们的所有数据。 毫无疑问,更新、更大、更廉价的数据集合以及强大的分析工具终将产生价值。也确实已经出现了一些大数据分析的成功实例。剑桥的David Spiegelhalter提到了谷歌翻译,这款产品统计分析了人类已经翻译过的无数文档,并在其中寻找出可以自己复制的模式。谷歌翻译是计算机学家们所谓的“机器学习”的一个应用,机器学习可以在没有预先设定编程逻辑的条件下计算出惊人的结果。谷歌翻译是目前所知的最为接近”无需理论模型、纯数据驱动的算法黑盒子”这一目标的产品。用Spiegelhalter的话来说,它是“一个令人惊讶的成就”。这一成就来自于对海量数据的聪明的处理。 然而大数据并没有解决统计学家和科学家们数百年来所致力的一些难题:对因果关系的理解,对未来的推演,以及如何对一个系统进行干预和优化。 伦敦皇家学院的David Hand教授讲过一句话,“现在我们有了一些新的数据来源,但是没有人想要数据,人们要的是答案”。 要使用大数据来得到这样的答案,还需要在统计学的方法上取得大量长足的进展。 UCL的Patrick Wolfe说,“大数据就好像是蛮荒的美国西部。那些头脑灵活野心勃勃的人会想尽办法利用一切可能的工具,从这些数据中淘出点值钱的东西来,这很酷。但目前我们做的还有些盲目。” 统计学家们正争先恐后的为大数据开发新的工具。这些新的工具当然很重要,但它们只有在吸取而不是遗忘过去统计学精髓的基础上才能成功。 最后,我们再回头来看看大数据的四个基础信条。 其一,如果简单的忽略掉那些反面的数据,比如Target的怀孕预测算法,那么我们很容易就会过高的估计算法的精确度。 其二,如果我们在一个固定不变的环境里做预测,你可以认为因果关系不再重要。而当我们处在一个变化的世界中(例如流感趋势预测所遇到的那样),或者是我们自己就想要改变这个环境,这种想法就很危险了。 其三,“N=所有”,以及采样偏差无关紧要,这些前提在绝大多数的实际情况下都是不成立的。 最后,当数据里的假像远远超过真相的时候,还持有“数据足够大的时候,就可以自己说出结论了”这种观点就显得过于天真了。 大数据已经到来,但它并没有带来新的真理。现在的挑战是要吸取统计学中老的教训,在比以前大得多的数据规模下去解决新的问题、获取新的答案。 via: 199it.com 摘自: 译言
    谷歌
    2014年04月11日