• 傅志华
    大数据的挑战和趋势 【编者按】本文作者傅志华先生(公众号:傅志华)曾为腾讯社交网络事业群数据中心总监以及腾讯公司数据协会会长。在腾讯前,曾就职于艾瑞市场咨询、易观国际、中国互联网协会,并任DCCI互联网数据中心副总裁。     大数据挑战和机遇并存,大数据在未来几年的发展将从前几年的预期膨胀阶段、炒作阶段转入理性发展阶段、落地应用阶段,大数据在未来几年将逐渐步入理性发展期。未来的大数据发展依然存在诸多挑战,但前景依然非常乐观。     大数据发展的挑战 目前大数据的发展依然存在诸多挑战,包括七大方面的挑战:业务部门没有清晰的大数据需求导致数据资产逐渐流失;企业内部数据孤岛严重,导致数据价值不能充分挖掘;数据可用性低,数据质量差,导致数据无法利用;数据相关管理技术和架构落后,导致不具备大数据处理能力;数据安全能力和防范意识差,导致数据泄露;大数据人才缺乏导致大数据工作难以开展;大数据越开放越有价值,但缺乏大数据相关的政策法规,导致数据开放和隐私之间难以平衡,也难以更好的开放。     挑战一:业务部门没有清晰的大数据需求 很多企业业务部门不了解大数据,也不了解大数据的应用场景和价值,因此难以提出大数据的准确需求。由于业务部门需求不清晰,大数据部门又是非盈利部门,企业决策层担心投入比较多的成本,导致了很多企业在搭建大数据部门时犹豫不决,或者很多企业都处于观望尝试的态度,从根本上影响了企业在大数据方向的发展,也阻碍了企业积累和挖掘自身的数据资产,甚至由于数据没有应用场景,删除很多有价值历史数据,导致企业数据资产流失。因此,这方面需要大数据从业者和专家一起,推动和分享大数据应用场景,让更多的业务人员了解大数据的价值。     挑战二:企业内部数据孤岛严重 企业启动大数据最重要的挑战是数据的碎片化。在很多企业中尤其是大型的企业,数据常常散落在不同部门,而且这些数据存在不同的数据仓库中,不同部门的数据技术也有可能不一样,这导致企业内部自己的数据都没法打通。如果不打通这些数据,大数据的价值则非常难挖掘。大数据需要不同数据的关联和整合才能更好的发挥理解客户和理解业务的优势。如何将不同部门的数据打通,并且实现技术和工具共享,才能更好的发挥企业大数据的价值。     挑战三:数据可用性低,数据质量差 很多中型以及大型企业,每时每刻也都在产生大量的数据,但很多企业在大数据的预处理阶段很不重视,导致数据处理很不规范。大数据预处理阶段需要抽取数据把数据转化为方便处理的数据类型,对数据进行清洗和去噪,以提取有效的数据等操作。甚至很多企业在数据的上报就出现很多不规范不合理的情况。以上种种原因,导致企业的数据的可用性差,数据质量差,数据不准确。而大数据的意义不仅仅是要收集规模庞大的数据信息,还有对收集到的数据进行很好的预处理处理,才有可能让数据分析和数据挖掘人员从可用性高的大数据中提取有价值的信息。Sybase的数据表明,高质量的数据的数据应用可以显著提升企业的商业表现,数据可用性提高10%,企业的业绩至少提升在10%以上。     挑战四:数据相关管理技术和架构 技术架构的挑战包含以下几方面:(1)传统的数据库部署不能处理TB级别的数据,快速增长的数据量超越了传统数据库的管理能力。如何构建分布式的数据仓库,并可以方便扩展大量的服务器成为很多传统企业的挑战;(2)很多企业采用传统的数据库技术,在设计的开始就没有考虑数据类别的多样性,尤其是对结构化数据、半结构化和非结构化数据的兼容;(3)传统企业的数据库,对数据处理时间要求不高,这些数据的统计结果往往滞后一天或两天才能统计出来。但大数据需要实时处理数据,进行分钟级甚至是秒级计算。传统的数据库架构师缺乏实时数据处理的能力;(4)海量的数据需要很好的网络架构,需要强大的数据中心来支撑,数据中心的运维工作也将成为挑战。如何在保证数据稳定、支持高并发的同时,减少服务器的低负载情况,成为海量数据中心运维的一个重点工作。     挑战五:数据安全 网络化生活使得犯罪分子更容易获得关于人的信息,也有了更多不易被追踪和防范的犯罪手段,可能会出现更高明的骗局。如何保证用户的信息安全成为大数据时代非常重要的课题。在线数据越来越多,黑客犯罪的动机比以往都来的强烈,一些知名网站密码泄露、系统漏洞导致用户资料被盗等个人敏感信息泄露事件已经警醒我们,要加强大数据网络安全的建设。另外,大数据的不断增加,对数据存储的物理安全性要求会越来越高,从而对数据的多副本与容灾机制也提出更高的要求。目前很多传统企业的数据安全令人担忧。     挑战六:大数据人才缺乏 大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支掌握大数据技术、懂管理、有大数据应用经验的大数据建设专业队伍。目前大数据相关人才的欠缺将阻碍大数据市场发展。据Gartner预测,到2015年,全球将新增440万个与大数据相关的工作岗位,且会有25%的组织设立首席数据官职位。大数据的相关职位需要的是复合型人才,能够对数学、统计学、数据分析、机器学习和自然语言处理等多方面知识综合掌控。未来,大数据将会出现约100万的人才缺口,在各个行业大数据中高端人才都会成为最炙手可热的人才,涵盖了大数据的数据开发工程师、大数据分析师、数据架构师、大数据后台开发工程师、算法工程师等多个方向。因此需要高校和企业共同努力去培养和挖掘。目前最大的问题是很多高校缺乏大数据,所以拥有大数据的企业应该与学校联合培养人才。     挑战七:数据开放与隐私的权衡 在大数据应用日益重要的今天,数据资源的开放共享已经成为在数据大战中保持优势的关键。商业数据和个人数据的共享应用,不仅能促进相关产业的发展,也能给我们的生活带来巨大的便利。由于政府、企业和行业信息化系统建设往往缺少统一规划,系统之间缺乏统一的标准,形成了众多“信息孤岛”,而且受行政垄断和商业利益所限,数据开放程度较低,这给数据利用造成极大障碍。另外一个制约我国数据资源开放和共享的一个重要因素是政策法规不完善,大数据挖掘缺乏相应的立法。无法既保证共享又防止滥用。因此,建立一个良性发展的数据共享生态系统,是我国大数据发展需要迈过去的一道砍。同时,开放与隐私如何平衡,也是大数据开放过程中面临的最大难题。如何在推动数据全面开放、应用和共享的同时有效地保护公民、企业隐私,逐步加强隐私立法,将是大数据时代的一个重大挑战。       大数据发展趋势 虽然大数据仍在起步阶段,存在诸多挑战,但未来的发展依然非常乐观。大数据的发展呈现八大趋势:数据资源化,将成为最有价值的资产;大数据在更多的传统行业的企业管理落地;大数据和传统商业智能融合,行业定制化解决方案将涌现;数据将越来越开放,数据共享联盟将出现;大数据安全越来越受重视,大数据安全市场将愈发重要;大数据促进智慧城市发展,为智慧城市的引擎;大数据将催生一批新的工作岗位和相应的专业;大数据在多方位改善我们的生活。     趋势一:数据资源化,将成为最有价值的资产 随着大数据应用的发展,大数据价值得以充分的体现,大数据在企业和社会层面成为重要的战略资源,数据成为新的战略制高点,是大家抢夺的新焦点。《华尔街日报》在一份题为《大数据,大影响》的报告宣传,数据已经成为一种新的资产类别,就像货币或黄金一样。Google、Facebook、亚马逊、腾讯、百度、阿里巴巴和360等企业正在运用大数据力量获得商业上更大的成功,并且金融和电信企业也在运用大数据来提升自己的竞争力。我们有理由相信大数据将不断成为机构和企业的资产,成为提升机构和企业竞争力的有力武器。     趋势二:大数据在更多的传统行业的企业管理落地 一种新的技术往往在少数行业应用取得了好的效果,对其他行业就有强烈的示范效应。目前大数据在大型互联网企业已经得到较好的应用,其他行业的大数据尤其是电信和金融也逐渐在多种应用场景取得效果。因此,我们有理由相信,大数据作为一种从数据中创造新价值的工具,将会在许多行业的企业得到应用,带来广泛的社会价值。大数据将在帮助企业更好的理解和满足客户需求和潜在需求,更好的应用在业务运营智能监控、精细化企业运营、客户生命周期管理、精细化营销、经营分析和战略分析等方面。企业管理既有艺术也有科学,相信大数据在科学管理企业方面有更显著的促进,让更多拥抱大数据的企业实现智慧企业管理。     趋势三:大数据和传统商业智能融合,行业定制化解决方案将涌现 来自传统商业智能领域者将大数据当成一个新增的数据源,而大数据从业者则认为传统商业智能只是其领域中处理少量数据时的一种方法。大数据用户更希望能获得一种整体的解决方案,即不仅要能收集、处理和分析企业内部的业务数据,还希望能引入互联网上的网络浏览、微博、微信等非结构化数据。除此之外,还希望能结合移动设备的位置信息,这样企业就可以形成一个全面、完整的数据价值发展平台。毕竟,无论是大数据还是商业智能,目的都是为分析服务的,数据全面整合起来,更有利于发现新的商业机会,这就是大数据商业智能。同时,由于行业的差异性,很难研发出一套适用于各行业的大数据商业智能分析系统,因此,在一些规模较大的行业市场,大数据服务提供商将会以更加定制化的商业智能解决方案提供大数据服务。我们相信更多的大数据商业智能定制化解决方案将在电信、金融、零售等行业出现。     趋势四:数据将越来越开放,数据共享联盟将出现 大数据越关联越有价值,越开放越有价值。尤其是公共事业和互联网企业的数据开放数据将越来越多。我们看到,美国、英国、澳大利亚等国家的政府都在政府和公共事业上的数据做出努力。而国内的一些城市和部门也在逐渐开展数据开放的工作。比如北京市在2012年就开始试运行政务数据资源网,在2013年年底正式开放;上海在2012年启动了政府数据资源开放试点工作,数据涉及地理位置、交通、经济统计和资格资质等数据;2014年,贵州省也加入数据开放之列,10月份云上贵州正式上线。对于不同的行业,数据越共享也是越有价值。如果每一个医院想获得更多病情特征库以及药效信息,那么就需要全国,甚至全世界的医疗信息共享,从而可以通过平台进行分析,获取更大的价值。我们相信数据会呈现一种共享的趋势,不同领域的数据联盟将出现。     趋势五:大数据安全越来越受重视,大数据安全市场将愈发重要 随着数据的价值的越来越重要,大数据的安全稳定也将会逐渐被重视。网络和数字化生活也使得犯罪的分子更容易获取关于他人的信息,也有更多的骗术和犯罪手段出现,所以,在大数据时代,无论对于数据本身的保护,还是对于由数据而演变的一些信息的安全,对大数据分析有较高要求的企业将至关重要。大数据安全是跟大数据业务相对应的,与传统安全相比,大数据安全的最大区别是安全厂商在思考安全问题的时候首先要进行业务分析,并且找出针对大数据的业务的威胁,然后提出有针对性的解决方案。比如,对于数据存储这个场景,目前很多企业采用开源软件如Hadoop技术来解决大数据问题,由于其开源性,但是其安全问题也是突出的。因此,市场需要更多专业的安全厂商针对不同的大数据安全问题来提供专业的服务。     趋势六:大数据促进智慧城市发展,为智慧城市的引擎 随着大数据的发展,大数据在智慧城市将发挥着越来越重要的作用。由于人口聚集给城市带来了交通、医疗、建筑等各方面的压力,需要城市能够更合理地进行资源布局和调配,而智慧城市正是城市治理转型的最优解决方案。智慧城市是通过物与物、物与人、人与人的互联互通能力、全面感知能力和信息利用能力,通过物联网、移动互联网、云计算等新一代信息技术,实现城市高效的政府管理、便捷的民生服务、可持续的产业发展。智慧城市相对于之前数字城市概念,最大的区别在于对感知层获取的信息进行了智慧的处理。由城市数字化到城市智慧化,关键是要实现对数字信息的智慧处理,其核心是引入了大数据处理技术。大数据是智慧城市的核心智慧引擎。智慧安防、智慧交通、智慧医疗、智慧城管等,都是以大数据为基础的的智慧城市应用领域。     趋势七:大数据将催生一批新的工作岗位和相应的专业 一个新行业的出现,必将在工作职位方面有新的需求,大数据的出现也将推出一批新的就业岗位,例如,大数据分析师、数据管理专家、大数据算法工程师、数据产品经理等等。具有有丰富经验的数据分析人才将成为稀缺的资源,数据驱动型工作将呈现爆炸式的增长。而由于有强烈的市场需求,高校也将逐步开设大数据相关的专业,以培养相应的专业人才。企业也将和高校紧密合作,协助高校联合培养大数据人才。如2014年,IBM 全面推进与高校在大数据领域的合作,引入强大的研发团队和业务伙伴,推动“大数据平台”和“大数据分析”的面向行业产学研创新合作以及系统化知识体系建设和高价值人才培养,建设符合中国教学特色及人才需求的大数据相关学分课程,为未来建设特色专业方向做准备。     趋势八:大数据在多方位改善我们的生活 大数据不仅用于企业和政府,也应用于我们的生活。在健康方面:我们可以利用智能手环监测,对我们的睡眠模式来进行追踪,了解睡眠质量;我们可以利用智能血压计、智能心率仪远程的监控身在异地的家里老人的健康情况,让远在他方的外出工作者更加放心;在出行方面:我们可以利用智能导航出行GPS数据了解交通状况,并根据拥堵情况进行路线实时调优。在居家生活方面:大数据将成为智能家居的核心,智能家电实现了拟人智能,产品通过传感器和控制芯片来捕捉和处理信息,可以根据住宅空间环境和用户需求自动设置控制,甚至提出优化生活质量的建议,如我们的冰箱可能会在每天一大早建议我们当天的菜谱。
    傅志华
    2014年12月01日
  • 傅志华
    大数据如何在企业落地 经常听到很多大数据的概念和趋势,但是落地而务实的介绍相对较少。笔者根据在互联网和数据领域的实际从业经验,总结出数据价值金字塔在企业运营中的应用模型。该模型对应的是企业运营中的不同层面的数据需求,下文将逐层介绍。   数据基础平台层,金字塔的最底层也是整个金字塔的基础层,如果基础层搭建不好,上面的应用层也很难在企业运营中发挥效果。没有数据或者没有高质量的数据,所有的分析都是误导,所有的数据挖掘都是错误的引导。   这一层的目标是把企业的所有用户(客户)数据用唯一的ID串起来,包括用户(客户)的画像(如性别、年龄等)、行为以及兴趣爱好等,以达到全面的了解用户(客户)的目的。要做好有三个关键:1.企业需要确定打通数据的唯一ID,有的企业是用会员注册号,有的是手机号或者身份证号等等。2.跨部门整合数据的问题。有大数据的企业通常部门都比较多,用户(客户)的各种行为和兴趣爱好数据散落在不同部门,需要企业有意识强有力的去整合;3.通过技术手段和规范手段把数据管理起来,这里解决的问题是存在数据仓库里面的数据具体的含义是什么,以及如何高效的存储和计算,涉及到数据接入系统、元数据管理系统和计算任务调度等系统。   业务运营监控层。这一层首要的是搭建业务运营的关键数据体系,在此基础上通过智能化模型开发出来的数据产品,监控关键数据的异动,并可以快速定位数据异动的原因,辅助运营决策,如果企业构建了实时计算的能力,那么很多业务运营中问题就能过及时的发现。   用户/客户体验优化层。这一层面主要是通过数据来监控和优化用户/客户的体验问题。这里面既运用了结构化的数据来监控,也运用非结构化的数据(如文本)来监控体验的问题。前者更多的是应用各种用户(客户)体验监测的模型或者工具来实现,后者更多的是通过监测微博、论坛和企业内部的客户反馈系统的文本来发现负面的口碑,以及时的优化产品或服务。   业务运营监控层和用户/客户体验优化层最终希望实现企业运营的智能化医生。这两层面做出的工具好比是体温计、血压计、B超、CT等工具,我们用这些工具就能快速透视企业运营中那一模块产生问题。   精细化运营和精细化营销层。这层面有四方面事情:1.构建基于用户的数据提取和运营工具。运营和营销人员通过简单的条件配置(如选择男性、18-24岁以及特定兴趣爱好),便可把数据(用户/客户)提取出来,对数据背后的用户/客户进行营销或运营活动;2.通过数据挖掘的手段提升客户对活动的响应(如点击率),常见的算法有决策树、逻辑回归等等;3.通过数据挖掘的手段进行客户生命周期管理。区别于传统的客户生命周期管理,大数据是可做到实时对不同生命周期的客户进行实时标记和预警,并把有效的活动当成商品一样及时的推送给不同生命周期阶段的客户;4.客户个性化推荐。主要是用个性化推荐算法实现根据用户不同的兴趣和需求推荐不同的商品或者产品,以实现推广资源效率和效果最大化。   数据辅助市场传播。这一层面要做到通过“性感”的数据分析和挖掘来辅助产品进行传播,主要有两种实现方式:一种是好玩的数据信息图谱,相信大家都不喜欢看产品的公关软文,而更喜欢看好玩的内容。尤其是在网络上传播,10-29岁的网民占所有中国网民的一半多(55%,CNNIC 2013年数据),而这些用户偏年轻、偏“屌丝”,所以这些受众更喜欢“性感”的内容。   淘宝曾经通过统计其购买胸罩C-Cup以上的用户地区分布,发现西安的网民相对比例最多,并发布了这个数据,说西安女生胸部最大,引起不少“屌丝”网民传播。而腾讯在今年3月份则基于8亿多活跃用户首次披露“逃离北上广”数据图,发现11%的用户在春节后逃离了北上广。   数据辅助市场传播的另外一种方式是直接做成数据产品对外使用。比如,百度指数或百度过年期间做的迁徙地图。百度东莞8小时迁徙图的数据中可以看到,离开东莞后,去香港的人最多。那我们是不是可以简单地得到一个信息,从香港去东莞的人最多……   业务经营分析和战略分析层。这两个层面在这里就不多说了,因为这两个层面更多的是跟很多传统的战略分析、经营分析层面的方法论相似,最大的差异是数据来自于大数据。但这里面有两方面需要注意:   1.有很多企业错误的把“业务运营监控层”和“用户/客户体验优化层”做的事情放在经营分析或者战略分析层来做。我认为“业务运营监控层”和“用户/客户体验优化层”更多的是通过机器、算法和数据产品来实现的,“战略分析”、“经营分析”更多的是人来实现。很多企业把机器能做的事情交给了人来做,这样导致发现问题的效率较低。我的建议是,能用机器做的事情尽量用机器来做好“业务运营监控层”和“用户/客户体验优化层”,在此基础上让人来做人类更擅长的经验分析和战略判断;   2. 在变化极快的互联网领域,在业务的战略方向选择上,数据很难预测业务的大发展方向,如果有人说微信这个大方向是通过数据挖掘和分析研究出来,估计产品经理们会笑了。从本质上来说,数据在精细化营销和运营中能起到比较好的作用,但在产品策划、广告创意等创意性的事情上,起到的作用较小。但一旦产品创意出来,就可以通过灰度测试,数据验证效果了。   我认为,如果能利用数据通过机器、算法、或者人工的手段,把现状和问题及原因洞悉的特别清楚已经很不错了,这样决策层就可以基于这些情况进行更好的“拍脑袋”决策了。   总之,本文只是提纲挈领的介绍了大数据在企业的落地方案。还有更多的细节和方法论未能展示出来。另外,大数据在不同行业的落地也许有较大的差异。因此,欢迎各行业同仁与我交流探讨。   【文章作者:傅志华】  
    傅志华
    2014年06月05日