大数据 - HRTechChina.com - 向上的力量！

大数据

天然“不待见”数据的中国企业，该醒醒了随着信息技术的发展，“大数据”三个字出镜率越来越高，几乎遍地开花。而且，现在的数据不特指传统的阿拉伯数字，而是囊括了人类生活的各个方面，文字、视频、图片、私密日记、就医记录、交通罚款、购物习惯、天气预报、情绪波动等等，总之，一切能够留下的痕迹都将成为大数据研究的对象。按照《大数据时代》一书中的描述，大数据风暴正变革着人类生活、工作和思维，且明确定义最大的转变就是：放弃对因果关系的苛求，转而向相关关系进行探索。这种转变颠覆了人类千百年的思维习惯，而且把个别伟人“追求真理”的高尚情操毁灭地不堪入目。不过，笔者倒不认为大数据是神马新鲜的玩意儿。其实，这种技术最大的魅力是通过相关的关系找到规律，之后，较为准确地预测未来。早在6300年前，古埃及人通过观察太阳升起和下落的规律，制作了太阳历，把太阳单向前进的时间换分为365天为一个周期；2200年前，中国人发现了候鸟迁徙和植物发芽有规可循，于是，制作了24节气，也就是说，穿着树叶的那些人，就已经知道了数据应用的妙处了。至于，现在的大数据技术，最大的优势在于移动设备、云存储和数据处理器的无所不能，从而拓宽了研究领域。历史上，中国人制作了24节气，可以说是领先世界开发出了最早的数据App；但遗憾的是，我们没能在现代大数据的应用上取得领先位置。正当全世界的专家各出奇谋地解析大数据时，却只有媒体行业得到了真正实惠，毕竟，写一篇有关大数据的噱头文章，还是能赚来不少眼球经济——但这也正是中国企业，尤其是大型国企的悲哀，我们高喊要冲进大数据时代，却连沾边也算不上，生产效率和营销效率也没因大数据的引用而有显著提高。噱头将死，中国企业天生“不识数”？诚然，经过十几年的努力，我们已经出现了世界级的互联网公司，最著名的大佬无疑是BAT：百度、腾讯、阿里巴巴，出众的技术能力让他们获得了大量的数据，也让他们挖掘出了价值可观的数据宝藏，但这几个金字塔尖的巨头不能掩盖中国整体企业“不识数”的尴尬，连国外的媒体《经济学人》都跑来嘲讽：中国的企业目前远没有实现网络化和数字化，更没有参与云计算和大数据分析等趋势。总之，中国人有钱引领最潮流的消费趋势（iPhone手机除外），却没有能力引领新兴技术潮流，我们已经有很长时间，没有拿得出手的技术思路和技术产品了，反倒是常去国外拷贝一些回来，而且要给人搞得无比畸形。据国外相关机构统计，中国仅有1/5的公司采用了云存储技术，而美国的这一数字是40%；中国企业仅将2%的收入用于研发信息技术，相当于世界平均水平的一半，连中石油和中石化这样日进斗金的企业也没有对大数据相关技术特别的热情。也难怪，他们的收入，除了给国家交税之外，估计都忙着给石油工人发福利了，食用油、面粉、手表、自行车…...应有尽有。此外，中国国企在民众的心中简直就是“效率低”的代名词。这些企业的员工以喝茶度日，他们喝过的茶水，估计也够在北京城市上空下一场连续250天的茶水雨了。这种情况，不能简单地归咎于技术能力，而是更关乎制度、人性和文化。或许，国企最亟待解决的不是大数据技术，而是思考如何尽快摘掉官僚主义的紧箍咒。相比之下，有实力的私营企业或者说混合所有制企业，更应该在数据应用方面有所建树，但让人感觉尴尬的是，他们投入了足够的热情，却没有踏踏实实去执行和钻研技术的心态，最终，也只是把大数据作为噱头，让竞争对手惊出一声冷汗罢了。互联网三巨头BAT风光无限，百度拥有巨大流量、腾讯的用户遍布全球、阿里巴巴的收购随心所欲，哥仨不仅赚得盆满钵满，而且杀气腾腾，他们就像三辆不断扩张的战车，把新兴企业收编完了之后，又让传统企业心有余悸，或自乱阵脚，或者病急乱投医，即便是一些曾经叱咤风云，全国领先的大企业，也常常祭出昏招，而大数据常常是他们最有技术含量的噱头。例如，白家电领域领导者美的空调，前一阵子爆出消息，扬言要斥资150亿元打造智能家居业务，这也是美的第一次搞和互联网有关的事情，她一口气推出四大管家：“空气智慧管家”、“营养智慧管家”、“水健康智慧管家”、“能源安防智慧管家”，构想中的美的智能产品，会整合空调、电扇和空气净化器等产品，会实施地更新天气、空气等信息，另外，厨房管家会定制菜谱，根据消费者体质推荐营养套餐等等。这些管家看起来很美，但几乎全部需要大数据技术作支撑，而且美的的蓝图，似乎有点太过于超前，比Google要超前20年左右。但是，对于一家从未涉及互联网业务的传统家电企业来说，笔者不仅想问：你的数据从哪里来？你的平台从哪里来？难不成要去阿里巴巴买，当心马云把你给收购了…...他们的产品说明估计可以直接去出版说印刷成“科幻小说”了。此外，TCL、创维、海信、海尔、长虹这些早早布局互联网市场的传统家电巨头，也没能摸准大数据时代的脉搏，强悍如海尔，虽然每天都有新的商业理论产生，但它给笔者印象最深的大数据技术应用是“于非洲的第三世界，进行了一些非常完美的市场调查”，至于说，其他领域的一些大企业，例如湘粤情好端端地也要转型大数据，但从其之前先后转战旅游、环保、影视的经历来看，这要么是噱头，要么是作死，总之，目前中国企业基本不识数。思维变革，数是人类进步的阶梯事实上，不单中国企业有“不识数”的特色，这几乎就是中国人的特色，我们似乎对数字有种天然的排斥感，大多数的中国人更喜欢用玄幻来押注未来，或者希望观音菩萨突然就温柔地说出下一期七星彩的中奖号码…中国历史上，算命先生、大法师的地位曾一度高于数学家和程序员。好比，《人民日报》表述姚明时，常说：他是一位非常优秀的运动员，为我国篮球事业的发展作出了杰出贡献，值得中国全体同胞学习；而美国媒体则惯用量化的标准：姚明全勤的一个赛季，共出场82次，他在场的时候，火箭队每100个回合的进攻中，可以多得5.6分，防守中，则会少丢5.4分，这总计11分的影响，在NBA所有球员中排名第七，于是，莫雷给了他5年7500万的合同。双方的论述，都是在表达姚明的优秀，但显然，美国的报道给人的感觉更加清晰，也更具体，这就是数字的魅力，也体现了中美媒体之间的思维差异。当然，中国的个别领域也装模作样地玩了一些大数据：2009年，国家统计局称，全国70个大中城市房屋售价同比上涨1.5%，或者，每个月的CPI总是上涨一点点，偏偏煮鸡蛋就从1元了涨到1.5元了，就连小米去台湾抢购时，也敢于少了30台，不知道大陆的数据会不会少一些呢？简而言之，美国人迷恋数字是为了发现真相，而中国人贪恋数字，则是为了掩盖真相。笔者认为，大数据是一座待开发的金矿，它能够促使中国制造、电子商务、经济、体育的发展，但前提是，我们需要静下新来学习技术，变革思维，还有最重要的：态度要虔诚。星星之火，数中自有黄金屋当然，我们也没有必要妄自菲薄，在中国企业整体的数据荒原中，依然有些企业走到了前列。BAT三大巨头，还有一些欧美企业的代工厂，都已经耳濡目染地开始了大数据的探索和实践：阿里巴巴旗下的淘宝网拥有上百万的商家，消费者的购物清单，每天都会源源不断地向云端发送数据，而对这些数据的分析，会很容易知悉消费者的购买欲望、购物需求，于是，中国消费只要打开逛淘宝页面，就会非常巧合地看到自己想要的东西，一个篮球，或者一盒避孕套；腾讯获批民营银行执照，估计主要会面向小微企业的贷款，而QQ、微信，乃至财付通上的海量信息，也会帮助其不断累计数据，从而更准确评估贷款企业资质，最大限度的规避风险；至于，百度搜索就更不用赘述，消费者每一次使用放大镜，都会留下痕迹。此外，一些与欧美企业合作的代工厂，也将受惠于大数据浪潮。一些以效率为生命的企业，会在组装线上架设上百条网线，通过扫描枪和测试设备来收集数据，监控良率，高管们只要呆在会议室里就会知道产线的情况了。正可谓，星星之火可以燎原。这些前沿企业是引领中国企业拥抱大数据的先行者，我们的企业确实需要一场摧枯拉朽的变革，需要透明度，需要逐步降低对廉价劳动力依赖。或许，在寻找新技术支持的过程中，大数据技术将会成为中国企业的好伙伴，最起码，大学先开设这门课程吧！【科技新发现康斯坦丁/文，微信公众号：kejxfx】

大数据
2014年08月12日
大数据

HR，快来发现小数据之美最近在多个活动上，我在现场做调研，HR真正使用大数据手段展开分析的请举手，结果是寥寥无几。据我所知，即便是HR数据管理非常优秀的公司，如Honeywell、华住酒店集团，也难以通过所谓大数据的方式进行管理。大数据的理念和技术，应用在信息处理上，如营销中的市场分析，其可以打破点状信息与全样本的不对称，宏观纠偏，提升精度。不过这不是最关键的，重点是其容错空间巨大。但大数据思想一旦运用在企业内部管理上，管理者包括HR在使用数据来做决策时，其精确性或客观性要求往往较高，特别是对于实际问题的解决，其容错空间大大缩小。因此，管理中的大数据思想几乎可以说一个伪概念。原因是多数管理中的数据，包括HR管理的数据，其规模是相对小的，这些数据往往是是零散的、不精确的、不连贯的、定义不统一的，其远远不能称之为大数据，在这样的数据基础上，你敢说可以开展大数据分析吗？事实上HR的数据分析与大数据思想恰恰相反，我们应该具备的是将数据变小的本领，需要关注敏感有价值的数据，而非一味开展人均培训小时数、人均人工成本、人均招聘成本等一阶分析或宏观分析的内容。你可以这样去理解我们即将开展的小数据分析： 1、细分样本对象这是小数据分析寻找数据价值的关键基础。样本对象的划分从组织（集团下属企业之间、事业部之间）到岗位类型（职位类别或管理层级），再到人员性质（新老员工、不同年龄和学历的员工等）的划分，二维、三维或多维分析。很简单，“新进的年轻的高学历的研发人员对绩效管理中考核评分客观性的满意度较低”的分析结论，明显比“员工在绩效管理方面的满意度较低”更有价值。 2、关注异常值统计学中，在展开样本分析时，对于数据异常值，往往视其为糟粕，注意，在HR管理中，这些小数据，其敏感性往往较高，往往可以从中发掘有趣的、典型的、令人担忧的或其他有重要价值的趋势、结论。如满意度和敬业度的异常值、薪酬管理中的异常值、绩效考核中的异常值等。 3、关注数据差异性同一类数据样本中的差异性也是我们需要关注的重点，和异常值一样数据的差异性往往通过离散程度来进行发现，简单的方法如使用分位值、极差、两倍标准差等基础统计方法。两个部门的平均绩效得分相同，但两倍标准差（有95.5%的可能性使得数据落在这个范围之内）相差一倍，就可以发现其离散程度、评分的客观性或指标设计合理性等方面的问题。 4、已知相关要素的关联分析为什么分析相关要素？不是说不相关要素之间找出关联的价值更大吗？如果不相关，要素之间的驱动型就是直接的吗，如果不相关，却又有关联价值，这难道不是自相矛盾？我们重点关注的是，相关因素之间，关联因子和程度是怎样的，分析是过程，结论、建议、改进方案是重点，关联性找到后，就可以得出如何驱动的结论。如薪酬定位和关键人才离职率、敬业度与组织能力、人力资本和企业效益。 5、变化性对比我在前面曾经提到过动态数据分析的重要性，基于活的数据，归纳或演绎。HR数据分析的最高境界，和所以商业、管理职能的数据分析价值一样，是预测。变化性对比分析将帮助你实现这样的结果，两个相关的、动态的因素之间，取得变化规律并开展建模和预测。当细分了样本对象，关注到异常值和数据的差异性，并且开展了相关分析，你就能逐步发现HR管理中的小数据之美，不过HR若想要驾驭小数据分析，还有以下几个关键事项要注意： 1、数据收集应遵循结果导向，以终为始的收集和管理； 2、持续跟踪和多数据论据分析，确保动态性； 3、不断监控数据来源和质量； 4、实时收集和发掘小数据的参考基准和外部参考值（包括情报信息）。最后总结一句，我们已经领略了大数据的宏大之美、创新之美，但这却像皇帝的新装，众人纷纷叫好却迟迟不得亲近。快来关注小数据，看看她在现实中就可以触碰到的惊艳之美，精准和务实之美。还是那句话，作为HR的你，一起来发掘数据分析之美，不断的接触她，亲近她，和她谈一场缠绵悱恻的恋爱吧，和无中生有的直觉判断说再见，和味同嚼蜡的HR分析报告说再见，和大数据说再见。文/杨冰

大数据
2014年08月08日
大数据

观点：面对大数据，你可以害怕在互联网日益繁荣的今天，越来越多人的工作、生活、社交都逃不开百度、腾讯、阿里、360等大小互联网企业甚至个人的全方位数据监控。当这些网站比你妈还更了解你的时候，你感觉到的不是关怀，而是恐怖。腾讯拿到民营银行的执照，互联网圈内同行议论纷纷的同时，最害怕的就是招商银行之类把客户服务根植在微信的金融机构了。在大数据时代，数据收集将是商业经营的起点，你会安心的把自己的数据交给自己的竞争对手吗？不光是企业，其实每个人都要害怕大数据。亚当和夏娃在伊甸园吃了苹果之后，第一件事就是给私处遮上树叶。大数据时代，不小心拍得照片可以让你一夜成名，你的想法、行为、过去都被商家记录，你其实每天都生活在天体海滩。现在小崔和方舟子还在争辩，转基因是世界人口爆炸的福音还是对人身体的伤害?这个辩论，时间会给出答案，但是大数据更是一个值得大家争辩的事情，因为大数据涉及了我们的生活习惯和社会法则。大数据带来的副作用，大大超过了以前人类发明的范畴。商业的大数据就是通过电子化数据的收集，包括手机轨迹，通话，信息，上网行为，购买，旅游，金融，等全方位的数据收集，对你进行分类、判断，推销。作为国内电商时代的开启者，淘宝上云集了数量惊人的数据：每一笔订单不仅包含顾客姓名、收货地址、下单时间等基本信息，甚至连顾客什么时候开始浏览某一件宝贝，跟售前客服讨价还价的过程，在几点几分下单成交，都有全部记录。通过这些信息记录，可以鉴别出你喜欢的东西，推断你的身份、收入、银行存款、家庭事业状况等等。在互联网日益繁荣、BAT三巨头触角无所不达的今天，越来越多人的工作、生活、社交都逃不开百度、腾讯、阿里、360等大小互联网企业甚至个人的全方位数据监控。有许多人认为掌握了越多的数据，越详细的数据，就有机会通过“大数据”分析法来获得一个金矿。但当这些网站比你妈还更了解你的时候，你感觉到的不是关怀，而是恐怖。现在的大数据分析，缺乏取样标准，不代表真实的因果关系。在传统的统计学里面，最重要是数据的采样。比如一种药物的有效性，需要两组对比人群，在严密的实验条件下，长期跟踪，才能都出结论。现在的大数据分析，往往是数据的堆积和简单的关联分析。从严格的科学来讲，是一门伪科学。因为数据只是数据，只是过去，简单的数据积累不说明任何问题，不能真正判断一个人，预测一件事。如果基于大数据武断营销，那就是真正的恐怖了。从以下几个方面，就可以看出为什么大数据会让你害怕： 1. 害怕身份被盗用在移动互联网时代，我们的朋友更多出现在网上。社交网络、QQ、微信、微博取代了面对面的人际交流，虚拟交流也在改变世界和人。基于大数据的应用流行之时，将有大量的人借用和盗用网络身份，达到个人目的。也许你从来没有离开老家，你的网络大数据却涉嫌犯罪。 2. 害怕数据造假在一切看数据说话的今天，每个人、每个企业和商家或多或少都在改变数据。因为各种利益关系错综复杂，报出来的数据往往都应景而异。大数据时代，有意的网络数据造假也能成为一个商业领域，用来帮助别有用心的人或商家制造数据。 3. 害怕数据框定比大数据更复杂的还是人。从心理学的角度，让人做出选择，就意味着要舍弃其他的可能性，这是一件异常困难的事情。人的认识和选择会应为各种原因，产生跳跃性的变化。如果按照数据分析，把人丢进一个箩筐终生定格，据此给他不光是特定类的商品，进而决定他能否从事某件事，限制他的网络视野，也是很不合理的。例如，把大数据作为广告精准投放标准，虽说有一定合理性，但也并不绝对，这是由于人类的购买心理十分复杂。比如说有个消费者只是浏览了一辆汽车，跟着是汽车广告通过各种方式和渠道的狂轰滥炸，除了骚扰，并没有效果。 4. 害怕数据不公和数据歧视完全依赖大数据进行分析、对人进行分类，其实将触及社会不公和歧视。作为商家，考虑到经营成本、营销利润和效率，其实暗地里都会打着各种小九九，而不是表面上把各类消费者一视同仁。毋庸置疑，高端消费者是各类企业的最爱，而低端消费者却让企业皱眉。但现在呢？每个人的消费记录和各种数据都被电子化的方式采集和收集着，一举一动逃不过大数据的记录。对保险公司营销员来说，你这个人的所有信息数据可以一览无余，不用你开口，他已经判断出是不是需要让你参保、保费标准等等；消费数据记录和售后服务记录，甚至都能让卖家挑选买家，把你列入顾客黑名单也不是不可能。不可避免的，一旦成为数据穷人，那么就会面临歧视服务，所有消费者都是平等的这句话将成为历史。 5. 害怕数据垄断目前的商业格局是：两方数据垄断势力正在形成，一方是国营企业，如电信、电力、医院等，一方是以BAT为中心的互联网大佬。特别是后者，在广泛收集数据之后，已经以大数据为依托，开始布局全行业的垄断性的经营，范围包括电子商务，教育，医疗，物流等。而这些垄断一旦形成，将大大降低中国企业的创新能力和竞争能力。【本文作者系商谈创始人、中国云计算专家委员会专家黄柳青博士，微信公众号：青柳黄云 qingliuhuangyun】

大数据
2014年08月06日
大数据

由前Google与Facebook高管创办的大数据初创企业Metanautix携700万美元融资现身此前一直处于秘密状态的大数据初创企业Metanautix今天正式现身，同时还宣布获得了 700 万美元的 A 轮融资。 Metanautix 是一家致力于简化跨平台大数据分析的初创企业，由前 Google 和 Facebook 高管成立于 2012 年。创始人建 CEO THEO VASSILAKIS 创立公司前曾在 Google 工作 8 年，其最后的职位是一支负责数据仓库、可视化及分析的 75 人团队的首席工程师和工程总监。是 Google BigQuery（下一代 MapReduce 的基础）的核心—与数据位置无关的查询系统 Dremel 的开发者。另一位联合创始人兼 CTO APOSTOLOS LERIOS 则曾经是 Facebook 全球最大的照片库基础设施的缔造者。对于许多公司（尤其是传统公司）来说，由于客户数据来源的多样化—部分来自于遗留的内部应用，部分来自于 Hadoop 等系统，因此这些数据分析起来并非易事。而 Metanautix 则可以打破这些数据孤岛，将所有系统通过 SQL 的使用当作一个更大的系统来看待。Metanautix 本身并不是存储系统，用户只需描述出希望分析的数据，Metanautix 就会到不同的数据来源去查找，然后转化为 SQL 表的形式。用户则可以利用机器学习对这些数据进行分析。在部署方面，Metanautix 软件既可以部署在本地，也可以在云端运行。公司现有员工 25 人，目前有 6 家客户，其中最知名的是惠普。软件预计将在今年年底正式发布。此轮融资由红杉资本领投，斯坦福大学捐赠基金及 Google 前工程副总裁 Shiva Shivakumar 跟投。 [文章来源：36氪作者: boxi]

大数据
2014年08月06日
大数据

大数据的潜在影响及制度需求关于大数据，我有几点看法：第一，由于大数据刚刚热起来，所以不必着急下结论。当年IT刚刚发展时，研究增长问题的权威罗伯特·索洛(Robert Solow)教授提出了一个“索洛悖论”：“我们到处都看得见计算机，就是在生产率统计方面却看不见。”直到过了15年，到2002年时，他才公开承认说：“我现在发现IT可能对生产率是有贡献的。”对大数据的研究，可能也需要一个很长的时间才能确认价值所在。第二，可能性不等于可行性。现在有种观点：“到底是大数据还是大忽悠？什么都讲是大数据。”其实是说现在讲的或者设想的都是“可能性”而不是“可行性”。“可行性”要到什么时间？现在还看不出来。它需要合理的制度安排，还需要企业、公司不断地进行商业实践、不断试错，以及科研工作者对大数据分析技术的不断改进。第三，目前的研究主要还是提问阶段，而不是解决问题。当然，如果能提出好的问题，这也算是一个研究的好成果。最后，本文尽量多摆事实、少讲道理；多提供一点素材，少提供一点观点。　一、大数据的产生、内涵及争议首先，大数据何来？实际上大数据一直存在，存在于不同的地方。比如每个人都包涵着很多数据：身高、体重等等，包括观点、思想。但是过去没有互联网，所以这些数据很难得到应用。数据分析在很早就存在。春秋时孙膑就曾用对方营地做灶的数量来判断对方军队的数量，从而指导打仗。不过，当时这样的数据非常少，有这个利用能力的人才会成为时代的智者。然而，现在的情况不太一样了。互联网应用以来，从2005年开始，数据在不断地增长，到2010年以后基本上是一个指数增长的过程，到2013年时已经超过4个ZB，每年的增长率超过50%。这就是一个从量变到质变的过程。之前为什么不说大数据呢？这是个相对的概念，到某一天它的增长速度突然特别快的时候，“大”的概念就蹦出来了。所以它其实不是一个严格的学术概念，只是因为在量变的过程中大家感觉到这种质变，或者感觉它里面有价值。主要的数据来源主要的数据来源，总的来讲有两个方面：第一，物的数据。其中比较有代表性的，就是由传感器组成的物联网，这个概念是IBM在2009年提出来的一种商业模式，当时叫“智慧地球”。就是把传感器装到不同的物体上面，然后展现它的各种数据，比如温度、湿度、压力等等。物联网这几年的增长速度比较快，能达到20%－30%的增长速度，物的数据在不断地增加。第二，人的数据。其中最典型的是移动互联网的发展。近年来移动互联网占整个互联网流量的比例越来越高，移动端尤其是用户自己发送数据的比例大大提高了，这也是大数据非常重要的一个来源。通过这些移动端的数据，就可以判断一个人的职业、兴趣、品质或者其每时每刻的位置，就是说，靠这些数据能很精确地找到每个人的各种情况。数据为什么会突然大量增加？一是IT成本下降，此外，跟这两年云计算使用率的上升有很大的关系。从亚马逊弹性云存储的文件量增长情况可见，从2006年到2013年增加的量是非常显著的，到2013年二季度时已经有2万亿数量文件存储在弹性云上。那么，云计算为什么会降低IT成本？基于我们之前一年的实践研究数据可知，首先，从需求方来看，过去购买一些硬件包括服务器、电脑等等，成本比较昂贵。但是云计算系统把IT资源集中起来后，以租用的方式来使用，就比买它的价格便宜很多。从供给的角度来看，当把所有的IT资源集中起来以后，会有非常明显的规模经济，因为同时运营很多台服务器(当然这是基于技术)，其成本会显著下降。这里还有一个范围经济的概念：当把IT资源集中起来以后，不单有规模经济，还经营了多种的资源。比如说，搜索可能需要占很多CPU的计算资源，但是磁盘资源可能没那么多；电子邮件可能相反。当它集中运用的时候，可以同时得到这两种效率。所以，这也是云计算对IT成本下降的一个贡献。大数据四“V” 关于大数据的定义，现在谈得最多的就是所谓的四个“V”，也有五个、六个“V”之说。IDC(互联网数据中心)归结的四个“V”中，第一个就是它的实际规模。从早先的KB，到TB，一直到后来的PB、EB，数据的量在不断地增加，这是一个表面的现象。第二个“V”是多样的数据类型，尤其是里面包涵了大量的非结构化的数据。什么是非结构化的数据？比如在网上发一条微信，这句话本身没法拿来做统计或计量分析，但是可以在里面提取结构化数据进行分析。这样的数据反而占数据量很重要的一部分。第三个“V”讲的是价值，有两点：一个是价值大，大数据带来各种可能性；另外一个比较重要的是，它虽然量很大、价值也很大，但是密度很低。在互联网上抓取的1GB的大数据，里面有用的可能只有千分之一、万分之一，或者百万分之一，所以，挖掘和分析比原来更加困难。第四个“V”就是动态数据的快速处理。在这方面云计算的贡献比较大，这里比较核心的，也是大数据将来能不能从“可能”到“可行”转变的两个要素，即：非结构化和低密度。这两者其实互相相关，如果技术上能解决怎么分析非结构化数据、怎么从低密度价值里面提取数据的价值，那么大数据的应用可能就会有一个飞跃的增长。所以，我觉得非结构化和低密度可能是大数据的核心东西。那么大数据是什么呢？如果管中窥豹，从点上去看它，首先，大数据的“大”肯定是一个相对的概念，它不是一个绝对的概念。另外，它更不是一个学术性的概念，而且这里面需要关注的就是非结构化的数据可能占大数据的主要部分，尤其是来自于网民的交互式的数据可能是未来大数据的主体之一。从分析方法来看，过去得到数据或者统计的方法是抽样，然后利用概率论和随机过程等数学的方法来推理，从而达到目的，推测得出全部数据。现在有这种可能性，如果成本降得比较低的话，就可以获得全部的数据。　对大数据的质疑当然，对大数据也有非常多的质疑。首先，有人提出“大数据陷阱”。数据是不是越多越好？实际上，对任何企业或个体来说，数据肯定不是越多越好，肯定有一个最优的数据量，因为要分析大量的数据，方法是不是可能？分析成本有多高？这个大量的数据包含的价值有多大？所以，对每一个企业都有一个最优的数据量，就是从拿到的数据范围里面获得的价值和为了获得这些价值而付出的分析成本，它们两个接近相等的时候，可能就是最优数据量。再就是，MIT的凯特·克劳福德(Kate Crawford)教授提出“大数据中存在偏见和盲区”：数据在生成或采集的过程中并不都是平等的，大数据集存在“信号问题”，即某些民众和社区被忽略或未得到充分体现。这个比较典型，比如说，国内现在有6亿多网民，有时候不能用6亿的数据去判断13亿人的状态，因为这个过程不是靠抽样得到的。第三个问题就是“泄露个人隐私成为日益严重的担忧”。在我们不知情时，数据就被人拿走了，这是很可怕的事。二、大数据应用的潜在经济影响如果从宏观或者立体的角度看，人类整个经济发展的过程其实就是不断地把一些不可利用的资源变成可利用的资源的过程。这个过程一般就是技术的一个个大突破，当然每一次技术突破都伴随着不断的、大量的投资过程，并将其转化成价值。比如2008年的金融危机，一开始大家都关注金融的问题，后来很多经济学家提出，这可能是过去的IT技术的经济效应不断耗尽，而新的技术还没有出来所造成的现象——当技术处在一个不给力的阶段的时候，金融就发生问题。实际上很多发达国家在2008年以后也是寄希望于一套新技术来摆脱实体经济的衰落和危机，大数据包括云计算、新能源都是被他们寄予厚望的几个关键技术之一。下一代通用目的技术？ 1995年时，通用目的技术的概念被提出，其特征就是它在许许多多的部门都具有广泛而且普遍深入使用的潜力和技术活力，区别于一般的专用技术，它的影响非常广，甚至一项通用目的技术的发展和进步往往会引发全面的生产率的收益。到2005年时，加拿大的Lipsey教授出了一本书，总结了人类历史发展过程中经历的24种通用目的技术——从青铜冶炼，到钻木取火，一直到2000年左右的互联网信息技术。所以，如果从增长的视角来观察大数据的话，一个核心的问题就是：大数据会不会成为大家期待的下一代的通用目的技术？如果是的话，它可能会带来比较显著的经济增长效应。目前，大家都在期待着通用目的技术，但是真正在市场里摸爬滚打的风险投资家们，他们显然还没有明确地认为哪一项技术能够成为代替互联网的下一代通用目的技术。在2004年左右时，有人提出了“BT会代替IT”的观点，讲了很多生物技术的可能性，但它最终没有转化为能够看得到的“可行性”——到现在为止，它也没有真正实现对IT的替代。包括2008年以后的新能源或者云计算、大数据，它们都没有真正出现一个让投资热高涨的阶段。所以，现在我们还没有明显地看到下一代通用目的技术是什么，只是有很多的设想，包括今天对大数据可能也只是一种设想、一种期望。产业发展前景从大数据本身的情况来看，是不是具备一些通用目的技术的特征？麦肯锡研究院根据其模型做出一些具体的预测：大数据可以为美国的医疗服务业带来3000亿美元的潜在增加值，对欧洲的公共管理每年有2500亿欧元的潜在价值，为位置服务产业带来6000亿美元的潜在年收入。同时，零售商充分利用大数据可实现运营利润增长60%——这是一个非常可观的数字，因为大数据现在对制造业的利润平均可能不到5%。另外，制造业充分利用大数据可降低整个成本的50%。上面是宏观地看，现在提供一个微观的案例。德国小贷公司Kreditech不需要客户提供信用证明，比如资产等，只是通过访问用户的一些电子商务数据(在中国就是淘宝、eBay的数据)、社交数据(比如Facebook)来了解你的电子商务购物行为、手机的使用情况以及位置数据等，然后用这些数据来侧面分析客户信用度。这个贷款过程非常快，用模型来判断，只需几秒钟，放贷只要15分钟。当然，它只提供小额贷款，目前这些国家的高额贷款主要还是大银行在做，它们有传统优势，但是大银行关注不到的一些地方，就由小贷公司提供服务。Kreditech提供的贷款额度最高为500欧元。从效率上来看，这已经是一个很好的尝试了。这样的公司现在美国、英国比较多。在中国，比如，新的互联网企业、新的龙头企业BAT，当初2000年互联网泡沫的时候，讲的是搜狐、新浪、网易这样的企业，现在阿里管它们叫“互联网1.0”。现在BAT都是掌握了大量数据的企业。其中百度有最大的网页搜索数据，阿里巴巴有最大的电商数据，腾讯掌握着最大的社交数据。所以，这不是一个偶然的现象。为什么这样的企业会成为引领现代互联网产业发展的企业？很可能跟大数据的价值有内在的关系。举一个小例子：打车软件深度发展就是基于位置的服务，在每个点上可以看到周围有哪些车，甚至车的位置也可以知道。反过来也一样，司机可以看到每个乘客的距离有多远。这种数据如果在这个行业有很深应用的话，甚至可能会对用户的购车行为产生影响。在中国，工信部下属的赛迪做过一个关于投资的预测：对大数据的投资从2012年到2015年大概每年增长100%左右，这个速度甚至超过国外的速度。　对波动的冲击效应宏观经济学两个基本的问题：一个是增长，一个是波动。前面讲的是一个经济增长的视角，其实从经济波动和政府干预的视角来看，大数据也会带来一些冲击效应。这里要提出一个问题，大数据的发展能否真正改善供需平衡？因为短期的经济周期性的波动的危害也是比较大的，其核心就是供需不平衡。大数据对此会不会有贡献？举两个例子：一个是淘宝搞的“订单农业”。它通过网上的数据平台去获得需要的信息，然后再按照订单来组织、安排生产。另外一个例子是制造业。2013年海尔同阿里合作，叫“家电定制”，先由阿里来收集消费者对海尔产品的需求情况，然后再组织生产，生产周期大概1个－2个月。当时这个活动的效果也不错。当然，不能由这两个案例就推而广之说大数据能解决供需平衡的问题。如果收集全国所有的数据，恐怕量比较大，而且也比较困难。但是，至少从这个角度来看，我们看到这种可能性，值得思考。再就是对政府干预合理性的影响。为什么政府需要干预？因为市场失灵了。为什么市场会失灵？比如在二手车市场上，供方和需方的信息是不对称的，卖车的人拥有比买车的人更多的信息。在这种情况下，如果消费者真的按照市场均衡的价格去买二手车的话，买到的只能是劣等车，好车是买不到的，这就是“劣币驱逐良币”的现象。从这个例子可以看出市场是有可能失灵的，所以需要政府在某些方面给予干预。但是在大数据的条件下来看这个问题的话，如果一个二手车的买家在合理的制度安排下，比如可以到保险公司去查它的数据，就知道它修了几次，出了几次险，到4S店去看就知道它每次出险修的是什么地方。这样买家就可能知道二手车的全部信息，这样会不会对清除这种现象有很大的改善？讲这个故事就是说，经济学的一些传统的分析范式也好，一些传统观点也好，甚至有一些结论，很可能在大数据的条件下会发生很大变化，比如政府干预的必要性是不是比以前更加不必要了。这都是需要研究的问题。三、大数据对社会治理的可能影响十八届三中全会讲到：“全面深化改革的总目标是完善和发展中国特色社会主义制度，推进国家治理体系和治理能力现代化。”“国家治理体系”和“治理能力”到底指的是什么或者如何推进？大数据对这个问题应该是可以有贡献的。比如，在许多西方国家，通过选举这套代议制度来把民意反映到政府的层次，而国内除了人民代表大会制度外，更多是领导通过调研的方式来体察民意。这实际上是一种抽样的性质，去看一些个案，但个案容易在实践中出现虚假现象，甚至国务院领导都曾被地方作假所蒙蔽。所以，这种体制下怎么去感知民意？现在互联网至少汇聚了6亿网民的一些数据，在一定程度上体现了大数据的“全样本”特征，有一个很好的技术基础。第二个案例是“犯罪预警”。有些地方的司法部门已经建立了一个大数据分析中心，通过分析互联网中，比如商业方面的一些业务数据，包括来自于传感器的传感数据、一些邮件、互联网花费单、银行账户等等，将各类结构化的、非结构化的数据集中到大数据中心来，然后通过线索识别、指纹抽取等一系列手段进行分析，从而达到预警。再比如，美国洛杉矶警察局总结认为，利用大数据的分析软件，成功地将辖区里的盗窃犯罪降低了33%，暴力犯罪降低了21%，财产类犯罪降低了12%。其方法很简单，就是用模型把洛杉矶区域内即将发生犯罪的特定语句挑出来，比如人们谈论的话：“出去啊”“看球啊”“喝酒啊”等等，通常会与犯罪相关的语言。这就是非结构化的数据，因为它跟犯罪没有直接的关系，是通过经验挑出这些语言，然后作为预防犯罪的一些敏感词。这也可能是对社会治理的一个应用，至于怎么去用还需要探索。还有城市管理方面的一个案例。SpotHero是美国一家手机应用公司，客户开车到一个地方去时，周围有几个停车场，每个停车场有多少个停车位，包括每个停车位的价格是多少，通过这些数据去判断最适合自己停车的地方。除了人的数据以外，传感数据的应用也有广阔空间。比如说物的数据，我听到过一个例子，就是有个城市里有很多休闲的地方，每个地方都有座椅，如果在座椅上安装一个温度传感器的话，大概就能知道每天哪个公共设置的座椅温度最高，温度高说明它利用率高，也可以知道哪些椅子长时间没有人坐。就是说，完全可以通过传感器的数据来安排之后的公共基础设施，使其达到一个最优的状态，通过这种方式来不断地优化一个城市的治理。四、大数据应用的制度需求　　和政府的作用从经济学的角度看，一个很核心的问题是如何界定数据的产权？有很多人把大数据比喻成石油，一种新的资产。但是，这种产权和财产权应该有很大区别。我觉得，产权的界定是大数据交易和商业化的前提。经济学家科斯曾经讲过产权界定的重要性，如果产权没有进行界定的话，可能交易就没有效率。这里讲一个美国金融贷款公司的案例，它主要给一些小微企业贷款，贷款额度比德国的Kreditech公司要大一些。它贷款的前提是去联邦快递(UPS)查询企业的快递记录，但UPS需要企业的授权同意；另外，即使企业同意，UPS也可以拒绝金融贷款公司的要求，后者还需要付钱给UPS。小微企业也可以直接找UPS拿到自己数据，因为它有这个权利，但金融贷款公司可能质疑数据的真实性。因此，这些企业可以寻求UPS的数据认证，然后再将其交给贷款公司。这样，UPS可以同时向小微企业和金融贷款公司收取费用。　立法界定产权对大数据来讲，如果要利用起来，核心在于如何界定数据产权。但是，这个产权不是天经地义，应该从经济效率或者社会学的角度出发来界定它，就像专利、像工业产权一样。就是说，应该怎么有效率，然后怎么去界定产权。我觉得，至少需要三个层次的立法：比如刚才讲的数据的商业运用应该是什么边界？个人隐私保护应该在什么边界？政府数据的公开应该在什么边界？这样，大家运用起来才能得心应手。一个是会有更多的可用数据，另外也能减少更多的顾虑，目前基本上还是一个比较混乱的状态。另外，还有一些其他的制度需求。首先，还是需要公平竞争的环境，比如对金融行业使用大数据的前景是非常好的，但现在也存在很多的市场准入门槛，使银行仅靠存贷差就可以过好日子。出租车也是一个案例。所以，国内如果应用大数据的话，这会是一个很大的问题。第二，数据安全或者信息安全的问题。关于这点甚至提得更高，说“数据主权比产权还高”，包括一些安全预警与审查机制，以及数据存储的地域限制。欧洲搞云计算时就提出了一个原则：欧洲的一些关键数据不能够放在美国的云计算中心。再比如对国家数据的外泄要立法等。第三，行业性立法。这方面美国已经做了一些。在中国的医疗行业，实际上在大数据出现之前，病历在医院已经电子化了，但是不同医院之间仍然不能够共享，所以这也是一个体制问题。如果能通过行业性立法，把这些能够利用的大数据都放在一个平台上，那情况就大不一样了。包括教育方面，也有很多体制问题需要解决。　　政府的作用最后，简单说一下政府的作用。首先，国外政府在做什么？比如2012年美国政府推出“大数据行动计划”，已经炒得很热。主要是在研究和应用上投了很多钱。第二，数据开放。奥巴马2013年签署法令，要求所有新增政府数据都必须以电脑文件方式向公众开放。白宫颁布了开放数据政策，要求政府部门列出所有可公开的数据清单。如果不可公开的话，也要作出说明。主要是列出这些数据，及时向公众开放。第三，政府采购。云计算时，联邦政府还任命了一个首席技术官，专门推进联邦政府和部门的云计算应用。现在数据服务可能也是这样。第四，制定法规。这不仅是中国的问题，美国也有医疗、教育、个人隐私等方面的问题，也需要制定法规。在欧洲，有关个人隐私的法律很多，但还有很多的工作要做。在中国，首先领导层比较关注。2013年9月，中央政治局在中关村进行开放学习，百度CEO李彦宏现场讲解了大数据。部委层面也有很多。2013年11月19日，国家统计局与百度、阿里等11家公司签订协议，共同建设“国家统计局大数据合作平台”。因为阿里公布的数据基本上是所有平台上所有小企业数据的集合，所以它对小企业的感知比统计局要强得多。这种合作也是有好处的。在法规方面，去年9月，工信部颁布了《电信和互联网用户个人信息保护规定》。这个规定是个起步，和国外的法律体系相比还有很大差距，还需要继续努力。最后，就是资金支持。自2012年以来，科技部、发改委、工信部等部委在研发、探索和产业化专项上，陆续支持了一批大数据项目。对这种新的技术，云计算也好，大数据也好，地方政府往往还是走在中央政府之前。现在基本上是“多点开花”的状态，陕西有“大数据科学园区”，广东有“大数据战略工作方案”，上海有“大数据研发三年行动计划”，山东有“产业联盟”，辽宁也在搞。在中关村，还有“大数据产业联盟”。五、关于大数据的建议第一，不必急于出台所谓的战略性规划和设立产业专项资金。因为国内的IT企业也好，地方政府也好，已经意识到大数据产业的发展前景，现在热情非常大。在这种情况下，以国家规划和专项资金等方式进行鼓励，有可能扭曲正常的市场行为，甚至催生泡沫。在云计算发展的过程中，这已经非常明显。很多地方搞云计算搞成了云地产。在这种情况下，我觉得云计算产业可能已经有了过剩的苗头，不希望大数据也出现同样的问题。第二，怎么合理改造、建设和布局好IT基础设施？对大数据来讲，有两个方面：一个是互联网带宽，这没问题；另外一个，其实云计算本身就是大数据的一个基础设施，本身就是处理动态的海量数据的。如果没有这样一个系统，数据是不可能大规模存储的，也不可能大规模快速计算。很多传统数据中心及旧服务器资源，可以通过建立虚拟数据中心或进行就近合并等方式进行改造利用。另外，一些新建的大规模的数据中心，如何通过统筹，合理布局，能够真正地让云计算实现降低IT成本的效果，而不是相反。除云计算以外，主要就是加快“宽带普及提速工程”的推进速度。这个日本和韩国做得比较好。第三，如何推动隐私保护和公共机构信息公开等立法。2012年全国人大常委会通过了《关于加强网络信息保护的决定》，工信部也有保护个人信息的新规。但是还有很多的工作要做，如何继续完善个人隐私保护立法还是有很大的问题。再者，对互联网数据商业化应用范围如何界定？数据滥用应承担哪些责任？目前都还没有有法可依的东西。然后就是政府信息公开的程度。最后就是哪些数据可以向境外流动或允许境外企业开发利用，也需要有一些相应的法律规定。最后，资助大数据基础技术研究，包括人才培养。现在搞大数据分析或者大数据应用，人才很缺乏，这种情况不光是国内存在。作者为国务院发展研究中心技术经济研究部第二研究室主任，本文为作者在洪范法律与经济研究所举办的学术研讨会上的发言 via：《财经》杂志

大数据
2014年08月05日

大数据

大数据时代下的HR五大变革需要在农业经济时代，土地最为重要，所以地主最为吃香；到了工业经济时代，机器最为重要，机器所代表的技术、产品、资金决定了这个时代的成功者是谁；而现在是知识经济时代，所以显而易见，知识最为重要，可是知识需要进入到人的大脑里才会有价值，所以归根结底，拥有知识的大脑最为重要，谁能管理好这种大脑，谁就能赢得未来！然而，这又是一个知识爆炸的时代，我们所知道的东西不是太少，有的时候是太多而无从分辨，信息不是太少，而是太多！我们生活在一个被信息和数据淹没的时代。还好，有一个新的词汇出现了，那就是大数据时代！在大数据时代，各种管理都会面临新的挑战，人力资源管理也不例外，如何在大数据时代脱颖而出，以下五大变革一定要把握好：一、从效率优先到效能优先人力资源从业者一贯以专业人员自居，专业人员的本质是效率优先，在大数据时代，人力资源如何从效率中走出来，将日常工作交由系统和共享服务中心完成，将自身的重点放在效能上，专注于如何提高组织的能力，如何打造优秀的文化，如何实现组织的目标；如何整合信息资源、预测组织未来的需要，并且采取有效行动，这些将更为重要。二、从模糊管理到量化管理不止一次，很多管理者问我，如何给支撑部门的员工设置量化的KPI，似乎人力资源的工作是与人打交道的，很难量化。事实上，由于缺乏对数据的掌握，人力资源的从业者更多是从定性的角度来管理自己的工作，之所以定位为业务伙伴，而不是业务本身估计也是这个原因。因为业务部门是要靠数字来说话的，学会这点将是HR的未来必备能力。三、从模仿为主到创新管理中国的人力资源管理到今天为止，还没有多少原创的内容，几乎所有拿得出手的都是泊来品。事实上，坐拥全球最大的人力资源库，我们的管理还在模仿西方的内容，谈到人的管理，中国远古的思想者已经解决了很大的一部分问题，我们继承了多少？大数据的特点就是整合信息、预测方向、从而采取行动，善用这点，我们还有机会！四、从人力资源到人力资本将人视为资源与资本是两种不同的视角，前者意味着要充分开发利用，而后者则意味着要加大投入，因为资本是可以带来增值回报的！有了大数据的支撑，我们可以很好地衡量人力的资本价值，我们可以对标，甚至在不同的行业里对标，我们能够说明差距在哪里？我们能够说明投资回报率是多少！五、从观念呈现到数据呈现我们容易从观念上来说明一件事，但我们并不善于从数据上来说明一件事情，我们经常说员工敬业度重要，可我们的敬业度处在什么水平？与其它公司比如何？培训的结果并不是课堂反馈分数这么简单，3个月以后改变在哪里？如何数据呈现？我们的人员成本合理吗？成本收入比是多少？大数据时代创造了这样的可能，可是我们具备这样的能力吗？变革已经开始，这个世界只有两种动物，一种是因时而动的；另一种是已经死亡的！ ----------------------------------------- 作者：叶阿次，微公众号：yeaci-hr 简介：叶阿次博士，毕业于复旦大学管理学院，现任渣打银行（中国）有限公司人力资源营运总监，同时担任交通大学安泰经管学院人力资源导师等兼职工作。

大数据
2014年07月31日
大数据

大数据为何走不进人力资源管理？作者：穆胜，北京大学光华管理学院工商管理博士后，资深人力资源实践者，转自中外管理。 “博士，我们需要一个关于大数据（big data）人力资源管理的讲座！”这是2014年开年以来，我听到来自500强HR们的新需求，同时这也在所有需求中排名前Top3。是呀，大数据的魅力已经无需证明！渴望改变的HR们又怎么会放弃这样一个“杀手级”利器？大数据的HRM大未来大数据是什么？简单来说，大数据就是大量的数据，其具有4V的特点：Volume（大量）、Velocity（高速产生）、Variety（多样性）、veracity（真实性）。进一步看，就是在某些领域通过传感器和屏幕等入口自动高速产生了大量、多样的数据，这些数据辅以合理的算法和强大的云计算能力，能够告诉你这些领域的一切信息！大数据不仅是数据量的庞大，其更是一种数据产生和处理的模式。由于是自动提取，保证数据源充分；由于是即时产生和处理，保证随时刷新；由于是全貌数据，保证永远不会出错。所以，这种模式在大多数领域都能够精准地指示资源分配。人力资源管理是关于分配人和相关资源（培养、激励资源）的工作，如果借助大数据，将人和其他资源数据化，再用算法进行匹配，显然有无限的想象空间。其实，通过大数据实现资源的“可扩展获得”，提升资源的利用效率，也正是我在2011年提出的“人力资源云转型”。具体怎么玩呢？首先，应该把人数据化，清楚地知道“人是怎样的”，这包括，他的能力如何？行为特征如何？绩效表现如何？基于这一基础，人力资源管理各大职能就能够显著提高效率。在调配领域，如果将岗位数据化，明确每个岗位需要什么样的人，岂不是可以从容地招聘、调用企业内的闲置人员跨界协作？每个岗位都有最适合的人员，成本最低，效用最大。进一步看，组织机构、业务流程、岗位系统不再成为员工释放能力的边界，员工还能跨岗位担纲其他角色，以网络化的方式无边界协作，进一步将人用到极致，将人工成本投产比放到最大。在培养领域，如果将培训资源（培训内容、形式等）数据化，岂不是可以从容地组织、推送员工最需要的培训支持？每个人获得的培训都是高度定制化的、自己最需要的，且学来能用，用来能好，从学习到实践产出的过程几乎没有损耗。在激励领域，如果将激励资源数据化，岂不是可以从容地推送各类激励套餐？每个人获得的激励都是高度定制化的、自己最需要的，同样的成本支出，每个人对于全面薪酬的感知可以放大到极限。 HR可能误会了大数据事实上，专业一点的HR都玩数据，他们测试胜任力，评估岗位，考核绩效，利用数据进行决策。我也非常推崇这样的玩法，认为HR要用数据分析来为自己的岗位建立“技术刚性”。但不得不遗憾地说，这些玩法不是大数据。从字面上理解，大数据的关键在于数据量庞大。涂子沛在《大数据》一书中有个定义，即指一般软件工具难以捕捉、管理和分析的大容量数据，数据量大到以“太字节（TB）”为单位。太字节是多大？1TB=1024GB。一个万人的企业，即使你把胜任力、绩效、岗位、SOP等传统数据完全纳入，顶多只能用“吉字节（GB）”为单位，离“太字节”的体量还是相差甚远。HR们以为数据量已经足够庞大，难以处理。实际上，这种数据量通过本地软件的计算能力（甚至直接用excel表）就可以解决，根本不需要运用到互联网上的云计算，这些显然不是大数据。为何会达不到大数据的体量？关键还在于HR对于数据的理解，HR采集数据的传统思路是“先有思考框架，再收集相应数据”，数据大多来自数据生成之后，才用报表要求基层有选择地逐级上报，这大大损耗了数据量。例如，考核某个员工的绩效，HR会在其工作完成之后才要求直线经理根据考核指标进行数据收集，而后计算汇总，最后上报人力资源部。这种思路使得传统数据具有典型的“非大数据特征”，这大大制约了数据的威力。其一，这些传统数据是“冷备份”而非“热备份”。冷备份即生成之后再调用，成本极高，收集数据的过程已经让HR苦不堪言，他们需要不断催告业务部门，还要一遍一遍地付出教育成本，确保统计口径统一。热备份则是数据随着工作流无意识产生，只要员工开展工作，自然有数据往“云平台”上跑，而且这些数据也能被平台的计算功能即时处理。其二，这些数据是“报表数据”而非“源数据”。报表数据是经过处理后的数据，例如某餐饮企业里，员工某天接待顾客的数量。而源数据则是指未经过处理的数据，是对于工作流全面的呈现。同样用餐饮企业的例子，员工在某个具体时点接待了一个多大年龄的顾客（很大程度上意味着服务难度），客单价多少，接待时长多少，提供服务次数……员工A某天服务顾客数可能是员工B的两倍，如果我们仅仅关注这个报表数据，就可能得出A绩效优于B的结论。但如果关注源数据就有可能发现，B服务每个顾客的接待时长是A的三倍，为每个顾客提供的服务次数是A的两倍……这些都是有价值的信息！NBA球队休斯顿火箭队的总经理莫雷正是基于这些源数据的分析，从低顺位（选秀时靠后的选秀机会）中选出了那些被报表数据淹没的高潜质球员。其三，这些数据是“样本”而非“全貌”。由于是在某个时点上针对某些领域提取数据，数据仅仅是样本，而非全貌。只要是样本，就有可能出现偏差。例如，有的咨询公司在为企业进行敬业度调查时，采用了采样方式，即使样本特别庞大，这也不是大数据。这种情况下，可能有抽样偏差，员工可能被问卷带着走，被访谈的气氛诱导，尽管我们可以通过各类技术去减少这些干扰。但是，如果他们在论坛、微博、微信等社交工具上对所有员工的发言进行关键词的抓取和分析，甚至对于员工的行为进行各种分析（如早到时间、加班时间、协作次数、申请培训数量等），那才是大数据。这种情况下，几乎不可能出现偏差。跨不过的坎明白了大数据的思路，HR能不能推动企业走入大数据人力资源管理呢？据我的观察，很难！这绝不是因为硬件的制约，事实上，在传感器和屏幕遍布的今天，不少企业在硬件上已经具备了吸纳数据的可能，有些企业也将数据吸纳到了生产信息系统上。我们要思考的是，这些数据为何进入不了人力资源管理信息系统？这主要是因为三方面的原因：第一是部门博弈问题。业务部门将生产数据导入人力资源管理信息系统，对于人力资源管理的效率无疑是一个利好，但对于部门来说，意味着权力空间被挤占。以前部门争取机构、编制、人员都可以保留一定的裕度，可以和HR们谈判，但导入大数据之后，他们几乎变成透明的，显然是弊大于利！我调研的一个企业，HR意图建立大数据云平台，这意味着几个生产信息系统要与人力资源管理信息系统整合，但业务部门的领导却以安全性为由拒绝了HR的要求。第二是HR的恐惧。要打篮球的人去踢足球，他们不会愿意。面对庞大的数据，HR们对于数据的处理能力决定了他们的地位。尽管前景广阔到可以让他们成为企业内的“上帝”，但这种角色的转换也让他们不安，与其如此，还不如将工作范围保留在自己的“安全区域”。第三领导思路问题。当前，国内企业，甚至国外企业，重视数据的老板不多。即使在大数据如火如荼的今天，老板们办公桌都摆上了一本《大数据》，他们内心深处依然是传统玩法。即使在最前沿的互联网行业，也有凡客这样因为不玩数据而使供应链失控的企业。这也难怪，他们过去的成功本来就不是靠数据，所以，他们的企业没有数据基因也正常，他们想象不出大数据的威力，就如同你无法向地上的猛兽描述天空的精彩。这些企业中，一线的业务尚且不玩数据，更何况二线的人力资源管理？但是，部门博弈和HR的恐惧偏偏需要一个强势的老板来做顶层设计，如同亚马逊偏执狂一般的贝佐斯。所以，大数据才会走不进人力资源管理。从这个意义上说，本文开头那些主动拥抱大数据的500强的HR们不愧是业界先锋，也许，只有当他们用大数据把人力资源管理的大未来实现时，人力资源管理才将真正迎来下一站的“云时代”！

大数据
2014年07月28日
大数据

马云演讲：大数据时代下，企业该做什么？ 7月24日下午，马云与来自全国各地的商会会长在阿里巴巴谈论了自己对于商业的思考和判断，以及对于未来互联网趋势和商业趋势的一个判断，在演讲中，马云认为，大数据时代和技术变革之前，浙商的未来，仅仅依靠“勤奋与努力是远远不够的”;必须掌握对于未来的研判，必须重塑自己的文化基因和组织架构;必须“有所为有所不为”，去做一个社会化的企业。马云的讲话引发了诸多共鸣。以下为演讲摘录：珍惜每一次犯过的错阿里创办至今15年，淘宝是11年,支付宝是10年。我们比较运气。这15年我们确实走得比较快，今天看过来还不错，但是期间犯的错，不亚于任何一家创办业已二三十年的公司——可能比他们犯得还要多。但是，我们检讨自己比对时代的抱怨和指责要多、我们更正自己的速度很快。这十五年我自己也老了很多。我没想到做企业会这么辛苦。当然，我也觉得自己非常幸运，幸运在我们有这样的机会。变革一：大数据时代光有努力是不够的浙商群体了不起。我们就靠着勤奋和努力做到了今天。但是，我们得思考，因为到今天光靠勤奋勇气还远远不够。当然，没有勇气是走不下去的，没有勤奋更是走不下去的。但是今天看来，光靠勤奋与努力是远远不够的。在座哪位没有勇气?谁不勤奋?谁不是晚上蹲在厕所还在想着商业? 阿里有今天是因为我们坚信未来，坚信趋势，坚信15年之后能够解决我们面临的这些问题。我那时候读胡雪岩的书印象很深刻，他有句话说得太对了。生意越来越难做，但越难做越是机会。别人不做的你就去做，你要看得更多。你看到一个县，就做一个县，你看到一个小城市你就做一个城市。你看到未来，你就做未来。阿里的红利，就是15年以前看到了今天的形势。我相信你们都是在15年之前甚至更早就看到一些东西所以才走到今天。我们说前三十年难，后三十年难，前三十年难在摸索，后面三十年是因为技术变革，使得商业社会有了颠覆性的变化。这个就是互联网变革和技术创新带来的社会性的变化。我们有今天，是因为我们迅速改变了自己，把握了这一天，但未来技术变革也是我们不得不面对的事实。今天技术变革还在，它一直没有停止过。举个例子，以前出行是马车，后来有了电车。电车与出租车第一次出现的时候，那些马车夫都觉得很恼火，都想去砸掉。但后来也会习以为常，一个新的东西出现总会让大家不那么适应，可能会触动一些既有的利益。大家现在看到的不是一种业务，而是一种时代的变革。我们一直在谈大数据，那么大数据是什么概念?我觉得大计算起来才算大数据，否则数据不连通就是一堆垃圾。变革二：重塑组织机构帮助你的企业成为百年企业我天天提醒自己，我们过去常说，四十岁替员工干，五十岁替别人干。我们要重建公司的组织架构和商业体系。做商人，有所为有所不为，企业，其实就是建组织，你整个制度体系的建设才是最重要的。过去几年，我们花了最大的时间和精力不是在数据和钱上，而是在人才和组织上，没有人才储备和奖惩体系，所有的战略都是白说的。你一个人干到死，没有用，必须有组织来干。我可以很负责地告诉你，你要是说的和做的不一样，你的员工马上跳起来，组织分分钟解散。我们必须要求自己言行合一。只有建立组织体系才能不断的把握自己，只有在把握趋势的时候，才能掌握组织。我们喜欢谈企业文化，但其实那些规章、守则都不是企业文化，文化就是DNA，就是你行为的标准，规章越多，文化越弱。文化是自己的行为。只有自己的行为才是企业的文化与标杆所在。变革三：要知道自己要什么放弃什么互联网能做的东西很多，但我们做我们该做的。我们不是挣更多钱，我们是围绕真正帮你的客户，帮那些相信你的企业去做一些事情。阿里这家公司不是我的，是我有幸参与的。我们去看历史上中国的商人，有几个有好的结果?都没有什么好的结果，结局都很糟糕。要保持好的结果，就是知己知彼，知道自己有什么要什么放弃什么，知道客户需要什么?那么，这个公司交给谁。最后我想明白了，最后应该交给社会，交给社会了，大家去管理这个公司才可以。回应质疑我不是耍大牌现在有人说，马云脑子有问题，并购这个并购那个，但是批评我们的之前也没有理解我们，他也不会明白你的未来。我们始终坚持“让天下没有难做的生意”，我们坚持为中小企业搭建平台，我们坚持客户第一，员工第二，股东第三，这个原则不会变。现在很多人找我找不到，觉得我耍大牌，我不是耍大牌，我是真没时间。从前小企业你做一些变革叫创新，大家都会鼓掌，大企业做一些突破，遇到的障碍会越来越多。【文章来源：猎云网】

大数据
2014年07月27日
大数据

小数据更管用！大数据可以帮助商业运营者找到大致方向，但真正落地到商业操作，反而不如小数据更有用、更有效。事实上，大数据的应用既不便宜，也存在一定的缺陷，更尚未充分提升商业的价值，更需要企业家、产品经理等管理精英们的创造性思维，使大数据能正确地产生商业效应。现状：盲目收集与浅应用目前，大数据应用中有个怪现象，就是有什么数据就收集什么数据，至于将来有什么用，一概不知。或者抱着“先收集再说，将来总有用”的态度。我建议，应从问题、愿景导向来收集数据。一方面，数据的收集、存储备份等成本都不低；另一方面，数据的价值也可能衰减。以用户为核心的KPI体系能实现与客户行为的点对点连通，是未来发展的大趋势。传统的用户价值是以利润贡献为核心衡量指标，而在大数据时代，客户关系的管理不同了。例如，我要知道一个客户一个月内到淘宝多少次，不管他是否购买，要看他与淘宝的关系到底怎么样。就现状而言，大数据技术更多地用于推荐和营销，不是因为它更容易，而是因为它容错的空间更大。比如，推荐系统给出了顾客不喜欢的推荐，大不了重新推荐；然而一旦上升到直接解决问题的层面，容错空间就大大缩小了。例如，利用大数据技术来观测空气质量，错了也不会有太大影响，但如果把这个指数和某个商业运营挂钩，就不是小事了。尤其是对数据的精确性要求较高时，数据的持续跟踪与多源比对就显得非常重要。然而正是在这些方面，大数据的应用还停留在比较肤浅的层次，甚至压根就飘在空中。因此，公司要建立数据收集系统，更重要的是建立跟踪数据质量的监控，对一些关键数据要寻找多个源头，一方面确保“鸡蛋不在一个篮子”，另一方面要相互比对、印证。对于实际运营的企业来说，数据必须有连贯性，当然真实性更是基本前提。大数据还是小数据？我几乎每周都要拜会或面试很多数据科学家、数据分析师。我经常问他们，“在你心里什么是大数据”。回答显示，原来业内的认知分歧丝毫不比外行少——至少有一半受访者或应聘者对“大数据”这个概念根本就不以为然，而是更关注有价值的数据、数据能产生什么价值。换言之，在部分人看来，“大数据”本身就是一个伪概念。我常问的第二个问题是，到目前为止，你做得最好的大数据案例是什么？他们的回答各有不同，但有个共同点：用大数据来处理数据的稀缺性。比如，北京的空气质量监测站是有限的，其数据对于监测站附近范围的质量呈现是比较准确的，但其余地区的质量数据是非常稀缺的，但我们要据此判断出北京市空气的整体质量。换言之，大数据能帮我们增加对未知部分的准确度、精确度的把握。现在，有很多人讨论大数据与小数据的关系。其实，这个问题与大数据如何落地密切相关。在我看来，大数据可以帮助商业运营者找到大致方向，但真正落地到商业操作，反而不如小数据更有用、更有效。比如，很多运营者宣称自己的注册用户是多少量级的，但1亿个注册用户的基础数据，不如一千万个活跃用户完整的行为数据更具有价值。初创企业进行客户探索、发现和验证时，几百个甚至几十个顾客、用户的完整数据比千万级数据更有价值。也许正是因为数据量虽大，但每个数据单元都出现了断裂或遗漏，导致大数据的价值难以被挖掘出来。因此，应用大数据的能力之一就是把数据变小的本领。在构建数据模型时，你需要的样本其实不是千万，甚至不是面面俱到的数据，而是比较敏感的数据指标。这对数据收集和分析人员是巨大的挑战。实际上，大数据的应用和落地也要以数据的细分为基础。例如，某电商顾客的真实性别不一定与购物的性别偏向一致；再比如，关键词搜索量要看北京、南京等地各为多少，而不是笼统地说增长了多少。当我们用放大镜细查大数据时，会发现有不少的“断链”和欠完整。从某种意义上说，并没有真正的“全面数据”，差别只在于放大镜的倍数。所以，即使基于大数据进行决策，也仍然有猜测和赌博的成分，大数据和小数据应该可以互为作用,而非比较两者谁更强。传统企业怎么办？我们在谈论大数据的时候，在根本上忽略了一点，很多企业本身是有其架构的，不会因为大数据就立即变得不一样。很多公司连信息（information）都未打通，是堵塞、零散的，更不要说大数据的应用了。大数据作为一种新的运营理念和方法体系，要想嵌入到公司里，必然要经历一个新事物在旧公司的所有困难。从有效的策略来说，先把既有的数据用好，比盲目推进大数据要明智得多。更进一步，要重新定义数据框架来解决存在的问题。比如，很多企业都开启了公司微博，其测定效果是转发多少、评论多少。但实际上要细分这些数据，进一步厘清谁、什么样的转发和评论才是有价值的，还要和相似的公司微博进行对比。传统企业究竟是建立起独立的收集系统，还是使用别人提供的数据？我认为要兼有，既要有侧重地独自搜集，也要多源化地获取数据，尽力排除各种数据在搜集过程中形成的偏差，这既是一个技术问题，需要数据人员付出艰辛的努力，也是一个战略问题，需要回到前文所述的小数据问题。摘自：中欧商业评论，创富志

大数据
2014年07月21日
大数据

企业手里有大量数据却无处使用？阿里云想把“数据处理”变成一门生意无论是“小数据”时代还是现在的“大数据”时代，对数据的挖掘、存储、分析和使用从来就不是一件简单的事儿，而且这件事的难度还会随着数据量的增长而变得越来越大。同时，单个企业若是仅仅想要进行数据的存放和处理，去配备一整套Hadoop集群也并不经济。于是，阿里云准备将这件事做成一门生意，帮助企业对他们手中的数据进行存储和分析。不久前，阿里云正式对外公布了一个叫做ODPS的商用服务。ODPS的全称是Open Data Processing Service，也就是开放数据处理服务。企业可以将来自前端的大量数据集中导入到阿里云中存储，这一点类似于亚马逊此前推出的Redshift数据仓库。不仅如此。官方还表示，在这个基础上，阿里云将会开放更多的数据分析服务。目前，ODPS开放了SQL功能，以用于数据仓库和日志分析。这就像是Google此前推出的BigQuery——它可以让开发者可以使用Google的架构来运行SQL语句对超级大的数据库进行操作。同样地，现在企业也可以使用ODPS来对数据进行处理了。在价格和性能方面，ODPS是按照使用量付费的：存储1GB的数据，每个月收取大概0.5元钱左右；阿里云还官方公布了一个数据处理能力供参考：6个小时ODPS可以处理100PB的数据。至于至关重要的商用后的SLA（服务等级协议），ODPS产品经理汤子楠披露了一部分：在技术层面，阿里云承诺放在ODPS中的数据不会泄漏，阿里巴巴和阿里云也不会查看；在服务层面，鉴于不能承诺所有提交的数据处理作业都能计算成功，如果是阿里云方面的原因导致作业失败，那么阿里云则不会收费，而且对于离线作业来说，只对作业成功的那次进行收费。在此前，ODPS一直被应用于阿里内部的业务系统中，一个典型的应用就是阿里小贷公司的审核和放款流程。阿里巴巴的官方数据称，有超过36万人从阿里小贷借款，最小贷款额为1元，并且能够实现3分钟申请、1秒放款、0人工干预。在这些背后，阿里小贷每天需要处理30PB数据，包括店铺等级、收藏、评价等800亿个信息项，运算100多个数据模型……这些都是放在ODPS上存储和分析的。阿里云还表示，淘宝和支付宝等阿里巴巴的部分核心数据业务，也都运行在ODPS平台之上。而在ODPS的产品页面则拿出了阿里巴巴的关联公司天弘基金和众安保险作为案例来进行宣传。从目前来看，ODPS开放的还只是针对大量数据的数据仓库功能，以及部分数据分析服务。但阿里云显然并不想止步于此。你可以把阿里云此前一个叫做“御膳房”的服务看作ODPS未来发展方向的缩影。简单来说，“御膳房”实际上是对淘宝和天猫电商数据的挖掘、存储、分析和服务输出的整套服务。在“御膳房”中，淘宝和天猫平台上的大量电商数据被放到ODPS上进行存储，阿里巴巴还引入了第三方ISV（独立软件开发商）来针对这些数据开发分析工具和模型进行分析，最后他们将分析结果拿到服务市场上去销售给卖家——所谓针对淘宝天猫用户进行的精准广告营销，就是通过这种方法得来的。在ODPS被开放出来之前，“御膳房”完全是阿里巴巴内部的电商平台上生长出来的产物，从数据来源，到数据取向，都是服务于淘宝和天猫平台。而在开放以后，就会有更多类型的企业和数据（包括一些阿里巴巴内部不太擅长处理的非结构化数据）被放在ODPS上，而使用范围也将不仅仅局限于阿里巴巴平台了。用更加直白的语言来解释就是，ODPS此次作为PaaS被开放了出来进行商用，接下来，企业自身、或者借用ISV开发的工具再在ODPS之上进行数据分析，然后使用这些分析结果。不过，ODPS现阶段仍有不少问题。汤子楠坦言，对非结构数据的支持将会是ODPS面临的一大挑战。因为ODPS最早是基于阿里巴巴内部的业务成长起来的，而阿里巴巴分析的数据主要是交易数据和用户行为数据——这些数据大多都是结构化和半结构化的。这决定了，ODPS最初开放的服务面向的也都是结构化数据，比如无人分析、数据仓库、BI（商业智能）分析。而随着更多的企业使用ODPS，一定会有大量非结构化的数据放到这个平台上来，这将会是ODPS接下来要探索的很重要的一个方面。另外则是数据的传输问题。阿里云官方的建议是直接使用ODPS的数据仓库，这样就可以直接调用ODPS之上的分析工具；但如果客户的数据并不存储在阿里云上，也想使用ODPS对数据进行分析，则只能通过API使用https协议传输——这意味着网络传输不得不受到网速的限制。当然，企业还可以选择把数据装进硬盘里，寄给阿里云。【文章来源：pingwest 作者：方荼】

大数据
2014年07月16日

1... 《 9 10 11 12 131415 16 17 18 19 》