大数据 - HRTechChina.com - 向上的力量！

大数据

社交网络大数据将直接影响企业的变现能力随着社交网络日益发展，人们乐于在社交网络上分享自己的生活，拓展自己的人脉。这一系列活动背后，是基于社交网络的巨大数据。然而，人们对社交网络数据的挖掘和分析都还处于相对初级的阶段，大规模、高维度数据的挖掘方法还在不断地演化。随着信息技术的迅猛发展，参与到社交网络的人越来越多，人们乐于在网络中去分享自己的相关信息，拓展自己的人脉。企业甚至能通过社交平台去直接影响客户，一切都似乎因为社交网络的出现而变的美好。波浪式的社交网络传播每一条发布的信息，如同石块入水所散开的涟漪，如果不继续投入石块，则涟漪会逐渐淡化直至消失，这便是社交网络的自洁功能，由于有以上三个特性的存在，仅仅依靠“自洁“是远远不够的。如果在涟漪扩散过程中的某个点再继续投入一块石头，则原有涟漪会扩大或者缩小，只要找准了点位，这些涟漪就可能形成波浪。如何去找到这些信息，找准这些点位，扩大品牌正面声量、减少并消除负面声量成为企业在社会化营销中制胜的关键，这个时候社交网络分析就能给企业带来帮助。社交网络中充斥着各种可能成为“波浪“的信息，有针对一款产品的，有针对某部电影的，还有针对某位明星的——这些信息都可以从网上免费获取。这些评论信息对于企业的价值可以说是巨大的。一个企业如果掌握了这些数据，再加以分析，无论是对现有产品的改进还是对未来产品的走向都是十分有帮助的。目前对于企业来说，社交网络分析主要关注点在于找到消费者，并能分析消费者，了解消费者。与消费者达到最简洁快速的沟通。这就需要通过数据分析找到消费者所在的圈子，进而找到圈子中的意见领袖，通过意见领袖让企业想传达的信息进一步扩大，辐射整个圈子。从而吸纳更多的忠实消费者。社交网络分析与圈子划分社交网络的分析存在着许多有意思的研究课题。例如，在社交网络中社区圈子的识别、社交网络中人物影响力的计算、信息在社交网络上的传播模型、虚假信息和机器人账号的识别、基于社交网络信息对股市、大选以及传染病的预测等。社交网络的分析和研究是一个交叉领域的学科，在研究过程中，通常会利用社会学、心理学甚至是医学上的基本结论和原理作为指导，通过人工智能领域中使用的机器学习、图论等算法对社交网络中的群体行为和未来的趋势进行模拟和预测。社交圈子的划分并不仅局限于用户主动建立起来的关系上，还可以通过其隐性圈子的划分，如兴趣属性。当两个人在社交网络中互动很频繁时，他们在线下是否也是真实的好友?从算法的角度来说，这是个很难解决的问题，但如果我们换一个角度来思考这个问题，想想我们的线下联系方式，如果A跟B互相拥有对方的手机号，那他们是线下真实好友的可能性就非常大了。包括飞信、米聊、微信等产品，如果真的能够做成基于手机通讯录的社交网络，我们就可以通过异构的社交网络对社交圈子进行综合性的判断，其价值不可估量。企业基于社交网络数据的收获潜在商机的发现通过数据挖掘与分析，可以发现某个用户的活动商圈是否在企业的商圈覆盖范围内;可以知道某个用户的消费能力;可以知道某个用户的喜好及最近的购买习惯;可以知道某个用户会购买自己产品的概率;可以知道竞争对手的策略。危机预警通过数据挖掘与分析，可以对一些网络中突然发布的一条可能对企业产生危机的信息即时的监控起来。并追踪其传播路径，找到其中的关键节点。利用”乱石”打散其传播轨迹。从而让危机尽快消失。一个企业面对社交媒体中网民创造的成千上万，甚至几百万的讨论内容，想要通过人工去判断哪些口碑对品牌有利，哪些将会成为品牌危机是个不可能完成的任务。而舆情监测则可以围绕某一监测领域或事件，经过科学部署的不间断的数据收集与分析的过程，前期需要对收集范围和关键词群进行设置，中期对采集的数据进行过滤、分组、聚类等预处理，后期对数据进行分析，并以分析报告的形式让品牌了解到自身的口碑状况。效果预测通过数据挖掘与分析，可以通过对企业已掌控的圈子，消费群体的黏着度，事件的时序，传播的投入上去事先预测相关的效果。从而让企业能花最少的钱得到最大的产出。然而，人们对社交网络数据的挖掘和分析都还处于相对初级的阶段，大规模、高维度数据的挖掘方法还在不断地演化。目前来看，文本语言的情感分析等很多基础性问题仍然还不能得到有效解决，对深入研究社交网络造成了一些限制。但随着人工智能研究水平的不断提高，尤其是认知神经科学与人工智能技术相结合的研究，让我们看到了人工智能的新希望。当我们真正有能力解决这些问题以后，社交网络将会成为帮助我们预测未来趋势的有利工具。相信到那时企业将可以借助于社交网络的数据挖掘与分析制定出更精准、广泛、有效的社会化营销体系，更好的服务于品牌认知的建立及市场销售的提升。【文章来源：199it】

大数据
2014年07月15日
大数据

大数据正在改变每一个行业自大数据进入了人们的视线之后，它便逐渐成为人们普遍关注的焦点。大数据讲的是pb时代的科学，本质上大数据的挑战是pb时代的对科学的挑战，更是对包括数据挖掘在内的认知科学的挑战。那么，大数据时代怎么做数据挖掘呢? 　　在现今时代人们通常所说的大数据主要包括三个来源：第一是自然界大数据，也就是地球上的自然环境，很大很大。第二是生命大数据。第三也是最重要的，则是人们关心的社交大数据。这些数据普遍存在于人们的手机、电脑等设备中。今天一个报告在3分钟之内就可能被全世界的人们所知道。　　奥巴马就职的社交场所，这么多面孔，每一个面孔下都有一个故事，每一个人后面都有大数据的支撑。人脸是数据安全的很重要的识别器，怎么把人脸识别清楚呢?人们想了很多办法。现在北京市有80万个摄像头，我们每天都在摄像头的监督下开车、购物。我们可以利用摄像头做身份认证、年龄识别、情感计算、亲缘发现、心理识别、地区识别、民族识别。这种流媒体主要的形态是非结构化的，特征之间的关联关系、设备算法的准确率等等，都严重地制约着大数据人脸挖掘的进度。如何能从这些海量数据中利用识别算法提取出所需要的特征属性，并理清特征之间的关系都是现在所面临的问题。　　技术推动计算机发展　　1936年天才数学家图灵提出图灵模型，后来有计算机把图灵模型转化为物理计算机，这其中有三大块：cpu、操作系统、内存和外存，还有输入和输出。在计算机发展的头30年里，我们投入最多的是cpu、操作系统、软件、中间件以及应用软件。当时人们侧重于计算性能的提高，我们把这个时代叫做计算时代。　　计算对软件付出了很大的努力，尤其是高性能计算机。我们认为计算在前20年中起到了主导作用，它的标志速度就是摩尔速度。在这样一个计算领先的时代当中，我们主要做的是结构化数据的挖掘。关系数据库之父埃德加在1970年提出一个关系模型，以关系代数为核心运算，用二维表形式表示实体和实体间的联系。三四十年来，各行各业的数据库和数据仓库技术，以及从数据库发现知识的数据挖掘成为巨大的信息产业。　　关系代数是关系数据库的形式化理论和约束，先有顶层设计和数据结构，后填入清洗后的数据。数据围绕结构转，数据围绕程序转。用户无需关心数据的获取、存储、分析以及提取过程。通过数据挖掘，可以从数据库中发现分类知识、关联知识、时序知识、异常知识等等。　　随着数据库产业的膨大，人们对数据库已经不太满足了，于是把databases说成大数据，这便遇到了两个不可回避的挑战，第一个挑战是由于关系代数的形式化约束过于苛刻，无法表示现实数据;第二个挑战是随着数据量的增大，关系代数运算性能急剧下降。在这个时候，我们的存储技术得到了迅猛发展，人类进入了搜索时代。搜索因为存储便宜了，存储的速度大概每9个月翻一番，所以存储带动了技术的脚步，这种搜索时代经过了20多年的发展，带领我们进入了一个半结构化数据挖掘时代。这个时代的代表人物就是万维网之父家蒂姆·伯纳斯—李，他提出了超文本思想，开发了世界上第一个web服务器，于是我们可以从一台服务器上检索另一台服务器的内容，服务器在软件的支持下可发布包括文本、表格、图片、音视频的碎片化超媒体信息。　　因此，客户端服务器结构和云计算结构蓬勃产生，这时已经没有了关于代数那样严格的形式化约束，依靠的主要是规范、标准，所有媒体均以实体形式存在，甚至是软件，实体通过超链接产生联系。　　形式化理论比关系代数宽松了许多，创建了灵活多样的实体，这时候数据开始围绕实体转，实体围绕链接转。在云计算背景下，数据挖掘也可以看作是云计算环境下的搜索与个性化服务，不存在固定的查询方式，也不会出现唯一、100%准确的查询结果。　　网络化的大数据挖掘　　随着互联网带宽6个月翻一番的速度，人类进入了交互时代，交互带动着计算和存储的发展。　　移动互联网时代的大数据挖掘主要是网络化环境下的非结构化数据挖掘，这些数据形态反映的是鲜活的、碎片化的、异构的、有情感的原生态数据。　　非结构化数据的特点是，它常常是低价值、强噪声、异构、冗余冰冷的数据，有很多数据放在存储器里就没再用过。数据的形式化约束越来越宽松，越来越接近互联网文化、窗口文化和社区文化。　　关注的对象也发生很大改变，挖掘关注的首先是小众，只有满足小众挖掘需求，才谈得上满足更多小众组成的大众的需求，因此一个重要思想就是由下而上胜过由上而下的顶层设计，强调挖掘数据的真实性、及时性，要发现关联、发现异常、发现趋势，总之要发现价值。　　当前，深度学习也是一种数据自适应简约。如果我们在百度上用深度学习搜索一个人脸象素搜索，这么多人脸谁是谁?数据量急剧增加，各种媒体形态可随意碎片化，组织结构和挖掘程序要围着数据转，程序要碎片化，并可以随时虚拟重组，挖掘常常是人机交互环境下不同社区的发现以及社区中形成的群体智能，在非结构化数据挖掘中，会自然进行数据清洗，自然形成半结构化数据和结构化数据，以提高数据使用效率。　　群体智能是一个最近说得很多的词，我们曾经在计算机上做一个图灵测试，让计算机区分哪些码是人产生的，哪些是机器产生的，这是卡内基美隆大学提出来的，在网络购物、登录网站、申请网站时都会碰到适配码被使用。在此要提到第三个代表人物——路易斯，他提出用这个适配码应用方式。　　如果云计算支撑大数据挖掘要发现价值，那么我们认为云计算本来就是基于互联网的大众参与计算模式，其计算资源是动态的，可收缩的，被虚拟化的，而且以服务的方式提供。产生摆脱了传统的配置带来的系统升级，更加简洁、灵活多样、个性化，手机、游戏机、数码相机、电视机差别细微，出现了更多icloud产品，界面人性化、个性化，都可成为大数据挖掘的终端。　　挖掘员支撑各种各样的大数据应用，如果我们有数据收集中心、存储中心、计算中心、服务中心，一定要有数据挖掘中心，这样一来，就可以实现支撑大数据的及时应用和价值的及时发现。　　大数据标志一个新时代的到来，这个时代的特征不只是追求丰富的物质资源，也不只是无所不在的互联网带来方便的多样化的信息服务，同时还包含区别于物质的数据资源的价值挖掘和价值转换，虚拟世界的信息价值挖掘导致更加精确的控制物理世界的物质和能量，以及由大数据挖掘带来的精神和文化方面的崭新现象。来源：36大数据

大数据
2014年07月14日
大数据

Salesforce以3.9亿美元收购大数据智能关系管理初创企业RelateIQ 根据提交给美国证监会的一份监管文件，CRM软件服务提供商Salesforce.com已就收购大数据初创企业RelateIQ达成协议，收购金额为3.9亿美元。 RelateIQ是一家基于大数据进行智能客户关系管理的初创企业，成立于2011年，创始人是CEO Steve Loughlin和CTO Adam Evans。用户可通过RelateIQ管理客户和人脉，自动组织和管理这些人员的姓名、电话、所在公司、邮件等信息，并将其和Gmail、Google日历、Office 365等关联，还可以关联这些人的联系频率、对联系人进行优先级排序，并根据联系人信息为他们按照不同公司、组织、类目等进行智能分类。其客户主要为为企业客户的销售/营销团队。与传统CRM不一样的是，RelateIQ 还通过多种实时沟通的大数据分析帮助企业和员工自动跟踪各种客户关系，可以对邮件和通话记录等进行分析。这种数据驱动型的应用可让一般的最终用户也能操作数据，属于下一代的CRM服务。因此成立不久的RelateIQ受到了投资者的青睐，此前已获6900万美元的融资，至最近一次的4000万美元融资时其估值为2.45亿美元。其投资者包括Accel Partners 及 Facebook 联合创始人Dustin Moskovitz（其协作工具Asana也使用RelateIQ）、乔布斯前高管教练 Bill Campbell 及 LinkedIn 前首席科学家 DJ Patil等。而对于Salesforce.com来说，从长远来看，此类数据驱动型的软件会对其构成挑战，因此尽早收购对手不失为一步好棋。Steve Loughlin则在公司博客中评论道： Salesforce.com是朝企业云计算转变的先锋，重新定义了现代CRM。而RelateIQ则是利用数据科学和机器学习的下一代智能计算的先锋。展望未来，Salesforce.com对RelateIQ的收购，将会随着在销售、服务和营销方面新一层智能的注入而延伸salesforce.com作为#1CRM应用的价值。 [36氪原创文章，作者: boxi]

大数据
2014年07月12日
大数据

移动互联网软件行业的发展趋势一、云服务化是软件系统的未来趋势云服务化（软件即服务(SaaS))是未来应用软件市场的令人振奋的发展趋势，运营管理系统未来将结合云计算技术实现云服务，实现运营平台管理的集中化、服务化、标准化。集中化有助于业务运营商节约成本、提高效率，通过集中化，系统的支撑能力能够大幅提高，同时降低系统投资和管理维护的费用；服务化将摆脱被动满足指定功能需求的建设理念，更多的从市场角度和客户角度去主动分析客户需求、客户特点，实现快速的业务流程再造，实现系统功能的快速更新；标准化则是主导 IT 支撑系统的技术架构发展方向，完善面向全业务运营的数据结构规范、系统接口规范、信息集成规范，才能实现系统的模块化和松耦合。二、基于大数据的运营管理数字化、智能化目前企业与企业、消费者之间的交易数据以及互联网、社区网的交互数据目前已经动辄数 TB 甚至数 PB 的规模。只有对这些数据进行深入的分析，才能具备洞察未来的能力，更加智能和科学地为社会管理、企业决策和个人生活服务。未来的管理系统平台已经不仅是后处理的支撑系统，而会成为实时的业务系统。面对海量数据，传统软件系统架构难以为继，需要全新的云计算和互联网的架构，建立以虚拟化、并行计算、分布式存储和自动化为核心特征的云计算架构，全面实现数字化和智能化。三、移动客户端开发趋于便捷化，提供整体开发平台为未来趋势未来移动客户端的开发将趋于模板化和流程化，进一步降低移动客户端的开发的难度，提高移动客户端开发的效率，和互联网网站建设的发展一致，使其成为一个便捷的、低门槛的开发领域。因此未来移动中间件不仅仅是一个简单的开发工具，而是定位于面向开发者，提供一种成熟的、基于开放标准的跨平台技术，并且具备整体解决方案能力，为应用开发者提供一个公众的服务平台，提供全面的移动客户端开发服务。为满足开发者的需求，开发平台应具备应用开发的一条龙服务功能，包括应用在线开发、打包、终端管理、资源管理、运营管理等功能，实现客户端应用的开发及运营一体化。【文章来源：三影塔CIO之家】

大数据
2014年06月26日
大数据

阿里副总裁车品觉：大数据时代的若干新思考我们要非常注意企业所处的状态，包括企业状态和数据状态。一个企业处在不同的状态之下，对于数据的关注点是不同的。例如，目前的阿里巴巴，业务量大，数据多而杂，所以我特别希望从数据里产生出它的价值。而对于数据比较小一点的公司，由于还没有这么多数据，所以短期内不用担心这个问题。作者：车品觉，《决战大数据》作者、阿里巴巴集团副总裁、数据委员会会长。本文编辑：崔瀚文大数据究竟是什么？大数据未来将走向何妨？美好的大数据理想与现实之间还有多少距离？目前实践了些什么？遇到哪些困难？这些问题值得我们去思考。为此，2014年5月26日，阿里巴巴数据委员会联合阿里研究院《阿里商业评论》举办了一场大数据思想沙龙。邀请多位在商业世界数据第一线的实战领军人物，就以上问题展开深入的探讨。我们特精编了沙龙中10位专家的精彩观点，与读者分享。不同状态的企业，对于数据的关注点不同我们要非常注意企业所处的状态，包括企业状态和数据状态。一个企业处在不同的状态之下，对于数据的关注点是不同的。例如，目前的阿里巴巴，业务量大，数据多而杂，所以我特别希望从数据里产生出它的价值。而对于数据比较小一点的公司，由于还没有这么多数据，所以短期内不用担心这个问题。我过去两个月不断的面试了很多人，往往我第一个问题就问他们什么是大数据？基本上，每个人的看法都不一样，而且很多人都来自很大的公司，但是也没有得出结论。目前，很多公司的BI好像还没到大数据的阶段，而只是找到应用数据的一个方法而已。所以，当已经有海量数据，在这个海量数据中心里面寻找一些有价值的东西出来，这可能是大数据。记得马总曾说过：凡是已知某种关系，运用这个关系数据计算一个东西出来，或者找出一个规律出来，这不是大数据；凡是不知道某种关系，但是刚刚找到这种关系，并且运用这种关系能产生出额外价值的时候，这就是大数据。而如果这种大数据已经找到了，它逐渐也就不是大数据了，你要再寻找跨界的其他的数据出来。当能让这个数据产生新的价值的时候，就又找到了大数据。当数据广度足够，问题更加简单过去，很多机构数据不够广度，所以要用很复杂的算法才能得出想要的结论。今天，如果数据广度足够，很多时候就根本没有必要复杂计算了。例如，以前有人通过复杂的达人模型算法得出某用户是牛仔裤达人，但如果能够拿到他的微博数据，那么其实很容易就可以得出该结论的。所以，以前的数据挖掘跟今天的数据挖掘将有很大差别的。也就是说，当一家公司的使命是将来想做一个大数据公司的话，可能要准备一些一手数据。当然，公司的收购策略，或者数据战略，不是一般的产品人能去影响的。但是，当数据的材料可以影响到没有这么复杂的算法还能实现业务，你就可以这样去做。未来，BI部门像无人看管的汽车前一段，我们将阿里巴巴的BI 部门改名为数据技术与产品部。整个部门不叫BI部门了，但仍有一个BI二级部门存在。未来，我想象中的BI部门可能会走向这个方向：它像一个无人看管的汽车，没有具体的小二负责，但可以走出正确的道路。当然，这不是在所有场景都能够实现，而是要先选择一些好的场景来实现。在这个场景中，数据、模型能像汽车一样自己走出来。目前，淘宝BI数据已经尝试走向这条路了，未来怎么样可以做到像没有驾驶员的汽车一样自己找到出路，仍需要不断实践。大数据在很多方面仍面临考验很多公司高管会问：你拿着大数据，你能不能从数据里面进行拔高，把数据抽出来，真正找出问题？能不能从数据中直接告诉我今天到底发生了什么问题？能不能比我具有丰富经验的小二厉害？否则，老是讲数据很厉害，我感受不到。这其实代表了业务方的期望。其实，现阶段，很多事情大数据还是做不到，在很多地方还是不能经得起考验，所以，在很多人心目中，大数据可能还没到那回事。我们需要正视。数据要“用”，还要“养” 从“用”和“养”的观点来讲，目前很多公司已经走在“养”的路上。例如，我们说高德是一家数据公司，因为它非常注重数据的“养”。大数据转型革新时期，BI分析师更容易适应转型凡是BI人员，肯定是很精通数据业务的。所以当做数据挖掘或很多其他数据工作的时候，他肯定会比其他人做的更好。当一个公司转型做数据业务时，分析师是一个非常容易转型成成功的business man的。例如，以往BI人员很怕临时需求，但是我发现一线分析师经过了这些锻炼，已经成为全能型人才：他能够从底层数据提取，到中间层数据挖掘，一直到最终解决问题全部完成。目前有一些人觉得分析师是不是已经落后了？其实，分析师成为公司未来商业应用最好的补充。仅仅懂得做分析师不够，要做数据中间人现在是转型中一个非常重要的点，因此仅仅懂得做分析师是不够的，我们业内最需要的是数据中间人。数据中间人就是可以“见人说人话，见鬼说鬼话”的人，可以在中间翻译，两边都可以翻译出来的人。他要知道数据架构到底要解决什么问题。他要告诉产品经理，我们需要什么样的自动化产品帮到我们业务方，我们需要什么样的模型。所以，他其实是一个很高级的商业架构师，并不是一个很高级的技术架构师。所有数据产品都会遇到的问题：到底通用产品要多通用，具体产品要多具体？当通用性的产品到一个具体场景的时候没有办法满足那一个具体的场景，所以这个就不仅仅是数据产品会出现的问题，而是所有做产品的人都会面临的一个问题。例如淘宝，到现在已经开始提供全方位的服务了，所以不管是数据产品还是数据服务，就要想想，哪一些东西要做成产品，哪一些要做半产品就可以了。这时候，问题是什么样的半产品能被大家所用？所以，今年我们的部门里，也会有两三个人专注于分享数据、方法、工具出去，有一点像布道师。找到你的“白米饭” 我刚进支付宝的时候，当时分析师都走光了，那个时候发现所有东西要重新开始。第一想到是“白米饭”（注：不可或缺的工作）。“白米饭”不能解决，其他部门都会说你们在搞什么？所以开始从“白米饭”开始一级一级的建立自己BI。我觉得BI团队的建立有一条时间线，我们淘宝是先“用”，从“用”再开展到“更多的用”，几个阶段的作用是很不一样的。所以，每家公司的数据部门都要思考：什么是你的白米饭？同时，不管哪一个数据公司，有一些是数据分析师必须要做的事。例如：BI的总监和领导人一定要在管理层一起开会。可以不说话，但是一定要进去了解公司管理的理念和思路。否则这个BI部门就废掉了，这是我自己感受最深的一点。做数据产品的原则阿里巴巴做数据产品有以下一些原则：首先，这是一个单纯的商业行为；第二，它不影响到用户的隐私；第三，它不能影响到其他的用户。（因此，如果该产品能够帮到一家，但对另外商户影响大了，就不能做。要保证在互惠互利的前提之下再看方案怎么样。）此外，还有一个要求：当数据产生交叉的时候，数据必须要放在我们这里。最近，阿里与很多创新性公司展开了合作，例如一些保险公司很快将数据放进来进行实验。它可以先不全量放进来，而是放一些数据进来，看数据交叉之后能不能产生效果，如果效果很好，再考虑下一步。采取小步快跑的商业思路。

大数据
2014年06月26日

大数据

大数据时代的人才管理我意识到大量的数据在人力资源管理中所起到的作用，是前几年在某大型跨国公司工作期间管理一个团队时，使用一个专门用来做调薪管理的信息系统。简单说，这个系统工作原理是：调薪周期开始时，公司会把调薪预算从上到下分解到各级经理，我拿到我的预算额度后，会具体分析给每个下属分配多少预算，我考虑的因素一般有：一、他的当期绩效表现，二、他目前薪酬在公司内同类工作岗位处于什么水平？三、和同行、竞争对手的同类岗位相比处于什么水平？我会根据部门业务需要，来确定是否要努力保留这位下属，分配预算使员工处于合理的薪酬水平，无论是相对满意或者是具有竞争力。这个系统厉害之处在于它不仅提供了公司内按职位角色细分的薪酬分布曲线，而且同时提供了市场同行业该职位的薪酬分布曲线，使我能够很直观看到对每个员工调薪前后在公司内及市场对标的薪酬"分位值"。公司内的薪酬数据分布如果有规范的职位职务体系基础还算容易统计，市场的数据一般来源于一些大型人力资源咨询公司通过定期的定向调研A产生的薪酬数据库。做跨公司的职位职务对应匹配是件有挑战性的事情，怎么会知道公司的八级软件工程师相当于B公司的十级咨询顾问呢？我工作的那家公司尚可以做定向的对标指定，如果这种对标方法成为一种更加普及的应用，现在时髦的基于文本分析的"大数据分析"一定能够解决更广泛的职位匹配，结合薪酬数据库，提供更准确的薪酬对标服务。大企业做对标时一般都会购买商业性人力资源咨询公司的数据来保证薪酬数据的客观性和准确性存有争议，然而，现在互联网上各种"晒工资"的网站越来越多，例如GlassDoor.com，基于互联网的大数据分析可能颠覆传统的薪酬数据库服务，为企业提供更加实时、准确的职位薪酬对标，提升人才管理水平。当前，传统的人力资源管理向人才管理发展，人力资源部门自身工作的价值正从后台服务职能，发展到帮助业务部门挖掘、培养、发展人才，成为企业业务的驱动者，人才相关数据的分析为这样的工作方式转型提供了可能性。不仅是薪酬数据分析，从下图所示的人力资源相关数据可以提供很多分析机会。现在数据分析的应用场景几乎涉及各个人力资源管理领域，例如某些专业岗位招聘如何选择候选细分人群，需要在用人成本、人才质量、使用风险以及细分人群供应量等不同因素中平衡，可以通过数据挖掘方法，根据不同人才寻源策略确定相应的候选人细分对象；又如雇主品牌建设，通常员工敬业度调研结果中薪酬会是导致员工抱怨的因素，可是，实际薪酬水平以及期望薪酬水平与员工的敬业度、员工绩效之间有多深的关联？不同的薪酬或者奖金结构方式会对敬业度产生什么影响？再例如提高招聘质量，国外某保险公司对数百例初级销售人员聘用后的实际业绩分析发现，应聘人资质与业绩相关度较高的因素有：简历文本质量（语法准确、表述清楚）、教育经历完整性、高端产品销售的经验、过去成功的工作经验、不确定环境下工作的能力等，并有意思地发现大学排名、大学成绩、推荐人资质等因素与业绩相关度不高。除此之外，在员工保留因素、销售人员绩效、出勤率预测、继任计划、人才管道计划、高潜力人才挖掘等人力资源管理领域，数据分析都有广泛的应用。过去企业年度经营预算中，人力资源负责人解释人工成本增长率会常受到挑战；如果在年度工作会上，企业的人力资源负责人拿出一份人员自然减员率、招聘预测、人员管道与业务增长相关性、不同绩效水平的薪酬增长比率和市场对标水平等等数据的分析报告，可以设想，这对公司高层管理人员会多么有说服力。随着个人的移动设备和社交网络应用的普及，以"倾听、理解、赋能"循环为特征的市场营销是新一代首席营销官（CMO）的工作模式。在移动和社交互联重新解构社会关系的今天，如果把包括潜在雇员与高潜雇员在内的群体看做人力资源管理的"营销"对象，已经有很多观点认为未来的首席人力资源官（CHRO）的工作方式越来越像CMO。CMO基于社交和大数据分析的精准营销思路可以用于人力资源管理上，通过社交媒体的多向信息沟通特点，建立内外部人才协作、目标设定和绩效跟踪、职业生涯管理、人才寻源等。【文章作者：陈果】

大数据
2014年06月25日
大数据

虚拟数据中心管理与分析工具提供商CloudPhysics获1500万美元融资帮助企业数据中心分析监控和管理虚拟化基础设施的初创企业CloudPhysics刚刚获得了 1500 万美元的 C 轮融资，同时还宣布推出一款跟踪存储资源使用情况的新软件。 CloudPhysics 是一家提供的初创企业，成立于 2011 年，现有 30 名员工。该公司利用大数据分析技术，可捕捉用 VMware 的 vSphere 维护的各种虚拟服务器的各种使用状况数据，然后进行分析，并为数据中心运营提供各种洞察分析。该公司自称是第一家将大数据分析与数据中心仿真（专利技术）与资源管理相结合的公司。计算、存储和网络是数据中心的三大资源。CloudPhysics 之前提供的是针对 vSphere 的虚拟计算资源分析与管理，因此这次他们进一步提供了针对存储资源的新产品。这款产品可通过大数据及模拟分析回答以往难以回答的一些问题，如某 hypervisor 下挂接的存储应该划分多少块虚拟盘才合适，还可以在不需要安装硬件的情况下推断 SSD 硬盘缓冲数据的影响，此外还能提前预测存储或性能不足问题。 CloudPhysics 的下一步计划是打算支持微软的 Hyper-V 以便拓展市场，同时提供网络性能的指标分析，从而为企业数据中心运维提供一块基于云的高度定制化的仪表盘。目前 CloudPhysics 已经有几百客户，包括 North Shore Financial Group、Sanofi 和 Zettagrid 等。此轮融资由 Jafco Ventures 领投，KPCB、Mayfield Fund 参投。此前 VMware 联合创始人 Diane Greene 和 Mendel Rosenblum 也曾对 CloudPhysics 进行过投资。此轮融资过后 CloudPhysics 的总融资额已达 2750 万美元。 [消息来源：venturebeat.com]

大数据
2014年06月25日
大数据

【知识学堂】打死也不说”的大数据秘密一不留神之间，我们已经汇入浩瀚的大数据洪流之中大数据时代来了，大家的起点差不多，中国的机会也来了推特上的情绪变化曲线，与道琼斯股票的指数变化曲线高度相关作为一种现象大数据的洪流都容纳了什么？还记得当年谷歌和百度以“大数据”为关键词的搜索曲线吗？那两幅图热烈地反映了大数据受关注的程度。谷歌从2011年到2012年，百度从2012年到2013年，都有一个明显甚至是陡然的上升。而在中文搜索曲线陡然上升的同时，统计工作中有关大数据的应用研究也已经同步开始了。 “大数据”作为一个词语，或许是一个发现，而不是一个发明。但是，“大数据”作为一种现象，或是许多发明的结果、聚集和延续，是科学技术、生产力水平发展到一定程度后的必然。银行系统有海量的储户个人信息及存储信息，商场、超市有庞杂的商品信息及价格信息，机场记录着许多乘客的出行情况，医院记录着许多病人的检查和治疗情况；门户网站每一条新闻下面的留言，汇集成对许多现象和问题的民意；实名注册微博中的喜怒哀乐，则都是情感和态度的表达；百度、谷歌引擎的每一次使用，都可以说明IP那端键盘操作者到底想要什么；透过大气层中弥漫着的无数手机短信，足以掌握无数手机使用者“打死也不说”的秘密。从我们不变的属性到可变的态度，很多都已经在一不留神之间，汇入了浩瀚的大数据洪流之中。以往历次技术革命，中国跟在别人后面亦步亦趋。大数据时代来了，大家的起点都差不多，中国能不能在大数据应用方面与发达国家并驾齐驱，乃至做出一些贡献呢？著名的《大数据》一书的作者涂子沛先生曾是中国基层政府的一名工作人员，后来去了美国，在最恰当的时候写出了这样一本书籍。我们请他做过一场报告，而半年之后，再请他作报告就非常困难了。据《中国青年报》报道，涂子沛去年6月时进行第四次国内巡讲之旅，连早餐时间都被占满了。从《大数据》一书出版后，每当这位在美国供职的中国程序员回到国内，都会受到热烈的追捧。6月16日，他在招商银行深圳总部大楼与刚卸任的原行长马蔚华共进早餐。和马蔚华共进早餐的第二天，他在江苏常州就“教育与大数据”的话题进行了一场听众超过1000人的讲座。其间，他与某公司董事长吃了一顿午饭。这时，要请他讲课，只能找他的秘书安排了。这个变化，恰恰是大数据现象快速发展变化的一个缩影。演进和发展不说不做也难，因为已经唯此为大一年多以前，在我们刚刚开始研究大数据及其对统计数据和统计工作带来的影响时，一位年轻同仁在我的博客上留下一段英文：“Big data is like teenage sex： everyone talks about it， nobody really knows how to do it， everyone thinks everyone else is doing it， so everyone claims they are doing it。”我不敢妄加直译，放到在线翻译系统上走了一下，结果显示：“大数据就像青少年性行为：每个人都在谈论它，没有人真的知道如何去做，每个人都认为别人在做，所以每个人都声称他们正在做。”于是，我回复说：“很经典。但是不说不做也难，因为已经唯此为大了。” 归纳起来，对大数据现象和概念追根溯源，大致可以分为三个阶段。一是20世纪80年代至90年代中期，这是大数据认知的萌芽阶段。1980年，美国著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中将大数据盛赞为“第三次浪潮的华彩乐章”。1996年，美通社在介绍高性能平行节点技术时也提到中央处理器集群以及大数据应用。这时提到的大数据，仅是字面意义，仅指数据量大，并不涉及类型、存储方式、处理技术等。二，20世纪90年代中期到21世纪前10年，是大数据广受各界关注的阶段。数量经济学家迪博尔德2000年在《大数据，宏观经济度量与预测动态因素模型》一文中，讨论了如何使用大数据进行经济度量和预测。美国高德纳公司的分析师道格拉斯·兰尼2001年首次从大数据特征的角度对其进行了相对明确的定义，他强调大数据必须具备3V特征，即容量大、多样化和速度快。三是2010年至今，是大数据战略应用被提上日程并迅速发展的阶段。2010年，美国总统科学技术顾问委员会在呈给奥巴马总统和国会的报告《规划数字化的未来》，将大数据列为现有科技领域面临的挑战之首，并要求联邦政府的每一个机构和部门都制定一个应对大数据的战略。这是全球首次在政府层面将大数据作为国家战略的里程碑事件。 2011年，麦肯锡公司发布了《大数据：创新、竞争和生产力的下一个前沿》，详列了大数据的核心技术，分析了大数据在不同行业的应用，提出了政府和企业决策者应对大数据发展的策略。 2012年1月，在瑞士达沃斯世界经济论坛上，大数据处理技术被视为“2012 年最应该关注的科学技术”，被誉为“改变世界的第一位科学技术”。论坛发布的《大数据大影响》报告中有一段著名的论述，即“大数据已经成为一种新的经济资产类别，就像货币或黄金一样”。 2012年3月29日，美国奥巴马政府颁布了《大数据的研究和发展计划》，拟通过提高从大型复杂的数据集中提取知识和观点的能力，进而加快美国科技进步的步伐，加强国家安全，并改进教学与研究。该战略涉及美国联邦政府的六个部门。 2012年5月，联合国秘书长执行办公室发布了《大数据促发展：挑战与机遇》的报告，分析了各国特别是发展中国家在运用大数据促进社会发展方面所面临的历史机遇和挑战，系统给出了在应用过程中正确运用大数据的策略建议。 2012年6月，经合组织OECD召开统计委员会第9届会议，发布《使用大数据作决策》研究报告，阐述了大数据现象对决策的潜在重要性和支撑作用，并特别分析了大数据对官方统计带来的各种挑战。 2012年，中国计算机协会决定成立“大数据专家委员会”，推动大数据的发展。同年6月，阿里巴巴集团宣布，将在集团层面设立首席数据官，负责全面推进“数据分享平台”战略。同年7月，“第二届大数据世界论坛”在北京召开。同月，首届中国大数据应用论坛在北京大学召开。 2013年7月，“大数据时代统计学：机遇与挑战—中国统计学高端论坛”在上海财经大学举办。全国统计学专家学者齐聚一堂，共同探讨在大数据时代统计学面临的机遇与挑战。同年，第十七次全国统计科学讨论会在杭州举行，会议的主题是“大数据背景下的统计”。这是国内第一次研究大数据与统计工作的科学研讨会。11月19日，国家统计局与阿里、百度等11家企业签署了大数据战略合作框架协议，共同在分享、开发、利用大数据方面进行合作，以推动促进大数据实现大价值，使之更好地服务于社会。这标志着在统计工作中应用大数据，已经从研究转向实操层面。两朵细小浪花从“喝醉的海盗”到斯诺登的“泄密” 舍恩伯格先生告诉我们这样一个故事：史黛西·施奈德最大的梦想是成为一名教师。2006年春天，她完成了自己的学业，并对未来充满期待。但她心仪的学校明确拒绝她，理由是她的行为与一名教师不相称，因为她的个人网页上有一张取名“喝醉的海盗”的照片。照片里的她头戴一顶海盗帽子，举着塑料杯轻轻啜饮着。她曾将这张照片放在 MySpace并且取名为“喝醉的海盗”。这张照片她是给朋友看的，也许只是为了搞怪而已。但她实习的大学里，一位教师发现了这张照片，并上报给校方，校方认为网上的这张照片是不符合教师这个职业的，因为学生可能会因看到教师喝酒的照片而受到不良影响。于是，史黛西打算将这张照片从她的个人网页上删除。但是危害已经发生了：她的个人网页已被搜索引擎编录，而且，她的照片已经被网络爬虫程序存档了。斯诺登披露的棱镜门事件更加清晰地揭示，当我们个人的行动乃至心动都融入浩瀚的大数据洪流，成为其中的一朵细小浪花后，一切已皆在掌握之中。当人们揣着手机从一个地区到达另一个地区，马上会接到来自运营商的欢迎短信。而每一部手机都是名副其实的跟踪器和定位仪，可以精确锁定到某一座建筑物内。如果调查者和运营商联手，不用填写问卷，就可以既精准又及时地掌握所需要的信息。当人们通过博客、微博、微信、飞信表达自己情感上的喜怒哀乐的时候，通过网上留言、跟帖表达自己对不同事物的态度和意愿的时候，通过关键词的输入搜索自己需要和感兴趣的结果时，不仅留下了不可磨灭的痕迹，也为后台的汇总与分析提供了最具基础性的依据。当人们坐在电脑前轻点鼠标、轻松完成一次又一次购物的时候，不仅切实感受到网购商品的物美价廉，还能享受到送货上门的方便和快捷。但与此同时，每一个网购者也不得不把自己的银行账号及其他相关信息，交给一双或几双看不见的手去掌握、控制和操作…… 尽管如此，人类社会毕竟还是要向前发展的，我们不可能再退回到没有网络、没有手机的年代。其实，即使倒退半个世纪，隐私安全问题也依然存在。因为我们毕竟要到银行存款，到医院看病，通过邮局寄信，通过单位电话或公用电话沟通。只是大数据时代的到来，使这个问题变得更加复杂和突出罢了。在大数据时代保护个人隐私，既要靠技术，也要靠法律。技术层面，一是要防止不法分子侵入个人系统，盗取个人信息；二是要限制个人信息掌握者的权限，使每个层级的相关人员只能掌握有限的信息。更重要的是法律层面。生成、处理、分享和利用大数据，可以创造大量有价值的信息，服务于广大民众，服务于经济与社会发展。而从法律着眼，则既要为依法合理地搜集处理大数据信息提供保障，也要确保信息处理过程中个人隐私不被泄露、不被用于服务和统计以外的目的。因此，法律需要针对两方面情况作出相应的规定。一种比较普遍的情况是，对很多自动生成的大数据信息进行搜集处理，可以生成很多有价值的统计信息。如通过对网上交易情况的处理，可以得出很多价格和交易方面的信息；对大量临床电子病历的处理，可以进行流行病学分析，并进行医学研究；对工资收入信息的汇总分析，可以为收入分配制度的调整提供有价值的依据……法律既要保障这些合法的开发利用，也要明确指出在此过程中个人和企业信息既不得向国家统计部门以外的任何第三方提供，也不得用来对个人和企业进行处罚，更不得对社会发布。法律要细化处罚条款，一旦发生上述情况，不仅必须承担法律责任，而且要付出一生付不起的代价。另一种比较特殊的情况则是，为了国家安全或查处犯罪行为，需要采取一些特殊手段，但这也必须在法律的框架内进行。在证据和理由充分的情况下，仅针对特定的目标，并经过必要的法律程序，等等。总之，尽快立法以适应大数据时代保护公民隐私的需要，不是未雨绸缪，而是迫在眉睫了。应用与实践电影搜索曲线与电影票房曲线高度相似美国麻省理工学院承担的“十亿价格项目”，基于学术研究方法对全世界海量网上零售价格进行价格指数计算。每天实时收取50万条互联网上的商品信息，是美国政府统计收集的5倍。由于价格信息不是用访问数千座实体商店的传统方法获得，因此成本很低。“每日网上价格指数”每天更新，研究人员和政策制定者在官方统计数据发布之前就能够判断价格涨幅形势。该指数并非用于预测官方公布的通胀率，而是为判断通胀趋势提供实时信息。2008年9月美国雷曼倒闭时，“每日网上价格指数”很快显示出价格下降的趋势，而官方统计的CPI直到11月才显示出下降趋势。联合国全球脉冲计划与Crimson Hexagon分析公司合作，分析了美国和印度尼西亚1400万Twitter用户中与食物、燃料和住房相关的数据，以更好地理解人们关注点。分析者以“负担”等为关键词，根据人们交谈主题和关键词数量的变动研究人们的行为特点。结果发现，印尼Twitter用户提到大米价格的数量变化与实际食品价格通胀指数（官方公布的数据）密切相关。类似的例子还有很多。如2012年，谷歌的电影搜索曲线与电影票房曲线高度相似；巴西发生登革热时，谷歌关于该病的搜索曲线与该病实际发生的曲线也高度一致；社交平台推特上人们交流时的情绪变化曲线，与道琼斯股票的指数变化曲线高度相关，不知是情绪影响了股市，还是股市影响了情绪，或两者互为影响。国内最典型的例子，就是马云的阿里巴巴集团推出的淘宝网络零售价格指数（简称淘宝ISPI）。在阿里巴巴公司的淘宝网上，许许多多的店主开了许许多多的网店，经营着各种各样的商品。于是，一个综合性的淘宝价格指数应运而生。采用淘宝商品小类目平均价格，权重是淘宝网支付宝成交金额的比例。结果显示，淘宝价格指数曲线与统计部门的商品零售价格指数曲线高度相似，但因为是实时的，所以淘宝曲线趋势的出现要早于统计部门的价格指数曲线。随着大数据时代的到来，政府统计部门不再是唯一的海量数据的拥有者，互联网上每时每刻都生成着大量的交易和价格信息。你看还是不看，数据就在那里，用还是不用，数据总是越来越多。大数据是一场大变革。应对大数据带来的挑战，统计工作必须变革和创新。春江水暖鸭先知，得大数据者得天下。在大数据与日俱增的情况下，必然有越来越多的大数据转化成统计数据，并在此过程中实现更大的社会价值。作者：潘璠（国家统计局统计科学研究所所长）

大数据
2014年06月18日
大数据

Dropbox已悄然收购大数据创业公司Parastructure 美国云存储服务提供商Dropbox近来一直在进行大举收购，试图将其面向个人用户和企业客户提供的服务延伸至云存储以外的领域。与此同时，Dropbox还在积极展开战略收购，以帮助推动公司的长期发展。Dropbox公司的融资总额达到11亿美元，是多家有望实施IPO（首次公开招股）的大型科技创业公司之一。我们发现，Dropbox已悄然收购了一家名叫Parastructure的创业公司，该公司长期处于默默无闻的状态，主要开发基于开源基础设施的数据分析软件。一位可靠的知情人士证实，这笔收购的交易金额可能在1000万美元至5000万美元之间。不过，Dropbox和Parastructure均未向TechCrunch证实收购交易。 Dropbox一位发言人告诉我：“谢谢你向我们求证，但我们暂时不便发表任何评论。”Parastructure并未作出回应，但在我开始联系该公司两位创始人萨利克·塞耶德（Salik Syed）和莱恩·努恩（Ryan Noon）后不久，Parastructure的网站就下线了。但是，一位接近Parastructure的可靠人士证实，这笔交易“已经完成”，同时还确认了上面提到的交易价格的大概区间。 Parastructure究竟是做什么的呢？根据Parastructure在LinkedIn的企业页面及其网站主页上面的介绍，该公司开发“基于先进的开源基础设施的数据分析软件。”Parastructure的GitHub页面则透露了有关数据分析软件具体功能的一些线索，涉及许多服务领域。知情人士表示：“他们具有广阔的发展前景。他们开发了适销对路、覆盖大批客户的产品，正在解决其他人没有解决的关系型数据库问题。” 虽然Dropbox正采取一系列措施来强化旗下企业业务，但很显然，尽管Parastructure是一家提供企业级服务的创业公司，Dropbox并不打算将其整合到公司内部，也不打算将其作为产品——至少在收购初期不会。这或许是Dropbox此次低调行事的一个原因，表明Dropbox还在酝酿更大的计划。我们的消息人士指出：“为何要告诉潜在竞争对手我们当前的活动呢？” Dropbox目前用户数量已经突破2.75亿，同时管理着企业级与消费级内容以及一系列让Dropbox向云存储提供商以外领域发展的服务，而且还寻求扩大公司规模。鉴于此，Dropbox用更多的数据库来增强其基础设施实力，进一步提升其服务的运行速度和可靠性并不出人意料。 Parastructure总部设在旧金山，创立于2012年，公司两位创始人均毕业于斯坦福大学。 Parastructure并未公开披露投资方的身份。Parastructure在LinkedIn页面指出，它是一家“获得多位知名天使人资助和支持的公司。”不过，Parastructure在AngelList页面的信息却显示，这些天使投资人包括Cloudera联合创始人兼CTO阿玛尔·阿瓦达拉赫（Amr Awadallah）；其他的迹象还表明Accel也投资了该公司。（译：皓岳）【文章来源：TC中国】

大数据
2014年06月17日
大数据

将大数据处理搬到云端，以色列初创公司SiSence获3000万美元融资据Reuters报道，大数据初创公司 SiSence 获得 3000 万美元 C 轮融资，领投方为 DFJ Growth，参投方有 Battery Ventures、 Genesis Partners 和 Opus Capital。SiSence 去年曾获得 1000 万美元的融资，累计融资已经达到 5000 万美元。大数据方兴未艾，提供大数据服务的公司也越来越多。SiSence 不同的地方在于他降低了企业参与大数据的门槛。SiSence 收集并整合客户数据库、CRM、ERP、CSV 中的数据，系统自动处理数据，然后以易懂的报告形式呈现给客户，帮助客户做出科学合理的预测。一般的大数据虽然是基于云端，但数据的处理还是要依靠内存。SiSence 在云端进行数据处理，用户不仅可以通过电脑查看，还可以使用平板等便携设备查看。企业无需额外购买昂贵的运算处理设备。 SiSence 成立于 2004 年，公司总部位于以色列特拉维夫·雅法。SiSence70% 的销售来源于美国，计划明年在硅谷成立公司，用这笔融资快速扩展在美国的业务。 SiSence 现在的客户大约有 500 个，包括 eBay、 ESPN 和 Carlsberg，但仍未盈利。公司 CEO Amit Bendov 预计今年 SiSence 的销售额可以达到去年的 3 倍，2015 年可实现盈利。近期也有多家大数据公司获得融资。企业大数据应用平台公司Concurrent获千万美元融资，大数据销售管理服务提供商InsideSales获得1亿美元C轮融资，为企业级市场提供大数据系统处理的创业公司Cloudera融资9亿美元。相比于这些公司新获得的融资，SiSence 的融资金额并不算多。 [36氪原创文章，作者: 小石头]

大数据
2014年06月16日

1... 《 9 10 11 12 13 141516 17 18 19 》