• 数据
    这家公司要用NLP技术提供企业情报服务 要让机器理解人类的话语,自然语言处理(NLP)是其中的关键技术。微软将这一技术用在了小冰、Cortana这样的虚拟助手,以及Skype的实时翻译上;Facebook智能助手M的核心技术之一也是NLP。但稍微调戏一下就会发现,这些通用的虚拟助手往往会答非所问,而M的背后更是有人类训练师的支撑。但这并不妨碍NLP技术在特定领域解放人力。 玻森数据通过中文语义分析开放平台为开发者提供NLP API服务,目前有15个处理引擎,其中3个供内部使用,能实现文本的信息分类、情感分析、实体识别、文本聚类和关键词提取等功能,主要服务对象是咨询公司、金融及媒体机构。比如,商家可以用相关引擎分析用户对产品的评价。 玻森联合创始人李臻介绍,一些实验室也有做NLP引擎,但一般会针对具体的问题,而商业化语义引擎则要能快速进入某个领域,提供快速、标准的服务。目前有约4000开发者在使用玻森数据引擎。 玻森引擎对本文的摘要分析 2015年初,出于政府信息公开力度加大的原因,玻森开始开发企业情报服务系统“风报”。它以玻森的NLP引擎为基础,根据政府文书、新闻报道、公司内部文件、财务数据和行业指数等(非)结构数据,分析公司的经营信息,用于风险控制和情报分析。以往了解一家公司可能需要自行查询政府数据库,并搜索相关媒体报道才能形成初步判断,但李臻表示,他们可以按时间、性质和事件形成公司的完整报告。这显然能节省不少时间。 提供企业信息服务的公司不少,有天眼查、企查查、启信宝等。李臻告诉记者,风报的核心是分析能力。企业信息涉及很多裁判文书,提炼关键信息要进行去重、实体抽取、分词、清洗及分析等,这这些不是信息汇总就能完成的。 之所以选择企业情报服务是因为有一定的行业基础。玻森联合创始人之一的纪敏曾负责数十个企业上市及并购项目,具有丰富的投融资经验。 风报中的关系挖掘展示 李臻表示,玻森的主要优势在于NLP及语料库两方面。 玻森引擎自2006年开始,到2013年正式进行项目研发,有较长时间的技术积累,NLP引擎能进行半监督半自动化的学习。它已经在汽车、新闻和体育等行业有所应用。以汽车为例,可以为汽车之家这样的网站提供汽车咨询,客户访谈方面的分析,这需要对文本信息进行分词、抽取等,结合行业用户的知识体系再做引擎开发。李臻表示,目前少有其它公司用NLP做企业情报分析,因为NLP技术有比较高的进入门槛,一方面需要大量语料库的积累,另一方面需要对应用场景有深入理解的行业专家。 另外,目前主流的NLP技术以统计机器学习为基础,这就需要大规模的语料库,没办法做通用处理,需要根据行业进行定制。机器学习近二十年的进展很迅速,“更多的数据胜过更好的算法”成了业内许多人的共识。在良好算法的基础上,语料对NLP模型的准确性和通用性非常重要。而玻森目前在中文分词、实体识别、关系抽取、情感分析上积累了上百万条标注语料。 未来,玻森还会开发机器人客服系统,这也是NLP应用较广泛的领域,比较知名的公司有智齿客服。甚至,它还有图像处理产品研发的打算,按李臻的说法,图像识别所用算法与NLP相近。联想到国外知名创业公司MetaMind在2015年从NLP领域转型到图像分析,这并不是令人意外的产品路线。   来源:雷锋网
    数据
    2016年06月28日
  • 数据
    Uber 设计总监为你分享 Uber 增长团队背后的故事 充满激烈竞争的叫车市场上,Uber 是怎么做到一枝独秀,快速将业务铺展到全世界各个国家的呢?这跟它的增长团队分不开关系。本文就通过 Uber 内部人士的介绍一,还原这个团队的本来面貌。 创见干货: Uber 如今开始逐渐成为我们生活中必不可少的工具。不知不觉中,我们在出门的时候都会习惯性的掏出手机,在屏幕上点上几下,安心等待电话的到来。充满激烈竞争的叫车市场上,Uber 是怎么做到一枝独秀,快速将业务铺展到全世界各个国家的呢?这跟它的增长团队分不开关系。本文就通过 Uber 内部人士的介绍一,还原这个团队的本来面貌。 在我加入 Uber 的时候,我还没有听说过「增长团队」。后来公司搞了这样一个团队出来,在团队启动的当天,我们的 CEO 着重强调了这个团队的重要性,他告诉我们,这个团队的目的就是要拉升公司业务的发展。 出于好奇,我自发地报名参与到这个团队当中,成为了设计上的负责人。我们一开始的团队人数很少,只有两个设计师,还有几个工程师、产品经理和分析师,两年过去了,我们已经成长成为了一支 300 人的大部门,光是设计团队就有 30 人。 设计在增长团队完成使命的过程中扮演着非常重要的作用,设计师应该融入到「以指标数据作为导向」的文化中。从那个时候开始,我和我的团队成员开发出来了一套方法,它既能带来商业发展所需要的高速增长,而且团队行动速度很快,工作质量很高。接下来我就将介绍这套方法,希望大家都能受益。 我们将「科学」和「艺术」相结合 增长团队的设计师对于每一个项目都采取的是一种「实验方法」。我们一开始,首先要确认某个标准,这个标准将用来判定我们这次设计是否成功,标准本身可以是量化的(比如有多少司机注册,有多少乘客叫车),也可以是定性的,(比如易用性),又或者是两者兼有。一旦我们确认了什么是成功,然后我们开始不断尝试着方法,提出不同的假设,围绕着假设去做实验。当设计完成后,我们展开测试, 通过我们的调研团队,展开一次用户方面的测试,要么将某些设计应用到某一小撮的用户群那里,要么是就是把设计推广覆盖到全用户,然后紧密地观测各项数据的变化情况。如果我们达到了理想的目标,我们将确认之前的假设成立,全面地使用这项设计,然后马不停蹄地继续下一个项目;如果我们没有达到理想状态,我们将从站不住脚的假设上吸取经验,反思总结,然后在解决方案上进行迭代更新。 上面的这个操作流程让人很容易联想到一名化学家躲在实验室,头上带着护目镜,两只手各拿着一个装着不明液体的试管,同时向某个容器里倒入,所谓设计,并不是人们想的那样,一名画家在画布上尽情地泼墨绘画。我们不是碰运气,又或者是诉诸于某种迷之灵感,我们是要将自己的设计决策,建立在被证实的一个个事实基础上,并从错误尝试中不断汲取经验教训。这种方法能够让我们在可控,且可理解的方式下,给公司不断提供增长的动力。 我们一头扎进数据的海洋 增长团队的设计师热爱数据,我们紧密地跟数据分析师、产品经理进行合作,不断地发掘与项目有关的各项关键指标,虽然我们设计师不做实际的分析,但是我们是必须围绕一些关键概念来开展工作的,这些关键概念包括了「点击率」、「用户获取成本」、「某项数据的权重」等等。我们持续的跟踪数字的变化,利用分析报告中所得出结论来完善后续的设计。 当项目开始的时候,我们从数据中寻找某种能够作证一些假设的趋势,以及我们从用户调研中能够了解到什么。如果我们想要说服团队将项目放到产品路线图上,那么我们肯定是用数据来做支撑。这样做使得我们永远把精力放在正确的问题上,而不是「猜」下面该做什么。 当设计项目完工,数据会来验证我们的设计产生了多大的效果。我们通过追踪、评估某些关键指标,来确保我们的设计结果符合之前的预期。就比如说,如果我们现在正在设计一个全新的注册功能,我们将关注下面的这些指标:「按钮点击率」、「转化率」、以及「账户新增数量」等等。如果我们在这些指标上没有看到相应的改善,我们就会不断地去迭代更新设计,直到有一天,各项指标都达到了预定的标准,这项功能才会全面地推向全体客户。这保证了我们工作的有效性,步步稳赢,稳扎稳打,一个项目做好了之后才会进入到下一个项目当中。 我们做的更多 我们的方法非常依赖于「AB 测试」,所以你可以想象得到,我们对于每一个需要解决的问题,设计出来肯定不只一套解决方案。但是,尽管要设计出好几套方案,我们也不是没有目的的。西方有句谚语是:把所有的面条扔到墙上,看哪个能够挂住。我们并不会以这样的方式,让运气来决定项目的成败。我们要仔细的甄选每一套解决方案中的变量都是哪些,每一套解决方案的背后都有一个非常清楚的「假说」。我们确保每一套解决方案都是有着自己清楚的逻辑路径,完成质量都很高。我们将不同的解决方案放到一小撮客户那里进行试验,直到最后,我们进行最后的评估,最终有一个解决方案能够胜出。 就比如说,当我们在设计准备投放到 Facebook 上的广告,以争取到更多的司机前来合作的时候,我们不断地去测试各种标题方案,不同样式的标题带来不同的视觉效果,我们要从中找出哪个方案最能够捕捉到用户的注意力。每一个方案其实都很好地表达了 Uber 的理念,但都是从某一个角度切入,强调了品牌和服务的某一面…… 这样的测试会起到两个作用。首先,它将我们的设计效果最大化。如果我们仅仅是把我们想当然觉得最好的解决方案推出来,我们很有可能错过那个最贴合市场心理需求的方案;如果我们拿出来好几个,我们就有更大的可能性来取悦客户;其次,它能帮助我们成长。在不同的媒介,面向不同的客户,哪些方案起作用,哪些没有,这些都会一点一滴地汇聚起来,成为非常宝贵的知识库。我们将这些学习到的东西带到了未来更多的项目中,并且在下一次能够带来更加多元化,更加富有想法的「候选方案」。 我们做的更少 我们的设计要遵循「事半功倍」的原则。我们争取一个小小的改动能够带来特别大的影响,尽可能不会彻底地将一个产品或者功能推倒重来,我们永远在寻找着最简单,最易执行,最轻量级的解决方案。 举个例子,我们在乘客的 Uber App 里考虑如何在「给予(获得)一次乘车机会」功能上做文章,我们一开始只是简单地将菜单链接从「分享」改成了「免费乘车」。这种文字描述上的改动,能够将这个功能的全部价值给体现出来,也就极大地鼓励了更多的用户邀请他们的朋友来体验。这样的改动从设计上完全不需要花费几个小时,设计师可以把省出来的时间用在打造,测试另外全新的功能上面。 这种追求「做的更少」的思路,其实能让我们做的更多。我们在每个项目上面做更多的迭代,在 A/B 测试中引入更多的变量,而且在一定的时间内开发更多的项目。「做得更少」并不意味着我们不去做某些大型的设计项目,它的意思永远都是优先考虑最简单易行的解决方案,不浪费任何时间。 我们行动迅速 行动迅速能够最大化我们的影响力,我们越快地拿出设计作品,我们越快能从调研和 A/B 测试中得到真知灼见。这些学习成果会有效定改善下一次迭代,帮助我们的项目加速驶向成功。我们在每一个项目上越快得到满意的结果,我们整个部门所具有的价值也就越大。 事实上,速度是 Uber 能够成功的关键,也是它的核心战略要求。当越来越多的人进入到这个平台中,Uber 对于整个世界的影响力也就越大。路上跑着越多的 Uber 司机,乘客等待车的时间也就越短;越多人在平台上叫车,司机也就不用辗转好几个地方来接送乘客,他每完成一单紧接着就进入到下一单的工作当中。事实上,叫车软件的竞争就是速度上的竞争,谁能在最短的时间内争取到最多的乘客和司机,谁就是这个领域的主宰者。 但在「速度先行」的同时,摆在我们面前的挑战是我们仍然需要深度地思考一些问题,需要不断地完成自己的设计,我们开设了好几个项目,这些项目有一些功能是共通的,我们会召开跨各个部门的头脑风暴会议,让团队里的每个人都能参与到讨论当中,大家各抒己见,力求在会上能够得出最棒的想法。我们聚在一起不断地画草图,简单地勾勒出某一种设计方案,然后在经过筛选和打磨之后,再在某些方案上投入更多的时间。我们会不断地审视自己的工作,确保不会陷入歧途,浪费时间。 我们没有忘记这世界上还存在着「魔法」 尽管我们的关注点一直放在「数据」和「指标」上,但我们仍然不会忽视设计工作在情感层面给人带来的影响。Uber 的公司文化中有一条就是:「去创造魔法」。一个设计作品如果在我们的眼中达到了成功的标准,那么它不仅仅是完成了我们既定的增长目标,而且会让人觉得这个设计上有着「魔法」一般的魅力。它有可能是令人愉悦的互动,动画,又或者是精美的图片,亦或是打动人心的文字。 魔法是无法用简单的指标进行衡量的,但是我们仍然看重它。我们时钟强调在自己的工作当中要存在一些能够打动人心的东西,这是我们团队最引以为傲的地方。   本文来源:Medium 译文创见首发 由 TECH2IPO/创见 花满楼 编译 转载请注明出处
    数据
    2016年06月01日
  • 数据
    人人都在说SaaS热,客服领域里的SaaS巨头可能长什么样呢 就在移动浪潮铺天盖地席卷了C端市场后,企业级软件市场也从传统PC时代装机卖软件模式过渡到SaaS模式,最近几年,中国SaaS市场以30%的年复合增长率保持着高速增长,企业级SaaS服务的风口正在积聚力量,快速渗透企业办公服务所涉及的市场、销售、客服、沟通、财务、采购、HR等各个层面。 作为其中垂直细分市场,SaaS客服也已全面打开。 SaaS客服列队成三大阵营 我国SaaS智能客服市场的发展除了人力成本的上升、移动互联网技术的普及和移动社交场景的涌现以及自然语言处理与机器学习技术的进步外,更多的是由特殊的时期和国内环境共同影响带来的机会。 首先,企业客服市场潜力被释放。客服一直是企业工作中不可或缺的组成部分,易观预测到2017年,中国SaaS客服市场交易规模将增长至680亿元人民币,这一方面是因为企业基数大,根据工商总局统计的数据显示,截止2015年底,国内注册有25万家大型企业、中型企业350万家、小型企业150万家以及微型企业1500万家,他们对客服的需求旺盛而迫切。另一方面是因为客服工作变得越来越重要。一份来自Zendesk的统计报告显示:78%的受访者将客户服务列为影响供应商信誉的第一要素;62%的B2B和42%的B2C用户在享受到好的客户体验后会购买更多的产品;66%的B2B和52%的B2C用户在遭遇糟糕的客户服务互动后会停止购买产品;88%的人在购买决策时受到网络评论的影响......在市场竞争白热化的态势下,企业销售的不再单单是产品,用户更加在意与产品配套的客户服务。 其次,国外巨头挤不进来。这一是因为国家有明确的政策监管,SaaS业务需要IDC托管服务,也就是国外企业要想在中国境内从事类电信服务,必须在国内有商业存在,且占股不得超过51%。所以微软、SAP、IBM才会分别找了世纪互联、中国电信、首都在线合作。二是由于企业客户对用户访问和使用速度要求极高,这就要求服务器会能在本地部署,但Zendesk等创业型企业并无财力支撑服务器在中国落地,从而给国内企业留足了时间和空间。 最后,企业级市场需要更好的客服系统。当前客服行业一部分是传统电话客服软件,此类模式容易引起客服人员听说易疲劳,工作强度大,流失率高,工作效率低,客户体验差,客服投诉率高,也增加了企业人工成本。一部分是网页在线客服,虽然客服成本明显降低,但基于WEB的在线客服无法记录访客信息,无法找回客户,无法将服务流程中的发货、物流信息及时传递给客户,而且语音方式无法支持复杂业务,不利做统计分析、数据挖掘。同时随着社交媒体的快速发展,客户服务渠道呈多样性碎片化,这就要求企业客服能支持如电话、网页,微信、QQ、APP等多种渠道的接入,再加上智能手机的普及和用户习惯的养成,员工人手一部智能手机,让手机替代PC实现企业管理和信息化成为可能,以及传统企业无法享用传统昂贵的软件解决方案。于是就出现了一批如Udesk、环信 、云软、智齿等专业的SaaS客服公司。 如今征战于企业SaaS客服市场的各类平台已形成三大派系,正相争相杀。 第一派:智能机器人客服,如2014年京东推出的JIMI、2015年阿里推出的“小蜜”、网易系的七鱼云客服和云问等,它们依托最新深度学习技术,采用智能语义分析技术打造,拥有更好的语义理解能力,可以处理更口语化的问法,并且具有自主学习能力。云问目前已成为海尔商城、360、酷派商城、巨人游戏、猪八戒网等科技公司的智能客服合作商,但目前多数尚未对外商用。 第二派: IM转移到APP客服,如:环信、容联、极光IM等。他们主要区别于电话的同步沟通模式,因为接打电话时客服人员很难再完成其他任务。而APP客服模式则是异步沟通模式,客服人员可以同步地去完成其他任务,有利于在移动互联网环境下提高工作效率且符合消费者的碎片化操作习惯。 第三派:全渠道整合客服系统,如云软IMCC、Udesk、逸创云客服等。他们将微信、微博、邮件、电话、移动APP、Web、即时通讯(IM)等多渠道优化整合,客服人员只需在一个平台上就能处理所有渠道的问题。2015年5月,逸创云客服获得由唯猎资本领投的1500万人民币和金蝶战略投资的1000万人民币A轮融资。云软则首创以即时通讯消息为主要入口的SAAS客服平台,去年云软获得深圳前海鹏德移动互联网创业投资基金2千万人民币的A轮融资。 未来可期,但难点又在哪 随着更多新晋品牌的闯入和巨头的掺和,SaaS客服市场势必会在经历一段残酷厮杀后进入寡头时代,那洗牌之前,整个行业的难点在哪,致胜高地又在哪?决胜之战,其实考验的就是这些能力。 一、人与企业的连接能力,也是社交力的比拼 未来社交将链接一切,人与人,人与企业,而且移动客服是即时通讯的衍生品,也是销售渠道的一个节点,每一个节点都会聚集到一些用户,产生兴趣,扎堆聊天,在交互连接中实现价值。所以SaaS客服就不再仅仅是冰冷机械的代码及程序,而是在考验着人与企业沟通能力、企业贴合用户需求的能力。我们评判SaaS客服价值的标准就得看他连接的能力,如何将千千万万个个体与企业统一且有逻辑的链接在一个平台上,并有序的交流互动。这种社交力能让使用SaaS的人可以和外部的人、机器、设备产生连接,在创造新的价值的同时也产生了新的壁垒。 二、个性化的定制能力,也是技术沉淀的较量 如今企业客户对特定领域相关应用的需要日益增多,因为就像“世上没有两片完全相同的叶子”一样,任何一个行业、任意一类领域,不同的企业情况和需求对会不一样,通用的应用软件只能解决大部分问题,但那些细小的差异性需求能否满足又往往决定着胜负。所以这就要求SaaS客服应用能适应千变万化的行业化定制需求,能为企业提供开放的接口以及个性化定制,企业用户可根据自己的特点和需求进行自定义设置系统模块。SaaS客服领域的PK也极大取决于SaaS客户平台个性化的定制能力,也就是自己的技术积累能否满足挑剔又各有差异的企业客户需求。 三、数据准确性与客服风控的能力,也是对用户需求的理解能力 目前出于数据安全性、业务连续性方面的考虑,部分大型企业不愿意使用SaaS服务。企业客户和个人客户最大的差别之一也是对安全的要求更高,这不仅牵涉到客户信息有无泄漏,也直接影响到客户对企业的信任以及企业自身的财务、信息安全。曾经有人总结了企业SaaS选型中的五大安全问题:云计算中的身份验证并不成熟;云标准很薄弱;保密;访问所有区域增加便利性,但同时也带来风险;你并不总是知道你的数据的位置;上诉项同样适用于SaaS客服市场。SaaS客服平台要时刻提防不安全协议、基于Web的应用缺陷以及易损或不安全的证书等威胁的发生。尽管安全性与客服风控的能力说不上是加分项,一旦发生问题,就一定会给自己减分,甚至跌入万丈深渊,难以翻身。 而且目前客服中心慢慢由企业成本中心向盈利中心转变,承担起更多的营销、销售职责。这就要求SaaS客服平台对大数据处理技术以及对用户真实需求的理解能力需要上升到一定层次,能实现对客户信息数据和交易数据的分析和统计,预测并完成客户关系维护,二次销售,这无疑又加大了对数据准确性与客服风控能力的考验。 四、移动化与智能化水平的考验 如今客服场景越来越多样化,这也使得企业客服面临三大挑战:复杂多变的网络通讯稳定性、海量高并发的长连接即时消息以及平衡云端服务合理投入与高品质性能的投入产出比。SaaS客服平台若要在竞争中胜出就必须实现真正的移动化,在保证复杂网络稳定性及海量高并发长连接的同时,还能节省使用者的建设和维护成本。 而且,好的客服往往让你感觉很专业,这就要求SaaS客服平台能提供强大的系统支持,如知识库、帮助中心或自助服务中心和数据统计分析功能等,利用关键搜索、人工智能等功能实现精准理解用户问题并匹配最佳答案,并做到快速自动回复。也就是把客户结构化和非结构化的数据进行大数据分析,反向为用户服务。同时还能把重复或干扰的问题挡在客服前面,提升客服效率。这看起来是极端的企业客户需求,却是对SaaS客服平台的基本考验。 未来SaaS客服平台还可能要对客服管理数据化,完全不止于客服,而是朝着更强的综合特征发展,最终实现以客户为中心的应用一体化。 总之,目前SaaS客服市场是一个巨大的增量市场,用户的客服需求开始由目的型客服需求逐渐向场景型客服需求发展,未来将大有可为,但市场份额逐渐会向领先的厂商集中,客服企业逐渐呈现出平台化趋势,大批以销售安装型软件的传统中小型软件厂商将被迫逐步退出市场,具有先发优势并能攻克以上难题的平台将获得更多发展机会。   作者曾响铃 微信号:xiangling0815 来源:虎嗅网http://www.huxiu.com/article/143306/1.html?f=index_feed_article
    数据
    2016年04月05日
  • 数据
    大数据带来的隐私泄露和歧视问题渐显,数据发展正面临转折点 摘要: 很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。 近年来,大数据已经覆盖了许多领域,包括互联网领域。许多应用和平台热衷于搜集用户的信息。而在近日举行的SXSW(South by Southwest,西南偏南)大会上,专家们却表达了对于数据会歧视用户的担忧。 会上,独立隐私安全专家Ashkan Soldani提及了IBM的一款能够计算“恐怖主义得分”的软件。这款软件的目的是通过用户数据,计算从叙利亚来到欧洲的人们参与恐怖活动的概率。 大数据(bigdata)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。但是,在大数据发挥重要作用的同时,也产生了一系列问题,给人们造成了困扰。 一、许多软件因数据歧视用户,造成诸多问题 目前,许多企业都会通过软件或应用搜集用户信息。在大数据时代,这种做法是无可厚非甚至是必要的,但是,用户数据可能会使用户遭到歧视,甚至造成滥用。 比如,电脑投放求职广告时,就会产生歧视行为。去年,卡耐基梅隆大学的研究人员通过一款名叫AdFisher的工具,对其第三方网站上的广告定向投放过程进行了追踪。结果表明,当谷歌判定求职者为男性时,为其推送高新主管职位消息的概率远大于同等条件的女性求职者。 记者Julia Angwin说:“你可能并不知道你为什么没有得到那份工作,你或许永远不会知道,其实是因为数据歧视了你”。 对此,AdFisher的开发者表示:“我认为,我们的发现揭露了目前广告生态中开始浮现的诸多歧视和不透明现象。从社会的角度来看,它很值得担忧”。 不仅是在工作方面,就连社交软件都会因为数据歧视用户。美国约会应用Tinder的付费版Tinder Plus推出后,其定价的差异化引发了争议。在美国的用户,18岁到29岁只需9.99美元,但是超过30岁的用户则需支付19.99美元。而处在英国地区的用户,18岁至27岁只需支付3.99英镑,而超过28岁就必须支付14.99英镑。 由于这样的定价,关于Tinder歧视“大龄未婚青年”的言论一时蔓延开来。对此,Tinder副总裁的解释是,年轻用户是高频使用者,但缺乏金钱,定价较低是为了刺激其购买欲。而大龄用户对价格或许敏感度更低,所以愿意购买服务。因此,定价差异化是基于公司测算,并非年龄歧视。 不管这些应用是出于怎样的目的,都或多或少地带有歧视色彩,并且大数据有泄露用户隐私之嫌。一份研究大数据影响的白宫报告中写道:“我们长期坚持的公民权利保护政策对居民信息如何在住房、信用卡、雇佣、健康、教育和交易市场等方面使用有严格的限制,而数据分析技术有可能会击溃这一防线”。 研究者指出,对于企业追踪用户的过程以及投放广告的算法有一定的了解,对人权组织及监管机构来说,是相当重要的。当然,企业也应该采取一些相关的措施,消除数据对用户带来的歧视。 大数据是在互联网时代不可避免的发展趋势,但同时,它产生的问题也让人们有些恐慌。 二、大数据发展正面临转折点,需努力趋利避害 大数据的意义就在于,从庞杂的数据背后挖掘并分析用户的行为习惯与喜好,从而找出更符合用户“口味”的产品和服务,并结合用户需求有针对性地调整和优化自身。 这种作用对于当今企业来说,是极其重要的,其商业价值大致体现在四个方面。 大数据可以实现客户群体细分,并为每个群体量身定制特别的服务;大数据可以对现实环境进行模拟,发掘出新的需求并使投资回报率有所提升;大数据可以加强部门之间的联系,提高生产链条与管理链条的效率;大数据可以使服务成本降低,找出隐藏线索,对产品和服务进行创新。 对于社会来说,大数据的发展也是有诸多好处的。大数据定理表明,在试验不变的条件下,重复试验过程多次。在大量重复中,会呈现出几乎必然的统计特性。 随着计算机处理能力的增强,获得的数据量越大,挖掘出的价值就越多。如果银行能够及时发现风险,社会经济将越发强大;如果医院能够及时发现疾病,我们的身体会更加健康;如果通信公司能够降低成本,我们的话费将更加实惠。 以上情况,都可以通过大数据的不断积累和不断分析实现。通过这一过程,我们可以发现规律,从而实现更好的未来。 但是,任何事物都有两面性,大数据时代所产生的问题也同样不少。 第一,数据不够安全。无论是企业还是个人,在实践过程中都会或多或少地产生数据。这些数据在当今时代并不安全,会有很多方法使它们泄露。 第二,数据泄露产生不平等。对于用户来讲,数据是一笔财富,但是遭到了别人的窃取,而自己并未得到任何收益,这对于用户来说是不公平的。 第三,用户隐私问题。当用户在网上注册信息后,这些信息很有可能已经被扩散,当用户收到一些莫名其妙的邮件、电话、短信时,其实用户的各种信息早已被非法的商业机构贱卖了。 无意中拍的照片,可能会使人一夜成名。用户的想法、行为、都可能被商家记录在案。人们担心身份被盗用,担心数据造假,害怕数据框定,反感数据的不公平造成的歧视。 要解决这些问题,需要克服许多困难,面临巨大的挑战。虽然企业可以更加细致地去检验他们的系统和流程,但是依然不能完全解决问题。通常数据驱动的决策都比较隐蔽,即使产生威胁,也不会被轻易发现。 任何的领域都需要统一,但是大数据行业尚不能立法,因为大数据趋势变化多端,无法掌握立法所面临的全部背景。 业内专家认为,有必要在计算机课程中增加数据伦理教育,并且更改有歧视倾向的计算机程序。尽管不能完全解决问题,但也能起到一定的作用。 马云说:“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了”。不管是喜是忧,大数据时代已经降临。 哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程”。现在的大数据领域正面临一个转折点,努力的方向决定着其属性的发展。我们应该尽量消减其负面影响,让大数据发挥其正面作用,从而更好地为人类服务。(本文首发钛媒体) 【钛媒体作者介绍:东方亦落,本文版权归“最极客”所有】
    数据
    2016年03月15日
  • 数据
    为什么跨设备数据将成为企业新宠 编者按:本文作者 Brian Ferrario 是一名营销经理,在本文介绍了跨屏设备在日常生活中的应用以及发展趋势。   近年来,消费者在手机端和桌面端的活动界限正逐渐模糊。无论操作内容是什么,你实际用的是哪种设备已经越来越无关紧要。   拥有银行账户的智能手机用户中,一半以上使用手机银行。“黑色星期五” 期间近 60%的流量来自手机端,尽管这只占到线上交易量的三分之一。如今手机和桌面之间的转换已经可以无缝衔接,且成为我们数字生活中不可缺少的一部分。   几年前很难想象银行交易和购物之类的任务可以在手机上进行,而现在它们已经是占据手机端行为的大头。消费者用的是什么设备越来越不可捉摸。   对企业来说,精确化和规模化的跨设备框架具有非凡的价值。   从发邮件、做研究,到购物和社交,消费者在网络上的一切行为都以设备间的跨越为基础。我们期待着那些能发挥跨设备框架优势的工具和 App 出现。   设备变得无所谓,重点是使用设备的人。任何工具和 App 都一定要考虑到所有设备,这样才能提供更好的内容和服务。   因广告技术而生,但注定不止于此 数字广告领域最先意识到普及跨设备身份解决方案的重要性。他们建立了智能层面上的数据分析,从桌面、手机网页到手机 app,甚至最近崛起的智能电视和智能手表。这些数据最初用来改善网络数字化营销,并推动了程序化广告市场的发展。   如今企业也加入进来,他们可以利用数据层面的资源开发新一代的工具和服务以满足消费者需求。此类服务要满足全球每天 1000 亿的广告需求量,以及 2-3 万亿的线上交易量——从搜索查询和 html 请求,到登陆和下单。   跨设备也许是为广告技术应运而生的,但是它注定有更多含义。   以下是一些在广告技术之外跨设备身份框架可以适用的例子。   即使更换设备,内容也不被打断 想象一下,你登陆电脑,在Sears、Crate & Barrel、The Home Depot等电商网站上浏览产品页面,或者开始读一篇CNN、The New YorkTimes上的报道。   在你关掉电脑后,你可以拿起你的手机直接跳到产品目录的第八页,或者无缝衔接上你上次没看完的文章。  这和Apple 的 Handoff(连续互通)功能很像,但更加极致——它可以跨设备、跨操作系统,甚至在网页和 App 环境下都可以互相衔接。   网页上的电商推荐 如果你想买一件新 T 恤,在下单之前你可能会浏览好几个电商网站和 App。   现在,当你在Macy、Bloomingdale和Nordstrom的电商网站之间流连,网站对于你是谁、你在找什么的认知是有限的,即使是匿名状态下。到每个新站点你都得点到 T 恤类别,然后挑选想要的尺码和颜色。   想象一下,如果一个网站在你登陆的那一刻就知道你在找什么,甚至不需要登陆,这是多么轻松顺滑的体验。   诈骗侦测和身份管理 如今,从在线退房到网银登陆,网站都可以用验证码和两步验证来确认用户的身份。   如果美国银行、大通银行、花旗银行,或Visa、 MasterCard等信用卡公司知道你拥有什么设备、你和你的设备定位在哪里,这些网站便可以阻止其他人或 bot 用未知的设备在新地点登录,并且区分 bot 设备和真正的设备。   这可能不算一个完整的解决方案,但却是多层次的诈骗侦测项目的一部分。   以消费者为重心的各种服务,从电商和网银到客户关系管理(CRM)和商务智能(BI)平台,都可以通过跨设备技术改善体验。   就像 90年 代推动企业发展的 web 浏览器,和近十年来推动商业发展的移动端一样,下一个十年将由跨设备智能技术激发独特的消费者和企业体验。   本文编译自:thenextweb.com   Why every enterprise will soon be addicted to cross-device data We’ve seen this building for years – the lines are blurring between mobile and desktop activities for consumers. We’re fast approaching the tipping point where the actual device you’re using – no matter the activity – becomes irrelevant. More than half of smartphone owners with bank accounts use mobile banking, and almost 60 percent of Black Friday’s web traffic came from mobile devices, though it only counted for a third of online purchases. Shifting between mobile and desktop is already a seamless and unquestionable part of our digital presence. Even tasks like banking and shopping, which a few short years ago would have been difficult to imagine existing on mobile, are now dominantly mobile activities. Consumers are becoming device-agnostic. There is extraordinary value in an accurate and scalable cross-device framework for enterprises. From email and research, to purchases and social networking, cross-device is the basis for every action we take as consumers on the Internet. We’ve come to expect tools and apps that take advantage of a cross-device framework. Devices aren’t relevant anymore, people are. Any business building tools and apps should absolutely think across all devices in order to deliver better content and services. Born from ad-tech, destined for much more Players in the digital advertising space were the first to recognize the need for a pervasive cross-device identity solution. These providers created an intelligence layer comprised of data and insights from desktop and mobile web, mobile apps, and even emerging devices like connected TVs and smartwatches. That data was originally used to improve online digital marketing, and fueled the programmatic advertising market. Now, as enterprises enter the game, they can take advantage of that data layer to develop the next generation of tools and services to address consumers. And those services will address not just the 100 billion daily global ad requests, but the two to three trillion daily global internet transactions – everything from search queries and html requests to logins and purchases. Cross-device may have been built for ad-tech, but its implications go far beyond it. Here are a few examples, outside of ad-tech, that a cross-device identity framework can enable. Uninterrupted content, even when switching screens Imagine logging in to your computer and browsing through pages of products on an e-commerce site like Sears, Crate & Barrel or The Home Depot, or starting to read an article on CNN or The New York Times. Now let’s say, in the middle of your session, you have to shut your computer. What if you could pick-up your phone and jump to page eight of the product listings? Or seamlessly finish the article from where you left off? It’s a similar concept to Apple’s Handoff functionality, but on steroids – across devices, operating systems, and even between web and app environments. E-commerce recommendations across the Web If you’re looking to buy a new shirt, you might check multiple e-commerce sites and apps before making a purchase decision. Right now, as you move between the Macy’s, Bloomingdale’s andNordstrom e-commerce properties, there’s a limited sense of who you are and what you’re looking for, even at an anonymous level. On every new site you have to locate the section for shirts, and then select the right sizing and color. Picture the ease and seamlessness of a site that knows what you were looking for the moment you arrive, without ever logging in. Fraud detection and identity management From online check-outs to banking login screens, sites today use tools like captchas and two-step verification to confirm a consumer’s identity. If Bank of America, Chase and Citi, or credit card companies like Visa orMasterCard knew which devices you own, and where you and your devices are located, these sites could block another person or bot from logging in on an unknown device in a new location. Likewise it could separate real devices from bot devices. It’s likely not a complete solution, but part of a multi-layered fraud detection program. A cross-device technology layer can be an unobtrusive addition to everything from consumer-focused experiences like e-commerce and online banking to CRM and business intelligence platforms. Cross-device knowledge is the platform on which these experiences will be built. Like internet browsers fueled enterprises in the late 1990’s, and mobile improved businesses in the late 2000’s, cross-device intelligence will inspire the next generation of unique consumer and enterprise experiences.
    数据
    2016年03月01日
  • 数据
    企业用户的安全“保镖”,阿里聚安全正式发布 来源:猎云网(微信:ilieyun)文/赵子潇 DT时代,企业的业务安全遭遇极大的挑战。这些威胁不仅限于攻击、病毒、漏洞、木马、网络钓鱼、间谍软件,还包括内容安全、业务风险等。黑灰产运作日趋成熟,已经形成产业链条,企业如何保证业务的健康发展? 2016年2月25日,阿里巴巴正式推出企业安全产品——阿里聚安全,面向不同规模的企业和开发者提供符合互联网特点的业务安全产品及解决方案,全面覆盖移动安全、业务风控、内容安全、实人认证等多个维度。 大数据和多维度引擎确保移动业务安全 基于阿里巴巴多年积累的安全大数据和多维度安全风险分析引擎,阿里聚安全为客户提供风险发现、安全防护和持续监控三大模块的产品及服务。 阿里聚安全通过安全扫描和安全评估组件来提供风险发现服务。在防护能力方面,应用加固和安全组件使得阿里聚安全具备应用级和代码级的双重保护能力,形成内外结合的防护体系,能够抵御逆向分析、二次打包和动态调试等攻击,目前该安全组件经历了数个亿级应用和多次“双11”活动的考验。 针对上线后的应用,持续监控模块提供了全流程的风险管控服务,以可视化的方式为企业实时监测各类风险。 数据风控解决方案让黑灰产远离企业 许多互联网业务都是黑灰产眼中的“肥肉”。黑灰产的介入不仅侵犯商业利益,还严重干扰用户的正常使用,而且极有可能拖垮整个业务平台,给企业造成毁灭性灾难。 阿里聚安全提供了完整数据风控方案,不仅可以实时识别并阻止恶意行为,而且保证正常用户的行为不被打扰。 阿里聚安全业务风控解决方案具有“三高能力”,即高强度风控基础安全保护、高精度业务风险识别和高体验的风险控制。凭借这三大能力,阿里聚安全业务风控解决方案拥有了高对抗性、低打扰率和低成本接入的优势。 阿里聚安全业务风控解决方案为企业商业系统的健康发展提供了高质量的保障,在企业和黑灰产之间构筑了一道坚不可摧的铜墙铁壁。 内容安全“守护神”净化网络空间 去年,北京三里屯不雅视频事件、快播公司涉黄事件、百度贴吧事件在社交平台上传播极广,造成了极为恶劣的社会影响的同时,也引发了企业对“内容安全”的思考。 阿里的内容安全产品基于多年的管控经验建立完整的风控和分析体系,将舆情情报沉淀为样本并优化算法,提升了信息安全检测能力。 阿里拥有的安全和算法专家团队可支持阿里各业务平台每日上亿的图片检测与分析,可提供完备的内容检测服务,如智能鉴黄、违禁图像识别、图文识别、文本识别等。 依托于阿里生态的环境,阿里聚安全进行了精细化的场景管理,并将场景化概念应用于服务的各个环节,将每个场景下的检测做到极致。 实人认证——线上线下完全一致 为保障用户身份真实有效和持续一致,并建设网络诚信体系,阿里巴巴的网络身份认证从一开始就不断升级。从最初的实名登记,升级为银行打款认证,再到手持身份证认证。现在,淘宝卖家开店认证已全面升级为实人认证。 阿里聚安全以实时大数据风险管理为核心,可实时判断每一个用户的认证动机,对不同风险等级的用户采用不同的认证方式,保障正常用户能够方便、快捷的提交资料,而风险用户无法简单的通过盗用他人信息通过认证,确保认证的真实性。 同时,阿里聚安全以生物识别、无线安全技术为支撑,保障实人认证的有效性。目前,阿里巴巴人脸识别技术已在实际场景中大规模应用。 “一站式”解决方案助力企业业务 阿里聚安全还为企业用户提供了“一站式方案,既有适合大多数企业的通用型解决方案,也有针对细分行业的解决方案。 阿里聚安全的通用解决方案完整覆盖了企业业务开发的整个过程。 在设计阶段,提供安全流程培训服务;在开发阶段,接入高强度的安全组件;在测试阶段使用自动化的漏洞扫描和兼容性测试;业务上线前,再进行应用加固;上线后,则持续对发布的应用进行仿冒监测、运行环境监测和攻击行为监测。在发现仿冒应用和攻击风险时,阿里聚安全还提供情报服务和应急响应。 而对于已经上线的业务,阿里聚安全也提供漏洞扫描和安全评估服务。 除了通用解决方案,阿里聚安全还推出了行业解决方案,涵盖电商、医疗、金融以及手游等领域。
    数据
    2016年02月25日
  • 数据
    无处不在的云计算终于多了一个兄弟——雾计算 现在正在流行的“云计算”,是把大量数据放到“云”里去计算或存储。这样,就解决了目前电脑或手机存储量不够,或者是运算速度不够快的问题,当然也带来了其他很多好处。 这个所谓的“云”的核心,就是装了大量服务器和存储器的“数据中心”。由于目前的半导体芯片和其他配套硬件还很耗电,全球数据中心的用电功率,相当于30个核电站的供电功率,而令人痛心的是其中90%的耗电量都被浪费,因为效率很低。谷歌位于全球数据中心的用电功率就达到3亿瓦特,这一数字超过了3万户美国家庭的用电量。 如果说现在用了大量电能来维持的云计算中心,还能给广大用户提供互联网云服务的话,当数据传输量进一步成指数式增长,可能这个云中心会无法再维持下去。这个数据传输,指的是大量无线终端和“云”之间的传输。随着物联网的到来,今后各种家庭电器以及大量传感器,包括嵌入在可穿戴设备里的传感器都会连网,从而产生极其大量的数据。而大量数据的发送和接收,可能造成数据中心和终端之间的I/O(输入输出)瓶颈,传输速率大大下降,甚至造成很大的时延。 于是有人想出一个方法,在终端和数据中心之间再加一层,叫网络边缘层,如再加一个带有存储器的小服务器或路由器,把一些并不需要放到“云”的数据在这一层直接处理和存储,可大大减少“云”的压力,提高了效率,也提升了传输速率,减低了时延。这个方法叫做“雾计算”。 这个名字还是很有想象力,“云”漂浮在天上,看得见却摸不着,而“雾”就在你眼前,接地气,是个现实的物体。“雾计算”所用的设备,就是小服务器或路由器,是处于大型数据中心与终端用户之间的设备,可以放到小区、工厂、企业、家庭等里面。 “雾计算”的效果与特点 最初“雾计算”这个名字还是由美国纽约哥伦比亚大学的斯特尔佛教授(Prof. Stolfo)起的,不过他当时的目的是利用“雾”来阻挡黑客入侵。后来美国思科公司把这个名词接了过去,用于推销产品和网络发展战略。而IBM一直在推动网络“边缘化”,准备把很多“云计算”的工作逐步移到“雾计算”。就是把处于网络中心的“数据中心”里的数据,移到网络的边缘处。 “雾计算”对于企业来说有着明显的积极效果:企业大量的内部数据不用传到“云”里再从“云”里传回来,而是直接通过“雾”来处理,能大大提高企业效率。对于个人来说,如果手机里的软件需要升级,也不必到“云”里去升级,只需在最近的地方(如小区内)通过“雾计算”的设备升级就可以了。 雾计算的主要特点是: ★极低时延。这对于目前正在蓬勃发展中的物联网有着十分重要的意义,除此之外,网上游戏、视频传输、增强现实等也都需要极低的时延。 ★辽阔的地理分布。这正好与集中在某个地点的云计算(数据中心)形成强烈的对比。例如,如果需把信息和视频发送到高速移动的汽车时,可以沿着高速公路一路上设置无线接入点。 ★带有大量网络节点的大规模传感器网络,用来监控环境。智能电网本身就是一种带有计算和存储资源的大规模分布式网络,可以作为“雾计算”很好的应用例子。 ★支持高移动性。对于雾计算来说,手机和其他移动设备可以互相之间直接通信,信号不必到云端甚至基站去绕一圈,因此可以支持很高的移动性。 ★支持实时互动。 ★支持多样化的软硬件设备。 ★支持云端在线分析。 这里举一个应用“雾计算”的“智能交通系统”的例子。这个系统把交通灯作为网络节点,可以和传感器一起进行互动。传感器可以探测出行人或骑自行车人的出现,测量出正在接近的汽车的距离和车速。通过“雾计算”,这些智能交通灯可以与邻近的智能交通灯进行协调,可以对接近的汽车发出警告,甚至可以改变红绿灯亮的周期,以避免出现交通意外。在智能交通系统的雾计算服务器里的数据,将传到“云”里,再进行全局数据分析。 再比如说了很多年的无线传感网络,它的特点是极低的功耗,电池可以5、6年换一次,甚至可以不用电池而使用太阳能或其他能源来供电。这样的网络节点只有很低的带宽及低端处理器,以及小容量的存储器。传感器主要收集温度、湿度、雨量、光照量等环境数据,不需要把这些传到“云”里去,传到“雾”里就可以了。这将是“雾计算”的典型的应用。 “雾计算”与“云计算” “雾计算”提供了当地节点分布的地理位置信息,信息传递的时延非常低,而“云计算”则提供了中心化的全局信息。许多应用既需要“雾”也需要“云”,例如大数据技术里的数据分析,首先通过M2M(机器与机器之间通信)把传感得到的数据进行处理和过滤,然后放到HMI(人机界面)这一层进行文本化及视觉化处理,可以让用户清晰地理解所有的分析过的数据资料。 这里“雾计算”起到了一个频繁使用的“数据库”的作用,而“云计算”中心就是一个把文件长期存储的地方了。由于“雾计算”的极低时延,这样的大数据分析可以用手机来完成,真正做到“移动数据分析”。 在物联网将成为下一代互联网的大趋势下,“云计算”本质上的一些缺点显得越来越明显,如不能支持高移动性、不支持地理位置信息及高时延等等,而“雾计算”正好能够解决这些问题,同时又可带来大量新的应用和新的服务。 这种“雾计算”的节点可以是今天人们正在用的无线路由器、机顶盒之类。在“雾计算”这个概念提出之前,2009年就有人提出过“云盒”(Cloud in a box)以及“小云”(Cloudlet)的想法和产品,用于周边的手机和各种移动设备,这与“雾计算”的想法是一致的。比如增强现实,是在实际看到的现实世界的影像上再叠加一层信息,需要进行实时复杂的视频运算,由于是实时要求,需要极低的时延。有人使用谷歌眼镜再配上“小云”设备,达到了很好的用户体验效果。 云计算需要大量带宽,而无线网络带宽有限。用了“雾计算”,可以使所需的带宽量大大降低,原则上可使传输的数据“旁路”,即从互联网边上绕过去,使这些数据尽可能本地化。最有价值的数据仍然可以通过“云”来传输,但是大部分的数据流量可以从这些网络中分流出去,从而大大减轻了云网络的流量负担。智能交通系统、智能电网、智能汽车甚至健康医疗系统等,如果都是本地处理数据,只把最重要的数据传到“云”的话,将变得非常高效,同时也可节省大量成本。 但“雾计算”并不与“云计算”形成竞争,而是可以看作后者的延伸。从这个意义上来说,一些公司利用装备了无线通信设备的无人机、热气球给偏远地区提供宽带网络服务,也可以算为一种“雾计算”,而这种“雾计算”还真的很形象:漂浮在用户和云彩之间,有点“雾”的味道。 “雾计算”有很多优点,但涉及到未来大规模部署“雾计算”设备,必然会遇到各种问题,比如网络堵塞、软件架构、安全、隐私以及采用什么商业模式等等,不过这些问题在不久的将来一定能得到解决。 “云计算”、“雾计算”相继出现在计算机技术的字典里。是不是我们接下来还可以期待“雪计算”、“彩虹计算”、“冰雹计算”,甚至“暴风计算”的出现呢?(本文来自BT传媒·《商业价值》12月刊,作者张臣雄,网络首发钛媒体)   作者:张臣雄 来源:钛媒体 链接:http://www.tmtpost.com/1506300.html
    数据
    2016年02月19日
  • 数据
    什么是判断力 编者按:本文作者三个字儿,36 氪经授权转载自其个人微信公众号“ 雨打沙滩点点坑 ”(微信号:rain_on_sand)。 如果你问我,作为一个男人,最重要的是什么能力?我会说,XING 能力。如果你再问,那么第二重要的呢?我会说,判断力。 一开始,看到三表在他的龙门阵里发文《想当判断力仲裁者的曹政》的时候我还是颇为惊讶。三表和曹政都是我喜欢的大 V,而且都是小道消息推荐过的,难道不应该相亲相爱吗? 什么情况? 读了 Caoz 老师的《关于判断力-兼谈 IT 评论界冥顽不化的愚蠢》,到并没觉得:"曹政真当自己是个判断力的仲裁者"。 三表的文章一直是以观点守正出奇,而且多是对这个社会不平之事,仗义执言。人家 Caoz 老师就自己的本行业谈谈务虚的东西,按理说,应该入不了三表的选题。 但是略微一想,也就释然了:对一个男人来说,没有判断力,几乎等于『你不行』。而如果一个人公开的对大家的判断力指指点点,颇有点挑战大家 XING 能力的意味。因此作为一名正义人士,按捺不住心中的激愤,回撸一篇,给大家出出头,这也是有的。 不过,说到判断力这个话题,虽然 Caoz 老师和三表都写了不少字儿,但是读起来还是不过瘾,谈的不够透彻嘛。由于在等飞机,闲来无事,再加上好久没写公众号了,索性就把判断力这个话题谈透。 谈我的观点以前,我先摘要一下 Caoz 老师对于判断力的观点: 很多人判断力很糟糕,因为他们的信息不完整 很多 IT 媒体人士尤其是这样, 比如, keso 总之,数据全面的会比数据不那么全面的人判断得更准确。 三表的观点: 世面上判断力与洞见本来就是稀缺的,尤其是现在这个写作门槛很低的时代 这种仲裁别人『判断力』的方式其实叫『武断』 自由表达高于一切 三表反驳的也是铿锵有力,但是我总觉得没有说在点儿上,没说透。观点里也夹带着对 Caoz 老师本人的冷嘲热讽,这对于讨论清楚问题显然是没什么太大帮助的。我的『判断力』告诉我,Caoz 老师的这篇文章的主要观点是错误的。当然 Caoz 老师一篇文章中通常容纳了很多观点,比如: 追一下热点,加上媚俗的观点,再通一点话术,想做一个热门大号,好像还真的并不难 精英人群从来都不是互联网主流 这些观点也都是我不能认同的,但是这显然不是这篇文章关注的重点,这里就不展开来说了,我们还是回到本文的主题: 啥是判断力 ? 说起来其实 Caoz 老师说的所谓的『判断力』实际上是『预测能力』,他原文是: 举个例子,你说,百度是流氓,这是观点,不是判断力;你说,百度因为太流氓,所以贴吧会大量流失用户,这是判断力。然而很可惜,这个判断是错的。 判断一个人是不是流氓,显然是用的我们通常意义的『判断力』,否则,难不成是用 XING 能力下的结论? 不过还是按照 Caoz 老师的语境,我们在后面就不区分『预测能力』与『判断力』了。 那么什么是『判断力』之『预测能力』呢? 显然就是在事情刚开始的时候就能猜中结尾的能力: 而 Caoz 老师认为的『判断力』(预测能力),最重要的就是得有多多的信息。数据越多,做出的预测就会越准确(看来,Caoz 老师做预测,主要依靠的是历史回归分析)。显然,这个观点是错误的,否则,《黑天鹅》的作者也不会巴巴的写了一本书,而且很多人还巴巴的去买,并且生生把这本书买成畅销书了。这个观点同时是很危险的。因为它给你一个『我的预测绝对是正确的』的假象。 如果纳西姆·塔勒布看了 Caoz 老师这篇文章,一定会关切的对 Caoz 老师大喊:『危险,从平坦世界醒来吧』(当然,如果他不是个热心肠,也很有可能装没看见) 实际上,所谓的『判断』或者『预测』的过程,基本上就是对某一事物应用下面的公式: 诚然,如果数据严重不足或者根本就是错的,别说是索罗斯,即使是宙斯,得出的结果一定好不了。 Caoz 老师过于强调数据这个因素当然是不全面的。但我通常都是用最大的善意来揣度别人的内心,比如 Caoz 老师写这个文其实也许是看到了周围一些朋友被门夹了脑袋,内心捉急:就掌握这么点信息就妄下决断,而且还明显是错的,蠢啊。当然,也有另外一种小小的可能,就是毕竟 Caoz 老师一身横练的是运维的功夫。运维人员主要的工作是保证一个系统正常健康的运行。 而程序在运维人员的角度看起来,多半是一样的罢。 Apache 和 Nginx 能有啥区别? 配置文件格式有点不一样而已,启动的时候,还不是几个进程的 ID,我 kill 它,它还不是一样会趴下?一个系统关键是它生产出来的丰富多彩的数据,这个才是最有价值的。 作为一名运维人员,非常在乎数据,难道有什么错吗? 虽然这种想法是幼稚的,但是起码我想,这是情理之中至极的事情吧。不过 Caoz 老师可能好久没接触过烂程序了,如果他能回过味儿来,回想起自己曾经接触过的烂程序,或许他自己都不能同意自己的这个观点:『数据是预测能力的关键』 读到这里,可能有人会问:『那么到底是数据重要呢?还是程序重要呢?』 ------- 下面是我的观点的分隔线 ------ 其实世界上大多数事物都是『边际递减』的: 无论是判断力,预测能力,或者其他的什么力,只要是遵守公式: 那么无论是『数据』还是『计算』都不是绝对的『最重要的』 就是说,如果你想得到一个正确的结果,你的状态是: 那么你当前最重要的问题,显然是在获取数据方面要多投入。 如果反过来,你的状态是: 那么你当前最重要的问题,显然是在计算能力方面要多投入。无视当前状态,单单强调无论是数据还是计算能力,都是片面的。 当然,如果你问数据和计算都不及格,咋办? 废话,当然那个能先搞及格先搞哪个。 -_-! 其实小时候,课本里早就告诉了我们这个道理 --> 《小马过河》: 看,一个人获取的知识,不是看 TA 读了什么,关键是看 TA 读到什么 因此,说到判断力,其实最关键的,显然是你要能搞清楚状况。小马要过河,除了知道河有多深,还得知道自己腿有多长。 可是不幸的是,不识庐山真面目,只缘身在此山中。认识自己是最难的。 世界上有多少人,甚至是伟人,是搞不清楚状况,或者仅仅是自以为自己搞清楚了状况的呢? 美帝国主义都是纸老虎,他们是不敢进攻巴格达的 我们雅利安人是最优秀的人种 我们的人民很幸福 他其实还是很爱我的 我要是不努力工作,公司就垮了 百度是最好的中文搜索引擎 ... 但是这是另外一个话题了。不过正因为很难搞清状况,因此,对于我们做的大多数判断,大家都不敢打 100% 的包票。而,恰恰是因为这个,我们的这个星球才这么有趣,不是吗?
    数据
    2016年02月18日
  • 数据
    打破初创公司招人难题,“智能虚拟猎头”会是一个可行路径吗?   与大企业招聘的流程化管理不同,初创公司往往没有专门的人力资源部门和招聘人员,招人的任务就自然地落在每个团队成员的肩上。可是招人并非易事,如若事必躬亲,将耗费团队成员本该用于产品开发和拓展业务的时间和精力。但早期员工对于初创公司又至关重要,一旦需要招人,都是十万火急,所以在招贤选才时又不得有半点马虎和拖延。   与团队理想的核心人才之间的沟通壁垒常常使得初创公司陷入非常尴尬的处境。他们往往要面临的是超时的招聘周期、高额的招人成本还有不尽人意的招人结果。   硅谷一家以数据为驱动的公司——HireTeamMate就是要解决这一难题。它运用数据挖掘和机器学习等尖端技术,为成长型企业和初创公司提供定制化的智能虚拟猎头(Virtual Recruiter),将企业和初创公司在招聘环节面临的三大挑战一一击破。   “我们用技术取代原先招人环节中人工的部分,让企业能专注于招人最核心的部分——考核面试和录用上,为团队迅速成长壮大提供效率和质量保障。”HireTeamMate创始人兼首席执行官Steven Jiang(江海庆)说。   定制化的人工智能猎头颠覆传统手动招人模式 Zenefits把人力资源部移到云端,而HireTeamMate则是把职业的招聘人员(Recruiter)搬到云端。之前职业招聘人员做的重复性高的体力活在HireTeamMate的平台上都实现了自动化、机器化。目前,HireTeamMate利用数据挖掘,机器学习以及人工智能技术为每一个公司提供定制化的智能虚拟猎头。虚拟猎头能够根据客户本身信息和招人的需求,快速高效地定位和筛选人才。   定制一款属于自己的智能虚拟猎头很简单。招聘经理只需要登录自己的领英账号(Linkedin),HireTeamMate的系统就可以迅速识别个人身份和公司信息,与此同时背后的数据中心也在悄无声息地处理和组装与公司团队相关的所有数据。几十秒后,一款专属的智能虚拟猎头就定制成功了。智能虚拟猎头可以帮助招聘经理做大量繁琐的招人工作,包括发布招聘广告、定位贤才、筛选简历和协调面试时间。   “传统的职业招聘人员的工作方式都差不多。拿到招聘要求后,就到各个网站去打广告,给可能符合职位要求的人群发信息。收到大批简历后还要一份一份地阅读筛选。这种’广撒网’的方式成本高、效率低,对于初创团队的快速成长很不利。试想如果这些没有专职招聘人员的初创公司采用这样的传统方式,那将要花费多少本该用于技术开发和业务拓展的时间呀!” Steven说。   HireTeamMate颠覆了传统的手动招人模式,从被动地等人理会到主动出击。智能虚拟猎头通过对于大量相关数据的深度挖掘和量化分析,能够更精准地判断一个人是否在找工作或者想换工作,更多元地评价一个人是否符合工作需求。而这一切都不需要人力参与。   “我们就是想把招人过程中的脏活累活都让计算机去做,” Steven说,“让公司专注在真正地选贤(Hiring),而让虚拟猎头来做前期的撒网和筛选(Recruiting)。”   与智能虚拟猎头相补充,HireTeamMate还成功地将Uber的模式应用在招人上,雇佣了一批慧眼识珠的伯乐(Talent Scout),利用他们自己的社会网络去找企业需要的“千里马”。这些伯乐并不是HireTeamMate的全职员工,只是利用自己的闲散时间做为半职业的猎头向企业推荐优质的候选人。   “目前,招人还是无法实现完全的机器化。如果完全通过搜集和分析网络数据去招人,会遗漏那些并不喜欢在互联网上留下痕迹的人才。特别是一些资历很深的高管,他们一般都是通过自己的人脉网络获知更好的工作机会。我们的伯乐团队与数据化招人相互补充,形成了一个完整的企业招人解决方案。”Steven说。   目前,HireTeamMate已经有五十多位伯乐。他们有的还在读博士,有的是大公司的员工,甚至还有家庭主妇。HireTeamMate对于伯乐有着严格的筛选,只有那些具备足够广的人脉网络,同时沟通能力强,信誉好的人才能入选。“我们伯乐团队中也有全职太太,但是她丈夫是硅谷科技公司的工程师,所以她也可以接触到很多和她丈夫背景相似的工程师。”HireTeamMate还为伯乐们邀请了Google的全职招聘人员和职业猎头做周期性的专业培训,帮助伯乐们更好地了解企业的需求和人才的动向。   Steven还告诉记者,这些伯乐的积极性非常高。他们利用各种渠道去找企业需要的人才。他们每推荐成功一个人,会拿到相应的推荐费。而根据要招的职位高低,推荐费也不一样。   一切以数据为驱动,实现人才和初创公司的双向匹配 HireTeamMate把招聘周期从两三个月缩短到平均两个半星期,最短的一次从网上发布招聘信息到发录用合同仅仅花了四天时间。如此高效率的背后是一个由数据构建的多维度人才和公司匹配引擎。而他们所解决的问题不仅仅在于如何招人,而是更深层次地研究了如何去用数据描述一个人,描述一个公司。   不难发现HireTeamMate团队的背景都相当技术化。创始人兼首席执行官Steven Jiang和首席技术管Shawn Zhang都是博士学历,有在高校和研究所的工作经验,在核心期刊上发表过数篇学术论文。他们另外一位团队成员是数据科学方面的专家,现在是印第安纳大学的终身教授。 “我们的团队基本都有学术背景。做学术的人喜欢刨根究底。在我们眼里,所有事物都能用数字来表示。而我们在努力弄清人和公司有怎样的数据结构。”   一方面,HireTeamMate收集关于个人的大数据,进行数据挖掘和深度分析,建立和企业需要人才的关系。“我们会通过分析这个人在不同社交或者社区平台的活动情况判断他是否近期会想换工作,并透过数据判断他真实的技术实力和工作风格。”   Steven举例说,例如一个人如果经常活跃于技术社区如StackOverflow,积极地回答技术问题,那么就可以反映出他技术知识很扎实,而且比较乐于助人。同样,如果一个人近期修改了Linkedin上的信息,补充了一些关键性技能,那么他很可能在找工作或者在寻找机会跳槽。   另一方面,HireTeamMate也在收集初创公司的多维度数据信息,进行处理分析后形成初创公司的全方位信用评级报告。这样,即使没有像上市企业要求的信息公开,求职者也能够更加清楚地了解初创企业的竞争实力。同时,对于初创企业,这也是一种最实在和最简便的“自我营销”手段。   “在公司刚成立,还没有什么名气的时候,需要动用很多心思去说动对方加入团队。对于初创公司来说,招人其实还是一个市场营销的过程,需要向应聘者极力展现公司的潜力和愿景。相比于传统较为单薄的宣传方式,我们提供的评级报告用数据客观评估公司实力,让应聘者能够更快地定位有卓越发展前景的初创公司。” Steven说。   构建了一个多维双向的匹配体系后,HireTeamMate能够更加精准迅速地找到企业需要的人,也可以帮助求职者做出更理性的职业选择。虽然每次HireTeamMate给客户提供的人选不多,但都很契合公司需要找的人。“我们有一次只向公司客户提供了一个人选,而这个人就是他们需要的。公司面试完以后立刻就给他发了聘用书。”   为国内初创企业输送海外精英人才 今年四月份,Steven和Shawn从三星北美研究中心辞职在硅谷成立HireTeamMate。短短半年时间,HireTeamMate拥有的用户数已经超过10万,累计发布的招聘岗位超过一千个,产生的可追踪的录用人数超过一百个,而从发布招聘岗位到找到合适人选的平均周期仅为2.5个星期。   他们不仅在发展美国本土市场,也致力于中美之间的人才输送。随着国内掀起新一轮创业浪潮,越来越多的海外精英想寻求国内的发展机会,而与此同时国内的创业公司也求贤若渴,希望引进海外精英人才助力公司发展。HireTeamMate就在其中扮演“红娘”的角色,为国内的创业公司输送了很多海外优秀人才。目前,HireTeamMate已经和几十家国内初创企业签订合作协议,并成功地输送了多位硅谷的尖端科技人才。   最近,HireTeamMate刚刚帮助了一家坐标在北京即将要上市的科技创业公司找到了一位不可多得的人才。这位毕业于清华和斯坦福并且有在Facebook、Twitter等多家全球知名科技工作经验的尖端研发人才已经接受聘用,收拾好行囊准备在国内科技界大显身手。   “中国经济的腾飞需要海外精英人才的助力。很多海外人才仍在犹豫,原因在于他们不知道有哪些合适的机会。我们在努力尝试弥补国内企业和海外人才之间的信息差,为更多国内企业输送海外尖端人才。”Steven说。   来源:钛媒体特色栏目“硅谷新公司”  作者:硅星闻
    数据
    2016年01月14日
  • 数据
    数据是你的生命线,请待她如待初恋 原文:Your Data Is Your Lifeblood,(译者注:很多人坐在数据的金矿上而视若无睹,特此翻译了这篇文章,希望引起大家的重视。)   Ben Porterfield 在自己的 Linkedin 主页这样形容自己:一个有经验的冲浪者。除了在 Santa Cruz 海岸冲浪以外,他还帮助一系列初创企业在变幻无穷的互联网浪潮中破浪前进。他是 Sticky, Inc.(译者注:一个成功的硅谷广告数据公司)的首席工程师,接着与小伙伴联合创立了 Rally Up (译者注:移动 APP 公司,2010年 被 AOL 收购)。   他的经历,容易让人产生 “连续创业原来这么简单轻松啊” 的坑爹错觉。   Porterfield 的最新创业项目是 Looker, 一个商业数据分析解决方案提供商。Porterfield 带领着一帮工程师帮助小至初创企业大到行业巨头(比如 Etsy, Sony, Disney, and Yahoo)更好地做决策。Looker 帮助无数公司开发适合自己的算法,从而也更清晰地看到为什么会走这些弯路。   数据分析是一种经常被人视为假高大上的鸡肋工具。当你正在焦头烂额地为自己的初创公司设定市场定位的时候,你一定会把处理数据当做一种闲得蛋疼行为。但等公司走上轨道后,你需要更好地理解你的用户,而此时回头看之前积累得如同乱麻的原始数据,你会突然意识到你并没有很好地收集你想要的信息。   在本文中,Porterfield 将跟我们讲解创业者们如何可以从一开始就设计好数据分析的基本框架:将数据储存于何处?用什么工具分析最好?可以规避哪些常见的错误?以及,今天的你如何亡羊补牢?   听哥说,千万别等了   你的第一想法可能是由你团队里的工程师们胡乱拼凑点什么来储存这些数据。Porterfield 见过太多抱着这个想法而失败的公司。其实应该从一开始就投资更多的时间和金钱来寻找靠谱的数据收集分析工具。道理很简单:   每个人都需要方便地使用靠谱的数据。 把数据分析当做吃喝拉撒一样的日常基本需求,意味着让你公司的每一位成员,而不仅仅是技术人员,都可以便捷使用。每一个人,特别是直面客户的前线人员,都需要方便地获取及理解这些数据。而一个好的工具能帮助工程师以外的其他人都轻松地从这些原始数据中获得有用的信息,从而做出正确的决策。   而在建立这样的数据分析基础框架时,一定要考虑到如何让没有数理分析背景的小白使用者可以自主地设计数据跑出来的形式内容,因为这样的小白使用者往往更更理解产品业务流程,更能提出核心的问题。   Porterfield 还说到,若能把数据嵌入到各种唾手可得的日常应用中,企业能创造一种数据为导向的文化。从商业运营的角度来说,这样一个能自助生成数据的平台能释放原本专注于数据分析的工程师们,让他们更好地专注于产品设计或者是其他更高层次的问题。   企业的数据分析团队其实自身已成为许多公司发展的瓶颈。他们不应该像图书管理员似的,仅仅是按照别人的需求去读取和解读数据。Todd Lehr, Dollar Shave Club 的资深工程师分享了个类似的故事:有个叫 Juan 的开发者在公司负责生成所有数据报告。当他手头积压太多工作而卡壳时,我们也会因没有数据而无法顺利工作。我们把这种情况戏谑为 “Juan 式卡壳”。   而如果有一个良好的自助数据平台,企业则不需要聘请这样的专人负责管理数据,从而也避免了这样的 “Juan 式卡壳”。工程师们可以更好地专注于开发和优化产品。   The 6 Mistakes Smart People Make with Their Analytics   关于数据分析,聪明人常犯的 6 个错误: 帮助大量的公司梳理数据分析流程后,Porterfield 总结出 6 个企业常走的弯路。   1. 走得太快,没空回头看路。 初创公司里的人们仿佛一直在被人念着紧箍咒:“要么快要么死,要么快要么死。” 他们是如此着急于产品开发,以至于他们常常没有空想用户对产品的具体使用细节,产品在哪些场景怎么被使用,产品的哪些部分被使用,以及用户回头二次使用产品的原因主要有哪些。而这些问题如果没有数据难以回答。   2.你没有记录足够的数据。 光给你的团队看呈现总结出来的数据是没有用的。如果没有精确到日乃至小时的变化明细,你无法分析出来数据变化背后看不见的手。如果只是粗放的,断续的统计,没有人可以解读出各种细微因素对于销售或者用户使用习惯的影响。   与此同时,数据储存越来越便宜。同时做大量的分析也不是什么高风险的事情,只要买足够的空间就不会有 system breakdown 的风险。因此,记录尽可能多的数据总不会是一件坏事。   不要害怕量大。对于初创企业来说,大数据其实还是比较少见的事情。如果正处于初创期的你果真(幸运地)有这样的困扰,Porterfield 推荐使用一个叫 Hadoop 的平台。   3. 其实你的团队成员常常感觉自己在盲人摸象。 许多公司以为他们把数据扔给 Mixpanel, Kissmetrics,或者 Google Analytics 就够了,但他们常常忽略了团队的哪些成员能真正解读这些数据的内在含义。你需要经常提醒团队里面每一位成员多去理解这些数据,并更多地基于数据来做决策。要不然,你的产品团队只会盲目地开发产品,并祈祷能踩中热点,不管最终成功还是失败了都是一头雾水。   举个栗子。有天你决定采用市场上常见的病毒营销手段吸引新用户。如你所愿,用户量啪啪啪地上来了。可此时你会遇到新的迷茫:你无法衡量这个营销手段对老用户的影响。人们可能被吸引眼球,注册为新用户,然后厌倦而不再使用。你可能为吸引了一帮没有价值的用户付出了过高的代价。而你的产品团队可能还在沾沾自喜,认为这个损害产品的营销手段是成功的。   这种傻错误经常发生。而如果你的企业在一开始就建立起人人可自助使用的数据平台,来解答他们工作中最重要的疑惑,则可以避免上文所说的悲剧。   4. 把数据存放在不合适的地方。 先让我们来看一个正确示范吧。Porerfield 提到他有个客户整合了 NoSQL, Redshift, Kitnesis 以及 Looker 的资源自创了一个数据分析框架。这个框架不仅能在很高的量级上捕获及储存自己的数据,还能承受每月数以百万计的点击流量,还能让所有人查询自己想要的数据。这个系统甚至可以让不懂 SQL 语言的小白用户们真正理解数据的意义。而在数据分析的世界里,基本上如果你不会 SQL, 你就完蛋了。如果总是要等待工程师去把数据跑出来,那就是把自己陷入困境。而工程师在不理解需求的情况下建立的算法或者买的软件对于使用者来说往往是个煎熬,因为他们对数据的使用往往与前者不再同一水平线上。   你需要让你所有的数据都存放在同一个地方。这个是关键关键最关键的原则。   让我们回到前文那个假设存在的公司。他们做了一个又一个病毒营销,但是没有把用户活动数据放在同一框架内,所以他们无法分析一个活动是如何关联到另一个活动的。他们也无法进行一个横跨日常运营以及活动期间的数据分析比较。   很多公司把数据发给外包商储存,然后就当甩手掌柜了。可是常常这些数据到了外包商手里就会变成其他形式,而转化回来则需要不少工序。这些数据往往是某些宣传造势活动时期你的网站或者产品的相关数据。结合日常运营数据来看,你可以挖掘哪些活动促成了用户转化。而这样结合日常运营数据来分析用户使用历程的方式是至关重要的。但令人震惊的是,尽管任何时期的所有运营数据都至关重要,许多公司仍不屑于捕获及记录他们。约一半以上 Porterfield 所见过的公司都将日常运营数据与活动数据分开来看。这样严重妨碍了公司正确地理解与决策。   5. 目光短浅。 任何一个好的数据分析框架在设计之初都必须满足长期使用的需要。诚然,你总是可以调整你的框架。但数据积累越多,做调整的代价越大。而且常常做出调整后,你需要同时记录新旧两套系统来确保数据不会丢失。   因此,我们最好能在第一天就把框架设计好。其中一个简单粗暴有效地方法就是所有能获取的数据放在同一个可延展的平台。不需要浪费时间选择一个最优解决方法,只要确认这个平台可以装得下所有将来可能用到的数据,且跨平台也能跑起来就行了。一般来说这样的原始平台能至少支撑一到两年。   6. 过度总结 虽然说这个问题对于拥有大数据分析团队的公司来说更常见,初创公司最好也能注意避免掉。试想一下,有多少公司只是记录平均每分钟多少销售额,而不是具体每一分钟销售了多少金额?在过去由于运算能力有限,我们只能把海量数据总结成几个点来看。但在当下,这些运算量根本不是问题,所有人都可以把运营数据精确到分钟来记录。而这些精确的记录可以告诉你海量的信息,比如为什么转化率在上升或者下降。   人们常常自我陶醉于做出了几张漂亮的图标或者 PPT。这些总结性的表达看上去很令人振奋,但我们不应该基于这些肤浅的总结来做决策,因为这些漂亮的总结性陈述并不能真正反映问题的实质。相反,我们更应该关注极端值(Outliers)   The 3 Easiest Ways to Avoid These Mistakes   三个简单防护措施帮你少走弯路 少犯错误远比你想的重要,因为错误一旦发生,很容易耗费大量的工程时间和资源来弥补错误。如果不小心,你的工程师们可能花费昂贵的时间来为销售团队解码数据,可能错过无数宝贵的营销机会。每当数据变得难使用或者理解时,你的团队决策速度会变慢,因此你的生意进展必将受到拖累。   好消息是,如果你从有用户伊始就采用以下三个简单的防护措施,你一定可以避免走很多弯路。   1. 任命一个商业数据首席工程师 如果你能在团队中找到一个队数据分析真正有兴趣的工程师,你可以让他负责记录管理所有数据。这将为整个团队节省海量的时间。Porterfield 分享到,在 Looker, 这样的一个商业数据首席工程师负责写能记录所有数据的脚本,从而方便大家总是能在同一个数据库内获取需要的信息。事实证明,这是个简单有效的方法,极大地提高了团队的工作效率。   2. 把数据放在开放的平台上 Porterfield 强力推荐大家使用类似于 Snowplow 的开源平台,以能实时记录所有与产品相关的活动事件数据。它使用方便,有好的技术支援,可以放量使用。而最棒的一点,它能与你其余的数据框架很好的兼容。   3. 尽快将你的数据迁移到 AWS Redshift 或者其它大规模并行处理数据库(MPP)上 对于还处于早期的公司来说,类似于 Redshift 这种基于云端的 MPP 经常就是最好的选择。因为他们价格便宜,便于部署和管理,并且扩展性强。在理想状况下,你会希望从公司有记录之初就将你的事件与操作的数据写入亚马逊 Redshift 之中。“使用 Redshift 的好处在于这个平台便宜,迅速,可访问性高,” Porterfield 说。并且,对于那些已经使用 AWS 服务的人来说,它(使用 redshift)可以无缝接入你已有的架构中。你可以很容易的建设一个数据通道把数据直接传入这个系统中进行分析处理。“Redshift 能让你灵活的写入巨量的颗粒状的数据而并不根据事件触发量的多少这样难以估计的参数来收费,” 他说。“其它的服务会根据你储存事件的多少来收费,所以当越来越多的人使用你的产品时,越来越多的操作数据会被记录下来,这会导致最终的收费像火箭一样越升越高。”   如何用数据分析占领市场先机? 数据分析的价值取决于它能如何帮助你占领市场先机。作为初创公司,所有的数据应该被用于你对公司不同阶段设立的目标上。   举个栗子。一个快递公司通常会检测平均送达每件货物的时间。这看上去是很关键的数据,但如果没有充分的上下文(毕竟收货人可能在一个街区外,也可能在几百公里外),这也是没有意义的。另一个角度上,平均送货时间也没有收货人的整体满意度重要。因此,你必须确保你的分析囊括了正确的数据。   请列举量化你需要的结果:你希望你的客户体验是怎么样的?一些常见的成功数据分析会基于销售或用户转化率(即如果客户做了叉叉事情以后会购买或者成为用户),转化需要的时间,以及让客户产生负面体验的比例。你会希望第一个比例很高,而后两者降低。   通常来说,媒体网站会全然以网页浏览量论英雄。但现在他们也开始注意一个叫做 “注意力停留时长” 的指标:人们在某个页面专注多长时间,是否注意到某些字句,是否在上下拖动页面,是否有看视频,等等。他们不仅仅实在看用户在某个页面停留了多少时间,他们更需要知道用户被页面中的哪些部分吸引,且积极专注地浏览了多少时间。这样可以帮助媒体网站设计新的标题,页面设计和内容选择,以延长这样的注意力停留时长。这样,他们可以革新网站设计的方式,来更好地打动他们的受众。   另一个重点是监测留存用户。成功的数据分析可以同时涵盖日常运营数据以及活动数据,并横向分析。如果你仅仅看日常运营数据,你能指导那些人会回访你的网站,哪些人可以达成复购。但你还需了解哪些回访网站却没有复购的人群: 为什么他们不愿意再次购买?这样的问题可以通过介乎运营与活动数据分析来找到答案。活动数据会告诉你哪些没有购买行为的客户按照何种顺序浏览网站,注意到了什么,点击了什么,在离开网站前做了什么。当你跟踪这个线路,你可以了解如何修改这种行为,来增加他们下次访问时购买的可能性。   为了设计最适合你的数据篮子,你可以参考以下三个建议: 寻找一类合适的用户行为 测算多少比例的受众会有这一类的用户行为 测试这一类用户行为是不是包含了重要的信息   有时候,发明一个新的数据记录篮子可以促成对公司很大的改变。   拿 Venmo (翻译君注:一个纽约的小额支付平台) 举个栗子吧。有段时间,公司的支付 APP 团队听说很多本想向朋友索取款项的用户不慎把钱反而支付给了朋友,因为 “索取款项” 和 “支付款项” 的按钮放在一块很容易按错。然而公司并不知道这个问题有多普遍,是否值得公司重新设计用户界面。为了更好地做决策,他们设计了一个新的数据系统来检测这个索取 / 支付失误有多常见。他们把 “A 向 B 付款后不久 B 双倍将款项付给了 A” 这种奇怪的支付行为全都找了出来。结果显示,这个情况经常发生。所以在下次的产品更新中,他们修复了这个问题。   让你的数据可分享。 阻碍团队轻松分享数据的罪魁祸首常常是数据的定义。因此,从一开始你最好充分完整地定义你的数据。可以考虑建立一个中央词汇表 wiki page, 来让每个成员更容易理解。Porterfield 指出,人们喜欢用奇怪的词语给数据明明。比如 “Ratio” 这个词就常备滥用,因为他们命名时常没有把分子分母讲清楚。   数据是大部分成功公司的生命线。好的数据分享不仅能增加公司的透明度,还能加强不同部门之间的协作。比如在很多公司里,不同部门常常会各自找工程师生成不同数据来回答同一问题。而如果有一个好的分享数据平台这样的浪费时间精力可以被避免。   另外,让数据形象化也是一个好平台能轻易做到的。把颗粒数据形象化为图表可以让团队的每一个成员更好地解读这些数据。对于大部分人来说,理解图表比理解表格容易得多,因此把数据形象化可以帮助交流更加顺畅。   不好的数据分析框架只会打击人们的自信心。它会无形地把公司分为两个派别:懂数据的大神以及不懂数据的白痴。这是个很常见的危险错误。你必须让公司最小白的数据用户都能轻松地生成自己需要的图表并理解它。这是选择数据平台的一个基本原则。   Poterfield 总结道:好的数据分析能让人们更有准备地去开会,帮销售团队问出更到位的问题,免去了无谓的猜测。人们不用再猜测他们的用户在寻找什么,或者为什么他们达成销售,或者为什么他们不再回头。人们也不用再猜测其他团队的同事知道或者不知道什么。而这一切都要归功于从一开始就把数据框架设计好。   译者:Shuyue Xiao
    数据
    2015年12月09日