• 大数据服务
    大数据服务还是那个大数据服务吗? 编者按:本文来源微信公号“智能研究所”(ID:HCR-TMT),作者慧辰资讯TMT研究部-张凤。 目前“人工智能”无疑是最流行的词之一,“大数据”是自2012年以来的流行词之一,现在大大小小的企业服务、论坛上都充斥着有关大数据、人工智能的内容,那么人工智能+大数据的生态模式究竟是怎样的? 2012年大数据是个流行词,没想到4年过后,在一些大数据论坛上还有人会说“如果我有大数据,我会怎样怎样……”好吧,如果还停留在如果上,就不该随便上论坛演讲,讲不好说不准工作都没了。现在大数据挖掘的技术都很成熟,更完善更系统的解决方案早已有人做得非常好。如果连数据都还没有,那就什么都不用提了。毕竟,人工智能+大数据的生态模式已经开启。 7月初,据外媒福布斯报道百度将人工智能+大数据为中国政府采集数据提供支持。7月13日,李彦宏在百度的开放云战略发布会上首度公开百度开放云“人工智能、大数据和云计算”三位一体的发展战略。为什么谷歌和百度都在人工智能领域重金发力?2015年百度投入研发创新的资金占公司总营收的16%。谷歌就不用说了,在量子计算这样离实现还遥不可及的技术上都已经投入很多研发资金。因为互联网未来向智能+发展的基础是数据。有数,有趋向完整的海量数据是现在所有巨头在布局人工智能+大数据生态模式的重点。 数据获取的最新模式:众包 众包是一种整合资源提升效率的方式,通过众包可以在集合海量数据中,筛选符合一定标准的有效数据,能够降低数据收集的成本,提高机器学习训练的效率。有个生物学家叫戴维•休斯(David Hughes),他和作物流行病学家马塞尔•萨拉斯(Marcel Salathé)将机器视觉技术和深度学习算法应用于农业病虫害智能防治上。他们将关于植物叶子的5万多张照片导入计算机,并运行相应的深度学习算法,针对在明亮的光线条件及合乎标准的背景下拍摄出植物的照片,最终程序正确识别率高达99.35%。如果在互联网上随机选取的植物叶子照片,其识别准确率将降至30%-40%,这也是目前视觉识别技术在复杂环境下尚未突破的地方。为了突破算法的限制,提高准确率,休斯和萨拉斯开发手机应用Plant Village,让世界各地的农民通过Plant Village上传患病作物照片,其中包含照片如何拍摄、拍摄地点、年份等大量数据,并包含农业专家对此做出相应诊断的信息。这种方式出现之后,数据获取的难度依旧聚焦在多维度数据资源的聚合,众包可以解决从分散的个体获取目标数据的问题,但对于基础数据资源层的扩张和占领依然是一场没有硝烟的砸钱战斗。 数多了怎么办:智能计算 有些人在努力获取数据,有些人在为数据多而未能充分利用而焦虑。 数据量级达到一定程度,再利用数据优化服务需要人工智能算法。随着企业数据量的积累,挖掘数据提高效率变成了必需。比如商业应用中打车平台的应用,国内平台滴滴与快滴合并之后,业务线从出租车扩张到专车、顺风车、公交等领域,数据范围猛增,数据量包含司机行为数据、顾客行为数据及各种路线数据、实时交通情况数据,定位数据等,据滴滴官方公布,滴滴出行每天处理的数据量达到70TB,由于订单处理响应时间的要求,单纯处理数据的效率已无法满足实时服务的需求,必须借助人工智能算法才能够进一步提升服务效果。从用户体验角度,也需要实现提升定位精准度,提高接单率,缩短应答时间。目前滴滴内部基于海量数据+机器学习算法的推荐匹配系统,针对海量司机的交班时间、地点、接单/拒单情况等海量数据进行司机画像,以此为基础,针对实时的订单数据,分配订单时实时按需分配,满足服务需求。从数据应用展现更宏观价值的角度来看,基于滴滴已有数据,可整合实时交通情况数据,包括拥堵路段、集中路线、集中商圈等多维度动态数据,进行结构化处理,达到整合一个城市的车辆分布,实现统筹平衡调度的目的。 大数据服务的现在及未来:智能+生态模式 未来人工智能+大数据生态模式将更多的应用于在商业场景下。我们认为,大数据服务未来将有以下四种模式: 一是形成数据资源和计算资源提供平台。当前企业数据大多仅留存于企业内部,在开发应用上一般也只有内部应用,企业之间数据各自孤立,独立计算,行业内尚未形成整合大数据,目前第三方数据采集、监测机构已经开始致力于多维数据的采集服务,包括外部数据的直接采集和企业内部数据的间接采集,已有第三方在提供基础数据库资源。未来伴随数据维度的丰富和数据量的扩大,第三方机构将采集并使用智能算法结构化处理形成相对完整的数据资源提供平台,并针对些海量数据的存储、整合及计算提供基于云端的平台式服务。 二是出现技术服务平台,包含提供Paas服务的开源平台及计算能力、大数据解决方案及技术服务支持。从目前人工智能和大数据企业发展来看,只有巨头和少数创业企业掌握核心算法及存储真正大数据,更多企业通过合作或建立产业联盟的方式获取行业或其他领域的数据。但对于数据的存储、处理和应用需要技术支撑且突破这些技术需要消耗大量人力物力财力,没必要所有企业都去做这件事。PaaS服务将数据处理能力作为模块开放出来,使得数据挖掘技术的使用门槛和成本大幅降低,更多企业有能力利用云端数据服务创造附加价值。因此形成Paas服务平台或解决方案技术服务平台,据此可以聚合数据资源,优化算法,提高准确率。另外也会形成基于数据存储、处理及挖掘技术的整体服务解决方案提供商,企业可以将数据服务完全外包给第三方机构,第三方机构也可以通过这种方式在云端整合资源并优化技术,提高准确率,同时产生推动行业发展的效果。 三是出现资讯服务平台。大数据产业相对仍是新兴产业,发展日新月异。一方面企业需要寻找大数据资源或技术服务平台,另外一方面第三方服务机构需要推广宣传自身及行业发展、技术发展现状。在这种背景下将出现起到桥梁作用的专业资讯服务平台,连接企业和第三方服务机构,同时起到发布整个行业前沿信息的作用。 四是出现交叉/垂直化服务应用。现阶段在教育、金融领域的垂直应用以及在未来智能营销、智能制造等交叉行业的应用。如在教育行业已出现利用积累的教、考、学环节的大数据结合深度学习算法推出个性化学习平台,如国外的Knewton、国内的智学网都是这种模式。未来将延伸至农业、制造业、交通、医疗等各行各业,出现如智能农业生产管理、智能交通、个性化精准医疗等创新服务。 本文转自36氪,如若转载,请注明出处:http://36kr.com/p/5049796.html
    大数据服务
    2016年07月21日
  • 大数据服务
    以上亿简历数据为基础,爱伙伴可预报员工离职前动态 来源:创业邦  作者:张从艳 导语:爱伙伴员工离职预报(以下简称“爱伙伴”)服务依托于专有简历全网追踪系统和大数据分析引擎,可以发现90%以上员工离职前的动态信息,最快30分钟内向企业管理者发出预报通知。 天气预报之于出行,就像爱伙伴之于中小企业。二者都是对无法改变的事实作出预报,以便人们找出应对措施。   如果把一家公司比喻成一个人,那么员工无疑是构成公司的血液。对于员工的突然离职,公司尤其是一些新创公司或者中小企业往往会伤些元气。倘若能够提前得知员工有离职的倾向,那么管理者便可采取一定的措施:或挽留,或另聘新人,纵使无法扭转局面,但总不至于措手不及。正如我们无法阻止明天的秋雨,却可提前准备一把雨伞,着稍厚的秋装。   “如果员工有修改、投递、刷简历的情况,或者员工的简历被猎头、HR查看,那么这个动态有可能会被购买爱伙伴服务的上司知道。有些事情,我们不能阻止,但是却能预防。爱伙伴就是这样一个存在” 巧达科技产品合伙人刘博说。   2014年,刘博联合其他的小伙伴成立了巧达科技(北京)有限公司(以下简称“巧达”),并成为创新工场的一员,目前团队共有一百三十多个人。   刘博告诉创业邦,巧达主要专注于大数据领域前瞻性产品设计和技术研发,已推出了多款企业级大数据产品,爱伙伴便是其中之一。   爱伙伴,是巧达推出的一款员工离职预报的工具。主要针对创业公司CEO和中小企业老板提供的大数据服务产品。以往员工主动离职或者被挖走,往往是找好新的工作才会辞职,CEO总是最后才知道。大多数情况下无法挽留,交接也是仓促进行。由此带来的业务中断甚至是重要客户流失,对企业带来了许多损失。其实员工主动离职发生之前,对应的简历都会发生动态变化。 如果公司的员工近期有更新、投递、刷新简历的情况,又或者员工的简历被别家公司的HR、猎头公司查看,那么这些动态有可能是该员工离职前的先兆。这些动态大部分都能被巧达的大数据分析引擎所发现,爱伙伴会将这些状态通知该员工的管理者,提醒管理者这个员工可能会有离职的倾向。当然前提是这家公司是爱伙伴的用户。   商业模式 “我们的商业模式概括起来也就8个字:获取简历、数据变现”。刘博说。   巧达科技团队旗下拥有一系列的人力资源类大数据产品矩阵,比如乔大招和妙招网等等。乔大招是一个互联网招聘工具组合,内含多个创新的招聘数据分析产品。比如,简历时光机可以分析同一个自然人对应的多个简历版本中存在异常修改和正常变化;在线背调则可以找出求职者同事关系中的背景调查线索。妙招网属于一站式招聘管理平台,可以方便管理多个招聘网站,统一发布职位并收取简历。   巧达免费提供的互联网招聘工具系列产品,目前已累计获得超过15万个企业HR和猎头顾问的用户。当用户在免费试用这些产品的同时,数以亿计的简历资源将于巧达共享。巧达通过对海量建立资源的分析处理,从而提供包括征信补充、行业预测等企业级服务获得盈利。爱伙伴是巧达数据变现的产品之一。   简历解析准确率超过QQ邮箱 对于积累的各种版本的简历,巧达通过自然语言解析技术、Brahma多版本个体数据模型和Centiped简历全网追踪两项技术对简历进行解析、追踪,并同步更新简历的最新相关信息。   简历解析技术也即是,一个自然人的简历在不同的招聘网站的版本、格式、顺序以及填写的方法等都不一样,这就需要通过自然语言的处理,把这些解析为结构化的数据,并录入到数据库中。   刘博告诉创业邦,前不久腾讯QQ邮箱体验室里新增了简历功能。但是在简历解析等核心技术上,巧达明显优于腾讯。   “通过第三方的测评对比,我们平台的简历解析的正确率超过95%,而腾讯QQ的简历解析率低于70%。”   所谓的Brahma多版本个体数据模型即是指,通过自然语言处理及独特算法抽取简历基础元数据,以此判断唯一个体与多个简历版本之间的映射关系。一个人在不同的招聘网站、企业HR或者猎头处发生简历变化,都将被记录为对应的简历修改版本。   刘博告诉创业邦,经过测评,这项技术的误差率小于三十万分之一。   Centiped简历全网追踪是指,通过专有云计算数据分析引擎及任务分发系统,分布式探测更新节(Tentacle Point),将每日全网数千万次简历更新、投递、被查看等动态信息进行采集分析。   举个例子,如果张三的简历保存于某个招聘网站、猎头或者企业人才库。因为某种需要,张三对简历的内容做了修改,并发生了投递行为,那么这些动态最快可以在一个小时之内同步到巧达的大数据分析引擎,并形成张三简历的最新版本。   爱伙伴就是利用巧达所积累的大量简历数据和上述两项技术手段,对平台所积累的简历的变化进行追踪、同步,并在员工的简历发生变化时提醒管理者。   问及是否会有法律方面的隐患,刘博说,“一般人误认为简历中存在大量个人隐私,其实不然。通常个人隐私是指个人的私生活情况、财产状况、婚姻家庭信息、身体隐秘部位等,而简历中并不存在这些信息。我们只分析简历中的工作经历和教育经历变化情况,这属于可被知悉的个人社会信息,简历中的其它信息我们均作了脱敏处理。巧达所有的产品设计理念都充分考虑尊重个人信息,保护个人隐私。并且我们获取的这一系列信息都是通过HR或者猎头间接获得,巧达并不直接接触个人的简历。另外,巧达科技团队COO刘炜曾是中国最大的在线法律服务平台盈科律云的创始人,在法律方面把关我们格外严谨。”   目前,巧达已获得由创新工场领投的A轮融资。
    大数据服务
    2015年10月10日