• AI
    从大数据的风水图,来看到底大数据是怎么回事 本文中的Big Data Landscape图笔者随手分享在LinkedIn上,不晓得引起大量转发和评论,截止本周,得到6700个like,3800次share,400多条comment,笔者也觉得很神奇。这里就跟从事大数据或者投资领域的朋友推荐一下。原文作者是VC First Mark的Mark Turck,提下这一家VC,主要投资于早期阶段技术类公司的风险投资机构,包括新兴媒体、广告、游戏、教育、云计算、分析和基础设备等方向。大家熟悉的Airbnb,Pinterest,Shopify都有它的投资身影。 技术型的高科技创业公司都是喜欢闪闪发光的新东西,而“大数据”跟3年前火热程度相比反而有些凄惨。虽然Hadoop创建于2006年,在“大数据”的概念兴起到达白热化是在2011年至2014年期间,当时在媒体和行业面前,大数据就是“黑金石油”。但是现在有了某种高原感。 2015年数据世界中时尚年轻人喜欢转移到AI的相关概念,他们口味变成:机器智能,深度学习等。 除了不可避免的炒作周期,我们第四次年度“大数据风水图”(见下图),回顾过去一年发生的事情,思考这个行业的未来机会。 2016年大数据还是“回事”么?让我们深度挖掘。 企业级技术 = 艰苦的工作 其实大数据有趣的是它不是直接可以炒作的东西。 能够获得广泛兴趣的产品和服务往往是那些人们可以触摸和感受到的,比如:移动应用,社交网络,可穿戴设备,虚拟现实等。 但大数据,从根本上说是“管道”。当然,大数据支持许多消费者或企业用户体验,但其核心是企业的技术:数据库,分析等:而这后面几乎没人能看到东西运行。 而且如果大家真正工作过的都知道,在企业中改造新技术并不大可能在一夜之间发生。 早年的大数据是在大型互联网公司中(特别是谷歌,雅虎,Facebook,Twitter,LinkedIn等),它们重度使用和推动大数据技术。这些公司突然面临着前所未有的数据量,没有以前的基础设施,并能招到一些最好的工程师,所以他们基本上是从零开始搭建他们所需要的技术。开源的风气迅速蔓延,大量的新技术与更广阔的世界共享。随着时间推移,其中一些工程师离开了大型网络公司,开始自己的大数据初创公司。其他的“数字原生”的公司,其中包括许多独角兽,开始面临跟大型互联网公司同样需求,无论有没有基础设施,它们都是这些大数据技术的早期采用者。而早期的成功导致更多的创业和风险投资。 现在一晃几年了,我们现在是有大得多而棘手的机会:数据技术通过更广泛从中型企业到非常大的跨国公司。不同的是“数字原生”的公司,不必从头开始做。他们也有很多损失:在绝大多数的公司,现有的技术基础设施“够用”。这些组织也明白,宜早不宜迟需要进化,但他们不会一夜之间淘汰并更换关键任务的系统。任何发展都需要过程,预算,项目管理,导航,部门部署,全面的安全审计等。大型企业会小心谨慎地让年轻的创业公司处理他们的基础设施的关键部分。而且,一些(大多数?)企业家压根不想把他们的数据迁移到云中,至少不是公有云。 (大数据分析的基本流程图) 从另一个关键点大家就明白了:大数据的成功是不是实现一小片技术(如Hadoop的或其他任何东西),而是需要放在一起的技术,人员,流程的流水线。你需要采集数据,存储数据,清理数据,查询数据,分析数据,可视化数据。这将由产品来完成,有些由人力来完成。一切都需要无缝集成。归根结底,对于这一切工作,整个公司,从高级管理人员开始,需要致力于建立一个数据驱动的文化,大数据不是小事,而是全局的事。 换句话说:这是大量艰苦的工作。 部署阶段 以上解释了为什么几年后,虽然很多高调的创业公司上线也拿到引人注目的风险投资,但只是到达大数据部署和早期成熟阶段。 更有远见的大公司(称他们为“尝鲜者”在传统的技术采用周期),在2011 - 2013年开始早期实验大数据技术,推出Hadoop系统,或尝试单点解决方案。他们招聘了形形色色的人,可能工作头衔以前不存在(如“数据科学家”或“首席数据官”)。他们通过各种努力,包括在一个中央储存库或“数据湖”倾倒所有的数据,有时希望魔术随之而来(通常没有)。他们逐步建立内部竞争力,与不同厂商尝试,部署到线上,讨论在企业范围内实施推广。在许多情况下,他们不知道下一个重要的拐点在哪里,经过几年建设大数据基础架构,从他们公司业务用户的角度来看,也没有那么多东西去显示它。但很多吃力不讨好的工作已经完成,而部署在核心架构之上的应用程序又要开始做了。 下一组的大公司(称他们为“早期大众”在传统的技术采用周期)一直呆在场边,还在迷惑的望着这整个大数据这玩意。直到最近,他们希望大供应商(例如IBM)提供一个一站式的解决方案,但它们知道不会很快出现。他们看大数据全局图很恐怖,就真的想知道是否要跟那些经常发音相同,也就凑齐解决方案的创业公司一起做。他们试图弄清楚他们是否应该按顺序并逐步工作,首先构建基础设施,然后再分析应用层,或在同一时间做所有的,还是等到更容易做的东西出现。 生态系统正在走向成熟 同时,创业公司/供应商方面,大数据公司整体第一波(那些成立于2009年至2013)现在已经融资多轮,扩大他们的规模,积累了早期部署的成功与失败教训,也提供更成熟,久经考验的产品。现在有少数是上市公司(包括HortonWorks和New Relic 它们的IPO在2014年12月),而其他(Cloudera,MongoDB的,等等)都融了数亿美元。 VC投资仍然充满活力,2016年前几个星期看到一些巨额融资的晚期大数据初创公司:DataDog(9400万),BloomReach(5600万),Qubole(3000万), PlaceIQ( 2500万)这些大数据初创公司在2015年收到的$ 66.4亿创业投资,占高科技投资总额的11%。 随创业活动和资金的持续涌入,有些不错的资本退出,日益活跃的高科技巨头(亚马逊,谷歌和IBM),公司数量不断增加,这里就是2016年大数据全景图: 2016年2月12日修订,(本文最有价值的图) 很显然这里密密麻麻很多公司,从基本走势方面,动态的(创新,推出新的产品和公司)已逐渐从左向右移动,从基础设施层(开发人员/工程师)到分析层(数据科学家和分析师的世界)到应用层(商业用户和消费者),其中“大数据的本地应用程序”已经迅速崛起- 这是我们预计的格局。 大数据基础架构:创新仍然有很多 正是因为谷歌十年前的MapReduce和BigTable的论文,Doug Cutting, Mike Cafarella开发 创建Hadoop的,所以大数据的基础架构层成熟了,也解决了一些关键问题。 而基础设施领域的不断创新蓬勃发展还是通过大量的开源活动。 (Spark带着Hadoop飞) 2015年毫无疑问是Apache Spark最火的一年,这是一个开源框架,利用内存中做处理。这开始得到了不少争论,从我们发布了前一版本以来,Spark被各个对手采纳,从IBM到Cloudera都给它相当的支持。 Spark的意义在于它有效地解决了一些使用Hadoop很慢的关键问题:它的速度要快得多(基准测试表明:Spark比Hadoop的MapReduce的快10到100倍),更容易编写,并非常适用于机器学习。 其他令人兴奋的框架的不断涌现,并获得新的动力,如Flink,Ignite,Samza,Kudu等。一些思想领袖认为Mesos的出现(一个框架以“对你的数据中心编程就像是单一的资源池”),不需要完全的Hadoop。即使是在数据库的世界,这似乎已经看到了更多的新兴的玩家让市场持续,大量令人兴奋的事情正在发生,从图形数据库的成熟(Neo4j),此次推出的专业数据库(时间序列数据库InfluxDB),CockroachDB,(受到谷歌Spanner启发出现,号称提供二者最好的SQL和NoSQL),数据仓库演变(Snowflake)。 大数据分析:现在的AI 在过去几个月的大趋势上,大数据分析已经越来越注重人工智能(各种形式和接口),去帮助分析海量数据,得出预测的见解。 最近AI的复活就好比大数据生的一个孩子。深度学习(获取了最多的人工智能关注的领域)背后的算法大部分在几十年前,但直到他们可以应用于代价便宜而速度够快的大量数据来充分发挥其潜力(Yann LeCun, Facebook深度学习研究员主管)。 AI和大数据之间的关系是如此密切,一些业内专家现在认为,AI已经遗憾地“爱上了大数据”(Geometric Intelligence)。 反过来,AI现在正在帮助大数据实现承诺。AI /机器学习的分析重点变成大数据进化逻辑的下一步:现在我有这些数据,我该怎么从中提取哪些洞察?当然,这其中的数据科学家们 - 从一开始他们的作用就是实现机器学习和做出有意义的数据模型。但渐渐地机器智能正在通过获得数据去协助数据科学家。新兴产品可以提取数学公式(Context Relevant)或自动构建和建议数据的科学模式,有可能产生最好的结果(DataRobot)。新的AI公司提供自动完成复杂的实体的标识(MetaMind,Clarifai,Dextro),或者提供强大预测分析(HyperScience)。 由于无监督学习的产品传播和提升,我们有趣的想知道AI与数据科学家的关系如何演变 - 朋友还是敌人? AI是肯定不会在短期内很快取代数据科学家,而是希望看到数据科学家通常执行的简单任务日益自动化,最后生产率大幅提高。 通过一切手段,AI /机器学习不是大数据分析的唯一趋势。令人兴奋的趋势是大数据BI平台的成熟及其日益增强的实时能力(SiSense,Arcadia) 大数据应用:一个真正的加速度 由于一些核心基础架构难题都已解决,大数据的应用层迅速建立。 在企业内部,各种工具已经出现,以帮助企业用户操作核心功能。例如,大数据通过大量的内部和外部的数据,实时更新数据,可以帮助销售和市场营销弄清楚哪些客户最有可能购买。客户服务应用可以帮助个性化服务; HR应用程序可帮助找出如何吸引和留住最优秀的员工;等 专业大数据应用已经在几乎任何垂直领域都很出色,从医疗保健(特别是在基因组学和药物研究),到财经到时尚到司法(Mark43)。 两个趋势值得关注。 首先,很多这些应用都是“大数据同乡”,因为他们本身就是建立在最新的大数据技术,并代表客户能够充分利用大数据的有效方式,无需部署底层的大数据技术,因为这些已“在一个盒子“,至少是对于那些特定功能 - 例如,ActionIQ是建立在Spark上,因此它的客户可以充分利用他们的营销部门Spark的权力,而无需实际部署Spark自己 - 在这种情况下,没有“流水线”。 第二,人工智能同样在应用程序级别有强大吸引力。例如,在猫捉老鼠的游戏,安全上,AI被广泛利用,它可以识别黑客和打击网络攻击。 “人工智能”对冲基金也开始出现。全部由AI驱动数字助理行业已经去年出现,从自动安排会议(x.ai)任务,到购物为您带来一切。这些解决方案依赖人工智能的程度差别很大,从接近100%的自动化,到个人的能力被AI增强 - 但是,趋势是明确的。 结论 在许多方面,我们仍处于大数据的早期。尽管它发展了几年,建设存储和数据的过程只是第一阶段的基础设施。 AI /机器学习出现在大数据的应用层的趋势。大数据和AI的结合将推动几乎每一个行业的创新,这令人难以置信。从这个角度来看,大数据机会甚至可能比人们认为的还大。 随着大数据的不断成熟,这个词本身可能会消失或者变得过时,没有人会使用它了。它是成功通过技术,变得很普遍,无处不在,并最终无形化。 原文:Is Big Data Still a Thing? (The 2016 Big Data Landscape) 如果大家继续对大数据感兴趣,可以参考本人的后Hadoop时代的大数据架构 - 董老师在硅谷 - 知乎专栏 ------------------ 关注如下微信公众号“董老师在硅谷”(donglaoshi-123),关注硅谷趋势,一起学习成长。   HRTechChina提供、关注最尖端的人力资源科技资讯。您可以搜索“HRTechChina”公众号或扫描以下二维码关注我们!
    AI
    2016年02月26日
  • AI
    人工智能切入垂直领域 风口已至? 提及AI(人工智能),多数人都觉得是比较未来性的概念,更不用说商业化。然而,近两年语言识别、图像识别、刷脸识别、无人汽车与机器人等AI技术却进入人们的视野。互联网巨头公司不惜资本、资源加大了投入力度,以BAT为首的企业也着手酝酿着AI各个领域的商业化。 巨头热情高涨 移动互联网发展到目前的阶段已经很少看到更多的创新应用以及商业模式,互联网企业与创业人群都希望找到技术新颖的突破口,而这一技术方向将很可能是人工智能。 如若五年前的AI投入只是对未来的赌注,那么近两年技术的革新以及市场的变化展现了企业对AI的肯定与执着。 不久前,一向以探索新技术而闻名的谷歌任命了门下AI专家负责接收搜索业务,开发的人工智能围棋也将与韩国棋手李世石开战,并被曝出正在开发一款整合聊天机器人的移动即时通讯服务。业内认为,谷歌正在探索更加智能的搜索技术,这也将引导搜索行业向新的方向前行。 除谷歌外,已经在聊天机器人应用层面大有成就的微软刚刚收购SwiftKey意在继续加码AI,而苹果也表示在开发人类面部情感人工智能Emotient。 国际巨头在AI领域网罗顶尖人才、加大投资力度点燃了国内企业的热情。比较有代表性的就是百度聘请“谷歌大脑之父”吴恩达担任首席科学家,负责百度研究院以及“百度大脑”计划,而后无人驾驶汽车在去年末便风光亮相。此外,在世界互联网大会上来自百度、腾讯、联想、小米的高管们都表示看好人工智能。 切入垂直领域 事实上,当前人工智能得以发展,是具备一定条件的,其中,“深度学习”技术逐渐发展,各个企业的人力以及资源投入让技术进步更加迅速。另外,云计算与大数据也十分重要,大规模并行计算能力的实现使得人工智能实现成本大大降低,大数据又有效提高了人工智能的水平。这些方面也更有利于人工智能的商业化运营。 目前为止,人工智能商业化的主要方向主要包含以下几个方面的内容:自然语言处理(包括语音和语义识别、自动翻译)、计算机视觉(图像识别)、知识表示、机器与机器人学。这些技术主要的应用场景有搜索、移动支付、机器人、智能硬件、智能医疗、智能汽车等。 虽然技术的交织很频繁,但具体到应用服务的提供方面,行业内却趋向于垂直。业内观察家郝小辉指出,由于技术的复杂度,未来十年左右,专业领域仍是AI应用的主要方向。由于用户的需求并未被开发,目前人工智能商业化集中在几个较为容易落地的方面,例如搜索与智能硬件的技术进展是有目共睹的。“对于一些创业企业来说,不管是为了聚集资本还是另有所求,垂直领域先下手为强的意识也在蔓延。” AI风口乍现 巨头的热情让人工智能成为新的春天,因此也引来无数资本的追捧。为数据科学家和开发人员提供人工智能开源平台的H2o.ai,刚收到 B轮2000万美元融资。还有一家被称为风险扫描仪的基金组织,帮助企业了解创业生态系统,目前正在跟投66个国家的897个人工智能公司,共计39.8亿美元资金。 值得注意的是,刚刚过去的2015年,来自政府方面对人工智能领域的支持也表明这一风口正在形成,“中国大脑计划”的筹备工作已经展开,北京、上海、深圳,中国各经济中心都开始制定人工智能和智能机器人的发展战略。“人工智能”在去年全国“两会”中与“互联网+”一道成为探讨话题。此前,首届世界机器人大会在北京召开,无人驾驶汽车在乌镇受到了国家领导层以及国内外众多互联网领袖的关注。 郝小辉认为,人工智能的发展与物联网、O2O等行业热点对技术的需求日益提升密切相关。但是,目前技术无法解决的问题仍然存在,不管是语言识别的错误率还是人机交互的体验不完善都需要更多的资本与技术投入。 北京商报记者 张绪旺 姜红
    AI
    2016年02月15日
  • AI
    提供企业人工智能服务的 EverString 宣布获得多家机构 6500 万美元 B 轮融资   今日,通过人工智能为企业预测潜在客户的公司 EverString 宣布获得多家机构 B 轮融资,融资金额共计 6500 万美元,投资方包括了美国的 Lightspeed,欧洲的 Lakestar, 中国的真格,IDG 等 VC 及中国投资机构万得资讯。其中 Lightspeed,真格,IDG 都参与了之前的 A 轮投资。 EverString 联合创始人汪超介绍,本轮 6500 万美元的融资规模是企业人工智能领域全球最大的一起 B 轮融资。 去年A 轮融资后,EverString 上线了基于人工智能预测客户的产品,利用企业内部销售数据,结合每天动态变化的全球新闻数据,企业公告数据,Twitter,Facebook 等外部数据,来进行认知运算,为企业预测潜在客户。该产品上线至今,EverString 公司收入稳步增长,未来 1年 内预计年收入会突破千万美金。 伴随着产品上线,一年多来,EverString 的企业客户也增加到 50 多个,其中包括 6 家世界 500 强企业。在北京和硅谷两地人员也已经扩展到 100 多人,其中管理层有来自 Stanford 和 Harvard 的 MBA 等,数据科学家团队来自 Netflix(美国著名在线影片租赁提供商)、Salesforce(全球 SaaS 业务模式的创始者和 CRM 领导者),斯坦福 PhD,NASA 工程师,工程团队则来自谷歌、雅虎、京东等等。 本轮融资的用途据汪超介绍主要是产品研发和拓展市场两方面: 产品研发方面,继续招募开发人员,增强研发实力,扩大产品线,使未来的产品更深入地介入企业的市场营销的各个决策环节,利用 AI 来取代传统 “无法智能思考” 的软件,并逐步探索企业其他领域。 扩展市场方面,利用 VC 带来的客户等资源,扩展美国市场,并为进军欧洲,中国市场做准备。本轮融资引入战略投资万得资讯就是希望借此一同切入中国的人工智能企业级市场。万得资讯从金融数据起家,如今已经独占中国金融数据领域。   原创文章,作者:Yuri 来源:36氪
    AI
    2015年10月14日