• 非结构化数据
    硅谷大数据公司 Taste Analytics,专注讲 “非结构化数据” 分析的故事   Taste Analytics 公司位于美国硅谷,是一家基于数据驱动的可视化分析公司。它在做的事情就是把任何可以转化成文字的信息,通过机器深度学习来进行自动的挖掘,然后再通过图像可视化给用户展示出去。要理解清楚 Taste Analytics,就要知道它服务的对象不是企业的 IT、数据库,而是商业人员,例如市场营销,客服、信息洞察员、产品优化改进设计人员等。 现在的消费者都会在论坛、微博等各种渠道留下对企业的产品、品牌、客服等一系列言论,但这些言论不会按照常规化的语序进行表达,里面大多夹杂新生词汇、代名词等,导致企业往往不能很好的理解这些反馈信息中的建议。说到这里就可以大概理解,Taste Analytics 做的事情好比舆情分析。传统的舆情分析系统需要企业自己建立模型、字典,而 Taste Analytics 可以深度学习非结构化的自然语言,根据用户的用词、造句、行文方式来理解文字含义,通过对大范围的用户、上千万个消费点进行聚类分析,让企业了解到用户的真正建议。 信息的渠道包括邮件、聊天记录等,当问到是否涉及用户隐私问题时,创始人 Derek Wang 举例说明了一下,Taste Analytics 的一个企业客户,每周能收到几十万封投诉建议邮件,一年累积在几千万封,根本没时间看,Taste Analytics 就可以帮助这个公司的人快速将邮件聚类、整合,通过图像告诉企业用户反馈的问题在什么地方,可能是 “没办法在网站上注册” 等。在使用邮件的过程中,Taste Analytics 是不做任何信息采集的,只提供分析工具的平台,分析师不会直接接触用户隐私信息,所以不涉及隐私问题。 Derek Wang 还分享了另一个客户案例,联想美国企业内部有 14 个客户反馈的数据源头,每个数据源一个月可以收到几百万条反馈,导致他们没有办法系统的进行横向、纵向的解读。而 Taste Analytics 平台就可以过滤这些信息,当数据经过企业采集进入平台,企业便可以第一时间得知用户对产品的反馈信息。假设用户反馈 “网卡不好用” 比较多,企业就可以及时调整产品线,减少负面反馈。原来企业里只有两三个分析师管理这些数据,现在可以应用到不同领域的商业化决策中去。 Taste Analytics 涉及处理的信息都是非结构化数据,目前在文本阶段,预计 2016年 将会扩展到图像,2017年 会增加视频数据分析。 那怎样鉴定 Taste Analytics 平台的分析效果呢?Derek Wang 回答到,他们做了很多机器和人相互比对的实验,结果的相似度在 8 成以上。Taste Analytics 在推广过程中采用 “先试用后付款” 的方式,让企业先免费用两个月,与之前的平台进行交叉验证、比对结果,满意后续费使用。 对此,我采访了一下 Taste Analytics 的一个客户 Answers.com——一个社区问题、问卷调查网站,其项目总监 Feng Shao 说到:“Answers 有很多企业级客户,我们帮助这些客户分析他们的用户反馈。这些反馈很大一部分是 unstructured text,也有很多分布在社交平台上。这恰好是 Taste 的强项,我们两家合作搭建这么一个开放和灵活的平台,让 Answers 的企业用户可以深度的分析汇总分布在各处的用户反馈,提高客户满意度。” 另外,Feng Shao 还表示,对于文字情感分析,Answers 也使用过其他的第三方伙伴,从功能的广度、深度、性价比以及对客户的服务上,Taste 的效果都相对较好。 据 Derek Wang 透露,目前 Taste Analytics 的客户主要为大型企业,不乏世界 500 强,10月 底开放云平台之后,为 100 多家中小型企业提供服务,还有 8 家学校在免费使用,日均用户几千人。   来源:36氪 作者:徐宁 出处:http://36kr.com/p/5040802.html
    非结构化数据
    2015年12月08日
  • 非结构化数据
    集智数据:想用众包的方式帮助企业分析非结构化数据 来源:猎云网(微信:ilieyun)文/郑桂兰   “第一次接触到数据众包的概念,是在四年前刚到美国念书的时候。那时候我是伊利诺伊大学的香槟分校计算机科学的研究生,做的是人工智能相关的研究。研究的过程当中,我发现大量标注的数据是推动人工智能发展的关键。”集智数据创始人黄适文在接受猎云网采访的时候这样说到。   黄适文,一个台湾海归选择在深圳创业,集智数据算是他回国的首秀,美国伊利诺伊大学计算机科学硕士,华盛顿大学计算机科学博士生,曾经发表十多篇关于国际计算机科学的论文。他表示目前数据众包仍以英文为主,市场上没有一个很好的数据众包平台可以标注中文的数据,导致许多国内的研究人员必须使用英文的数据来发展他们的研究。因此黄适文跟研究伙伴决定回到国内创立集智数据,提供一个中文数据的众包标注平台。   目前集智数据的主要业务是为数据处理,为企业提供图像标注、数据采集和舆情分析等服务。集智数据平台分为两个端口,在线用户和发布任务的客户。客户通过API接口自行设计并且发布数据任务,由集智数据把繁杂的数据分割成微任务,推送给在线用户。在线用户可根据自己的时间及技能灵活选择任务,集智数据最后会通过系统把结果反馈给任务发布方,确保满意的结果之后用户才会得到收益。   事实上数据科学早已不是新鲜事物了,不过对数据质量的需求却是这几年才激增起来的。这可不是一阵时尚或旧词新用,而是一场变革。大至总统选举,小至总部设在厨房餐桌的小创业公司的各种决策,已不再是建立于直觉与猜想之上,而是植根于真实可靠的数据。 数据科学发展日新月异,如今各种数据工具已经形成了一个庞大的生态系统。可现实中大部分的非结构化的数据是无法直接使用的,电脑也是无法分析的,比如要概括文字档里包含的情绪、分析图片上的物体、将录音变成逐字稿或者将影片转换成文字稿等,这要使用人工才能得到准确的结果。简单来说,集智数据要做的就是处理一些对于人来说很简单,但是对电脑智能很难的数据。   黄适文向猎云网介绍,由于时空限制,传统劳动力市场呈现雇主与雇员简单的一对一关系。这种雇佣关系难以随时间地点与工作量灵活调节,工作内容的繁杂琐事与复杂的任务也无法分离,阻碍了工作效率的提高。而集智提供的众包平台希望打破以个体为单位的传统劳动力市场格局,开创以“工作任务”为中心的扁平化雇佣关系。   目前国内数据众包平台有数据堂、众客堂、猪八戒等。数据堂在国内做数据众包比较早,主要是为企业定制方案,企业有需求,就会为其定制任务。众客堂是一款App,推广重点是用户可以利用闲事去赚钱。用户使用手机完成任务申请,制作后即可拿到现金报酬,也可以通过支付宝实时提现。任务主要有方言的录音,图像的采集、传一份日程安排等,用户可以快速完成任务。猪八戒的服务交易品类涵盖较多,比如平面设计、动画视频、网站建设、装修设计、文案策划等,形式较多,但用时会较长。集智数据更多的可以说是一个工具,客户自己有需求就可以自己发布任务,更多的是注重客户的体验。   据了解,集智数据将在近期上线,平台会对前100名注册客户提供1000元的额度免费发布数据标注任务。而平台的主要盈利点是计划从用户中抽取20%的佣金,未来会增加相关的增值服务,比如顾问的费用。此外,集智数据在将来也会在微信公众号每周会发布一些有趣的实验,以及一些翻译国外大数据产业的相关报告,或甚至分享一些集智数据自己产品开发的经验与心得。   目前集智数据正在积极寻求天使轮融资。  
    非结构化数据
    2015年11月04日