• 搜索优化
    搜索难用、个性推荐不准?达观数据以此切入大数据服务 几乎每见一个创业者,我都会听到一次 “…,然后我们用大数据做用户精准画像 / 智能推荐 / 金融征信…”,其中有多少人举着大数据的旗、干着基础数理统计的事,大家心知肚明。 大数据背后的技术算法是核心,创业公司搭一个基础大数据的 “台子” 至少要请 4 个工程师,即使程序员的月薪降到 12k,也意味着每年至少 50 万元的成本。在创业初期,产品、商业模式都需要不断打磨、改善的情况下,分出精力和财力去做这件事,不一定划算。 所以这种服务交由第三方企业来做是趋势,但由于价格高、服务不容易产品化、标准化,导致不容易区分服务的水平。另外,一家第三方服务商在不同应用场景上也有不同的表现,做得好坏主要还是看应用场景以及是否能结合客户业务来提升其业绩。 最近刚刚拿到来自真格基金、众米资本和掌门科技集团1000 万元天使投资的 “达观数据科技(官网)”,主要的应用有三:数据挖掘分析、搜索性能优化、通过用户画像做精准推荐。同样以智能推荐为核心,较为成熟的国外公司是Taboola。 在数据采集方面,大数据公司通常会用爬虫抓取网络信息,并打通第三方应用 SDK、Java Script 接口来获取一些浅层数据,比如日活、月活、用户留存率等等。而除此之外,达观还要求其客户向其打通更深层的 js 数据,比如用户点击行为、收藏记录、付费记录等等。 在此之后达观为客户提供最基础的服务是数据分析,比如用户在应用搜索栏和个性推荐栏中的转化率分别是多少。该公司也推出了一个免费的 APP “达观公众号”,为微信公众号运营人员提供数据分析工具,希望以此积累数据和用户口碑。 而达观核心的应用场景则是搜索优化和智能推荐,前者如关键字补全、自动纠错、相关搜索、中英文自动串联识别,这些体验我们能在 Google、百度等搜索引擎中感知到,中小企业很难做好却又非常需要,这就是为何知乎要引入搜狗来提供搜素技术(知乎的搜索体验一直饱受诟病)。 智能推荐的应用也不难理解,早期以 Amazon 为典型的商品推荐算法用户早已司空见惯,比如用户在某电商买了辆自行车,随即便推荐坐垫、头盔等相关产品,常见的算法原理有 “与你类似的人喜欢什么” 以及 “从你喜欢的东西推测出你还会喜欢什么”。许多创业公司都是通过为产品打 tag 的方式强行关联相似产品,体验不一定好。 达观在引擎架构研发中使用到了点击模型,通过与用户的隐性交互如点击反馈,可以对结果进行调优:将符合用户偏好但位置靠后的 item 提取至前,或者将不符合用户意图的 item 降权减分。 以电商推荐系统为例,这里引用该公司技术人员江永青在其微信公号发布文章中的论述: 协同过滤算法中,如果没有显性的评分机制,就需要收集点击的行为来作为正向的评分。不同类型的点击(如查看、加购物车、加关注等)可以生成不同维度的二维相似度矩阵,最后推荐的结果由这些矩阵计算生成的中间结果加权得到。 不过江永青也表示点击模型存在一些挑战和难点,包括位置偏向、冷启动数据不足、感知相关性与数据无关、无法覆盖长尾点击数据、故意点击作弊、Session 手机难。 大数据服务的量化标准是为客户带来多少业绩提升,达观数据 COO 冯佳妮向 36 氪列举了一些案例,其中比较突出的是文学网站 “潇湘书院”,该公司根据用户浏览、点击、购买等记录做出一套新的推荐系统,较之前提升了 300%的下单购买率、85%的点击率,年费大概为几十万元。 达观数据自 2015年5月 创建、10月 上线达观公众号产品,至今已累计服务 8000 个自媒体用户。 而其面向大 B 客户的服务则按照 SaaS 的形式收取年费,每笔从 20 万元至 200 万元不等。冯佳妮表示,已经在和一些电商企业洽谈数据打通事宜,比如某国内女性经期管理应用、同仁堂旗下的保健品电商品台,还有一家 FA 机构。该公司也将于今年上半年和复旦大学计算机学院合作组建 “大数据实验室”,与科研机构联合做政企服务,相关政府单位已经提出文化场所选址规划、管辖范围内企业运营情况分析等需求。 做企业深度服务的订单周期较慢是正常现象,但达观面临的主要问题还是如何获得更多客户,不得不解决的问题有两个: 需要提供统一接口,满足普通企业的基础需求,客户提出个性化需求后只需做简单的改动而不用重头再来。冯佳妮表示未来希望做成类似云服务的产品,让客户按需选择服务。 目前达观团队有 20 余名,因人手不够的问题只好将一些找上门来的客户暂时搁置,即使该团队有不少技术大牛,但人才稀缺是不得不考虑的问题。 达观数据成立时间只有 7 个月,核心的三位联合创始人全部出自盛大: CEO 陈运文为复旦大学计算机博士,曾担任盛大文学首席数据官,腾讯文学高级总监、数据中心负责人,百度核心技术研发工程师,国际计算机学会(ACM)会员,中国计算机学会(CCF)高级会员,在国际顶级学术期刊和会议上发表多篇 SCI 论文,多次参加 ACM 国际数据挖掘竞赛并获得冠军荣誉; CTO 纪达麒为原腾讯文学数据中心高级研究员、盛大文学技术总监等职务;  原搜狗广告技术部和百度技术部高级工程师;拥有北京邮电大学计算机硕士学位; COO 冯佳妮为原盛大云计算公司运营总监、安普丹华国际咨询公司高级咨询师,多次获安普丹华公司 Top-Sales 荣 誉;拥有山西财经大学工商管理和商务英语双学士学位。 注:该团队正在招募各类人才,有意者可联系 Hr@datagrand.com    原创文章,作者:暮雨,如若转载,请注明出处:http://36kr.com/p/5042353.html
    搜索优化
    2016年01月19日