调研 | 李喆
撰写 | 李喆
当前,大数据技术正与行业应用融合,随着大数据渗透到各行各业,企业对大数据人才的需求变得异常旺盛。
根据麦肯锡的数据,2018年大数据科学家的缺口在14至19万之间,对懂得利用大数据决策的分析师和经理岗位缺口达到150万。因此,数据科学家和数据工程师在已经成为一个新的工种,中大型企业都将建立自己的大数据分析团队。
程序员有GitHub,设计师有AutoCAD,普通员工有Slack,数据科学家和数据工程师也应该有自己的协作办公平台,帮助他们更好地建模分析,同时让管理层更好地认知到每个人的进展。
九章云极创始人、CEO方磊曾在微软Bing工作多年,他发现Bing内部800多个数据工程师在一个名为Aether的系统上协作,整个团队运转井然有序,不会因为人员变动使得研发成果流失。
于是,方磊决定回国建立这样一个大数据基础平台服务企业客户,2013年,北京九章云极科技有限公司于北京中关村成立。
由于大数据平台这个业务本身过于超前,连Gartner都是2017年才第一次公布数据科学平台(Data Science Platforms)的魔力象限,当时国内大数据行业刚刚起步,大部分客户还处于理解大数据概念阶段,遑论建立数据分析团队,对这样的平台价值一无所知。因此,一开始客户的接受程度并不高。
方磊带领九章云极进行了迅速的调整。
客户服务方面,九章云极由原本为公有云客户提供PaaS服务,转变成为向金融、旅游、教育、交通等行业提供私有部署服务,由一个轻量级产品变成一个完整的大数据解决方案。金融行业如银行、保险等是九章云极主要服务对象,这类客户基本已经组建独立的大数据部门,当其数据分析团队超过10人时,协作办公和管理的需求就会产生,更容易接受九章云极的产品。
业务上,九章云极不再只是提供平台,而是基于平台开发了大量行业应用模块,同时增加了偏前端产品,为客户提供实时处理系统,使后端模型能够对接交易环节。
因为限于自身IT能力较弱,中国企业客户更愿意接受端到端的解决方案,单纯平台型产品很难促使他们付费。开发行业应用模块的目的主要是证明这个平台的价值,同时这类行业模块有助于提升客单价。
而实时处理系统则是进一步与客户业务结合,主要是替代原本数据仓库的部分业务,弥补传统数据仓库处理数据缓慢的不足。
九章云极依赖其数据科学平台建立壁垒,而并非仅仅依靠技术建立护城河。先发优势使得九章云极在前期可以获取不少行业客户,基于这个平台可以沉淀大量行业应用场景,这些场景可以被封装成产品,成为九章云极未来主要收入来源。
近期,爱分析对方磊进行了访谈,他阐述了九章云极现有的业务模式、未来战略规划,以及他对大数据基础平台领域的看法,现将精彩内容分享。
效仿Bing,为数据科学家提供协作平台
爱分析:创建九章云极的初衷是什么?
方磊:博士毕业后,我先去了微软的Azure,后来换到了Bing。我在Bing先后担任过数据科学家与数据工程师。当时,微软内部系统Aether给了我很大启发。Bing的800多个数据工程师可在同一个平台同时进行各种数据分析、提交任务等工作,这个平台含一万多个模块和几十万个项目,并具有可管理性、可高速运行、以及资源调配、提高工作效率等诸多功能。
我决定自己设计这样一个超大协作运行管理平台,提供给其他的企业使用,这是我创业的初衷。当时没有特别明确的定义,今年Gartner把它称为数据科学平台(Data Science Platform)。数据科学家现在已经成为一个工种,需要一套为这些人服务的软件,类似GitHub、Slack。
爱分析:这是个很有意思的方向,具体是如何实现呢?
方磊:2013年,九章云极成立,2014年,这个大数据平台逐渐步入正轨。现阶段我们的产品是DataCanvas智能数据平台,集成Hadoop生态圈开源产品,在此基础上开发了APS和EDS,分别是DataCanvas APS(自助式大数据分析平台)和DataCanvas EDS(大数据时代的数据仓库)。APS是工作流分析平台,通过对已有模块的组合,快速构建和实现用户的分析场景。EDS是超融合架构可扩展的弹性分布式数据仓库,实现数据的存储,查询和分布式计算。
爱分析:早期的DataCanvas数据平台对国内客户有点超前,最初是如何获取客户的?
方磊:我们早期的客户是某城商行,当地所有城商行共用一个IT中心,DataCanvas智能数据平台满足了领导层的KPI考核需求,研究成果模块化,根据需求提交项目运行,使数据分析资产可量化。
爱分析:DataCanvas智能数据平台的价值除了体现在协作办公,还有哪些方面?
方磊:基本功能是协助数据科学家更好地开展工作,并且DataCanvas智能数据平台是具有积累效应的。这个积累效应在内容层面是指数据科学家的工作模块和项目等方面,比如说分析客户流失、预测性维护等,对于行业客户而言价值巨大。
所以,最初的DataCanvas智能数据平台只是个工具,积累效应使其逐渐演变成全能的数据分析平台,能为企业用户提供端到端的大数据解决方案。
爱分析:DataCanvas智能数据平台是不是类似BI产品?
方磊:BI可能是更轻量型的产品,我们的产品会更重,更全面。DataCanvas智能数据平台除了能看到BI看到的分析结果,还可以看到Dashboard。假设一个所有存款沉淀分析的应用场景,从不同数仓里面抓取了很多报表,这其中每一步都可以看到,包括这个分析流程是什么时间运行的,运行了哪些数据,产生的结果被谁使用了……如此,领导层可视可控、透明地管理整个分析平台。当然,如果最终还是需要调用结果画图,DataCanvas智能数据平台是可以跟这些Tableau等BI工具衔接的,并不是取代Tableau。
爱分析:现在多大规模的团队才需要使用DataCanvas智能数据平台?
方磊:至少十个人的团队规模才会明显会感到痛点,需要购买我们的DataCanvas智能数据平台。
本质是标准化产品,产品化率会逐步提升
爱分析:DataCanvas数据平台的定制化部分会更多一些么?
方磊:我们的定制化主要是数据衔接、数据仓库如何打通等。现阶段定制化较多,产品化率还有待提升,另外跟那么多数据环境打通是需要更多其他工作协调,尤其是行业聚焦更重要。
爱分析:底层数据打通在不同行业之间有很大差别么?
方磊:差别不大,都是大数据技术,但是基于每个行业都有些不同特性,且企业环境有中间件,有不同的供应商,因此针对不同行业是需要去符合其不同的规范。理论上而言这种差别是可以穷尽的,当深入专注某一个行业,这种差别基本可以忽略。
以业务需求、业务创新为导向拓展产品线,现阶段仍以节点收费
爱分析:除DataCanvas智能数据平台之外,九章云极还有在做其他产品么?
方磊:有的。企业通过数据发现很多规律,研发很多模型,这是后端。企业需要调用这些模型,是在前端。拿这些模型来打分,请求进来,瞬间就返回,这是个在线场景。我们自己做厚一点,就是往前端走。我们做出模型后可以发布到前端,同时,前端是有套系统去使用这个模型,呈现出来是个大数据实时系统。
爱分析:本质上九章云极是想做一个很薄的业务,但为了获取客户而把产品做厚,扩展产品线是如何考虑方向的?
方磊:我们以业务需求以及业务创新为导向来考虑的。一方面,我们发现实时性是原先数仓无法实现的,另一方面,后端数据科学平台上有很多机器学习的模块,这是原本做统计报表的数仓实现不了的。只有做到创新,才能体现价值,才能更容易拿下客户。
爱分析:现在DataCanvas智能数据平台是如何向客户收费的?
方磊:现在还是按照结点个数来卖,差不多一个节点7-8万,最后平均客单价会超过一百万。这里面有个非常挣钱的业务,就是里面内置的分析主题,客户愿意购买分析主题,比他们请外包公司要便宜很多。未来我们的业务更加成熟,会调整成Tableau那种模式,计算能力加用户的形式,有个基准服务器收费,再加上账号个数。
单靠技术难以形成壁垒,数据库厂商必须建立生态圈
爱分析:最近出来不少做数据库的厂商,您对这类厂商未来发展前景如何?
方磊:我觉得他们挺厉害的,中国终于开始有厂商做这样的事情了。但这是个高风险的事情,因为每个数据库都是生态圈。如果只是做个办公软件,不需要有生态圈就可以拿下客户,但数据库不是这样的,选了哪家厂商的数据库就绑定在这家厂商上了,如果产品不是很成熟,企业是不敢选的。数据库厂商必须要建立一个生态圈,有足够多客户选用这个产品才能发展起来。因此,数据库是以十年为单位把产品养成的,类似于编程语言,这是个比较长期的事情,竞争压力比较大。
爱分析:您认为,做Hadoop相关业务的公司未来有机会做大么?
方磊:可能纯做Hadoop发行版机会不大了,但做更泛一点的Hadoop服务商是很有有前景的,比如说,公司有大规模团队帮客户做维护,或者找到更好地具体应用场景。
爱分析:这样看来,技术上的一点领先优势,未来很难形成长期的壁垒?
方磊:除非是形成一个生态圈,否则挺难形成壁垒的。特别是国内厂商更多还是跟随国外的技术,目前只是单点创新,并未实现全面创新。