研究|利用
执笔|李瑞
目前,大数据技术正在与工业应用集成,随着大数据渗透到各行各业,企业对大数据人才的需求异常旺盛。
据麦肯锡报道,2018年大数据科学家的差距在14万到19万之间,懂得如何利用大数据决策的分析师和经理的岗位差距达到了150万人。因此,数据科学家和数据工程师已经成为新的工种,大中型企业将成立自己的大数据分析团队。
程序员需要GitHub,设计师需要AutoCAD,普通员工需要Slack,数据科学家和数据工程师也有自己的协作办公平台,以便更好地建模分析,让管理层更好地认识每个人的进展。
区长云剧创始人、CEO在微软Bing工作多年。他说,Bing内部有800多名数据工程师在Aether这个系统上合作,整个团队运行有序,由于人员变更,研发ampd发现成果不会丢失。
对此,方磊决定回国成立这样一个基于大数据的平台服务企业客户,2013年,北京区长云极科技有限公司在北京中关村成立。
由于大数据平台这一业务本身过于超前,就连Gartner也在2017年首次发布了数据科学平台(Data Science Platforms)的魔法象限,当时国内大数据行业刚刚起步,大多数客户对平台价值完全不了解,比如成立数据分析团队。)因此,一开始顾客的接受水平不高。
方磊带领球场云戏进行了迅速的调整。
就客户服务而言,第九章云从最初为公共云客户提供PaaS服务转变为为为金融、旅游、教育、交通等行业提供专用部署服务,从轻量级产品转变为完整的大数据解决方案。金融产业,如银行、保险等,是第九章云戏的主要服务对象,这些客户基本组成了独立的大数据部门,当数据分析团队超过10人时,会产生共同业务和管理的需求,更容易接受第九章云戏的产品。
业务上,9张云戏不再提供平台,而是在平台的基础上开发多个行业应用模块,同时添加前端产品,为客户提供实时处理系统,使后端模型能够连接交易链接。
由于自身IT能力弱,中国企业客户更喜欢端到端解决方案。简单的基于平台的产品很难支付费用。开发行业应用模块的目的主要是证明该平台的价值,这些行业模块有助于提高客户单价。
实时处理系统与客户业务进一步结合,主要取代原始数据仓库的部分业务,弥补传统数据仓库处理速度缓慢的不足。
区长云不是单纯依靠技术建立户籍,而是严重依赖数据科学平台。凭借首发的优势,第九章云戏在初期可以获得很多行业客户,在这个平台的基础上可以沉淀出大量的产业应用场景,这些场景被封装成产品,成为第九章云戏未来的主要收入来源。
最近,他分析了对方的雷进行采访,详细阐述了他对球场云剧现有商业模式、未来战略规划以及大数据基础平台领域的看法,并分享了精彩的内容。
模仿Bing为数据科学家提供协作平台
爱情分析:制作第九章云戏的初衷是什么?
方磊:博士毕业后,我先去了微软的阿兹,然后换了Bing。我在Bing担任过数据科学家和数据工程师。当时微软内部系统Aether给了我很大的启发。Bing的800多名数据工程师可以在同一个平台上同时进行多种数据分析、提交工作等。该平台包含10,000多个模块和数十万个项目,并具有易于管理、高速操作和资源调配以及提高生产效率等多种功能。
我决定自己设计一个可以用于其他企业的超大型协作运营管理平台。这就是我创业的意图。当时没有特别明确的定义,今年Gartner称之为数据科学平台。数据科学家现在成了工种,需要一套软件来为他们服务,比如GitHub、Slack。
爱情分析:这是一个很有趣的方向。具体是怎么实现的?
方磊:2013年,球场云戏成立,2014年,这个大数据平台逐渐步入正轨。现阶段,我们的产品是DataCanvas智能数据平台,集成了Hadoop生态圈开源产品,开发了APS和EDS,即DataCanvas自助大数据分析平台(APS)和DataCanvas大数据时代的数据仓库(EDS)。APS是一个工作流分析平台,通过现有模块的组合,快速构建和实施用户的分析方案。EDS是一个灵活、可扩展的分布式数据仓库,用于数据存储、查询和分布式计算。
爱情分析:早期
的DataCanvas数据平台对国内客户有点超前,最初是如何获取客户的?方磊:我们早期的客户是某城商行,当地所有城商行共用一个IT中心,DataCanvas智能数据平台满足了领导层的KPI考核需求,研究成果模块化,根据需求提交项目运行,使数据分析资产可量化。
爱分析:DataCanvas智能数据平台的价值除了体现在协作办公,还有哪些方面?
方磊:基本功能是协助数据科学家更好地开展工作,并且DataCanvas智能数据平台是具有积累效应的。这个积累效应在内容层面是指数据科学家的工作模块和项目等方面,比如说分析客户流失、预测性维护等,对于行业客户而言价值巨大。
所以,最初的DataCanvas智能数据平台只是个工具,积累效应使其逐渐演变成全能的数据分析平台,能为企业用户提供端到端的大数据解决方案。
爱分析:DataCanvas智能数据平台是不是类似BI产品?
方磊:BI可能是更轻量型的产品,我们的产品会更重,更全面。DataCanvas智能数据平台除了能看到BI看到的分析结果,还可以看到Dashboard。假设一个所有存款沉淀分析的应用场景,从不同数仓里面抓取了很多报表,这其中每一步都可以看到,包括这个分析流程是什么时间运行的,运行了哪些数据,产生的结果被谁使用了……如此,领导层可视可控、透明地管理整个分析平台。当然,如果最终还是需要调用结果画图,DataCanvas智能数据平台是可以跟这些Tableau等BI工具衔接的,并不是取代Tableau。
爱分析:现在多大规模的团队才需要使用DataCanvas智能数据平台?
方磊:至少十个人的团队规模才会明显会感到痛点,需要购买我们的DataCanvas智能数据平台。
本质是标准化产品,产品化率会逐步提升
爱分析:DataCanvas数据平台的定制化部分会更多一些么?
方磊:我们的定制化主要是数据衔接、数据仓库如何打通等。现阶段定制化较多,产品化率还有待提升,另外跟那么多数据环境打通是需要更多其他工作协调,尤其是行业聚焦更重要。
爱分析:底层数据打通在不同行业之间有很大差别么?
方磊:差别不大,都是大数据技术,但是基于每个行业都有些不同特性,且企业环境有中间件,有不同的供应商,因此针对不同行业是需要去符合其不同的规范。理论上而言这种差别是可以穷尽的,当深入专注某一个行业,这种差别基本可以忽略。
以业务需求、业务创新为导向拓展产品线,现阶段仍以节点收费
爱分析:除DataCanvas智能数据平台之外,九章云极还有在做其他产品么?
方磊:有的。企业通过数据发现很多规律,研发很多模型,这是后端。企业需要调用这些模型,是在前端。拿这些模型来打分,请求进来,瞬间就返回,这是个在线场景。我们自己做厚一点,就是往前端走。我们做出模型后可以发布到前端,同时,前端是有套系统去使用这个模型,呈现出来是个大数据实时系统。
爱分析:本质上九章云极是想做一个很薄的业务,但为了获取客户而把产品做厚,扩展产品线是如何考虑方向的?
方磊:我们以业务需求以及业务创新为导向来考虑的。一方面,我们发现实时性是原先数仓无法实现的,另一方面,后端数据科学平台上有很多机器学习的模块,这是原本做统计报表的数仓实现不了的。只有做到创新,才能体现价值,才能更容易拿下客户。
爱分析:现在DataCanvas智能数据平台是如何向客户收费的?
方磊:现在还是按照结点个数来卖,差不多一个节点7-8万,最后平均客单价会超过一百万。这里面有个非常挣钱的业务,就是里面内置的分析主题,客户愿意购买分析主题,比他们请外包公司要便宜很多。未来我们的业务更加成熟,会调整成Tableau那种模式,计算能力加用户的形式,有个基准服务器收费,再加上账号个数。
单靠技术难以形成壁垒,数据库厂商必须建立生态圈
爱分析:最近出来不少做数据库的厂商,您对这类厂商未来发展前景如何?
方磊:我觉得他们挺厉害的,中国终于开始有厂商做这样的事情了。但这是个高风险的事情,因为每个数据库都是生态圈。如果只是做个办公软件,不需要有生态圈就可以拿下客户,但数据库不是这样的,选了哪家厂商的数据库就绑定在这家厂商上了,如果产品不是很成熟,企业是不敢选的。数据库厂商必须要建立一个生态圈,有足够多客户选用这个产品才能发展起来。因此,数据库是以十年为单位把产品养成的,类似于编程语言,这是个比较长期的事情,竞争压力比较大。
爱分析:您认为,做Hadoop相关业务的公司未来有机会做大么?
方磊:可能纯做Hadoop发行版机会不大了,但做更泛一点的Hadoop服务商是很有有前景的,比如说,公司有大规模团队帮客户做维护,或者找到更好地具体应用场景。
爱分析:这样看来,技术上的一点领先优势,未来很难形成长期的壁垒?
方磊:除非是形成一个生态圈,否则挺难形成壁垒的。特别是国内厂商更多还是跟随国外的技术,目前只是单点创新,并未实现全面创新。