Data Lake老矣?Pure Storage说Data Hub才是未来
最近Pure Storage又在搞事。我特别怕Pure搞事,因为它在Sales&Marketing;上投入太大了,超过40%。因此,它一搞事,搞得人人都知道。
大家知道,Pure的产品其实就两款,一个是针对结构化数据的FlashArray,一款是针对非结构化数据的FlashBlade。目前,FlashArray已经卖得很好了,帮助Pure连续5年成为Gartner固态存储魔力象限领导者,未来的增长,Pure主要寄希望于FlashBlade。
为了卖好FlashBlade,必须包装一个新概念,打击老概念,这个新的概念就是Data Hub,这个data hub我都不知道如何翻译,因此就不翻译了。
Pure说,现在第二数据有很多孤岛,不能做到很好的共享。因此一个企业有很多套第二存储。
由于不同的场景对存储要求不同,原来的老存储架构很难同时满足这些场景,因此,这是造成孤岛的原因。
但是,DATA HUB能同时满足这些场景的要求。
这个DATA HUB必须同时具有下面4个特征。
这个产品就是FlashBlade。
其实套路很简单,我们营销一般也是这么搞的。但是,为了让大家加深印象,光创造一个data hub的概念是不够的,还需要打击传统的data lake。
因此,Pure列举了DATA LAKE(主要是传统的计算存储不分离的DAS形态)的种种缺点,衬托DATA HUB的种种优点。
Pure也知道,现在很多Data Lake不是DAS架构了,很多也是存储和计算分离的,比如菊厂也在推独立的数据湖方案(详见为什么大数据需要数据湖?)。
因此,Data Hub从本质来讲,不是一个新的概念,也不是一个新的vision。
其实,按照Gartner的观点,Data Hub,Data Lake和Warehouse各有侧重,在一个企业都是需要的。Gartner说,到2020年,使用包含Data Hub,Data Lake和Warehouse的紧密数据战略的企业将获得比竞争对手高30%的数据资产回报。
Data Warehouse— 支持大多数已知数据(结构化,事务性)和已知问题(可重复,广泛使用),以便为运营业务提供共识。
Data Lake— 支持未知数据(较少有组织,原始和/或外生)和未知问题(以发现和数据科学为导向),以实现探索和创新。
Data Hub— 在生产和消费系统和流程之间实现可管理和受管理的数据共享。
一句话,Data Hub更强调数据的共享,因此,存储厂商推广这个比较容易销售外部存储。
还有,这三个术语也不是指某种产品,这只是三种体系架构,和具体的产品没有必然联系。比如SAP和Cloudera也在推Data Hub的解决方案。
SAP Data Hub:
Cloudera Data Hub:
我在文章备份软体老矣?存储新风口——超融合第二存储来了提到,很多公司都在做第二存储创新,而且大多数都是从备份领域入手。
而Pure根据自己的产品特点(只有全快闪记忆体),抓住AI热潮,硬生生把第二存储对性能要求比较高的负载分出来,炒作Data Hub的概念,放大Data Hub的优势,诱导用户把数据放到自己的FlashBlade上。
Pure说,第二存储没有分层,只有冷热。热的第二数据还是在全快闪记忆体上,只有冷数据才需要用到HDD。
西瓜哥觉得,如果Cohesity做得好一点,比如推出全快闪记忆体节点,可以把Pure的高性能场景也纳入的话,也不是不行。
推荐阅读: