Greenplum 短板

| 9 Comments

初接触 Greenplum 的确让人挺惊艳的,计算能力给习惯于 RDBMS 传统处理能力的 DBA 会留下很深刻的印象。有点一招鲜吃遍天的感觉。

Greenplum 还可以结合 Solaris 进行虚拟化 -- Sun 任何时候都能搭配上自己的东西。

GreenPlum Solaris.jpg

看上去都很美,问题就是海量数据每天怎么导入到 Greenplum 中来? 借助传统的 ETL 工具(Informatica / DataStage ...) 或者自己写 ETL 功能脚本来做。这就是个麻烦事。海量数据的载入与导出,对于 Greenplum 来说,似乎只能用传统的老办法。如果 Greenplum 带一个 ETL 工具就真的强了。

在大哥大电话刚流行的年代,有个笑话说,发明家发明了一款超小超轻的手机,向另外一个人推销,价格还贼便宜。顾客买下刚要走,被发明家叫住:这里还有个大箱子是送给你的。这是什么? 这是这个手机的电池......

--EOF--

Greenplum 支持的这个 Bizgres 最近两年倒是好像停滞了。免费的午餐不是没有,但不会长久倒是真的。

9 Comments

看上去都很美

刚看到,楼主是阿里巴巴的软件架构师,呵呵,我还纳闷呢,博文的配图都是我们PPT里面的,哈哈,看着都亲切呢!
我们的ETL工具叫gpfdist,基于并行的快速加载,load速度非常快,并且可以线性扩展,这也是我们的优势所在呢!

呵呵,Greenplum有自己的ETL工具的,楼主可能还不太了解,有机会的话可以交流一下。
我是Greenplum公司的,msn:[email protected]
刚看到,楼主是阿里巴巴的数据库架构师,呵呵,我还纳闷呢,博文的配图都是我们PPT里面的,哈哈,这些图看着都亲切呢!
我们的ETL工具叫gpfdist,基于并行的快速加载,load速度非常快,并且可以线性扩展进一步提升速度,我们曾经在一个客户的多个节点情况下,达到4.5TB/小时的加载速度,这也是我们的优势所在呢!

@高东波

图是 Sun 站点上的。你们的 PPT 也是直接用 Sun 开始的吧,尽管你们实际算一家。

严格来说, gpfdist 算不得 ETL 工具吧,只能算是个 Loader 工具而已

当然你如果非把这玩意儿叫做 ETL 工具也无可厚非,只是不是我说的 ETL 工具

呵呵,你说得对,我很赞同!从某种角度来说,gpfdist确实与我们常见的ETL工具不太相同,但是它的性能确实很强:)
我们最近的一个工作重点,就是正在开发一款调度工具,使之与gpfdist结合,那样能够更好的发挥gpfdist的优势。
其实,你也提到了,我们兼容其他ETL工具,在不同的情况下,使用者可以使用传统的工具嘛:)

@高东波

性能强,只是对某个特定类型的应用很擅长而已,其实 GreenPlum 也只是一招鲜嘛,这个一招就是针对用户最关心的某个问题设计的

改天邮件交流吧。

Greenplum资料不太好找,GOOGEL出来的都是ALI测试相关文章.

今天在日本参加一个greenplum的说明会,得知阿里巴巴也在用greenplum,并且传说阿里巴巴比较了下面四种架构的性能如下,楼主这个是真的吗,我总觉得不可思议。

他们介绍某个什么运算的时间如下:
Hadoop+pig 4m42.207
hadoop+hive 3m30s
oracle rac(4node) 41s
greenplum(2node) 6s

grennplum基于postgre,2台平行计算也最多是postgre的2倍的速度,怎么会是oracle的7倍计算速度。