| Twitter | Del.icio.us | Comments (7) | | Edit

Comments Powered by Disqus

留言评论 | Comments (7)

和greenplum的思路差不多吧

这种DB商用也不怎么看好吧
MPP的节点多了之后
master node的管理成本是几何级数的增加

管理成本 其实未必增加,

要看软件实现的如何

赫赫~
俺的水平也就是mysql的境界啦~~

HadoopDB其实是构建在HIVE上面的,现在没多少代码。

现代的数据库瓶颈多是DiskIO。
Greenplum这样的架构可以支撑到Master节点处理40Gbps。
如果数量处理量超过40Gpbs,现有技术类似Parallel NFS,Lustree,都可以进一步扩展Master的性能。

分析它的源代码后, 会觉得这只是一个没有前途的实验项目. 首先它的数据hash到各节点是手工做的, 没有parser,没有planner,及optimizer;其次,如果用pg做存储实例,而不用hdfs的datanode,则会失去hdfs的redundancy,这个得自己做,而那paper只字未提;再次, 它没有支持INSERT INTO操作,它只是手工hash数据至各pg节点后, 算出来的结果放到hdfs之上,而不是返回给pg实例的另一张表,这是没有实用价值的;三次,hadoop是一个多人用户环境, 带有调度器去分配资源给各组/用户, hadoopdb这种作法无法做各节点的metrics; 最后它的join假设了要join的两张表,它们的hash key是一致的, 也就是greenplum最理想的状态。Therefore...

关于本文

这篇文章由 Fenng 于 August 25, 2009 6:55 PM 发布.

上一篇:近视眼戴眼镜.

下一篇:参加系统架构师大会.

回到 首页 查看最近发表的文章或者查看所有 归档文章.