| Twitter | Del.icio.us | Comments (19) | | Edit

Comments Powered by Disqus

留言评论 | Comments (19)

豆瓣的推荐系统很复杂,绝不是简单的根据"类别"的信息做关联。

@康德

是很复杂。但复杂后起到的作用可能和聚类或者同一个Tag抓过来的信息差不多

更多的时候,复杂未必是好事情。

dbanotes这其实也并不是什么难的事情。
不过宣扬一下也是好事!计算两个词的同现是最基本的方法了。"婴幼儿" 和 "孕妇" 肯定是在offer中同现过一定的频率。

哎哟. 我就经常引用,山嘴巴.

轻轻一点,戳破了窗户纸. 牛!

@Fenng
tag和聚类的问题是太粗,包括进来的东西往往太多。我觉得很多推荐系统都是先用tag和聚类初选,然后用高级点的算法算相关度, 排序。 就像google, 先用根据网页内容过滤,然后对选中的网页用pagerank排序。

博主可以怀疑结论的现实性,但不要因为自己不做BI就嘲笑它用的方法,因为这已经是目前最专业的方法了。

@地衣

实在看不出来有什么专业的地方,只不过动了别人的奶酪罢了

智力玩具与减肥药这种关联只要产品人员多下点力气就能发现的,而一个好的挖掘系统,应该是能帮你发现那些你难以发现潜在关联的,啤酒与尿布就是这样的例子,这个例子远比智力玩具与减肥药来的更有分量。

啤酒和尿片的故事很早就有人置疑,可参考这个链接:http://web.onetel.net.uk/~hibou/Beer%20and%20Nappies.html。

事实上,在网络数据/文本挖掘领域的从业者中,很少有人会刻意提到“智能”这个词,因为它实在是有点outdated。上个世纪六十年代AI在机

器推理和知识表述领域巨大的成功,使得人们很乐观的估计要不了多长时间就能真正的实现机器智能。后来四十多年的发展证明这是个彻头彻

尾的泥潭,反而是原来在AI领域不那么正统的机器学习越来越收到人们的重视。即便是对最外行的人作解释,任何一个严肃的机器学习专业的

人也不会说自己的程序是智能的。

十多年以前数据挖掘作为一个行业开始付出水面的时候,主要的从业者的专业背景来自三个方面:数据库、统计、机器学习。其中数据库的背

景是最重要的,因为一方面他们有商业系统的经验,最贴近用户,另一方面他们有摆弄海量数据的能力。当时用到的主要是各种统计的方法,

以及在此基础上建立的关联规则、决策树等模型。机器学习在这里更多的是作一些研究性质的工作。九十年代末互联网的爆发彻底改变了这种

情况。在网络数据/文本挖掘领域,由于信息的数量和多样性迅速膨胀和计算资源大大丰富,以及快速获取用户反馈能力的迅速提升,数据的存

储和挖掘算法逐渐分离,成为不同的专业领域。基于网络的挖掘和传统行业如电信/银行/零售等基于数据库的挖掘之间的差异越来越大,最终

使得机器学习成为网络挖掘的主流应用。

在机器学习中,聚类是聚类,关联是关联,是两件不同的事情。关联的数学基础强,相对比较客观;聚类的数学基础弱,主观性比较强。作为

调和,很多时候聚类要用到关联的结果。事实上,每年都有各种各样千奇百怪的聚类算法出现,宣称自己能够更好的刻画测试数据集的内部结

构,这是个冒险家的乐园。

豆瓣的推荐既不是基于类别也不是基于tag,当然,如果你把SVD, pLSA, LDA这些甄别latent semantics的方式算作分类的话也没什么不可以的

。卓越的推荐不了解,个人猜测,有可能是应用amazon现成的模型。如果是这样,起码在最后一层作过滤的时候tag是有用的,不过用户提交的

中文tag的质量比英文tag差不少,最后用不用很难说。推荐不是什么高深莫测的东西,不过也绝不是婴儿玩具加减肥药这么简单。过去两年里

,netflix a million dollar grand prix的成功运作使得推荐算法在互联网的技术圈里得到了很好的普及,找些paper来看看并非难事。

想想一年前我最怕的就是Machine learning这门课。现在想想当时真应该好好学。

我支持啤酒鱼尿布规则的经典性

1、现在国内超市里面没有把啤酒和尿布一起摆放或许是中国国情导致的。

2、购物篮关联分析应该不会花费太多成本,而且对于大型超市肯定存在未被导购人员发现的关联规则。

3、关联挖掘算法:FP-growth(Jiawei Han提出)可不止是指哪打哪儿的智能,它的穷举性确实可以发现人们未关注到的关联规则。

一个小常识
往往需要有人直接说出来
才:哦……

作者也真够可以的。

从身边转过的几个超市没有发现啤酒和尿布放在一起的就否认了这个故事?这算是什么逻辑?

从erp的数据搜集,再到dm,最后的bi,都是和行业,区域、文化密切相关的。

啤酒和尿布在中国行不通,不见得在国外就一定行不通。作者这种逻辑混乱的文章也有人附和,可怜。

@匿名

给出一个国外超市的在用的,就能证明你的论点不是逻辑混乱.

你可怀疑啤酒与尿布,但你怀疑不了数据挖掘与商务智能

据我在沃尔玛这些地方的观察,这个现象是有的。比如,卖海鲜的地方放着苏泊尔的锅,这个算是类似应用吧

在企业应用中,数据分析是一回事,决策者对分析结果是否付诸于实现又是一回事。最终的决策在人。

真正的叫法是尿布与啤酒,2者是有前后顺序关联的,在国内的叫法很多人用错了顺序.

尿布与啤酒这种关联是需要大量的历史数据作为基础,通过数据仓库,数据挖掘工具,LDM,整理后由BIU(商业智能小组)寻找有价值的关联信息,然后反复验证关联数据的可用性。

时间敏段、客户人群特征,ROI,客单价,购物篮系数,购物顺序,地区性,产品特征,产品亲密度,产品关联度,产品生命周期,,客户采购周期,A/B测试,等等多维分析,尿布与啤酒的真相只有一个,这些需要由BIU的商业经验与”BI工具“配合后(领导通过批准)才能落地实施。

尿布与啤酒只是众多零售数据中的一滴水,需要找出更多有价值的信息,需要BIU的经验,才能发挥出BI工具的能力,工具只是为人服务的,人很重要但人的能力也是有限,所以需要平衡才是最好的。

关于本文

这篇文章由 Fenng 于 October 20, 2008 11:53 AM 发布.

上一篇:南京,南京.

下一篇:一些常见的关于 IT 的定律.

回到 首页 查看最近发表的文章或者查看所有 归档文章.