曾经有关于数据挖掘应用的几个经典的比喻,其中有一个说:研究发现脚大的孩子拼音好,所以脚的大小就与拼音的好坏存在关联关系。结论是错的,原因在于忽视了因果关系的实,而只注重了“因果关系”飘忽的形。脚在的孩子拼音好,其中有一个重要的隐藏信息,那就是脚大的孩子一般年龄也大,而年龄大小对于正常的孩子来说会直接影响到拼音的好坏,其因果关系应该体现如下:脚大-年龄大-智商提升-拼音好。
所以数据挖掘经典存在的一个问题是,把表面的统计信息当成因果关系,或者关联关系进行应用。这正如你从街上随便找10个人,你用任何一个分析的维度都可以获得一定的分析结论,比如男女比例关系,比如身高分布,但是你却不能这些分析结果能够说明他们为什么会被你挑中。用户群本身的分析维度属性是天然存在的,而且对于分析是随机产生的,不存在稳定性,没有稳定性的东西又怎么可以去进行关联的分析呢?
当然,分析本身完全可以告诉你具有某一特征(如离网)的用户群具有什么样的分布特征(如资费、品牌、在网时长等)。理论上如果这种关系是较为稳定的,你去找离网倾向比例高的用户,通过这种分析得到的结论去反向应用本身比大撒网式的营销方式要好。至少可以让营销操作在更小的用户群范围内实现营销效率的提升。但这种分析方法与结论并不能等同于因果分析与关联分析。
数据挖掘并不是万能,当然没有数据挖掘很可能是万万不能。但任何技术的东西至少在目前看来,还无法形成象电影《鹰眼》里所说的计算机智能,千千万万个分析结果绝不能也不应该偏离业务应用的始终,这是数据挖掘的应用命门。
正在学习数据挖掘,期待有更多的内容出来
逻辑性,因果性等多方面考虑,对于思路纠偏来说是有益的。
这个推理本身也一样的是胡扯
有见地!数据是最骗人的,尤其是‘被分析’了以后!
欢迎光临 栖息谷-管理人的网上家园 (https://bbs.21manager.com.cn/) | Powered by Discuz! X3.2 |