数据开采(上)


(Data Mining)
  数据开采(Date mining)是一个简单的名词,却有着复杂的功能,对它的价值也有很大的争议。支持者认为它是联系客户的一个有用工具,而反对者则认为它方式老套,而且有侵犯用户稳私之嫌。抛开上述争论,随着最新的实时工具和CRM应用的出现,数据开采,正被带入21世纪,谁是争论的赢家自然一目了然。

  简单说,数据开采就是对大量用户数据进行数学分析,包括人口统计数据,交易数拓,信用记录,产品偏好等等,通过对这些数据的分析来得出有用的模式和趋势。比如说,数据开采软件可以帮助一家公司找出具有相同兴趣的用户群,从而给他们寄出相应的促销材料。在其它用途上,数据开采软件可以帮助实现站点的个性化。数据开采在拥有诸多优点的同时,亦存在着一些弊端。Elity系统是一家个性化技术公司,该公司CEO Jeff Harbison指出,如果数字开采使用不当,可能会毁掉一个公司。

一、争议
  数字开采,和实时在线分析(有时也叫做协作过滤)的区别常被忽略,但事实上它们是不同的。实时在线分析使用的是在线工具、分析的是在线数据流和客户信息。而数据开采是一种基于大量存储数据基础上的更深层次的分析。实时在线分析告诉我们一个站点参观者正在浏览什么,所有结论都是追踪其当前数据得出的。数据开采则基于一个更全面、更详细的存储数据,分析出用户的行为模和消费趋向。实时在线分析可以关注到过去24小时,浏览某一站点的一组用户购买了什么;而数据开采则会告诉我们用户可能会消费多少,他们相关的兴趣是什么,他们在决定消费之前放弃订货的可能性是多大等等。数据开采提供的是对几月乃至几年来收集的大量数据,作分析而得到的详细信息。

  对数据开采以及其在实时在线分析和站点个性化时代的用途,人们持好几种观点,对于一些市场人员和个性化工具开发者来说,数据开采(不是在线实时进行的分析)是一种好方式,它可以用来对某一类消费者进行全面描述,如揭示16到21岁男子更乐衷玩电子游戏而不是参加艺术展,但数据开采对某一个人行为特征的揭示几乎没有。

  其它们一些使用实时在线分析这样一些技术来开发网络个性化工具的供应商则不看好数据开采,他们认为数据开采在实现一个准确的分析时速度太慢,尤其是判断一个消费者在浏览某一主页时确切想要什么这一点上。

  另外一些反对者则使用脱线数据开发分析作为补充,据加州San Mateo 的E.Piphany公司的产品市场部副总裁Brad Wilson表示,在个性化选择的情况下,需要使用到大量的用户信息,10条乃至100条,这时一些规则就完全不起作用了,因为有太多需要作出选择的地方。Wilson以一家公司举例,在使用数据开采方式的情况下,如果该公司想要覆盖其所有产品,必须要建立90,000条规则。该公司首先写了1,000条细则,这意味着出错机率很大。另外一个弊端在于所有规则都是人制订的,就难免出错。

  相反,一些数据开采的支持者则认为实时在线分析使用的数据太少,而得不到一直准确的结论。实时在线分析关注的是用户的即时行为,是用户对特殊产品某一时刻的兴趣。用户点击一个有关数码相机的页面,实时分析软件就会将其与其它点击该页面的用户作对比,所以站点会向该用户传递有关某一品牌数码相机的销售信息或根据其它用户的购买记录向该用户提出建议。

二、如何运用数据
  在对数据开采的反对意见中,有一点是最突出的。就本质而言,真正的数据开采是在收集大量匿名信息基础上进行的,以此分析用户的使用模式,购买趋势和数据等等。但对这些数据下一步的使用,即分析某一特殊用户的习惯,根据个人习惯来进行真正的个性化服务……,所有这些无异于在窥探用户的个人隐私。

  消费者的隐私问题是一个颇有趣的话题。最近的一个Harris互动投票指出,消费者相对于个人健康、付税或犯罪问题来说,更关注的是个人隐私的流失。但最近ZDNet的文章则指出,在浏览ZDNet这一流行站点的用户只有极小一部分真正看了传给自己的降隐私条款。在最近一个月浏览About.com站点的用户中每500,000人不到1人点击有关隐私的链接。

  隐私问题的维护者认为关键是要让用户知道你收集了些什么信息,你将怎样处理它们。电子隐私信息中心(EPIC)是华盛顿一家工业观察组织,该组织的政策分析家Andrew Shen认为,在数据收集过程中出现的隐私问题并不鲜见,它们都要回过头来给用户以控制自己数据的权利。这听起来很简单,执行起来却很复杂。通常需要做的有:1)告知用户你收集了哪些数据,你计划怎样使用它们2)给用户不参与的机会3)给用户提供检查并更正个人信息的机会。

  工业集团赞成进行自我规定,但Shen和其它人员都认为这样并不可行,对待隐私标准至少要规定一些底线。

  当万维网协会提出一个关于隐私的P3P标准时,华盛顿开始出现一种以提问&回答(Q&A)或“wizard”的形式来给予用户控制自己信息的权利。一些工业观察家认为立法者很难找到一条以一应万变的标准。数据开采软件的供应商正在寻找途径,他们赞成用户遵循EPIC提供的向导。

三、21世纪的数据开采
  当技术上争论还在继续之时,一些专家相信折中的解决方案是集合数据开采和实时在线分析的优点。实时在线分析所用数据往往太简单只能分析当前选择,所以结合数据开采先前收集的大量信息,以及实时分析告知的当前用户是谁,在寻找什么这样一些信息,就可以向用户提供内容、广告、产品或服务来满足用户当前需要了。

  现在数据开采功能越来越多的作为网络用户关系管理(ECRM)解决方案的嵌套成分而被使用。Accru软件是一个客户关系管理分析软件,该产品生产管理部经理Judson Groshong指出,该软件中进行了数据开采分析,比如说对前一天站点浏览者行为的分析会与当前点击流相结合,来预测哪些产品介绍、广告最有可能得到用户反馈。

  数据开采软件正开始进入CRM及其它一些新公司提供的数据分析。其中,一旦花费大量时间和金钱建立起一个大型数据仓库,并为之配备复杂的数据开采和管理工具之后,它可就威力无穷了。现在一些ASP正在帮助那些没有足够钱和精力开发这一项目的公司尽快享有这些功能。

[时间:2001-06-14  作者:必胜网  来源:必胜网]

黄品青微站