■囝●冒I _ 基于数据挖掘的电子商务商品推荐 ■张洪瀚姜娇娇 [摘要] 随着电子商务网站商品信息量的增加,目前的商品搜 索的很多弊端已经显现出来,它已经不适合电子商务的高速发展。 本文将提出基于数据挖掘技术的个性化商品推荐的模型。它具有发 掘潜在客户,增加销售机会的功能。并改进了其中的Apriori算法,改 高级搜索商品推荐模型如图1。 二、相似商品 商品相似是指商品在购物 动作中的相似性。即商品A与B 进后的算法我们暂称为New—Apriori,它具有更高的效率和准确度。 随着互联网的普及和电子 络营销的一种有效手段,保留住 频繁地同时出现在购物车中,那 商务的迅猛发展,人类进入了信 客户并为商家获取利润,推动电 么我们就说A与B是相似的。当 息社会和网络经济时代,电子商 子商务的发展。这里我们用商品 商品A被搜索时,系统同时把B 务系统为用户提供的选择也更 搜索充当商品推荐的角色。 多了,但是用户经常会被大量的 商品信息淹没,无法顺利找到自 己满意的需求商品。此外,电子商 务打破了传统的时空界限,更加 一也返回给顾客,这里选择数据挖 掘中的关联规则算法。 、搜索的整体设计 (一)关联规则的定义 我们这里的商品搜索,分为 挖掘关联规则就是发现存 突出个性化和智能化。那么未来 普通搜索和高级搜索,普通搜索 在于大数据集中的关联规则或 的电子商务必然会加强个I生化商 即关键字搜索。高级搜索输入的 相关性,即先发现某些常在一起 品的需求和智能化的商品推荐。 内容是目标商品名称。输出内容 出现的属性(谓词或项),然后以 好的商品推荐模型类似一名优秀 包括与搜索的商品“相似”的商 规则的形式来符号化它们之间 的关系。的导购员,同时它也可以作为网 品和结合顾客特点的目标商品。 关联规则是形如x==>Y的 图1 高级搜索商品推荐模型图 蕴含式,其中X?I,Y?I且x?Y=?, x称为规则的条件,Y称为规则 的结果。关联规则算法进行挖掘 即给定一组Item和记录集合,挖 掘出Item间的相关I生,使其置信 度和支持度分别大于用户给定的 最小置信度、最小支持度。 (二)关联规则Apriori算法 这里选择Apriori算法,它 40 2007.9.15『中国信息界J 维普资讯 http://www.cqvip.com
图2利用Apriori算法生成频繁项的过程图 J条件是它的所有K一1维子集均 是频繁项目集。性质2:若K维 数据项目集x中有(K一1)维子 f集不是频繁项目集,则X不是频 :繁项目集。利用这两条性质我们 可以对数据库进行压缩,以提高 }算法效率。 首先我们考虑产生规则的 J准确性,例如有商品A、B、c。如 j某段时间,由于A和B的捆绑促 销,可能使得它掩盖了A和c的 是由R.Agrawal等人提出的 讲(见图2)。 关联,那么说这种规则是不准确 Apriori算法,算法分两步:一是 我们可以看到,每次生成频 f的。我们可以将事务数据库中售 找到所有支持度大于最小支持 繁K一项集,都要扫描数据库 j出的商品做标志:如:事务Tn中 度的项集,即频繁项集;二是使 lDB,这里得到的频繁项集为 :的“x”不应参加生成频繁项集, 用上一步找到的频繁项集产生1 {1,2,3},{1,2,5}。 1则“x”将出现在标志位上。以此 所期望的规则,这里的步骤一是 2,算法存在的不足 f来与正常售出的商品做区分。 算法的核心。 J(1)算法产生太多冗余规则。 改进算法New—Apriori描述 1,Apriori算法的基本思想 当数据库太大或支持度、置信度 如下:利用事务数据库DB生成 首先,通过扫描数据库,产 太低时产生的规则太多,客户很 候选1一项集C1,然后扫描数据 生一个大的候选数据项集,并计 难人为地对这些规则做出区分、 库,对每个项的出现次数计数, 算每个候选数据项发生的次数, 判断。 若某项里有不应参与生成频繁 然后基于预先给定的最小支持J (2)算法在效率上存在问题。 项的元素,则不参与。这样生成 度生成频繁1一项集的集合,该集 主要原因是因为数据库扫描的次 频繁1一项集,同时将不满足最小 合记作L1;然后基于L1和数据 数太多对于系统开销十分大。 支持度的项或项数少于2的从 集中的数据,生成频繁2一项集 (3)算法在产生规则时,规 事务数据库删除,产生新的事务 L2;用同样的办法,直到生成频 则的不准确性,这里规则的不准 数据库,再由u生成C2,然后 繁n一项集Ln,其中已不再可能 确性指规则的产生可能由一些 扫描新据库DB,对项的出现计 生成满足最小支持度的(N+I)一 干扰因素导致的。 数,生成频繁2一项集,这样可以 项集。最后,从大数据项集中导 3.Apriori算法的改进:New~ 减少候选2一项集中C2项的数 出规则。 Apriorl算法 量。同时删除不满足最小支持度 例子如下:设有数据库DB, 算法的改进主要考虑算法 的项和项数少于2的事务。依次 最小支持度2。这里我们假设T1 的效率及产生的频繁项集的准 类推,可以缩小事务数据库DB, 中的“1”、T3、T4、T5、中的“3”者B 确度。上文我们提到过Apriori 可以减少对数据库的访问次数、 是由于某些原因不应该参加生 算法可分解成两步,而第一步是 减少K一项集的数量,提高算法 成关联规则的项。用Apriori算 算法的核心,因此我们这里只对 效率。 法生成频繁项的过程如下,其中 第一步进行改进。为了更好地描 4.New—Apriori示例如下 表格按箭头分别为:DB、L1、C1 i 述算法的优化思想先给出频繁 我们还用上文中的例子,用 fL1、C1相同)、L2、C2、L3、C3。这 项目集的性质,性质1:K维数据 New—Apriori算法说明其查找频 里具体过程如上述,我们不再细 项目集x是频繁项目集的必要 繁项集的过程,如图:按流程依 r中国信息界J 2007.9.15 47 维普资讯 http://www.cqvip.com
论坛l<≤ : 次为DB、C1、L1(这里c1,L1相 数据,生成DB3。再扫描数据库 特点的商品。这样就能对顾客 同)、C2、L2、C3、L3(见图3)。 DB3,确定候选集C3,根据最小 推荐更精确,因为这相当于即 我们得到的频繁项为 支持度生成L3,这里L3为 了解客户又了解商品。k—means {1,2,3},这里我们利用Apriori {1,2,3}。这里通过做缩小事务 算法是经典的聚类算法,它简 算法产生频繁项的过程和结果 数据库达到提高搜索效率的目 单、快速,并且对处理大数据集 做比较,我们可以看到,扫描的 的,同时通过标志的设置,使关 来说,它是相对可伸缩和高效 数据库规模依次减小,扫描数 联更准确。 率的。这里我们选择它作为顾 据量减少,而且在开始就清除 了不应参与生成频繁项集的元 素,这样使得生成的规则也更 准确。 客分类的算法。 三、顾客分类 k-means算法的工作过程如 下:首先从n个数据对象任意选 采用聚类算法,根据客户 择k个作为初始聚类中心;而对 New—Apfiori算法的运作过 的特点进行分类,根据顾客的 于所剩下的其它对象,则根据它 程如下:扫描数据库DB,搜索事 基本信息和购买经历,如高收 们与这些聚类中心的相似度,分 经常购买高档商品等,进行 别将它们分配给与其最相似的 务数据及标志,并做统计,产生 入、数据库DB1,其中T1、T4、T6、T7 个性化的商品推荐。聚类分析 (聚类中心所代表的)聚类;然后 都在标志位发现不应参与算法 的结果是数据集的几个组 再计算每个所获新聚类的聚类 的项,所以相应的数据库变成 (类),这些组构成一个分区或 中心(该聚类中所有对象的均 DB1,用它继续挖掘做出的关联 分区结构。聚类分析的一个附 值);不断重复这一过程直到标 规则才更准确。扫描数据库 加结果是对每个类的综合描 准测度函数开始收敛为止。k个 DB1,生成候选项C1,找出大于 述。聚类是指将物理或抽象对 聚类具有以下特点:各聚类本身 最小支持度的频繁1一项集L1, 象的集合分类组成由类似的对 尽可能的紧凑,而各聚类之间尽 这里得到的C1、L1相同。此时把 象组成的多个类的过程。聚类 可能的分开。 不满足生成2一项集的1_7从数 技术可以将具有相同用户特 据库删除,此时数据库为DB2 征、购物习惯的用户分配到相 (可以看到此时的数据库已经缩 同的簇中,同类的用户具有相 小)L1连接生成C2,扫描DB2, 似性,聚类产生后,就可以在推 四.结 语 本文提出了基于关联规则 根据最小支持度生成IJ2,在 荐商品时借鉴这类用户的特点 和聚类算法的高级商品搜索模 DB2基础上删除项数少于3的 和爱好,推荐更适合这类客户 型,它可以应用于电子商务购物 系统,改善网络购物服务。能够 图3利用New—Apriori算法生成频繁项集的过程图 更多的考虑客户的个人需要,让 电子商务更加人性化、智能化。 是兼顾网络营销和顾客满意度 的一把双刃剑。但模型本身所涉 及的Apriori算法有很多不足, 这里进行了改进,使之在产生规 则的准确度和效率上有所提高。 但是对于商品搜索来讲,搜索的 速度至关重要,因此,对于算法 的效率仍需进一步的研究。 (作者单位:哈尔滨商业大学) 42 2007.9.15 f中国信息界J
因篇幅问题不能全部显示,请点此查看更多更全内容