基于数据挖掘的电子商务商品推荐

来源：爱够旅游网

维普资讯 http://www.cqvip.com

■囝●冒Ｉ　＿　基于数据挖掘的电子商务商品推荐　■张洪瀚姜娇娇　［摘要］　随着电子商务网站商品信息量的增加，目前的商品搜　索的很多弊端已经显现出来，它已经不适合电子商务的高速发展。　本文将提出基于数据挖掘技术的个性化商品推荐的模型。它具有发　掘潜在客户，增加销售机会的功能。并改进了其中的Ａｐｒｉｏｒｉ算法，改　高级搜索商品推荐模型如图１。　二、相似商品　商品相似是指商品在购物　动作中的相似性。即商品Ａ与Ｂ　进后的算法我们暂称为Ｎｅｗ—Ａｐｒｉｏｒｉ，它具有更高的效率和准确度。　随着互联网的普及和电子　络营销的一种有效手段，保留住　频繁地同时出现在购物车中，那　商务的迅猛发展，人类进入了信　客户并为商家获取利润，推动电　么我们就说Ａ与Ｂ是相似的。当　息社会和网络经济时代，电子商　子商务的发展。这里我们用商品　商品Ａ被搜索时，系统同时把Ｂ　务系统为用户提供的选择也更　搜索充当商品推荐的角色。　多了，但是用户经常会被大量的　商品信息淹没，无法顺利找到自　己满意的需求商品。此外，电子商　务打破了传统的时空界限，更加　一也返回给顾客，这里选择数据挖　掘中的关联规则算法。　、搜索的整体设计　（一）关联规则的定义　我们这里的商品搜索，分为　挖掘关联规则就是发现存　突出个性化和智能化。那么未来　普通搜索和高级搜索，普通搜索　在于大数据集中的关联规则或　的电子商务必然会加强个Ｉ生化商　即关键字搜索。高级搜索输入的　相关性，即先发现某些常在一起　品的需求和智能化的商品推荐。　内容是目标商品名称。输出内容　出现的属性（谓词或项），然后以　好的商品推荐模型类似一名优秀　包括与搜索的商品“相似”的商　规则的形式来符号化它们之间　　的关系。的导购员，同时它也可以作为网　品和结合顾客特点的目标商品。　关联规则是形如ｘ＝＝＞Ｙ的　图１　高级搜索商品推荐模型图　蕴含式，其中Ｘ？Ｉ，Ｙ？Ｉ且ｘ？Ｙ＝？，　ｘ称为规则的条件，Ｙ称为规则　的结果。关联规则算法进行挖掘　即给定一组Ｉｔｅｍ和记录集合，挖　掘出Ｉｔｅｍ间的相关Ｉ生，使其置信　度和支持度分别大于用户给定的　最小置信度、最小支持度。　（二）关联规则Ａｐｒｉｏｒｉ算法　这里选择Ａｐｒｉｏｒｉ算法，它　４０　２００７．９．１５『中国信息界Ｊ　维普资讯 http://www.cqvip.com

图２利用Ａｐｒｉｏｒｉ算法生成频繁项的过程图　Ｊ条件是它的所有Ｋ一１维子集均　是频繁项目集。性质２：若Ｋ维　数据项目集ｘ中有（Ｋ一１）维子　ｆ集不是频繁项目集，则Ｘ不是频　：繁项目集。利用这两条性质我们　可以对数据库进行压缩，以提高　｝算法效率。　首先我们考虑产生规则的　Ｊ准确性，例如有商品Ａ、Ｂ、ｃ。如　ｊ某段时间，由于Ａ和Ｂ的捆绑促　销，可能使得它掩盖了Ａ和ｃ的　是由Ｒ．Ａｇｒａｗａｌ等人提出的　讲（见图２）。　关联，那么说这种规则是不准确　Ａｐｒｉｏｒｉ算法，算法分两步：一是　我们可以看到，每次生成频　ｆ的。我们可以将事务数据库中售　找到所有支持度大于最小支持　繁Ｋ一项集，都要扫描数据库　ｊ出的商品做标志：如：事务Ｔｎ中　度的项集，即频繁项集；二是使　ｌＤＢ，这里得到的频繁项集为　：的“ｘ”不应参加生成频繁项集，　用上一步找到的频繁项集产生１　｛１，２，３｝，｛１，２，５｝。　１则“ｘ”将出现在标志位上。以此　所期望的规则，这里的步骤一是　２，算法存在的不足　ｆ来与正常售出的商品做区分。　算法的核心。　　Ｊ（１）算法产生太多冗余规则。　改进算法Ｎｅｗ—Ａｐｒｉｏｒｉ描述　１，Ａｐｒｉｏｒｉ算法的基本思想　当数据库太大或支持度、置信度　如下：利用事务数据库ＤＢ生成　首先，通过扫描数据库，产　太低时产生的规则太多，客户很　候选１一项集Ｃ１，然后扫描数据　生一个大的候选数据项集，并计　难人为地对这些规则做出区分、　库，对每个项的出现次数计数，　算每个候选数据项发生的次数，　判断。　若某项里有不应参与生成频繁　然后基于预先给定的最小支持Ｊ　（２）算法在效率上存在问题。　项的元素，则不参与。这样生成　度生成频繁１一项集的集合，该集　主要原因是因为数据库扫描的次　频繁１一项集，同时将不满足最小　合记作Ｌ１；然后基于Ｌ１和数据　数太多对于系统开销十分大。　支持度的项或项数少于２的从　集中的数据，生成频繁２一项集　（３）算法在产生规则时，规　事务数据库删除，产生新的事务　Ｌ２；用同样的办法，直到生成频　则的不准确性，这里规则的不准　数据库，再由ｕ生成Ｃ２，然后　繁ｎ一项集Ｌｎ，其中已不再可能　确性指规则的产生可能由一些　扫描新据库ＤＢ，对项的出现计　生成满足最小支持度的（Ｎ＋Ｉ）一　干扰因素导致的。　数，生成频繁２一项集，这样可以　项集。最后，从大数据项集中导　３．Ａｐｒｉｏｒｉ算法的改进：Ｎｅｗ～　减少候选２一项集中Ｃ２项的数　出规则。　Ａｐｒｉｏｒｌ算法　量。同时删除不满足最小支持度　例子如下：设有数据库ＤＢ，　算法的改进主要考虑算法　的项和项数少于２的事务。依次　最小支持度２。这里我们假设Ｔ１　的效率及产生的频繁项集的准　类推，可以缩小事务数据库ＤＢ，　中的“１”、Ｔ３、Ｔ４、Ｔ５、中的“３”者Ｂ　确度。上文我们提到过Ａｐｒｉｏｒｉ　可以减少对数据库的访问次数、　是由于某些原因不应该参加生　算法可分解成两步，而第一步是　减少Ｋ一项集的数量，提高算法　成关联规则的项。用Ａｐｒｉｏｒｉ算　算法的核心，因此我们这里只对　效率。　法生成频繁项的过程如下，其中　第一步进行改进。为了更好地描　４．Ｎｅｗ—Ａｐｒｉｏｒｉ示例如下　表格按箭头分别为：ＤＢ、Ｌ１、Ｃ１　ｉ　述算法的优化思想先给出频繁　我们还用上文中的例子，用　ｆＬ１、Ｃ１相同）、Ｌ２、Ｃ２、Ｌ３、Ｃ３。这　项目集的性质，性质１：Ｋ维数据　Ｎｅｗ—Ａｐｒｉｏｒｉ算法说明其查找频　里具体过程如上述，我们不再细　项目集ｘ是频繁项目集的必要　繁项集的过程，如图：按流程依　ｒ中国信息界Ｊ　２００７．９．１５　４７　维普资讯 http://www.cqvip.com

论坛ｌ＜≤　：　次为ＤＢ、Ｃ１、Ｌ１（这里ｃ１，Ｌ１相　数据，生成ＤＢ３。再扫描数据库　特点的商品。这样就能对顾客　同）、Ｃ２、Ｌ２、Ｃ３、Ｌ３（见图３）。　ＤＢ３，确定候选集Ｃ３，根据最小　推荐更精确，因为这相当于即　我们得到的频繁项为　支持度生成Ｌ３，这里Ｌ３为　了解客户又了解商品。ｋ—ｍｅａｎｓ　｛１，２，３｝，这里我们利用Ａｐｒｉｏｒｉ　｛１，２，３｝。这里通过做缩小事务　算法是经典的聚类算法，它简　算法产生频繁项的过程和结果　数据库达到提高搜索效率的目　单、快速，并且对处理大数据集　做比较，我们可以看到，扫描的　的，同时通过标志的设置，使关　来说，它是相对可伸缩和高效　数据库规模依次减小，扫描数　联更准确。　率的。这里我们选择它作为顾　据量减少，而且在开始就清除　了不应参与生成频繁项集的元　素，这样使得生成的规则也更　准确。　客分类的算法。　三、顾客分类　ｋ－ｍｅａｎｓ算法的工作过程如　下：首先从ｎ个数据对象任意选　采用聚类算法，根据客户　择ｋ个作为初始聚类中心；而对　Ｎｅｗ—Ａｐｆｉｏｒｉ算法的运作过　的特点进行分类，根据顾客的　于所剩下的其它对象，则根据它　程如下：扫描数据库ＤＢ，搜索事　基本信息和购买经历，如高收　们与这些聚类中心的相似度，分　经常购买高档商品等，进行　别将它们分配给与其最相似的　务数据及标志，并做统计，产生　入、数据库ＤＢ１，其中Ｔ１、Ｔ４、Ｔ６、Ｔ７　个性化的商品推荐。聚类分析　（聚类中心所代表的）聚类；然后　都在标志位发现不应参与算法　的结果是数据集的几个组　再计算每个所获新聚类的聚类　的项，所以相应的数据库变成　（类），这些组构成一个分区或　中心（该聚类中所有对象的均　ＤＢ１，用它继续挖掘做出的关联　分区结构。聚类分析的一个附　值）；不断重复这一过程直到标　规则才更准确。扫描数据库　加结果是对每个类的综合描　准测度函数开始收敛为止。ｋ个　ＤＢ１，生成候选项Ｃ１，找出大于　述。聚类是指将物理或抽象对　聚类具有以下特点：各聚类本身　最小支持度的频繁１一项集Ｌ１，　象的集合分类组成由类似的对　尽可能的紧凑，而各聚类之间尽　这里得到的Ｃ１、Ｌ１相同。此时把　象组成的多个类的过程。聚类　可能的分开。　不满足生成２一项集的１＿７从数　技术可以将具有相同用户特　据库删除，此时数据库为ＤＢ２　征、购物习惯的用户分配到相　（可以看到此时的数据库已经缩　同的簇中，同类的用户具有相　小）Ｌ１连接生成Ｃ２，扫描ＤＢ２，　似性，聚类产生后，就可以在推　四．结　语　本文提出了基于关联规则　根据最小支持度生成ＩＪ２，在　荐商品时借鉴这类用户的特点　和聚类算法的高级商品搜索模　ＤＢ２基础上删除项数少于３的　和爱好，推荐更适合这类客户　型，它可以应用于电子商务购物　系统，改善网络购物服务。能够　图３利用Ｎｅｗ—Ａｐｒｉｏｒｉ算法生成频繁项集的过程图　更多的考虑客户的个人需要，让　电子商务更加人性化、智能化。　是兼顾网络营销和顾客满意度　的一把双刃剑。但模型本身所涉　及的Ａｐｒｉｏｒｉ算法有很多不足，　这里进行了改进，使之在产生规　则的准确度和效率上有所提高。　但是对于商品搜索来讲，搜索的　速度至关重要，因此，对于算法　的效率仍需进一步的研究。　（作者单位：哈尔滨商业大学）　４２　２００７．９．１５　ｆ中国信息界Ｊ　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

基于数据挖掘的电子商务商品推荐