当前位置:   article > 正文

【数据挖掘】数据挖掘总结 ( 模式挖掘 | Apriori 算法 | 支持度 | 置信度 | 关联规则 ) ★★_数据挖掘 置信度

数据挖掘 置信度





一、 支持度 置信度



给定 X , Y \rm X , Y X,Y 两个项集 , 并且有 X ≥ Y \rm X \geq Y XY ;

支持度 : X ⇒ Y \rm X \Rightarrow Y XY 的支持度是 X , Y \rm X , Y X,Y 两个项集在数据库 D \rm D D同时出现的概率 , 即 P r ( X ∪ Y ) \rm Pr(X \cup Y) Pr(XY)

置信度 : X ⇒ Y \rm X \Rightarrow Y XY 的置信度度是 X \rm X X 出现的前提下 , Y \rm Y Y 项集在数据库 D \rm D D 中同时出现的概率 , 即 P r ( Y ∣ X ) = P r ( X ∪ Y ) P r ( X ) \rm Pr(Y|X) = \cfrac{Pr(X \cup Y)}{Pr(X)} Pr(YX)=Pr(X)Pr(XY)


一般情况下 置信度 大于 支持度 ;


支持度用于找出 频繁项集 ;

置信度用于找出 关联规则 ;





二、 频繁项集



项集 X \rm X X支持度 s u p p o r t ( X ) \rm support(X) support(X) , 大于等于 指定的 最小支持度阈值 m i n s u p \rm minsup minsup ,

则称该 项集 X \rm X X频繁项集 ,

又称为 频繁项目集 ;





三、 非频繁项集



项集 X \rm X X支持度 s u p p o r t ( X ) \rm support(X) support(X) , 小于 指定的 最小支持度阈值 m i n s u p \rm minsup minsup ,

则称该 项集 X \rm X X非频繁项集 ,

又称为 非频繁项目集 ;





四、 Apriori 算法过程



在这里插入图片描述

原始数据集 D \rm D D ,

1 1 1 项集 C 1 \rm C_1 C1 , 2 2 2 项集 C 2 \rm C_2 C2 , ⋯ \cdots , k \rm k k 项集 C k \rm C_k Ck , 这些项集都是候选项集 ,


根据 原始数据集 D \rm D D , 创造 1 1 1 项集 C 1 \rm C_1 C1 , 然后对 C 1 \rm C_1 C1 执行 数据集扫描函数 , 找到其中的 频繁 1 1 1 项集 L 1 \rm L_1 L1 ,

根据 频繁 1 1 1 项集 L 1 \rm L_1 L1 , 创造 2 2 2 项集 C 2 \rm C_2 C2 , 然后对 C 2 \rm C_2 C2 执行 数据集扫描函数 , 找到其中的 频繁 2 2 2 项集 L 2 \rm L_2 L2 ,

⋮ \vdots

根据 频繁 k − 1 \rm k-1 k1 项集 L k − 1 \rm L_{k-1} Lk1 , 创造 k \rm k k 项集 C k \rm C_k Ck , 然后对 C k \rm C_k Ck 执行 数据集扫描函数 , 找到其中的 频繁 k \rm k k 项集 L k \rm L_k Lk ,


参考博客 : 【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )





五、模式挖掘示例



如下事物数据库 , 最小支持度 60 % \rm 60\% 60% , 最小置信度 80 % \rm 80\% 80% ;

TIDItem
T1 { M , O , N , K , E , Y } \rm \{ M, O, N , K, E, Y \} {M,O,N,K,E,Y}
T2 { D , O , N , K , E , Y } \rm \{ D, O, N , K, E, Y \} {D,O,N,K,E,Y}
T3 { M , A , K , E } \rm \{ M, A , K, E \} {M,A,K,E}
T4 { M , U , C , K , Y } \rm \{ M, U, C , K, Y \} {M,U,C,K,Y}
T5 { C , O , O , K , I , E } \rm \{ C, O, O , K, I , E \} {C,O,O,K,I,E}

( 1 ) 使用 Apriori 算法找出所有频繁项集 ;

( 2 ) 写出关联规则 ;



( 1 ) 使用 Apriori 算法找出所有频繁项集 :

根据原始数据集 D \rm D D 创造 1 1 1 项集 C 1 \rm C_1 C1 , 如下 :

Item支持度
{ A } \rm \{ A \} {A} 20 % \rm 20\% 20%
{ C } \rm \{ C \} {C} 40 % \rm 40\% 40%
{ E } \rm \{ E \} {E} 80 % \rm 80\% 80%
{ I } \rm \{ I \} {I} 20 % \rm 20\% 20%
{ K } \rm \{ K \} {K} 80 % \rm 80\% 80%
{ M } \rm \{ M \} {M} 60 % \rm 60\% 60%
{ N } \rm \{ N \} {N} 40 % \rm 40\% 40%
{ O } \rm \{ O \} {O} 60 % \rm 60\% 60%
{ U } \rm \{ U \} {U} 20 % \rm 20\% 20%
{ Y } \rm \{ Y \} {Y} 60 % \rm 60\% 60%

1 1 1 项集 C 1 \rm C_1 C1 执行数据集扫描函数 , 找到频繁 1 1 1 项集 L 1 \rm L_1 L1 , 即筛选出支持度大于等于 60 % \rm 60\% 60% 1 1 1 项集 :

Item支持度
{ E } \rm \{ E \} {E} 80 % \rm 80\% 80%
{ K } \rm \{ K \} {K} 80 % \rm 80\% 80%
{ M } \rm \{ M \} {M} 60 % \rm 60\% 60%
{ O } \rm \{ O \} {O} 60 % \rm 60\% 60%
{ Y } \rm \{ Y \} {Y} 60 % \rm 60\% 60%

根据 频繁 1 1 1 项集 L 1 \rm L_1 L1 创造 2 2 2 项集 C 2 \rm C_2 C2 , 如下 :

Item支持度
{ E , K } \rm \{ E , K \} {E,K} 80 % \rm 80\% 80%
{ E , M } \rm \{ E, M \} {E,M} 40 % \rm 40\% 40%
{ E , O } \rm \{ E,O \} {E,O} 60 % \rm 60\% 60%
{ E , Y } \rm \{ E,Y \} {E,Y} 40 % \rm 40\% 40%
{ K , M } \rm \{ K,M \} {K,M} 40 % \rm 40\% 40%
{ K , O } \rm \{ K,O \} {K,O} 60 % \rm 60\% 60%
{ K , Y } \rm \{ K,Y \} {K,Y} 60 % \rm 60\% 60%
{ M , O } \rm \{ M,O \} {M,O} 20 % \rm 20\% 20%
{ M , Y } \rm \{ M,Y \} {M,Y} 40 % \rm 40\% 40%
{ O , Y } \rm \{ O,Y \} {O,Y} 40 % \rm 40\% 40%

2 2 2 项集 C 2 \rm C_2 C2 执行数据集扫描函数 , 找到频繁 2 2 2 项集 L 2 \rm L_2 L2 , 即筛选出支持度大于等于 60 % \rm 60\% 60% 2 2 2 项集 :

Item支持度
{ E , K } \rm \{ E , K \} {E,K} 80 % \rm 80\% 80%
{ E , O } \rm \{ E,O \} {E,O} 60 % \rm 60\% 60%
{ K , O } \rm \{ K,O \} {K,O} 60 % \rm 60\% 60%
{ K , Y } \rm \{ K,Y \} {K,Y} 60 % \rm 60\% 60%

根据 频繁 2 2 2 项集 L 2 \rm L_2 L2 创造 3 3 3 项集 C 3 \rm C_3 C3 , 如下 :

Item支持度
{ E , K , O } \rm \{ E , K, O \} {E,K,O} 60 % \rm 60\% 60%
{ E , O , Y } \rm \{ E,O , Y\} {E,O,Y} 40 % \rm 40\% 40%
{ K , O , Y } \rm \{ K,O , Y\} {K,O,Y} 40 % \rm 40\% 40%

3 3 3 项集 C 3 \rm C_3 C3 执行数据集扫描函数 , 找到频繁 3 3 3 项集 L 3 \rm L_3 L3 , 即筛选出支持度大于等于 60 % \rm 60\% 60% 3 3 3 项集 :

Item支持度
{ E , K , O } \rm \{ E , K, O \} {E,K,O} 60 % \rm 60\% 60%

最终得出结果 :

频繁 1 1 1 项集 : { E } , { K } , { M } , { O } , { Y } , \rm \{E\},\{K\},\{M\},\{O\},\{Y\}, {E},{K},{M},{O},{Y},

频繁 2 2 2 项集 : { E , K } , { E , O } , { K , O } , { K , Y } \rm \{E,K\},\{E,O\},\{K,O\},\{K,Y\} {E,K},{E,O},{K,O},{K,Y}

频繁 3 3 3 项集 : { E , K , O } \rm \{E,K,O\} {E,K,O}



( 2 ) 写出关联规则 ;

置信度大于等于 80 % \rm 80\% 80% 就说明有关联规则 ;

基于 频繁 2 2 2 项集 L 2 \rm L_2 L2 的关联规则 :

置信度
E ⇒ K \rm E \Rightarrow K EK E K E = 4 4 = 1 \rm \cfrac{EK}{E} = \cfrac{4}{4} = 1 EEK=44=1
K ⇒ E \rm K \Rightarrow E KE E K K = 4 5 = 0.8 \rm \cfrac{EK}{K} = \cfrac{4}{5} = 0.8 KEK=54=0.8
E ⇒ O \rm E \Rightarrow O EO E O E = 3 4 = 0.75 \rm \cfrac{EO}{E} = \cfrac{3}{4} = 0.75 EEO=43=0.75
O ⇒ E \rm O\Rightarrow E OE E O O = 3 3 = 1 \rm \cfrac{EO}{O} = \cfrac{3}{3} = 1 OEO=33=1
K ⇒ O \rm K \Rightarrow O KO K O K = 3 5 = 0.6 \rm \cfrac{KO}{K} = \cfrac{3}{5} = 0.6 KKO=53=0.6
O ⇒ K \rm O \Rightarrow K OK K O O = 3 3 = 1 \rm \cfrac{KO}{O} = \cfrac{3}{3} = 1 OKO=33=1
K ⇒ Y \rm K \Rightarrow Y KY E K E = 3 5 = 0.6 \rm \cfrac{EK}{E} = \cfrac{3}{5} = 0.6 EEK=53=0.6
Y ⇒ K \rm Y \Rightarrow K YK E K E = 3 3 = 1 \rm \cfrac{EK}{E} = \cfrac{3}{3} = 1 EEK=33=1

基于 频繁 3 3 3 项集 L 3 \rm L_3 L3 的关联规则 :

置信度
E ⇒ K , O \rm E \Rightarrow K,O EK,O E K O E = 3 4 = 0.75 \rm \cfrac{EKO}{E} = \cfrac{3}{4} = 0.75 EEKO=43=0.75
K , O ⇒ E \rm K,O \Rightarrow E K,OE E K O K O = 3 3 = 1 \rm \cfrac{EKO}{KO} = \cfrac{3}{3} = 1 KOEKO=33=1
K ⇒ E , O \rm K \Rightarrow E,O KE,O K E O K = 3 5 = 0.6 \rm \cfrac{KEO}{K} = \cfrac{3}{5} = 0.6 KKEO=53=0.6
E , O ⇒ K \rm E,O\Rightarrow K E,OK E O K E O = 3 3 = 1 \rm \cfrac{EOK}{EO} = \cfrac{3}{3} = 1 EOEOK=33=1
O ⇒ E , K \rm O \Rightarrow E,K OE,K O E K O = 3 4 = 0.75 \rm \cfrac{OEK}{O} = \cfrac{3}{4} = 0.75 OOEK=43=0.75
E , K ⇒ O \rm E,K \Rightarrow O E,KO E K O E K = 3 4 = 0.75 \rm \cfrac{EKO}{EK} = \cfrac{3}{4} = 0.75 EKEKO=43=0.75

根据置信度 ≥ 80 % \rm \geq 80\% 80%关联规则有 :

L 2 \rm L_2 L2 关联规则 : E ⇒ K \rm E \Rightarrow K EK , K ⇒ E \rm K \Rightarrow E KE , O ⇒ E \rm O\Rightarrow E OE , O ⇒ K \rm O \Rightarrow K OK , Y ⇒ K \rm Y \Rightarrow K YK ;

L 3 \rm L_3 L3 关联规则 : K , O ⇒ E \rm K,O \Rightarrow E K,OE , E , O ⇒ K \rm E,O\Rightarrow K E,OK ;

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/908949
推荐阅读
相关标签
  

闽ICP备14008679号