最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 【每日一题】小题提取辅助商业决策的关键性数据

    文章目录

    一些要记住的小话题

    数据挖掘的定义:

    技术层面:数据挖掘是从大量不完整、嘈杂、模糊和随机的实际应用数据中提取隐藏的、未知的但可能有用的信息的过程。

    业务层面:数据挖掘是一种新的业务信息处理技术。其主要特点是对业务业务数据进行提取、转换、分析等建模处理,从中提取辅助业务决策的关键数据。

    符号:

    技术层面:从5的实际应用数据中,提取3的信息。

    业务级别:4 业务数据,来自……

    分类和聚类的区别:

    计算

    余弦相似度:将两个向量相乘并除以它们的模数。

    在这里插入图片描述

    相关系数:归一化余弦相似度。相关系数越接近1或-1,两个特征之间的相关性越强,越接近0,相关性越弱。

    在这里插入图片描述

    欧几里得距离:

    d=(p1x−p2x)2+(p1y−p2y)2d=sqrt{(p1_x-p2_x)^2+(p1_y-p2_y)^2}d=(p1x​−p2x​)2+(p1y​− p2y​)2​

    在这里插入图片描述

    曼哈顿距离:

    d=∣(p1x−p2x)∣+∣(p1y−p2y)∣d=|(p1_x-p2_x)|+|(p1_y-p2_y)|d=∣(p1x​−p2x​)∣+∣(p1y​ −p2y​)∣

    在这里插入图片描述

    截断的意思:

    预订 p24.

    指定0到100之间的百分位数p,舍弃高端和低端(p/2)%数据,然后用常规方法计算均值,结果就是截断均值。标准均值对应于 p= 0% 截断平均值。

    示例问题:计算 {1,2,3,4,5,90} 值集的 p=40% 的截断平均值。

    答案:3.5.

    大主题分类ID3

    递归终止的条件:

    在这里插入图片描述

    第一步:计算信息总量(标签)

    在这里插入图片描述

    步骤2:选择一个作为根节点。

    如果选择天气作为根节点:

    在这里插入图片描述

    如果选择温度作为根节点:

    在这里插入图片描述

    如果选择湿度作为节点:

    在这里插入图片描述

    如果选择wind作为根节点:

    在这里插入图片描述

    选择信息增益最大的节点作为根节点。

    因此,我们这里选择天气作为根节点。

    第三步:

    计算天气晴朗时的信息增益。

    可以看出,湿度为下一个节点时信息增益最大,所以中图是正确的。

    在这里插入图片描述

    Step 4:计算天气多云时的信息增益。

    再往下看,我们看到当天气多云时灰色关联度分析r语言,目标属性都是一个值。那么就不需要计算信息增益了。

    在这里插入图片描述

    Step 5:计算天气作为降雨的信息增益。

    在这里插入图片描述

    最终决策树:

    在这里插入图片描述

    可以这样绘制:属性是圆圈,标签是框。

    在这里插入图片描述

    练习:

    ps:

    我们将在考试中将信息写为熵;

    数据集为S,属性为风的划分,则其信息增益表示为Gain(S,wind);

    在这里插入图片描述

    其实和上面的例子是一样的,大概的流程格式如下(字太难看,大家看一下):

    在这里插入图片描述

    C4.5

    信息增益率=信息增益/拆分信息。

    在这里插入图片描述

    为什么要有信息增益率?

    A:因为要考虑获取信息收益所付出的“代价”。

    如何计算信息增益率:

    如上表所示,如果以温度为划分,总共有14个样品:4热,6温和,4冷。

    但:

    在这里插入图片描述

    CART(基尼系数)

    CART算法使用基尼系数来衡量一个属性变量的测试输出的两组值之间的差异。理想的分组应该尽量减少两组样本输出变量值的差异之和,即“纯度”最大,即两组输出变量的差异下降最快,“纯度”上升最快。

    如何计算基尼系数?

    示例 1:

    label1=5,
    label2=5;
    

    但:

    p(1)=0.5;
    p(2)=0.5;
    Gini=1-p(1)*p(1)-p(2)*p(2)=0.5;
    

    示例 2:

    label1=8,
    label2=2;
    

    但:

    p(1)=0.8;
    p(2)=0.2;
    Gini=1-p(1)*p(1)-p(2)*p(2)=0.32;
    

    示例 3:

    label1=0,
    label2=1;
    

    但:

    p(1)=0;
    p(2)=1;
    Gini=1-p(1)*p(1)-p(2)*p(2)=0;
    

    从以上三个例子可以看出,当基尼系数为0.5时,表示该属性的分类处于非常混乱的状态,而当基尼系数为0时,则表示该分类这个属性的分数很纯。

    如果一个属性的基尼系数都非常小,那么我们可以说这个属性是一个很好的类区分属性。

    – 所以我们可以通过基尼系数来选择属性。

    基尼权重的计算:

    在这里插入图片描述

    带房间:3

    无家可归者:7.

    有房者3人未欠费,0人欠费。那么基尼=1-1=0

    无房者,4人不拖欠,3人拖欠。那么基尼=1-(3/7)x(3/7)-(4/7)x(4/7)=24/49

    所以加权基尼系数为:3/10 x 0+7/10 x 24/49 = 12/35

    关于基尼系数增益,见这里:决策树:什么是基尼系数(“杂质增益指数系数”的判别)

    K-最近邻

    在这里插入图片描述

    ID3、C4.5、K-近邻优缺点,分类评价

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    朴素贝叶斯

    在这里插入图片描述

    为什么朴素贝叶斯是朴素的?

    因为它假设样本特征相互独立,没有相关性。而这在现实中是不存在的。

    怎么用它来分类——看看这个,瞬间就知道了:【决策树算法4】朴素贝叶斯算法数据挖掘期末考试计算题详细步骤讲解

    在这里插入图片描述

    聚类 K 均值

    书 p112

    快速理解:

    在这里插入图片描述

    步:

    在这里插入图片描述

    过程:

    k-means算法的基本步骤

    从数据中选择k个对象作为初始聚类中心;计算每个聚类对象到聚类中心的距离进行划分;再次计算每个聚类中心以计算标准度量函数,并在达到最大迭代次数时停止。否则,继续。

    例子:

    在这里插入图片描述

    在这里插入图片描述

    k-means算法的优缺点:

    优点是算法易于描述、实现简单、速度快。

    缺点如下:

    (1)簇数k难以确定;

    (2)聚类结果对初始聚类中心的选择更加敏感;

    (3)对噪声和异常数据敏感;

    (4)不能用于查找非凸形状的簇,或各种大小的簇。

    星展扫描

    书籍 p127-130

    一个非常直观的DBSCAN算法演示:DBSCAN聚类动画演示

    相关概念:

    在这里插入图片描述

    核心点:在半径r附近,数据点的个数不小于某个阈值。

    边界点:属于一个簇的非核心点。

    异常值:不属于任何一类的点。

    在这里插入图片描述

    例子:

    在这里插入图片描述

    解开:

    在这里插入图片描述

    在这里插入图片描述

    DBSCAN算法的优点: **可以识别任意形状和不同大小的簇,自动确定簇的数量,分离簇和环境噪声,一次扫描数据完成聚类。**如果使用空间索引,则 DBSCAN 的计算复杂度为 O(N log N),否则为 O(N2).

    一次通过聚类算法

    预订 p138-140.

    的优点和缺点:

    保存流:

    优点:近似线性时间复杂度;效率高,参数选择简单,对噪声不敏感。

    缺点:不能用于寻找非凸形状的簇,或各种大小的簇;对数据样本的顺序敏感

    无流:

    one-pass 聚类算法具有近似线性的时间复杂度,类似于 k-means 算法,它本质上将数据划分为大小几乎相同的超球体,不能用于寻找非凸形或各种大小的聚类。簇。

    对于具有任意形状簇的数据集,该算法可能会将一个较大的自然簇划分为若干个小簇,很难得到理想的聚类结果。与k-means算法不同的是,one-pass聚类算法对数据样本的顺序敏感,聚类得到的聚类数量受聚类阈值变化的影响。对于大规模数据集的聚类,可以采用类似于BIRCH算法的两阶段聚类思想,结合一次性聚类算法的效率和其他聚类的优点,得到混合聚类算法可以识别任意形状的集群的算法。如果选择较小的阈值,则使用聚类算法生成初始聚类,将得到的聚类作为一个整体,然后利用DBSCAN、Chameleon、SNN等可以识别任意形状数据的算法进行聚类。好结果。

    在这里插入图片描述

    层次聚类

    预订 p121.

    层次聚类方法可以分为自顶向下和自底向上。

    自下而上的聚合层次聚类方法(或聚合层次聚类)。这种自下而上的策略是最初将每个对象(自身)视为一个簇,然后将这些簇聚合起来构造越来越大的簇,直到所有对象聚合成一个簇,或者满足某个终止条件。绝大多数层次聚类方法都属于这一类,但聚类之间相似性的定义不同。

    层次聚类方法的自上而下分解(或拆分层次聚类)。这种方法的策略与自下而上的凝聚层次聚类方法相反。它首先将所有对象放在同一个簇中,然后不断分解,得到越来越小的簇,但越来越小的簇,直到所有对象自行形成簇,或者满足一定的终止条件。

    在这里插入图片描述

    相关分析

    示例问题如下:

    在这里插入图片描述

    对 {A} 的支持:{A} 的出现次数除以事务数(此处为 10).

    找到最大频繁项集

    在这里插入图片描述

    L3 不存在,所以 L2{AC}{DE}, L1{A}{B}{C}{D}{E}{F}

    最大频繁项集:{AC}{DE}{B}{F}

    {B}{F}是怎么来的:L1中不能出现在L2中的频繁项集,L2中不能出现在L3中的频繁项集也是最大的频繁项集。

    注意:

    书 p155 说,对于频繁的 2 项集,如果第一项相同,则合并并组合以生成候选 3 项集。所以这里的 {AC}{DE} 不能合并到候选 3 项集中。

    查找所有强关联规则

    强关联规则:同时满足最低支持和信心。

    我们已经在第一个问题中找到了频繁项集,因此我们只需要在频繁项集中找到>=60% 的置信度即可。

    置信度:P(A->C) 表示当 A 发生时 C 也会发生灰色关联度分析r语言,即 P(AC)/P(A)。

    在这里插入图片描述

    Apriori 算法利用上述属性逐层生成关联规则。首先生成只有一个结果的关联规则,然后将这些关联规则的结果两两组合,生成具有两个结果的候选关联规则,然后从这些候选关联规则中找到强关联规则,以此类推。.

    例如,{abcd} 是一个频繁项集,如果 {acd}→{(b} 和 {abd}→{c} 是两个高置信度规则,那么通过合并这两个规则的后件 {bc},前件候选规则为{abcd)-{bc}={ad},得到候选规则{ad}→{bc}。

    异常值挖掘(OF1、OF3)

    允许合理的异常值。

    x 的 k 最近邻的集合 (x,k) 可能包含多于 k 个对象。

    OF1

    概念:

    在这里插入图片描述

    例子:

    在这里插入图片描述

    步:

    k=2,然后选择离P1、P2最近的两个点(如果距离相同,都算),计算它们的距离。

    比较它们的平均值哪个更大,更大的是异常值(毕竟越大的距离越远)。

    在这里插入图片描述

    在这里插入图片描述

    OF3

    询问 P1、P2 哪个点是异常值。

    已知有三个簇,计算这三个簇的质心。

    计算从点到质心的欧几里得距离。

    OF3是它的加权距离长度——如果一共有N个点,而这个簇有n个点,那么这个簇的距离就是P点到质心的欧几里得距离xn/N(详见答案,一眼就能看懂)。

    较大的 OF3 值是异常值,因为它们距离较远。

    在这里插入图片描述

    回答:

    在这里插入图片描述

    所以 P1 是一个异常值。

    稍后了解:

    在这里插入图片描述

    简短的回答

    评估分类模型准确性的方法包括:保持法、随机二次抽样、交叉验证和自举。

    关联规则挖掘算法可以分为两个步骤:

    生成频繁项集:找到所有满足最小支持度阈值的项集,即频繁项集生成规则:从上一步找到的频繁项集中提取大于置信度阈值的规则,即强规则。

    聚类算法:

    K-means算法的流程:

    随机选择 k 个对象,每个对象代表每个剩余对象的初始均值或簇中心,根据其与每个簇中心的距离将其分配到最近的簇,然后计算每个簇的新均值,更新后的簇重复中心直到标准函数收敛

    在这里插入图片描述

    在这里插入图片描述

    参考

    《数据挖掘原理与实践》-电子工业出版社

    兄弟姐妹留下的轮廓

    评估数据之间的相似度指标—-距离

    【决策树算法一】ID3算法数据挖掘期末考试计算题详细步骤

    【数据挖掘】决策树零基础入门教程,教你一步步学习决策树!

    机器学习:信息熵、基尼系数、条件熵、条件基尼系数、信息增益、信息增益比、基尼增益、决策树代码实现(一)

    Apriori算法原理

    期末数据挖掘关联规则计算大问题的Apriori算法

    一个非常直观的DBSCAN算法演示:DBSCAN聚类动画演示

    【帅基学习/星星】DBSCAN算法

    【10分钟算法】K-Means聚类算法-附示例/K-Means聚类算法

    【期末重点】数据挖掘

    什么是 KNN(K-最近邻算法)?【你知道多少】

    【决策树算法4】朴素贝叶斯算法数据挖掘期末考试计算题详细步骤讲解

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 【每日一题】小题提取辅助商业决策的关键性数据

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论