最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 卡方检验:两组发癌率有无表,两组率有差别

    1、卡方检验:

    卡方检验是一种非常广泛使用的基于卡方分布的假设检验方法(用简单的语言统计)。参数检验的范围主要是比较两个或多个样本率(构成比)和两个分类变量的相关性分析。

    以操作为例:

    例如:两组大鼠在不同致癌物作用下的癌症发病率如下表所示。两组的癌症发病率是否有差异?

    总癌症率占治疗癌症人数的百分比

    A组

    52

    19

    71

    73.24

    B组

    39

    3

    42

    92.86

    总计

    91

    22

    113

    80.33

    (52 19 39 3) 这四个数据是整个表中的基础数据,其余数据由此计算;该表称为四折表,或2×2列联表. 从这个数据计算的两组癌症发病率分别为73.24%和92.86%,两者的差异可能是抽样误差造成的,也可能是癌症发病率(总体率) 确实不同。这里可以用卡方检验来区分差异是否具有统计学意义。检验的基本公式为:

    公式中A为实数,以上四张表中的四项数据为实数。 T是理论数,是根据检验假设推断出来的;即假设两组的癌症发病率没有差异,差异只是抽样误差造成的。这里,两组的总癌症发病率可视为理论癌症发病率,即91/113 =80.3%,在此基础上,对应的四个网格的理论数可以计算出四张表。下面以上表数据为例进行测试。

    测试步骤:

    p>

    1. 建立检验假设

    H0:两组癌症发病率存在差异

    H1:两组癌症发病率无差异

    α=0.05

    2.计算理论数(TRC),公式为:TRC=nR x nC/n

    其中 TRC 是表示 R 行 C 列中网格的理论数组间比较用t检验,nR 是同一行中理论数的总数,nC 是与理论数相同的列中的总数,n 是病例总数。

    1行1列:71×91/113=57.18

    第一行第二列:71×22/113=13.82

    第 2 行 1 列:42×91/113=33.82

    第 2 行和第 2 列:42×22/113=8.18

    计算结果,可与原四位实数列于下表:

    治疗癌症和未患癌症的总数

    A组

    52(57.18)

    19 (13.82)

    71

    B组

    39 (33.82)

    3 (8.18)

    42

    总计

    组间比较用t检验_t检验和t检验_组间比较用t检验

    91

    22

    113

    由于上表中每一行每一列的总数是固定的,所以只要用TRC公式得到其中一个理论数(例如T1.1=57. 18),剩下的三个理论数可以直接减去同一行或同一列的总数。

    3.计算卡方值并代入公式

    卡方

    4.查看卡方值表找到P值

    在查表之前,您应该知道这个问题的自由度。自由度v=(行数-1)(列数-1),则本题自由度v=(2-1)*(2-1)=1,查卡方边值表,找到

    ,而这个问题 chi-square=6.48 is chi-square>

    ,P<0.05,差异有统计学意义,根据α=0.05的水平,拒绝H0,可以认为存在差异两组的癌症发病率。

    通过实例计算,读者对卡方的基本公式有如下理解:理论数与对应的实际数相差越小,卡方值越小;如果两者相同,则卡方值必须为零,卡方值始终为正。因为每对理论和实际数字都加在卡方值上,所以组数越多,也就是格子越多,卡方值就越大。因此,在考虑卡方值的显着性时组间比较用t检验,还应考虑网格的数量。因此,当自由度较大时,卡方的边界值也会相应增加。

    2、 t 检验:

    T检验是对两个样本(或样本和组)的平均值差异程度的检验方法。数字差异是否显着。

    T检验的适用条件:

    为什么对小样本使用 t 检验?从抽样研究得到的样本均值的特征来看,只要样本量>60,(无论总体是否服从正态分布)抽样研究的样本均值服从或近似服从正态分布;如果样本量很小(参考样本量

    T 检验的目的:

    (1)比较样本均值和组均值,看差异是否显着;

    (2)比较两个样本均值,看差异是否显着。

    t-test,常见的三种场景:

    单样本t检验配对样本t检验双样本t检验

    2.1:单样本t检验:比较样本的情况和整体情况,看看有没有区别。

    比如现在知道广州的平均身高,现在我在天河区随机抽取100人,看看天河100人的平均身高和广州没有区别。

    需要满足的应用条件:测量数据、小样本、正态分布

    比较两个小样本时也需要方差齐性,但由于单样本t检验中没有两个小样本,所以无法检验方差齐性。

    #scipy.stats.ttest_1samp()检验数据总体的平均数是否可能等于给定值
    # (严格来说是否观察值来自于给定总体平均数的正态分布)
    #它返回一个T统计值以及p值
    import scipy.stats
    t, pval = scipy.stats.ttest_1samp(iris['petal_legth'], popmean=4.0)
    print(t, pval)
    # P=0.0959 > 5%, 接受原假设,即花瓣长度为4.0。
    

    2.2:Paired-sample t-test:比较一个样本条件前后有没有区别?

    比如现在有10个糖尿病患者,给他们同样的糖尿病控制药,看看这组患者用药前后有没有区别

    注:每位患者用药前后配对成对,故称为配对样本

    需要满足的应用条件:测量数据、配对设计、小样本、正态分布

    from  scipy.stats import ttest_rel
    import pandas as pd
    x = [20.5, 18.8, 19.8, 20.9, 21.5, 19.5, 21.0, 21.2]
    y = [17.7, 20.3, 20.0, 18.8, 19.0, 20.1, 20.0, 19.1]
    

    组间比较用t检验_t检验和t检验_组间比较用t检验

    # 配对样本t检验 print(ttest_rel(x, y)) # Ttest_relResult(statistic=1.8001958337730648, pvalue=0.1148515300576627) # 结论: 因为p值=0.1149>0.05, 故接受原假设, 认为在70℃时的平均断裂强力与80℃时的平均断裂强力间无显著差别

    2.3:两样本 t 检验:比较两样本样本的差异

    比如现在有10个男的一组,10个女的一组,看看不同性别的身高有没有差别

    需要满足的应用条件:测量数据,小样本,正态性,还要方差齐性

    如果方差齐,则可以进行双样本t检验,如果方差不相等,则需要其他检验方法。

    #取两个样本
    iris_1 = iris[iris.petal_legth >= 2]
    iris_2 = iris[iris.petal_legth < 2]
    print(np.mean(iris_1['petal_legth']))
    print(np.mean(iris_2['petal_legth']))
    '''
    H0: 两种鸢尾花花瓣长度一样
    H1: 两种鸢尾花花瓣长度不一样
    '''
    import scipy.stats
    t, pval = scipy.stats.ttest_ind(iris_1['petal_legth'],iris_2['petal_legth'])
    print(t,pval)
    '''
    p<0.05,拒绝H0,认为两种鸢尾花花瓣长度不一样
    '''
    

    t检验的步骤

    t 检验的步骤也是三管齐下的:建立假设;湾。验证测试; C。接受/拒绝假设

    转载:

    3、F 检验

    F 检验也称为方差齐性检验。 F检验用于双样本t检验。

    F检验方法是英国统计学家Fisher提出的,主要通过比较两组数据的方差来判断它们的精度是否存在显着差异。至于两组数据之间是否存在系统误差,在进行F检验后进行t检验,确定其精度差异不显着。

    # F test的原理非常简单,所以不妨自己写
    #先求出两个样本的方差的比值,再写出两个样本的自由度
    #然后就去查F分布的概率累计函数,就可以得到p value了
    from scipy.stats import f
    F = np.var(a) / np.var(b)
    df1 = len(a) - 1
    df2 = len(b) - 1
    p_value = 1 - 2 * abs(0.5 - f.cdf(F, df1, df2))
    

    t检验和t检验_组间比较用t检验_组间比较用t检验

    4、方差分析

    ANOVA相当于两样本t检验,可以分析三组或更多组数据升级版判断三组或更多组数据是否不同。

    方差分析有三个条件:

    1.每组样本数据对应的总体应服从正态分布;

    2.@ >每组样本数据对应的整体方差应该相等,方差相等,也叫方差齐性;

    3.各组之间的值是相互独立的,即A、B、C组的值不相互影响。

    3.1 ANOVA 过程3.1.1 建立假设

    H0:每组数据的均值相等;

    H1:各组数据的均值不等或不等。

    检查级别为0.05。

    3.1.2 计算检验统计量F值

    F 值 = 组间方差/组内方差。我们主要通过比较F值的大小来判断组间是否存在显着性差异。

    所谓组间方差是用来反映组间的差异程度,组内方差是用来反映各组内数据的差异程度。

    要计算方差,我们需要先计算平方和。为了让大家更容易理解,我们举个例子来说明一下各个指标是如何计算的。

    现在有两组数据:

    第一组:80、85、96

    第二组:110、125、130、145、160

    第一组和第二组的总算术平均值为:

    (80+85+96+110+125+130+145+160)/8 = 116.375.

    第一组的算术平均值:(80 +85+96)/3 = 87

    第二组的算术平均值:(110+125+130+145+160)/5 = 134

    组间平方和 (SSA):

    =第一组均值和总均值的平方和×第一组样本数+第二组均值和总均值和的平方×第二组样本数

    = (87-116.375)^2×3 + (134-116.375) ^2×5 = 4141. 875

    组内平方和 (SSE):

    = 第一组方块 + 第二组方块

    =(80-87)^2 +(85-87)^2 +(96-87)^2

    +(110- 134)^2 +(125-134)^2 +(130-134)^2 +(145-134)^ 2 +(160-134)^2

    =134+1470=1604

    总体平方和 (SST):

    =所有样本数据与总体均值平方和

    =(80-116.375)^2 +(85-116.375)^2 +(96- 116.37 5)^2

    +(110-116.375)^2 +(125-116.37 5)^2 +(130-116.37 5)^2 +(145-116.375)^2 +(160-116.375)^2

    =5745.875

    从上面的数据可以看出,SST = SSA + SSE

    总平方和有个问题,就是随着数据量的增加,这个值会增加,所以我们引入另一个概念:均方。均方 = 平方和 / 自由度,其中自由度是样本数 – 1。

    组间均方 (MSA) = SSA/DoF = 4141.875/(2-1) = 4141.875

    组内均方 (MSE) = SSE/自由度 = 1604/(8-2) = 267.333

    MSA也称为组间方差,MSE称为组内方差。

    F = MSA/MSE = 4141.875/267.333 = 15.4933

    3.1.3 确定边界值并做出决定

    此时,我们可以查看F表,得到置信度为95%时的F边界值:

    如果F,如果F≥F,则边界值表明各组数据存在显着差异,拒绝H0假设,接受H1假设。

    如果我们确认各组数据存在显着差异,此时可以比较各组的平均值。均值越大,策略效果越好。

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 卡方检验:两组发癌率有无表,两组率有差别

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论