最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 对拟南芥的基因数据进行两步处理,你了解多少?

    Abstract: 拟南芥幼苗经过不同盐浓度处理后,提取菌株的RNA进行RNA-SEQ分析。为了能够对这些遗传数据进行准确的分析,拟南芥幼苗的遗传数据将分两步处理。首先会对数据进行评估,包括对数据有一个大致的了解;然后提出了一种改进的主成分分析遗传分析算法。改进后的主成分分析方法不仅包含了原始基因数据的所有信息,而且弥补了传统主成分分析方法的缺陷。它既可以处理数据的非线性特征,又可以反映数据之间的变化信息,使数据处理更加简洁。 ,精确的。结果表明,盐胁迫对拟南芥DNA到RNA的后期加工(即转录)过程中RNA前体的加工方式影响不大。

    关键词:特征值;贡献率;标准化;主成分分析;范围归一化

    0 简介

    在生物信息学中,基因[1] 和环境控制着生物的特征。为了研究基因对生物体的影响,从拟南芥幼苗中提取基因,然后进行分析。由于幼苗受到不同程度的盐胁迫,经常会出现基因的多变量问题。一旦变量数量增加,问题的复杂性和难度也会增加。在实际问题中,这些变量之间也存在一定的关系。为了能够从中选出少数几个指标,使它们尽可能地包含原始变量的所有信息,达到用更少的指标反映原始基因信息的目的,所以进行主成分分析方法可以用于分析,更客观地反映样本之间的实际关系。

    1 拟南芥幼苗的处理及基因提取

    1.1 拟南芥幼苗处理

    (1)对种子进行灭菌,制备1/2 MS培养基配方。

    (2)种植后用封口膜包好,防止污染。放入冰箱4℃冷藏3天,再放入培养箱7天,再长出2片。后真叶,转移至 NaCl 浓度为 50 mM 和 200 mM 的 1/2 MS 培养基中。

    (3)未经任何处理,用50 mM和200 mM盐浓度处理的植物收获时间分别为7天、48小时和12小时。

    1.2 RNA提取和RNA-SEQ检测

    拟南芥幼苗用 3 种条件处理:正常未处理 (cd0)、50 mM 盐水溶液 (cd1)、200 mM 盐水 [2] 处理 (cd0))5).cd0 取两行,即 cd0WT1、cd0WT2;cd1 取三行:cd1WT0、cd1WT1、cd1WT2;cd5 取三行 cd5WT0、cd5WT1、cd5WT2.从上述菌株中提取它们的RNA,送到公司进行RNA-SEQ数据分析。

    由于DNA转RNA后期(即转录)的RNA前体的加工方式(即剪接方式)不同,造成不同的剪接,因此幼苗的特性会有所不同。实验分析了1 280条染色体上的基因数据。下面选取拟南芥第5条染色体上的一个基因AT5G43280对实验进行全面的概述。 AT5G43280的基因匹配数据与实验生物的最终结果最为一致。它有两种拼接形式,AT5G43280.1和AT5G43280.2。

    提取的RNA经过技术转化为cDNA,随机分片成90bp片段,大批量随机分片(每行192-400个片段不等)与比较AT5G43280.1和AT5G43280.2,计算只匹配AT5G43280.1的基因片段的比例,只匹配AT5G43280.2的比例,以及这两个基因所含有的片段比例同时,对数据进行分析得到的数据表如表1所示,范围归一化和直方图如图1所示。

    001.jpg

    表1中,0表示每90个bp加扰不匹配AT5G43280.1和AT5G43280.2; 1 表示该片段只存在于 AT5G43280.1 号中; 2表示只存在于AT5G43280.2中的片段数; 3 表示 AT5G43280.1 和 AT5G43280.2 中都存在的片段数。

    通过对AT5G43280数据的分析可以得出结论,未处理(cd0)拟南芥DNA到RNA的后期RNA前体加工(即转录[3-4])主要是AT5G4328 0.1拼接形式,50 mM盐处理(cd1),200 mM盐处理(cd5))拟南芥DNA-to-RNA(即转录)后期-RNA pre-RNA 机体大部分加工方式为AT5G43280.1 剪接形式,通过对这些基因数据的分析,得出盐胁迫影响拟南芥后期RNA前体加工的结论DNA 到 RNA(即转录)。影响不大。

    2 使用改进的主成分分析方法再次分析遗传数据

    在实际应用中,为了消除变量维度的影响主成分分析法r,往往对原始数据进行标准化,但标准化消除了维度或数量级的影响,同时也消除了各个指标变异程度的差异信息传统的主成分分析方法[5]基于相关系数矩阵对数据进行标准化,将数据之间的方差减小到1,消除了数据维度[6]和数据层次的影响,也忽略了度数数据指标之间的差异。 因此,本文采用集中对数比对原始数据进行变换。

    2.1改进的主成分分析方法步骤

    (1)假设有n个样本,每个样本共有p个变量,形成n×p阶的数据矩阵X。

    (2)对数变换

    利用集中的对数比对原始数据进行变换,一是处理数据的非线性特征,二是充分体现数据之间的可变性信息。

    yij=lnxij(1)

    (3)求解主成分

    求解主成分时,可以从样本协方差矩阵开始,也可以从样本相关系数矩阵开始。

    计算相关系数矩阵:

    R=r11 r12 L r1pr21 r22 L r2pM M L Mrp1 rp2 L rpp

    其中rij(i,j=1,2,3,…,p)为变量yi和yj之间的相关系数,rij=rji的计算公式为:

    (4)计算特征值[7]和特征向量

    ①求解特征方程|λI-R|=0,求特征值,按大小顺序排列(λ1≥λ2≥λ3…λP≥0),分别求对应特征值λi特征向量的。

    ②计算主成分贡献率[8]和累积贡献率。

    贡献率:

    累计贡献率:

    4.png

    累积贡献率[9]反映了前m个主成分综合原始变量信息的能力,通常取较小的m,当累积贡献率达到一定值(85%)时,累积方差贡献率 值越大,前几个主成分所包含的信息越丰富。对于m个主成分的数据,每个主成分可以表示为:

    fi=ei1z1+ei2z2+…+eizzp(i=1,2,3,…,m)

    因此主成分分析法r,总体评价是:

    2.2 主成分的指标分为强、中、弱三部分

    在基因分析中发现,各列(指标)之间的相关性影响评价指标权重系数的分布,权重系数会明显倾向于相关系数较高的变量。不同的研究者使用的评价标准不同,得到的结果也会不同。另外,由于不同盐浓度处理下幼苗提取的基因数据量较大,为了使最终的综合评价函数合理,可将主成分指标分为强、中、弱三部分,相关性强的指标可以分为三部分。分配给s1,相关性较弱的指标分配给s2,其余分配给中等相关性的s3,s1+s2+s3=A(A为整体遗传数据指标元素),所以相关性越强index得到函数f11,中等相关性的index得到函数f22,弱相关性的index得到函数f33(这三项的索引个数不一定相同),最终综合函数为:F= f11 +f22+f33。

    3个案例分析

    实验研究了拟南芥多条染色体上的基因,并分析了从这些植物中提取的数据。目的是研究用不同浓度的盐处理拟南芥幼苗是否会影响 DNA 到 RNA 的转录。方式有变化,导致拟南芥幼苗外观发生变化。

    (1)先用中心对数比变换原始数据,再用MATLAB得到数据的相关系数矩阵R:

    )XH3[09SQ6}((NE98E7}4PP.png

    从计算出的相关系数矩阵可以看出,第一、二、四列的相关性比较强,第六、七、八列的相关性中等,第三列与第5列的相关性为最弱的。它们根据相关性的强弱分为s1、s2、s3。计算R的特征值、差值、特征向量、贡献率和累积贡献率,得到主成分与变量的关系如表2所示。

    第一个主成分对所有主成分的贡献率为76.389 5%,01占比最大,因为索引1表示从DNA到RNA的转录方式是第一个因此,当标准变异为0、1、3时,这三个指标的取值比较大时,第一主成分的贡献率也较大。第二主成分对所有主成分的贡献率为17.155 0%,而2的比例较大。指标 2 表示 DNA 到 RNA 的转录方式是第二种剪接方式。 ,所以当标准变异为0、1、2、7时,这四个指标的值比较大,第二主成分的贡献率也比较大。前两个主成分的累积贡献率已经达到93.544 5%,所以后续分析只能使用前三个主成分。5.6%、0.6%、0.1%,没有任何解释。

    第一主成分分量的计算公式为:

    f1=0.369 5z1+0.4z2+0.050 2z3+0.612 6z4-0.230 2 z6-0.522 2z8

    第二主成分分量的计算公式为:

    f2=0.336 9z1+0.248 8z2+0.666 8z3+0.139 0z4+0.253 1z6+0.544 6z8

    综合评价函数为:F=a1f1+a2f2+…+amfm

    F=0.34z1+0.348 2z2+0.114 3z3+0.491 7z4-0.132 3z6-0.305 4z8

    由于主成分的指标分为强、中、弱三部分,所以最终的综合评价函数为F=f11+f22+f33。通过 f11=0.369 5z1+ 0.4z2+0.612 6z4, f22=0.050 2z3, f33=-0.230 2z6-0. 522 2z8,可用:

    F=0.369 5z1+0.4z2+0.050 2z3+0.612 6z4-0.230 2z6-0.522 2z8

    综合函数可知,s1中包含的索引0、1、3具有很强的相关性。改进后的主成分分析方法使得相关性强的集合更加明显,相关性更加明显。弱集相应地减弱,从而更容易分析盐胁迫对拟南芥基因的影响。由于0、1、3个指标​​的含义,很明显不同盐浓度下DNA到RNA的转录方式基本上是第一个剪接版本,浓度越高的拟南芥幼苗叶片生长在环境中的黄色和小,主要是受外界环境的影响,盐浓度对基因变化不大。

    4 个结论

    主成分分析法已广泛应用于许多领域。一般来说,当研究问题涉及的变量较多,变量之间相关性明显,所含信息重叠时,可以考虑采用主成分分析法。 本文对PCA进行改进后,更容易把握事物的主要矛盾,解决问题。通过拟南芥基因数据分析,预测结论与实验结果一致。在实际评价中,应从样本的客观性出发,兼顾主客观两方面。对不同的数据,应采用不同的PCA改进方法,以达到所要求的目的,更准确地分析数据。

    参考文献

    [1] 王素平,郭世荣,李静,等。盐胁迫对黄瓜幼苗根系生长和水分利用的影响[J].中国应用生态学报, 2006, 17 (10): 1883-188 8.

    [2]郭立红,王定康,杨晓红,等。外源乙烯利对干旱胁迫玉米幼苗抗逆生理指标的影响[J].云南大学学报(自然科学版), 2004, 26 (4):352-356.

    [3] SAKUMA Y、MARUYAMA K、OSAKABE Y 等人。拟南芥转录因子DREB2A参与干旱响应基因表达的功能分析[J].植物细胞在线, 2006, 18 (5):1292-1309.

    [4] SHINOZAKI K, YAMAGUCHI-SHINOZAKI K. 参与干旱胁迫响应和耐受的基因网络[J].实验植物学杂志, 2007, 58 (2): 221-227.

    [5] 王正群,邹军,刘锋。基于集成主成分分析的人脸识别[J].计算机应用, 2008, 28 (1): 120-124.

    p>

    [6] 王晓伟、严德勤、刘意涵。基于随机矩阵变换的快速PCA算法[J].微型计算机与应用, 2013, 32 (20): 83-86.@ >

    [7] 盛祖,谢世谦,潘承义。概率论与数理统计(第4版)[M].北京:高等教育出版社,2008.

    [8] 冯德君,李永书,蓝燕。基于主成分变换的动态监测变化信息自动发现[J].计算机工程与应用, 2004, 38 (3): 199-202.@ >

    [9]赵鹏,白振兴,范文彤。基于主成分分析的快速图像匹配研究[J].电子技术应用, 2010, 4 (11): 132-134.@ >

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 对拟南芥的基因数据进行两步处理,你了解多少?

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论