生物学基础统计分析

2023-09-02 00:33:00 来源 : haohaofanwen.com 投稿人 : admin

下面是好好范文网小编收集整理的生物学基础统计分析,仅供参考,欢迎大家阅读!

生物统计分析

标准差

标准差(Standard Deviation) ,是离均差平方的算术平均数的平方根,用σ表示。在概率统计中最常使用作为统计分布程度上的测量。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。

变异系数(Coefficient of Variation)

变异系数是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。

变异系数的优点:比起标准差来,变异系数的好处是不需要参照数据的平均值。变异系数是一个无量纲量,因此在比较两组量纲不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。

变异系数的缺点:当平均值接近于0的时候,微小的扰动也会对变异系数产生巨大影响,因此造成精确度不足。变异系数无法发展出类似于均值的置信区间的工具。

皮尔森相关系数是一种线性相关系数,因此如果两个变量呈线性关系的时候,具有最大的显著性。对于非线性关系(例如A、D的幂函数关系),则其对相关性的检测功效会下降。但在生物体内的许多调控关系,例如转录因子与靶基因、小干扰RNA与靶基因,可能都是非线性关系,这时可以考虑另外一个相关系数计算方法:斯皮尔曼等级相关。

同一个细胞表达情况(对角线)相关性最强;对同一个细胞来源的子细胞相关性强于不同来源细胞

{Wang, 2021 #619}

1、Pearson相关系数适用条件为两个变量间有线性关系、变量是连续变量、变量均符合正态分布。

2、若上述有条件不满足则考虑用Spearman相关系数

3、对于同一量纲数据建议Pearson,例如mRNA表达量数据,计算不同

mRNA表达量的相关系数;对于不同量纲数据,可考虑Spearman相关系数,例如mRNA表达量与某表型数据(株高、产果量、次生化合物含量等)

加权皮尔森相关系数 (weighted Pearson correlations)

例如火山图展示的在启动子区染色质可及性与基因表达成高度(正/负)相关的顺式调控元件(CRE)数。

Volcano plot showing the weighted Pearson correlations between Acc of NDRs and Expr of corresponding ICM/TE specific expressed genes across preimplantation development. {Wang, 2021 #619}

2)斯皮尔曼等级相关

斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)主要用于解决称名数据和顺序数据相关的问题。适用于两列变量,而且具有等级线性关系的资料。

相关系数r的取值范围是-1≤r ≤ 1,一般取小数点后两位。 r的正负号表明两变量间变化的方向;

|r|表明两变量间相关的程度,

r>0表示正相关,

r<0表示负相关,

r=0表示零相关。

|r|越接近于1,表明两变量相关程度越高,它们之间的关系越密切。但是由样本算得的相关系数是否有统计学意义,还应作假设检验。

如下图对不同细胞RNA表达水平分析:

早期胚胎内部细胞的相关性>不同胚胎来源;来自同一亲本的细胞基因表达水平相关性>不同亲本

卵裂过程中的细胞异质性 intra-embryonic correlations, within each embryo;inter-, between blastomeres from different embryos {Wang, 2021 #619}

相关系数的缺点与注意事项

需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。

因此高通量测序项目,一般建议10个以上样本才计算相关系数,这样其可靠性更高。

我们关注的基因用线连接,直观体现基因共表达关系。如一个基因处于中间位置,连通性较高的很可能是起到调控作用的关键基因(转录因子)。


相关文章

专题分类