1. 首页 > 职业教育

揭秘医学统计领域常见的“看似合理”误区,你了解多少?

大家好,今天小编来为大家解答以下的问题,关于揭秘医学统计领域常见的“看似合理”误区,你了解多少?,这个很多人还不知道,现在让我们一起来看看吧!

(1)分类数据也称为计数数据

在早期版本中,存在此声明。直到今天,许多医学论文中仍然提到这一点。然而,分类数据和计数数据不是一回事。

事实上,它们之间的区别很容易。分类数据类似于性别、职业、血型等名义类型,它们的值没有实际意义,只是标识符。例如,男性和女性分别用1和2来标识。这里你永远不能说2大于1。换句话说,在分类数据中,值的大小并不重要,它只是一个符号。可以用1和2来标识,也可以用5和98来标识。但实际分析时,没必要弄得这么复杂,所以越简单越好。识别为1和2。

什么是计数数据?顾名思义,可以算数。典型的包括咳嗽次数、疼痛次数、转移部位数量等,它们的数值具有实际意义。例如,疼痛的次数可能是1、2、3等,这里我们可以说2大于1、4大于3等,因为3次大于2次,没有什么说。这里的数字大小就起作用了。

从统计学的角度来看,分类数据通常服从二项分布或多项分布,而计数数据通常服从泊松分布或负二项分布。

还有很多文章提到统计方法中“用卡方检验来比较计数资料”。我个人认为,严格来说,应该是“用卡方检验来比较分类数据”。

目前国内教材还没有严格区分这两个概念。我也查了很多文献资料,很少有人把这个问题解释清楚。中国没有,国外也很少。不过,在国外的一些论坛上,可以看出大家对于这两类信息的态度肯定是不一样的。分析方法也不同。维基百科(英文)分别定义了分类数据和计数数据,不是同一件事。如果您有兴趣,可以搜索一下。

(2)研究分析分类数据和层次数据之间的关系应采用秩和检验。

这句话欺骗了很多人,让人认为如果其中一个二维列联表包含层次数据,就必须使用秩和检验。但事实又是怎样呢?我们举个例子:

例1:比较两种仪器的功效是否有差异。功效是分层数据,分组是二进制数据。

例2:比较三个年龄段的满意度是否存在差异。年龄组是分层数据,满意或不满意是二元数据。

在这两个例子中,都是二进制数据和层次数据。他们需要使用秩和检验吗?不。

关键问题在哪里?一定要区分:分组变量和分析变量。分析变量即结果,可以视为因变量;分组变量,即组,可以被视为自变量。

仅当分析变量是分层数据时才使用秩和检验。分组变量是否分层无关紧要,不影响方法的选择。请记住:只需查看分析变量。

例1中,分析变量(结果)为疗效,作为分层数据,因此需要采用秩和检验进行比较。例2中,分析变量(结果)是二元数据,不是层次数据,因此不需要进行秩和检验,可以使用卡方检验。至于例2中的年龄,是分层数据,不影响卡方检验的使用。当然,分组变量是层次数据,还可以进一步做趋势检验。

(3) 如果样本量大于30,则数据服从正态分布。

在讨论这个问题之前,我们先来看一下下面的图表。这是1650人的数据分布。它看起来像正态分布吗?

显然,这不能称之为正常。所以问题就很明确了。关键是为什么人们会这么想?

其实主要原因是:所谓“30个以上服从正态分布”是指从任意分布中抽样。如果每次采样的样本数大于30,则统计每个样本的A量(如均值),其分布接近正态。这就是“中心极限定理”的意思,但并不意味着如果一个样本的数据大于30,数据就会服从正态分布。不要感到困惑。中心极限定理不是指原始数据,而是指抽样分布。详细解释可以参考之前的文章。

(4) 比率比较可采用卡方检验。

这又是一个典型的误解。关键在于“比率”的定义。一般意义上的比率是指二元类别(如阳性与阴性、发病与未发病、有效与无效等)中的阳性率、发病率、有效率等。可以使用卡方检验来比较此类数据。

然而,还有另一种比率无法使用卡方检验进行比较。例如变化率,假设有一个实验组和一个对照组,每组受试者在第一周测量血糖水平,在第二周再次测量血糖水平,并计算第二周的变化率相对于第一周的周。比率通常计算为“(第二周- 第一周)/第一“周”,你得到的也是“比率”。但是,这个比率确实是一个真正的连续数据,并且具有连续数据的所有特征。此时时间上,如果要比较两组的变化率是否有差异,那么就必须按连续数据的方法,如t检验、秩和检验等。

有些人可能有点困惑,但其实很容易区分。发病率、感染率等典型的“比率”只能根据一群人来计算一个比率。例如,如果100人中有40人被感染,那么这100人的感染率为40%。作为连续数据的速率,每个人都有一个速率值。例如,第一人称有变化率(如2.3%),第二人称也有变化率(如-0.6%)。

我以前看过这样的文章。它显然是关于变化率的,但它使用了卡方检验。我一直很好奇,你是怎么把这么多费率放进软件里的?您不认为不能将这些变量放入软件中吗?

(5)秩和检验的效率远低于t检验(或方差分析等),应作为最后的手段使用。

有些人将秩和测试视为“士兵和不祥的工具”,除非绝对必要,否则不应使用。这也是很多人的偏见。我见过很多医务人员。当他们看到数据不服从正态分布时,立刻感觉整个天空都变暗了。我有时会说可以用秩和检验,但他们的回答是,这不是说明秩和检验不好吗?说实话,我一直不知道这些谣言从何而来。来源在哪里?似乎它一直都在那里。是因为教材的编排吗?放得这么低,很多人理所当然地认为它是参数测试的备胎?还是因为其他原因?

秩和检验的效率并不像很多人想象的那么低。事实上,统计学家从很早以前到现在,已经做了很多模拟验证。即使数据符合正态分布,秩和检验的效果并不比t检验、方差分析等参数检验好。仿真结果表明,这种情况下,秩和检验的效率约为参数检验的95%。一旦数据偏离正态分布,秩和检验的效率将远远优于参数检验。

事实上,在医学领域(典型的例子就是医学论文),存在很多典型的低级错误,而且大部分都可以通过清晰的解释来纠正。也许是因为我个人待过医院而不是大学,每天接触大量的实际数据和案例,所以更容易关心这些基本错误,因为它们是最容易纠正的。对于临床医生来说,一下子学会广义加性模型有点困难,但如果想弄清楚分组变量和分析变量,还是可以做到的。

所以这几年我基本上都是在各种场合不遗余力地宣传这些基本理念。虽然我不知道效果如何,但只要能帮助一些人,能让一些人摆脱一些错误的观点和观念,就足够了。也许有人觉得谈论这个有点低调,但统计学毕竟是一门应用学科。如果医学统计学离开医学,纯粹研究高层次的理论,我想这并不是医学统计学的初衷。毕竟医学统计是为了解决医学问题。

而且我发现了一个问题:统计学老师大多在大学,而医院里的统计学家很少(虽然很多医院都有临床流行病学科室,但大多主攻流行病学)。所以,作为医院的统计员,你当然要做数据挖掘,但也要做基础统计的推广。毕竟这样做的人实在是太少了。

用户评论

桃洛憬

哎,这些错误我还真不知道几个,感觉统计学学得不好。

    有18位网友表示赞同!

将妓就计

标题里提到的那些错误,我听过几个,真是大开眼界啊。

    有17位网友表示赞同!

发型不乱一切好办

统计学里居然还有这么多“似乎正确”的错误,以后得小心了。

    有16位网友表示赞同!

站上冰箱当高冷

看标题就感觉挺有意思的,希望能从中学到些什么。

    有12位网友表示赞同!

暮光薄凉

哎呀,这些错误我在实习的时候也犯过,真是尴尬。

    有13位网友表示赞同!

绝版女子

统计学里的错误真是防不胜防,得加倍小心了。

    有5位网友表示赞同!

琴断朱弦

这种错误真的让人哭笑不得,感觉统计学挺难的。

    有16位网友表示赞同!

哭着哭着就萌了°

之前在学习统计学的时候,还真没注意到这些错误。

    有10位网友表示赞同!

我绝版了i

看来我得重新审视一下自己的统计学知识了。

    有6位网友表示赞同!

服从

标题里的错误,我居然都听过,真是汗颜啊。

    有11位网友表示赞同!

安陌醉生

统计学里的错误,有时候真是让人摸不着头脑。

    有16位网友表示赞同!

放肆丶小侽人

这些错误,如果不仔细看,真的会误以为是对的。

    有9位网友表示赞同!

暖栀

标题里的错误,我敢打赌,很多人都有过类似的经验。

    有15位网友表示赞同!

独角戏°

统计学里的错误,有时候真的让人感觉统计学是一门玄学。

    有18位网友表示赞同!

最怕挣扎

标题里提到的错误,让我对自己的统计学知识产生了怀疑。

    有17位网友表示赞同!

余温散尽ぺ

看来我得重新学习统计学了,以免再犯类似的错误。

    有18位网友表示赞同!

稳妥

这些错误,如果不仔细思考,真的会误导人。

    有5位网友表示赞同!

◆残留德花瓣

统计学里的错误,真是让人感慨万千。

    有20位网友表示赞同!

岁岁年年

标题里提到的错误,让我意识到统计学学习的必要性。

    有12位网友表示赞同!

本文由发布,不代表千千择校网立场,转载联系作者并注明出处:https://www.qqzexiao.com/zyjy/21458.html

联系我们

在线咨询:点击这里给我发消息

微信号:weixin888

工作日:9:30-18:30,节假日休息