揭秘医学统计领域常见的“看似合理”误区,你了解多少?
大家好,今天小编来为大家解答以下的问题,关于揭秘医学统计领域常见的“看似合理”误区,你了解多少?,这个很多人还不知道,现在让我们一起来看看吧!
(1)分类数据也称为计数数据
在早期版本中,存在此声明。直到今天,许多医学论文中仍然提到这一点。然而,分类数据和计数数据不是一回事。
事实上,它们之间的区别很容易。分类数据类似于性别、职业、血型等名义类型,它们的值没有实际意义,只是标识符。例如,男性和女性分别用1和2来标识。这里你永远不能说2大于1。换句话说,在分类数据中,值的大小并不重要,它只是一个符号。可以用1和2来标识,也可以用5和98来标识。但实际分析时,没必要弄得这么复杂,所以越简单越好。识别为1和2。
什么是计数数据?顾名思义,可以算数。典型的包括咳嗽次数、疼痛次数、转移部位数量等,它们的数值具有实际意义。例如,疼痛的次数可能是1、2、3等,这里我们可以说2大于1、4大于3等,因为3次大于2次,没有什么说。这里的数字大小就起作用了。
从统计学的角度来看,分类数据通常服从二项分布或多项分布,而计数数据通常服从泊松分布或负二项分布。
还有很多文章提到统计方法中“用卡方检验来比较计数资料”。我个人认为,严格来说,应该是“用卡方检验来比较分类数据”。
目前国内教材还没有严格区分这两个概念。我也查了很多文献资料,很少有人把这个问题解释清楚。中国没有,国外也很少。不过,在国外的一些论坛上,可以看出大家对于这两类信息的态度肯定是不一样的。分析方法也不同。维基百科(英文)分别定义了分类数据和计数数据,不是同一件事。如果您有兴趣,可以搜索一下。
(2)研究分析分类数据和层次数据之间的关系应采用秩和检验。
这句话欺骗了很多人,让人认为如果其中一个二维列联表包含层次数据,就必须使用秩和检验。但事实又是怎样呢?我们举个例子:
例1:比较两种仪器的功效是否有差异。功效是分层数据,分组是二进制数据。
例2:比较三个年龄段的满意度是否存在差异。年龄组是分层数据,满意或不满意是二元数据。
在这两个例子中,都是二进制数据和层次数据。他们需要使用秩和检验吗?不。
关键问题在哪里?一定要区分:分组变量和分析变量。分析变量即结果,可以视为因变量;分组变量,即组,可以被视为自变量。
仅当分析变量是分层数据时才使用秩和检验。分组变量是否分层无关紧要,不影响方法的选择。请记住:只需查看分析变量。
例1中,分析变量(结果)为疗效,作为分层数据,因此需要采用秩和检验进行比较。例2中,分析变量(结果)是二元数据,不是层次数据,因此不需要进行秩和检验,可以使用卡方检验。至于例2中的年龄,是分层数据,不影响卡方检验的使用。当然,分组变量是层次数据,还可以进一步做趋势检验。
(3) 如果样本量大于30,则数据服从正态分布。
在讨论这个问题之前,我们先来看一下下面的图表。这是1650人的数据分布。它看起来像正态分布吗?
显然,这不能称之为正常。所以问题就很明确了。关键是为什么人们会这么想?
其实主要原因是:所谓“30个以上服从正态分布”是指从任意分布中抽样。如果每次采样的样本数大于30,则统计每个样本的A量(如均值),其分布接近正态。这就是“中心极限定理”的意思,但并不意味着如果一个样本的数据大于30,数据就会服从正态分布。不要感到困惑。中心极限定理不是指原始数据,而是指抽样分布。详细解释可以参考之前的文章。
(4) 比率比较可采用卡方检验。
这又是一个典型的误解。关键在于“比率”的定义。一般意义上的比率是指二元类别(如阳性与阴性、发病与未发病、有效与无效等)中的阳性率、发病率、有效率等。可以使用卡方检验来比较此类数据。
然而,还有另一种比率无法使用卡方检验进行比较。例如变化率,假设有一个实验组和一个对照组,每组受试者在第一周测量血糖水平,在第二周再次测量血糖水平,并计算第二周的变化率相对于第一周的周。比率通常计算为“(第二周- 第一周)/第一“周”,你得到的也是“比率”。但是,这个比率确实是一个真正的连续数据,并且具有连续数据的所有特征。此时时间上,如果要比较两组的变化率是否有差异,那么就必须按连续数据的方法,如t检验、秩和检验等。
有些人可能有点困惑,但其实很容易区分。发病率、感染率等典型的“比率”只能根据一群人来计算一个比率。例如,如果100人中有40人被感染,那么这100人的感染率为40%。作为连续数据的速率,每个人都有一个速率值。例如,第一人称有变化率(如2.3%),第二人称也有变化率(如-0.6%)。
我以前看过这样的文章。它显然是关于变化率的,但它使用了卡方检验。我一直很好奇,你是怎么把这么多费率放进软件里的?您不认为不能将这些变量放入软件中吗?
(5)秩和检验的效率远低于t检验(或方差分析等),应作为最后的手段使用。
有些人将秩和测试视为“士兵和不祥的工具”,除非绝对必要,否则不应使用。这也是很多人的偏见。我见过很多医务人员。当他们看到数据不服从正态分布时,立刻感觉整个天空都变暗了。我有时会说可以用秩和检验,但他们的回答是,这不是说明秩和检验不好吗?说实话,我一直不知道这些谣言从何而来。来源在哪里?似乎它一直都在那里。是因为教材的编排吗?放得这么低,很多人理所当然地认为它是参数测试的备胎?还是因为其他原因?
秩和检验的效率并不像很多人想象的那么低。事实上,统计学家从很早以前到现在,已经做了很多模拟验证。即使数据符合正态分布,秩和检验的效果并不比t检验、方差分析等参数检验好。仿真结果表明,这种情况下,秩和检验的效率约为参数检验的95%。一旦数据偏离正态分布,秩和检验的效率将远远优于参数检验。
事实上,在医学领域(典型的例子就是医学论文),存在很多典型的低级错误,而且大部分都可以通过清晰的解释来纠正。也许是因为我个人待过医院而不是大学,每天接触大量的实际数据和案例,所以更容易关心这些基本错误,因为它们是最容易纠正的。对于临床医生来说,一下子学会广义加性模型有点困难,但如果想弄清楚分组变量和分析变量,还是可以做到的。
所以这几年我基本上都是在各种场合不遗余力地宣传这些基本理念。虽然我不知道效果如何,但只要能帮助一些人,能让一些人摆脱一些错误的观点和观念,就足够了。也许有人觉得谈论这个有点低调,但统计学毕竟是一门应用学科。如果医学统计学离开医学,纯粹研究高层次的理论,我想这并不是医学统计学的初衷。毕竟医学统计是为了解决医学问题。
而且我发现了一个问题:统计学老师大多在大学,而医院里的统计学家很少(虽然很多医院都有临床流行病学科室,但大多主攻流行病学)。所以,作为医院的统计员,你当然要做数据挖掘,但也要做基础统计的推广。毕竟这样做的人实在是太少了。
本文由发布,不代表千千择校网立场,转载联系作者并注明出处:https://www.qqzexiao.com/zyjy/21458.html
用户评论
哎,这些错误我还真不知道几个,感觉统计学学得不好。
有18位网友表示赞同!
标题里提到的那些错误,我听过几个,真是大开眼界啊。
有17位网友表示赞同!
统计学里居然还有这么多“似乎正确”的错误,以后得小心了。
有16位网友表示赞同!
看标题就感觉挺有意思的,希望能从中学到些什么。
有12位网友表示赞同!
哎呀,这些错误我在实习的时候也犯过,真是尴尬。
有13位网友表示赞同!
统计学里的错误真是防不胜防,得加倍小心了。
有5位网友表示赞同!
这种错误真的让人哭笑不得,感觉统计学挺难的。
有16位网友表示赞同!
之前在学习统计学的时候,还真没注意到这些错误。
有10位网友表示赞同!
看来我得重新审视一下自己的统计学知识了。
有6位网友表示赞同!
标题里的错误,我居然都听过,真是汗颜啊。
有11位网友表示赞同!
统计学里的错误,有时候真是让人摸不着头脑。
有16位网友表示赞同!
这些错误,如果不仔细看,真的会误以为是对的。
有9位网友表示赞同!
标题里的错误,我敢打赌,很多人都有过类似的经验。
有15位网友表示赞同!
统计学里的错误,有时候真的让人感觉统计学是一门玄学。
有18位网友表示赞同!
标题里提到的错误,让我对自己的统计学知识产生了怀疑。
有17位网友表示赞同!
看来我得重新学习统计学了,以免再犯类似的错误。
有18位网友表示赞同!
这些错误,如果不仔细思考,真的会误导人。
有5位网友表示赞同!
统计学里的错误,真是让人感慨万千。
有20位网友表示赞同!
标题里提到的错误,让我意识到统计学学习的必要性。
有12位网友表示赞同!