生物统计学:从概念到执行

Amit Mittal博士^＊

印度巴雷利拉杰什里医学研究所社区医学部，UP-243501

通讯作者:: Amit Mittal博士
印度巴雷利拉杰什里医学研究所社区医学系，北方邦-243501
电话:081920 00283
电子邮件: (电子邮件保护)

收到:22/08/2015接受:28/11/2015发表:10/12/2015

摘要

生物医学研究的统计分析是必须的，它可以为复杂的研究和昂贵的测试提供任何合理的解释。因此，统计学在生物医学文献中很常见。尽管它们被广泛使用，但即使是更简单的术语、分析和解释有时也会被那些对统计学知识有限或有错误的研究人员误解或误读。令人惊讶的是，许多人都忘记了统计学家在今天的研究中所起的作用。要促进统计人员与研究小组其他成员之间更密切和定期的互动，以便有效地将统计要素纳入研究和研究成果的讨论，就需要充分理解上述内容。本文试图概述一些在生物医学文献中常见的统计学的基本元素，并就如何进行统计给出一些建议。

关键字

非参数检验，参数检验，P值。

简介

统计包括数据和统计方法。它可以被认为是一门艺术，也是一门科学。统计既不能证明也不能反驳任何事情。它只是一个工具。没有科学应用的统计是没有根基的。因此，统计学可以被定义为处理来自一群个体的数字数据的学科。这些个体可以是人、动物或其他生物。统计方法有两大分支，主要是描述性的和推理的。描述性统计包括集中趋势和变异性的测量。这种类型的统计通常用于总结关于社会人口学和临床特征的数据，而推理统计则用于表达估计的确定性水平，包括假设检验、平均标准误差和置信区间。 Biostatistics is a branch of statistics applied to biological or medical sciences. It covers applications and contributions not only from health, medicines and nutrition but also from fields such as genetics, biology, epidemiology and many others [1］．

数据类型

在研究中，有必要研究一组被试的某些特征，如年龄、性别、社会经济群体等。这些特征中的每一个都可能因人而异，被称为变量。这些变量所取的值称为数据。研究期间收集的数据可能属于以下三种类型的数据之一:

(i)名义(类别、属性)，例如性别(男性、女性)、宗教(印度教、穆斯林、基督教和其他)、血型(O、A、B和AB)、是/否类型(患者是否有反应、已治愈或未治愈、高血压或正常、吸烟或不吸烟)[2］．

(ii)顺序(分级)，例如，疼痛、瘙痒或红斑的严重程度可分为无症状=0、轻度=1、中度=2、严重=3、社会经济地位、吸烟程度(非吸烟者、戒烟者、轻度吸烟者、重度吸烟者)[2］．

(iii)间隔/比率类型(测量)，例如年龄、身高、血糖水平等。［2］．

研究设计

任何研究最重要的阶段是计划和设计阶段，因为适当和完整的研究设计是健康研究的基础。在计划阶段出现的错误、缺陷和缺点会对研究结果的有效性和可靠性产生巨大的负面影响，因为它们会影响调查的所有后续阶段。每一项研究都有一些优点和缺点。随机对照临床试验是医学研究中最有力的设计。生物统计学家可以帮助我们设计实验，使意外变量或事件不太可能破坏我们的研究。它还可以帮助我们确定不。测量所需的证据水平，并为所需的比较确定正确的实验设计。所以从另一个意义上说，与统计学家会面，我们开始收集数据，就像实践预防医学。

编译数据

在数据编制阶段，首先要确定数据来源;之后，应仔细检查数据来源、完整性和可靠性[3.］．在编译数据的阶段，使用先前记录的数据并在二次编译期间编译它们时，最常见的错误之一发生了。研究人员可能无法在录音中找到他们要检查的确切变量。在这种情况下，研究人员可能会努力增加数据的数量或试图改变数据的结构。

数据操作

对数据的操纵可以扭曲和改变数据，导致对实验结果的误读和歪曲。制作数字的最好方法是注意我们如何设计实验，这样我们就不必在事后操纵数据。如果我们的数据组织不正确，最好是返回所有样本的实验，以获得正确的通道和正确的曝光。

假设

统计分析的主要目的是查明所研究的化合物所产生的效果是真实的，而不是偶然的。因此，分析通常附有统计显著性检验。这种检验的第一步是陈述零假设。在这里，我们假设两组之间不存在差异。择择假设认为两组之间存在差异。

1.第一类错误(假阳性)

它是发现差异的概率;当实际上不存在这种差异时，会导致将非活性化合物接受为活性化合物。这种并不罕见的错误可能是可以容忍的，因为在随后的试验中，化合物将显示其本身是不活跃的，从而最终被拒绝。

2.第二类错误(假阴性)

它是指当差异实际存在时无法检测出差异的概率，从而导致活性化合物作为非活性化合物被拒绝。这种错误比第一类错误更严重，因为一旦我们将化合物标记为非活性，就有可能没有人会再尝试它。这样就会失去一种活性化合物[4］．

3.学习的力量

在样本量的计算中，研究力是非常重要的。它可以在研究计算后进行计算，称为后验功率计算。如果存在差异，了解研究是否有足够的能力来发现差异是非常重要的。任何科学合理的研究都应该至少有80%的说服力。如果学习能力小于80%，组间差异不显著，则可以说无法检测到组间差异，而不是组间“无差异”。如果我们增加研究的力度，那么样本量也会增加。在研究的初始阶段就确定学习的权力总是比较好的。

显著性水平

如果一个事件的概率很高，我们就说它不罕见;如果一个事件的概率很低，我们就说它罕见。在生物统计学中，罕见事件称为显著性事件，而非罕见事件则称为非显著性事件。我们认为一个事件足以被视为显著性的p值称为显著性水平。在医学研究中，通常认为p值小于0.05为显著水平，否则为不显著水平[5］．

医学研究中样本量的重要性

样本只是宇宙的一小部分。研究宇宙是最好的参数。但是，当可以通过取宇宙的一小部分来获得相同的结果时，就会取一个样本。因此，足够的样本量在生物医学研究中是至关重要的。如果样本量太小，研究可能无法发现实际存在的真正差异。按照惯例，第二类误差应该是0.2或20%或更小。那么学习的力量将是0.8或80%或更多。如果样本量太大，可能会得出结论，即使是非常小的差异也具有统计学意义，但实际上这种差异并不具有临床意义。我们认为存在差异，但实际上并不存在。这被称为I型误差，按照惯例，这个误差应该是0.05或5%或更小。 A very large sample size also increases the cost and causes delay in completion of research project [6］．

影响样本量的因素

特定事件的患病率-如果患病率高，可以采取小样本，反之亦然。如果不知道患病率，则可以通过初步研究获得。

样本量计算

在做任何研究时，样本量的计算都起着关键作用。在计算样本量之前，需要仔细考虑以下五点。首先，我们必须评估两组之间的最小期望差异。然后我们要求出变量的标准差。现在设置显著性水平(一般设置为p<0.05)和研究强度。在确定了所有这些参数后，我们还要从计算机程序中选择公式来获得样本容量。免费提供各种软件计算样本量和研究能力。

抽样

统计学家经常使用推理方法，重要的是，小样本的特征是总体特征的真实指示，他可以据此得出广义结论。为了使样本能够代表总体，它必须以这样一种方式获得，即对其选择没有偏见。为了使这种情况发生的可能性最大，种群中的每个个体都必须有相同的机会被选为样本。抽样的方法有很多，具体方法的选择取决于研究者的自由裁量权。在所有抽样方法中，特别简单的随机抽样都是在不知不觉中使用的。要通过样本来代表总体，在确定合适的抽样技术后，需要注意的下一个阶段是确定将被包括在样本中的受试者[7，8］．因此，必须明确选择的标准。研究对象选择中最常见的错误之一是由不属于研究小组的不同研究人员收集单位。根据研究课题的不同，也确定了样本单位的选择类型。将非概率抽样错误地表示为随机抽样具有重要意义[9］．在观察性研究中，如队列研究、病例对照研究和横断面研究，从可能的受试者群体中选择受试者样本时，使用随机抽样方法[10］．特别是在为获得总体知识而进行的研究中，概率抽样是不可避免的。但在某些情况下，研究人员会因为没有使用概率技术而犯错误。因此，根据研究对象的不同构建概率抽样或非概率抽样都应慎重考虑。生物统计学家在这方面发挥着重要作用。

离群值

有时，当我们分析数据时，一个值与其他值非常极端。这样的值被称为异常值。这可能是由于两个原因。首先，所获得的价值可能是偶然的;在这种情况下，我们应该在最终分析中保留该值，因为该值来自相同的分布。其次，这可能是由于错误;在这种情况下，应该删除这些值，以避免无效的结果。

如何选择合适的统计检验

以下表1是选择统计检验的良好表示。

statistics-and-mathematical-sciences-selecting-statistical-test

表1:用于选择统计检验的表示。

统计软件

如果研究人员没有咨询统计学家，如果他们没有足够的统计知识，最常见的错误之一是来自统计软件的错误，这使得统计分析更容易。有许多统计软件可用于进行分析;最流行的软件之一是SPSS。但它有一些缺点，因为它没有涵盖以下主题，如功率分析，时间序列分析，样本量计算，从列联表直接计算，有限的编程选项，缺乏有效的控制图演示，仿真，重要统计，索引数字，缺少蒙特卡罗马尔可夫链特征，优化设计，缺少数据技术，只有少数设计选项，有限的非参数统计，只有少数分布，图形再现，GAM(广义加法模型)，数据挖掘技术。为此，我们有其他统计软件包，如MINITAB, Epi-Info, STATGRAPHICS, SYSTAT, S-PLUS, BMDP, SAS, STATA, R, MATHEMATICA, STATISTICA等。11］．

结论

统计学或统计学家在生物医学研究中的作用应在实验或临床试验的非常早期的规划阶段开始，以确定研究的设计和规模，以确保在检测临床或科学价值的影响方面有良好的前景。统计学分析数据以得出适用于更广泛人群的推论。先进的研究工作需要应用统计方法，包括数学模型的制定和检验，从观测数据中做出相关的推论。应用这种先进的方法需要对研究的目的和预期目标有清晰的理解，然后才能根据所使用的统计工具得出任何结论。更好的结构化学习计划应该在生物医学科学家和医学毕业生中建立基本的理解，并有助于统计学家和生物医学研究人员之间无缝的思想交流。

参考文献

Rao千伏。什么是统计学?什么是生物统计学?入职:饶千伏，编辑。生物统计学:用于健康、营养和人类学的统计方法手册。第二版. .新德里:杰比兄弟医疗出版有限公司;2007;1 - 4。
Nanivadekar AS和Kannappan AR.临床医生统计3,4,7,JAssoc内科医生印度1991;39: 194-198, 222: 273-277,281: 549-553。
Sumbuloglu K和Sumbuloglu v在科学研究中有意识地使用生物统计学原理和方法。辉瑞制药有限公司有限公司2002;7-40。
你甚至可以在生物医学研究文章中发现20个统计错误，Croat Med J 2004;45:361 - 370。
Mahajan BK.生物统计学方法，第7期。新德里:杰比兄弟医疗出版有限公司。样本可变性和显著性，2010;104 - 116。
Zodpey SP.医学研究中的样本量和功率分析，《印度麻风皮肤病性病杂志》2004;70:123 - 128。
Kan I.生物统计学。布尔萨:乌鲁达格大学出版社，1998年;55.
Tokol T.市场研究。布尔萨:Vipas Co. 2000:19。
Williamson GR.歪曲随机抽样?高级护理杂志，JAdvNurs 2003;44:278 - 288。
道森B和陷阱RG。基础和临床生物统计学第三版。兰格医学书籍/麦格劳-希尔国际版，2001年;2:71, 107年。
Murphy JR.免疫学研究中的统计误差，jallergyclinimmunl 2004;114: 1259-1263。