基础统计

Minitab统计--基本统计系列-- 数据概念

时间:2023-05-18

基本统计数据概念

什么是总体和样本之间的差异?

要了解假设检验和其他类型的推断性统计量的基础知识,一定要了解样本和总体之间的差异。

总体是一系列要针对其进行推断的人员、商品或事件。有时,检查整个总体的每个成员不是很方便或者不可能实现。例如,对在果园采摘的所有苹果的碰伤进行计数是不切实际的。但是,可以对来自该总体的一组苹果的碰伤进行计数。总体的这个子集被称为样本。

样本是较大总体中的人员、项目或事件子集,您将收集这些人员、项目或事件并通过对其进行分析来进行推断。为了很好地表示总体,应当随机收集样本且样本应当足够大。

如果样本是随机的且足够大,则可以使用从样本收集的信息来就总体进行推断。例如,可以对随机样本中的苹果碰伤进行计数,然后使用假设检验来估计有碰伤的全部苹果所占的百分比。

什么是参数、参数估计值和抽样分布?

当您需要确定特定某总体特征(例如均值)的信息时,通常从总体中取一些随机样本,因为对总体进行度量是不可行的。通过使用该样本,您可以计算对应样本的特征,其用于概括关于未知总体特征的信息。所需的总体特征称为参数,相应样本特征为样本统计量或参数估计值。由于统计量是对从样本获取的参数的信息的摘要,因此统计量值取决于从总体中取的特定样本。其值随机地从一个随机样本更换到下一个随机样本,因此统计量是一个随机量(变量)。此随机变量的概率分布称为取样分布。(样本)统计量的采样分布很重要,因为它使我们能够基于随机抽样得出关于相应总体参数的结论。

例如,当我们从一个正态分布总体中取随机样本时,样本均值就是一个统计量。基于样本的样本均值是对总体均值的估计。如果从该同一正态总体中取不同的样本,该估计值将随机变化。用于描述这些变化的概率分布是样本均值的抽样分布。统计量的采样分布指定了统计量的所有可能值,以及统计量值的极差的变化频率。如果总体为正态,则样本均值的采样分布也为正态。

以下各节提供有关参数、参数估计值和采样分布的详细信息。

关于参数

参数是整个总体的描述性度量,它可用作概率分布函数 (PDF) 的输入以生成分布曲线。参数通常用希腊字母表示,以与样本统计量区别开来。例如,总体均值由希腊字母 mu (μ) 表示,总体标准差由希腊字母 sigma (σ) 表示。参数是固定常量,也就是说,它们不会像变量一样变化。不过,它们的值通常是未知的,因为对整个总体进行度量是不可行的。

每个分布完全由若干个特定参数来定义,参数的个数通常为一到三个。下表提供了三种分布所需参数的示例。参数值决定了分布图上的曲线的位置和形状,参数值的每个唯一组合可产生唯一的分布曲线。

image.png

例如,正态分布由两个参数定义,即均值和标准差。如果指定了这两个参数,可以精确确定整个分布。

image.png

实线表示一个正态分布(其均值为 100,标准差为 15)。虚线也是一个正态分布,但它的均值为 120,标准差为 30

关于参数估计值(也称为样本统计量)

参数是对整个总体的描述性度量。不过,它们的值通常是未知的,因为对整个总体进行度量是不可行的。因此,您可以从总体取一个随机样本以获得参数估计值。统计分析的一个目标是获得总体参数的估计值,以及与这些估计关联的误差量。这些估计值也称为样本统计量。

存在若干种类型的参数估计值:

  • 点估计值是参数的单一且最可能值。例如,总体均值(参数)的点估计值是样本均值(参数估计值)。

  • 置信区间是可能包含总体参数的值范围。

对于参数估计值的示例,假设您为一家火花塞制造商工作,该公司正在研究火花塞间隙存在的问题。要检验其所生产的每个火花塞,成本太高。于是,您随机抽取了 100 个火花塞,并以毫米为单位度量间隙。样本均值为 9.2。这是总体均值 (μ) 的点估计值。您还为 μ 创建了一个 95% 置信区间,该区间为 (8.8, 9.6)。您也可以为 μ8.89.6)创建一个 95% 的置信区间。

关于采样分布

采样分布是给定统计量(例如均值)的概率分布。为了说明抽样分布,让我们来看一个简单示例,其中完整总体是已知的。例如,下表显示了整个总体(个南瓜)的重量。这些南瓜的重量只能是下表中列出的重量值之一。

image.png

虽然整个总体是已知的,但是为了便于说明,我们从总体中取包含 3 个南瓜的所有可能随机样本(20 个随机样本)。然后,计算各样本的均值。样本均值的取样分布由每个可能随机样本(包含 3 个南瓜)的所有样本均值描述,其显示在下表中。

image.png

此图显示了平均重量值的采样分布。此分布围绕 15.5(这也是总体均值的真值)。其样本均值较接近 15.5 的随机样本的发生概率,比其样本均值较远离 15.5 的随机样本的发生概率更高

image.png


在实际中,生成以上所示的采样分布表是不可行的。即使在最佳情况下(即知道样本的父级总体),可能仍无法确定所需样本统计量的精确采样分布。但是,在某些情况下,可能能够大致地确定样本量统计的采样分布。例如,如果从正态总体中取样,则样本平均值具有完全的正态分布。

但是,如果从一个非正态分布中抽样,则可能无法确定样本均值的准确分布。但是,由于中心极限定理,样本均值近似地呈正态分布,前提是您的样本足够大。然后,如果总体未知并且样本足够大,则您也许能够做出判断(例如,85% 地判断样本均值在一定数量的总体均值的标准差之内)。

中心极限定理:较大的随机样本的均值近乎正态

中心极限定理是概率和统计量的基本定理。该定理描述具备有限方差的总体的随机样本的均值分布。当样本数量足够大时,均值的分布呈近似正态分布。无论总体的分布形状如何,中心极限定理均适用。许多常见的统计过程都要求数据呈近似正态分布。中心极限定理允许您将这些有用的过程应用到与正态分布相差很大的总体。样本数量必须为多大取决于原始分布的形状。如果总体的分布是对称的,则样本数量 5 可生成不错的近似值。如果总体的分布极其不对称,则有必要使用更大的样本数量。例如,如果样本数量大于 50,则均值的分布可能呈近似正态分布。下面的几幅图显示了分布对所需样本数量的影响。

image.png

均匀总体的样本

服从均匀分布的总体是对称的,但其分布与正态分布相差很大,如第一个直方图所示。但是,根据中心极限定理,此总体的 1000 个数量为 5 的样本的样本均值的分布则近似为正态,如第二个直方图所示。此样本均值直方图包括一个叠加的正态曲线,揭示了其正态性。

image.png

指数总体的样本

服从指数分布的总体是不对称的,并且是非正态的,如第一个直方图所示。但是,根据中心极限定理,此总体的 1000 个数量为 50 的样本的样本均值的分布则近似为正态,如第二个直方图所示。此样本均值直方图包含一个叠加的正态曲线,揭示了其正态性。

数据样本中的随机性

样本必须是随机的

随机样本是由一个过程选择的一个总体子集,该过程使具有指定数量的所有样本的出现可能性相同。在统计学中,可以使用随机样本来针对总体进行归纳或推断。

但是,样本必须是随机收集的,这样才能准确展示它所在总体的整体情况。您应仔细规划您的数据收集过程,确保您的样本是随机抽取的。另外,抽取数据的过程或数据所在的总体应保持稳定。

样本必须是随机样本才能消除选择偏差。选择偏差意味着一些对象出现在样本中的可能性大于其他对象。如果样本存在偏差,则只能针对样本中的某些对象(而非整个总体)进行推断。

假设您要开展一项新的广告宣传活动,但不确定吸引客户的最佳方式是印刷品、广播还是电视。尽管调查所有客户并不实际,成本也比较高昂,但有可能调查随机样本。最初,您倾向于只调查返回邮寄折扣的客户,因为这些客户更可能对调查做出响应。但是,这种抽样并不能代表整个总体,因为每位客户被选中的几率并不相同。这会导致做出不良的业务决策。于是,您转而决定从所有客户的字母顺序列表中随机选择客户。根据此数据,可以得出有关客户群的论断,从而确定分配广告支出的最佳方式。

通过使用游程检验来确定样本是否随机

在收集数据之后,检查数据是否随机的一种方法就是使用游程检验来查找数据随时间变化的模式。要在 Minitab 中执行游程检验,请选择统计 > 非参数 > 游程检验

还可以通过其他图形来确定样本是否随机。

使用时间序列图确定数据是否随机的示例

假设面试官随机选择 30 人并询问每个人一个问题,每个问题有四个可能的答案。答案分别编码为 01 3。面试官创建一个时间序列图来检查答案的随机性。

image.png

答案的时间序列图

数据中的模式表示数据不随机。面试官开展调查,确定问题的排布或对象的选择中是否存在偏倚