引言:统计无处不在
- 人人都用统计学的真正原因:统计帮助我们在信息有限的情况下,做出充满信心的决策。
- 统计学的基本问题:我们如何通过样本,充满自信地描述整体?
- 我们可以通过统计进行充满信心的猜测,但永远无法通过统计得出确定无疑的结果。
数字
- 统计并不只关系到数字,统计关系到我们的信心。
- 在处理任何数字时,都带着适当的怀疑。
随机原始数据
- 用样本描述总体可谓聪明之举,不过在尝试迈出实质性的一步之前,我们要记住几个事实。首先,我们不可能通过样本完全确定一个总体。统计指的是做出最佳猜测,而绝非确凿无疑的判断。其次,我们在采集样本时犯下的任何错误,都能彻底歪曲我们对较大总体的结论。
- 采集样本最大的挑战可能在于,准确指出要在样本中包含哪些内容。目标是避免样本中出现偏倚,偏倚可能会导致我们曲解总体。
- 理想情况是,我们采集的样本能正确反映总体,为了避免偏倚,我们总是随机采集样本。
- 随机样本效果显著的原因是,它表明我们抽取任何一个样本的可能性都和抽取其他样本的可能性是一样大;如果这些样本有差别,这纯属偶然。
- 因为随机抽样是一切统计调查的关键。
排序
- 两种数据:类别型数据和数值型数据,我们不能对类别数据进行数学运算,但可以对数值型数据进行数学运算。
- 箱线图,把位于样本中间的50%数值挤在一个大箱子里,然后分别指出最小值、中间值和最大值。
- 通常,当我们希望对整个数据集进行整体描述时,我们画直方图,包含精确的细节;另一方面,如果我们希望概要了解数据的情况或者希望对不同样本或群组进行比较,这时箱线图特别管用。
- 箱线图仿佛缩小版的直方图,可以让我们迅速了解数据的汇聚情况,以及数据是否朝着一端或另一端延展。
- 尽管我们会受到更具奥妙的数学工具诱惑,但简单的图形却能让我们集中关注数据表达的确切意义。
侦探工作
- 当我们动手调查任何一批数据时,总是观察四个主要特性:样本大小,形状,位置,分散性。
- 一般来说,样本越大,结果越好!样本大小会直接关系到我们对一个总体可以具有的置信水平。
- 无论数据汇聚成什么形状(平的,正态的,偏斜的),总是有其原因的。
- 位置是对一批数据在一个数轴上的落点的度量,我们常用一个数字平均数来描述位置,但如果数据是偏斜的,那么度量位置时中位数更能体现数据情况。
- 分散性是对一批数据的宽度的度量,同时也是对变异性的度量。
- 测量分散性的一个简单明了的办法是算出全距,即最大值与最小值的差值,然后分成四块,中间的两块被称为四分位距(IQR) (箱线图)。
- 分散性的最常见度量方法是标准差(SD)
怪异的错误
- 有两个峰的直方图形状称为双峰。
- 潜在变量会给各种统计分析带来麻烦,统计师的部分工作就是发现潜在变量。(只吃卷心菜会让人长寿,只吃卷心菜的人往往锻炼得更加勤快)
从样本到总体
- 在通用数学术语中,“分布”一词描述了一个随机变量得所有可能数值的位置情况。
- 统计的目的是利用样本对总体进行猜测,一向如此。我们为二者使用不同的术语和技术符号。
| 我们将统计特性称为“统计值” | 我们将总体特性称为“参数” |
|---|---|
| 书写公式时,“x拔”特指样本平均数 |
小写希腊字母“缪”特指总体平均数:$\mathbf{\mu}$ |
| s特指样本标准差:$\mathbf{s}$ | 小写希腊字母“西格玛”特指总体标准差:$\sigma$ |
| 统计值是我们实际测量的数值,因此是确凿无疑的数值。 | 参数是我们想知道的数值,但只能通过猜测获得。 |
- 换句话说,我们采集统计值的唯一原因,是我们对参数有兴趣。尽管我们永远做不到直接观察参数,却可以利用统计值去发掘参数。
- 我们即将学习利用从随机样本算出的统计值,挖掘作为样本来源总体的平均数。
中心极限定理
- 让我们设想:我们希望知道某个总体的平均值,然后外出并从该总体中采集了一连串各自独立的随机样本。结果证明,如果我们算出每个随机样本的平均数,然后把这些平均数按顺序堆起来,随着堆放的样本平均数越来越多,堆成的外形越趋向于正态。从技术上看,像这样一个巨大的堆积形状是一类抽样分布。
- 这个发现对于出自任何总体的随机样本平均数都成立。至于总体本身是什么形状,倒并不要紧。
- 中心极限定理(CLT)是许多统计推论的依据,它指出:当样本大小
$n$ 很大时,$\overline{x}$ 的抽样分布接近正态。更具体地说,对于从单一总体(平均数为$\mu$ ,标准差为$\sigma$ )中抽取的大小为$n$ 的多个大型随机样本,$\overline{x}$ 的分布近似于平均数为$\mu$ ,标准差为$\sigma / \sqrt{n}$ 的正态分布。 - 中心极限定理只有在每个样本均为随机抽取且每个样本都足够大(达到30以上被认为是大样本,通常就够了)时才成立。
概率
- 抽样分布的两个奥妙:它能告诉我们总体均值,我们可以利用它算出总体的概率。
- 正态分布 位于距离中心值1个标准差的范围内,68% 位于距离中心值2个标准差的范围内,95% 位于距离中心值3个标准差的范围内,99.7%
推断
- 可惜,在现实生活中,我们绝不会弄一个实际的抽样分布进行观察,我们所拥有的不过是一罐而已。
- 由于样本平均数倾向于簇拥在总体平均数周围,我们可以画一堆数,用来猜测总体平均数的位置,统计学家们把这样的过程称为推断。
- 估计抽样分布:在实践中,当使用中心极限定理时,我们无法获知参数
$\mu$ 和$\sigma$ 的真实值,因此我们用统计值$\overline{x}$ 和$s$ 来近似$\mu$ 和$\sigma$ 。这种近似之所以可行,是因为我们的统计值是随机的。结果,我们期望$\overline{x}$ 与$\mu$ 有差别,$s$ 和$\sigma$ 有差别,但这只是因为偶然变异。代入近似值后,我们将结果称为估计抽样分布。
信心
- 如果你取得一个大小合适的随机样本,并用这个样本构建一个估计抽样分布,然后从距离中心2个标准差的地方减去尾部,那么95%的情况下你都会得到一个包含真正的总体平均数的范围!换句话说,我们有95%的信心总体平均数在这个范围内的某个地方。
- 置信区间:从技术上说置信区间是与特定置信水平有关的一类区间估计。我们可以计算任何参数的置信区间,但特定技术细节有所差别。
- 理想情况下,我们希望任何置信水平的相应置信区间都尽量最窄,因为置信区间越窄越精确。
恨之深
- 增大
$n$ (通过采集更多观测值)是获得更窄区间的可靠办法,这正是样本越大越好的原因!
假设检验
- 首先,我们用一个样本构建一个估计抽样分布,然后把这个分布推到另一个我们有兴趣研究的位置。接下来,我们回顾通过我们的唯一样本得知的平均数,并提问:如果总体平均数确实在这儿,那么我们随机抽取一个和我们手头的样本一样的样本的可能性有多大?
- P值:在原假设为真的前提下,我们将会观测到的数据的极值不超过我们实际观测到的数据的极值(双尾检验,单尾检验)的概率。
- 假设检验总是以算出P值并据此做出正式结论为终点。这个正式结论指出:我们是否认为我们的统计值与原假设所预测饿的参数具有足够大的偏差,从而可以有理有据地拒绝原假设,而选择另一观点。
破立之争
- 在实践中,我们将一种假设(样本)与原假设进行比较。不过有一些偏心的规矩,原假设总想赢,除非有足够强的证据证明原假设不对!
- 假设检验的要点是,断不可妄下结论。
走向高级:飞猪、外星口水虫和焰火
- 差值推断
- 小样本推断:T分布
- 标准差推断
- 本质上,一切统计问题都相似。这些问题看起来就像这样:如果我们只能得到样本,如何对总体做出判断?我们解决的办法则像这样:我们利用手头的数据估计出某种抽样分布,然后截取它的概率,但有时候先把这个分布推移到一个新位置更有用。
- 在第一部分,我们介绍了样本数据的堆积方式(形状,位置和分布),并进行了研究。接着,在第二部分,我们学习了统计推断,也就是如何利用样本找出整个总体的特性。我们特别学习了如何构建估计抽样分布,如何剪裁,以便计算置信区间,或推移到附近,以便进行假设检验。最后,我们学习了如何在问题变得更为复杂时,修正这些基本步骤。
- 我们通过这本书学习了统计学家的思维方式。