戈赛特职业生涯开端与20世纪前的数理统计学发展情况
在讲戈赛特的经历之前,有必要对数理统计的发展先进行简单的了解。数理统计学的发展大致可分三个时期:20世纪以前,20世纪初到第二次世界大战结束,以及战后。
20世纪以前,这是数理统计学的萌芽时期。在这漫长的时期里,描述性统计占据主导地位。描述性统计就是收集大量的数据,并进行一些简单的运算(如求和、求平均值、求百分比等)或用图表、表格把它们表示出来,中国古代就有钱粮户的统计,西方国家也多次进行人口统计,早期这些统计工作都与国家实施统治有关,统计学的英文statistics源出于位丁文,系由status(状态、国家)和statista(政治家)衍化而来。
图:高斯
这时期也出现了一些现在仍很常用的统计方法,如直方图法,但最重要的,超出描述性统计范围的成就是高斯或勒让德关于最小二乘法的工作,在统计思想上的重大进展是:数据是来自服从一定概率分布的总体,而统计学就是用数据去推断这个分布的未知方面,这个观点强调了推断的地位,使统计学摆脱了单纯描述的性质。由于高斯等人在误差方面的研究工作,正态分布(又叫高斯分布)的性质和重要性受到广泛重视。19世纪末皮尔逊(K. Pearson,1857-1936)引进了一个以他的名字命名的分布族,它包含了正态分布及现在书籍的一些重要的非正态分布,扩大了人们的眼界,皮尔逊还提出了一个估计方法——矩估计法,用来估计他所引进的分布族中的参数。另外,德国的 地测量学者赫尔梅特(F. Helmert)1876年在研究正态总体的样本方差时,发现了十分重要的x2分布。高尔顿(F. Galton)在生物学研究中提出了回归分析方法,这些都是数理统计发展史中的重要事件。这时数理统计学发展达到成熟的时期,许多重要的基本观点和方法,以及数理统计学的主要分支学科,都是在这个时期建立和发展起来的。在其发展中,以费希尔(R.A.Fisher,1890-1962)为代表的英国学派起了主导的作用。
图:Fisher
K.皮尔逊在1900年提出了检验拟合优度的x2统计量,并证明其极限分布(在原假设成立时)是x2分布。这个结果是大样本统计的先驱性工作。20世纪20年代费希尔又作了重要发展。
戈赛特作为牛人K.皮尔逊学生,论起辈分,在当时英国学术江湖上绝对属于名门正派的。如果放到今天,又是名牌高校牛津大学毕业,又是大咖的学生,就凭学校名称和导师的地位、人脉关系、面子,戈赛特完全可以混进名牌高校当个学术带头人,申请一个博士点,或者弄点科研经费都不成为问题。不幸的是,戈赛特生活的年代,学术的江湖如同李小龙时代的武术,讲究的是硬桥硬马的真功夫。所以,戈赛特虽然出身名门正派,但是学校的名称和导师传下来的金字招牌没有给年轻的戈赛特带来“忽如一夜春风来”式的荣华富贵。
就这样,戈赛特进入了一家啤酒厂担任了酿造化学技师。
哥我是来自啤酒厂的
1899年,都柏林勒氏啤酒厂来了一个年仅23岁的年轻人,也就是本科毕业年纪这样。他在该厂担任啤酒酿造化学技师,从事统计和实验分析工作。这个年轻人就是戈赛特。统计和实验分析这活跟戈赛特的专业有关。于是,这个年轻人就想应用自己所擅长的数学,在自己的工作岗位上做出成绩。看看,会数学的,去打工,不但能找到工作,还能有发挥的地方。
图:啤酒厂
想用自己的专业在工作中发挥作用没有错,问题是专业的理论知识有时候不一定能够照进现实啊!遇到这种情况怎么搞?按照一般人来说,尝试失败之后,很坚决地得出个结论:我实验多次,当下的条件与理论要求有差距,没有办法实现更好的结果。戈赛特在啤酒厂做实验,在应用统计学的时候,同样遇到研究条件与统计理论要求的条件有差距/差别的情况。
当时的统计研究第一人,是戈赛特的老师K.皮尔逊,他所研究的是进化论,纵向研究面临的数据,少则几十,多则上千。为了结论准确,样本是越多越好。戈赛特所在的啤酒厂,如果运用他老师的那套,却不可行。因为他面临的情况是这样:影响啤酒质量主要是麦子。而麦子每批次可抽取供实验研究的数量不多。在抽取的每批麦子与不同的其他因素及水平下,得到的结果差异较大。在小样本的条件下去做研究,跟已有的统计基本要求不符合:要获得准确结论,需要大量调查研究。基于此,就需要大样本量。但是工厂的条件只是允许抽样少许的样本做实验,这样做得到的分析结果可靠吗?如果使用老师K.皮尔逊的方法,只能一筹莫展,正是这样的困惑,却为戈赛特提供机会探寻在小样本量条件下,研究小样本的均值,标准差,以及两者的关系,尤其是两者之间的比值并画出分布图。在对图表中表现的特征加以调查后,戈赛特从经验上察觉到了这种分布适用于皮尔逊分布族中的一种分布。这就是t分布。
图:T分布
现在我们可以几行字描述戈赛特发现t分布的所进行的实验,说起来容易啊。戈赛特做起来可没那么简单了。戈赛特生活的年代没有计算机,更没有专门的统计软件,所有数据均是实验得来的,并不像现在有软件辅助进行蒙特卡洛模拟,帮助演算和计算,可以想象计算量有多大。幸运之神终归眷顾努力的孩子,戈赛特的努力得到了回报。发现t分布之后,以小样本进行总体的均值推断也能估算出规律误差,而且估算的过程简单。
隐姓埋名的大统计学家
在长期从事实验和数据分析的工作中发现了T分布,在当时,戈赛特所在的啤酒厂害怕商业机密外泄,禁止员工在外发表文章,所以戈赛特的老师K·皮尔逊和他商量用“student”的笔名在K.皮尔逊的杂志《生物统计》发表了此项结果,开了小样本理论的先河。
在此后的30年里,student陆续发表了许多优秀论文,并且刊登于《生物统计》杂志上,神秘的student成为统计学界的知名人物。
戈赛特生前一直隐瞒自己就是“student”的身份,据说不仅仅活跃于英国的一部分统计学者不知道student是谁。就连在推断统计学草创期大放异彩的美国伟大统计学者哈罗德·霍特林回忆说,20年代末与student面谈时,一切准备工作都是在暗中进行,简直就像间谍小说描述的一样。“student”真是谦逊。
戈赛特的贡献
统计学家,这种头衔在普通人看来似乎无足轻重。一个研究统计的学究,混好了可以上个学术讲台、出几本书,混不好了也就是在一些论坛挖个坑混点击,或者在一些微信公众号发表小文赚点赞、打赏。然后,戈赛特的贡献远远不是这些,而且一直谦逊的。值得敬佩。
戈赛特的贡献:
比较平均误差与标准误差的计算方法;
研究泊松分布应用中的样本误差问题;
建立相关系数的抽样分布;
导入t分布,提出小样本的检验思想。
当然,戈赛特的贡献远非这些。在1904年之后三十年中他仍然发表了不少文章,而且他是一个非常谦逊的人,当时pearson和fisher之间的矛盾很深,而戈赛特作为二者之间的调和人,协助他们在各自领域里做出了不少贡献,而且作了很多穿针引线的事情,在他的帮助下,互相交恶的两人才产生关联,推动了推断统计学诞生。保持几位统计学大家的关系。这在以后也是很为人所称道的。牛人的人品由此可见。
向戈赛特致敬!想进一步了解请参阅《“学生”论文集》一书。
文:唐毓财;校对:袁晓燕
六六学苑投稿:admin@