大数据文摘作品,转载要求见文末
编译 | 吴蕾,寒小阳
简介
回归技术不仅包含线性和逻辑回归方面知识,它还体现了多种建模和分析变量的能力。此项技能测试是为了评估你在众多回归技术方面的概念和运用能力。
此次共有1845名选手参与测试,我能确信,这是在回归领域内公认的最佳测试集。
如果你没能参与,确实是错过了实时考试的机会,那也不必遗憾,这里将公布考题和答案,你可以看看自己掌握了多少。
总体分数
下图展示了整体分数的分布情况,可以帮助你评估自己的成绩。
你能够在此处()评估你的成绩:约530名选手参加了技能测试,最高分是38分,下面是些分布统计值:
平均值:23.15
中位值:23
高频值:23
回归学习的资源
如果你要复习一下回归的相关知识,可以参考以下网站:
■ 使用假设,图解及方案,深入学习回归分析
■ 五个问题带你学习多重回归(附R和Python代码)
■ 你应该知道的7种回归技术
■ 用R实现逻辑回归的简单指南
■ Python实现岭回归和Lasso回归的完全指导书
■ 利用Platt Scaling和保序回归(Isotonic Regression)来最小化Log loss Error,用R语言实现
1
下面回归模型中的哪个步骤/假设最能影响过拟合和欠拟合之间的平衡因素:
A. 多项式的阶数
B. 是否通过矩阵求逆或梯度下降学习权重
C.使用常数项
答案:A
选取合适的多项式阶数对于回归的拟合程度会产生重要的影响。多项式阶数越高,越容易产生过拟合现象。
2
假设您有一组实数输入变量和实数输出变量,线性回归(Y=bX+c)情况下的留一交叉验证(leave-one-out-cross-validation)的均方误差是多少?
A. 10/27
B. 20/27
C. 50/27
D. 49/27
答案:D
我们要计算每个交叉验证点的残差。用两点拟合出直线后,用剩下的那个点进行交叉验证。弃一交叉验证的均方差=(2^2 +(2/3)^2 +1^2) /3 = 49/27
3
Q3: 关于MLE(最大似然估计),下面哪一项或几项说法是正确的
MLE可能不存在
MLE总是存在
如果MLE存在,可能不是唯一的
如果MLE存在,肯定是唯一的
A. 1 and 4 B. 2 and 3 C. 1 and 3 D. 2 and 4
答案: C
MLE可以不是转折点,即,可以不是似然(和对数似然)函数的一阶导数的消失点。
MLE可以不是唯一的。
4
Q4:假设一个线性回归模型完美适合训练数据(训练误差为0),下面那个说法是错误的:
A. 你总是能获得测试误差为0
B. 你不能得到测试误差为0
C. 以上皆非
答案:C
测试误差有可能为0,假如测试数据里面没有噪声数据。或者说,如果测试数据能够完美表征训练数据集,测试误差即可为0,但测试数据不会总这样。
5
Q5: 在线性回归问题中,我们使用决定系数 (R-squared)来测量拟合优度。我们在线性回归模型中添加一个特征值,并保留相同的模型。
下面哪种说法是正确的?
如果R-Squared增大,这个变量是显著的。
如果R-Squared减小,这个变量是不显著的。
单独观察R-Squared的变化趋势,无法判断这个变量是否显著。
以上皆非
答案:C
决定变量的变化并不能独立决定某个变量的的显著程度,因为每当我们添加一个特征值的时候,R-squared可以增加或不变。但是如果是矫正后的决定系数,这种R-squared增大即该变量重要的说法肯定是不对的。
6
Q6:关于回归分析中的残值,下述哪个说法是正确的?
残值的平均数总是为0
残值的平均数总是小于0
残值的平均数总是大于0
残值的大小没有规则。
答案:A
回归的残值和始终为0,因此平均值也始终为0.
7
关于异方差性,下面哪种说法是正确的:
具有不同误差项的线性回归
具有相同误差常数项的线性回归
具有0误差项的线性回归
以上皆非
答案:A
误差项中非恒定方差的存在导致异方差。一般情况下,非恒定方差的出现是因为异常值或极端杠杆值的存在。你可以参考这篇文章,了解更多回归分析的细节。
8
下面哪种说法显示了X和Y之间的较强相关性?
相关系数=0.9
对于零假设(null hypothesis)的p value=0.0001,Beta系数=0
对于零假设(null hypothesis)的t-statistic=30,Beta系数=0
D以上皆非
答案:A
相关系数为0.9表明变量之间的相关性相当强。另一方面,p-value和t-statistics只是衡量证据和非零假设的相关程度。给定足够的数据,一个微弱效应也能显示出超强的显著性。
9
在推导线性回归参数时,我们会做出以下哪些假设?
因变量y和预测变量x之间的真实关系是线性的。
模型的误差在统计意义上是独立的。
误差通常分布是均值为0,且标准差为常数。
预测变量x是非随机的,而且不存在测量误差。
A.1,2,3
B.1,3,4
C1,3
D. 以上所有
答案:D
当我们推到回归参数的时候,我们会提出以上四项假设。。当任意一项假设不成立的时候,得到的模型将会是错误的。
10
要测试y(因变量)和x(自变量)连续变量的线性关系,下面哪个图最适合?
A. 散点图
B. 条状图
C. 直方图
D. 都不是
答案:A
散点图是表达连续变量线性关系的较好选择。我们能够从中发现一个变量的变化是如何影响到另一个变量的。散点图呈现的是两个可量化的变量之间的关系。
11
通常来说,下面哪种(些)方法能够用来预测连续因变量?
1. 线性回归
2. 逻辑回归
A. 1和2
B. 只有1
C. 只有2
D. 以上皆非
答案:B
逻辑回归是用来处理分类问题的,这里的回归的说法,从字面上来说是有误导倾向的。
12
一个人的年龄和健康情况的关联性为-1.09.根据这点,你可以告诉医生:
A 年龄是健康情况的良好预测器
B 年龄不是健康情况的良好预测器。
C以上皆非
答案:C
相关系数的范围是【-1,1】,所以-1.09是不可能的。
13
在最小二乘法拟合的情况下,我们使用以下哪个偏移量?假设水平轴为自变量,竖直轴为因变量。
A 竖直(vertical)偏移量
B 垂直(Perpendicular)偏移量
C 都可以,视情况而定
D 以上皆非
答案:A
我们总是用竖直偏移量来计算残差。垂直偏移量在PCA上有用。
14
假设我们已经由3次多项式回归的生成了数据(三次正好能拟合改组数据)。现在请考虑以下几种说法,并选择合适项。
简单线性回归将具有高偏差和低方差
简单线性回归将具有低偏差和高方差
三次多项式将具有低偏差和高方差
三次多项式将具有低偏差和低方差
A. Only 1
B. 1 and 3
C. 1 and 4
D. 2 and 4
答案:C
如果我们用更高次(大于3次)的多项式去拟合,会出现过拟合现象,因为模型将会变得更加复杂。如果我们用更低次(小于3次)的多项式去拟合,就意味着模型变得简单,所以在这种情况下会出现高偏差和低方差的情况。而在3次多项式的情况下,我们就会得到低方差低偏差。
15
假设你在训练一个线性回归模型,请看一下两点,哪个(些)说法是正确的?
如果我们拥有较少的数据,更容易发生过拟合的情况
如果假设空间很小,更容易产生过拟合的情况
A 两种说法都错
B 是错的,2是对的
C 1是对的,2是错的
D 两种说法都对
答案:C
1. 具有一个比较小的训练集,很容易找到假设去拟合训练数据集,即为过拟合
2. 我们能从偏差-方差平衡上来理解这点。当假设空间集比较小的时候,它具有更高的偏差和更低的方差,所以对于较小的假设空间,不太能找到合适的假设去拟合数据,这正是欠拟合。
16
假设我们对一组数据用Lasso回归去进行拟合,这组数据有100个特征值(X1,X2…X100)。现在,我们把其中一个特征值放大10倍(假设就是X1),然后重新用Lasso回归进行拟合,保持相同的正则化参数。下面那个选择是正确的?
A. X1很有可能被排除在模型外
B. X1很有可能被包含着模型内
C. 无法判断
D. 以上都不是
答案:B
大特征值è更小的系数è更小的Lasso惩罚项è更容易被保留
17
关于特征值选择,下面关于Ridge回归或Lasso回归的说法,那个是正确的?
A. 回归:对特征值用子集选择的方法
B. 回归:对特征值用子集选择的方法
C. 两种方法都用子集选择的方法
D. 以上皆非
答案:B
Ridge回归会在模型中用到所有的预测项,而Lasso回归适用于于特征值选择,因为系数值可以为0。更详细的内容可以参考这里(https://discuss.analyticsvidhya.com/t/difference-between-ridge-regression-and-lasso-and-its-effect/3000)。
18
在线性回归模型中添加变量后,以下哪个(些)说法是正确的?
R平方和调整后的R平方都增加
R平方增加,调整后的R平方减小
R-Squared decreases and Adjusted R-squared decreases R平方和调整后的R平方都减小
R-Squared decreases and Adjusted R-squared increases R平方减小,调整后的R平方增加
A. 1和2
B. 1和3
C. 2和4
D. 以上皆非
答案:A
每次加一个特征值后,R平方总是增加或维持不变。但对于调整过的R平方并非如此,如果增加了,这个特征值是有显著性的。
19
下面的可视化图显示了对于相同训练数据的三种不同模型的拟合情况(蓝线)。从中你能得到怎样的结论?
1. 第一个模型的训练误差比第二个和第三个模型大。
2. 对于这个回归问题,第三个模型是最好的,因为其训练误差最小。
3. 第二个模型鲁棒性比第一个和第三个模型更强,因为它对于不可见部分数据的表现更好
4. 相对于第一个和第二个模型来说,第三个模型过拟合了。
5. 所有的模型都一样,因为我们没有看到测试数据集。
A.1和3
B. 1和2
C. 1,3和4
D. 只有5
答案:C
数据的趋势看起来像是自变量X的二阶趋势。对于训练集来说,更高阶数(右图)多项式可能会更精确,但很有可能在测试集上会预测失败。而观察左边的图,你会得到最大的训练误差,因为这个模型欠拟合。
20
以下哪些指标可用于评估回归模型?
R平方
调整后的R平方
F检验
RMSE / MSE / MAE
A. 2和4
B. 1和2
C. 2,3和4
D.以上所有
答案:D
这些(R平方,调整后的R平方,F检验,RSME/MSE/MAE)是可以用来评估回归模型的指标
21
我们还可以借助于称为“normal equation”的分析方法来计算线性回归的系数,关于normal equation,下面哪个(些)说法是正确的?
1. 我们不必选择学习速度
2. 当特征值很多的时候,就会变慢
3. 不需要迭代
A. 1和2
B. 1和3
C. 2和3
D. 1,2和3
答案:D
如果不用梯度下降法,normal equation也可以用于找到系数,可以参考这篇文章(http://eli.thegreenplace.net/2014/derivation-of-the-normal-equation-for-linear-regression/)。
22
Y值是关于变量X(X1,X2….Xn)的线性函数,回归线如下定义:
Y = β0 + β1 X1 + β2 X2……+ βn Xn
下面哪种(些)说法是正确的?
如果Xi变化量为∆Xi,保持其他变量不变,那么Y值变化量为βi ∆Xi,βi是一个常数(通常是一个正数或者负数)
βi不变,无论其他X值如何变化
作用在Y值上的所有X值是其单独作用的总和。注意:特征值是相互独立的,没有相互作用。
A. 1和2
B. 1和3
C. 2和3
D. 1,2和3
答案:D
1. Y是变量X的线性函数,这意味着:
如果X i变化了∆X i,保持其他变量不变,对于特定常数β i, Y值的变化量即为β i ∆X i,β i通常是正数或者负数。
无论其他X的值是多少,β i的值是保持不变的。
作用在Y值上的所有X值是其单独作用的总和
2. 未经解释的变量Y是独立随机变量,特别地,如果变量是时间序列的话,Y不是自相关的。
3. 他们具有相同的方差(同方差)。
4. 他们服从正态分布。
23
在简单的线性回归模型中需要估计多少系数(一个自变量)?
A. 1
B. 2
C. Can’t Say 无法估计
答案:B
在一个简单线性回归函数中,如果有一个自变量,那就有两个参数Y=a+bx
24
下列图中显示了两组随机生成数据的回归线(A和B)现在我要找出A和B的残差和。
注意:
1. 两个图的两个轴的刻度相同。
2. X轴是自变量,Y轴是因变量。
下面关于图A和图B的残差和的说法,哪个是正确的?
A) A比B高
B) A比B低
C) 二者相同
D) 以上都不是
答案: C
残差和始终为0.
25
如果两个变量是相关的,二者是否必然具有线性关系?
A. 是
B. 否
答案:B
二者可以是非线性关系的,不是必然线性的关系。
26
相关变量可以是相关系数为0的,对还是错?
A.对
B. 错
答案:A
27
假设我对数据应用逻辑回归模型,并得到训练精度X和测试精度Y.现在我想在数据中添加几个新特性。请选择正确的选项。
注意:其他的参数都是相同的。
1. 训练精度总是下降的
2. 训练精度总是上升的或者维持不变。
3. 测试精度总是下降的。
4. 测试精度总是上升的或者维持不变。
A. 只有2
B. 只有1
C. 只有3
D. 只有4
答案:A
向模型添加更多特征将总是会增加训练准确度,即低偏差。但是测试精度增加,则有赖于特征是否是显著的。
28
下图表示由X预测Y的回归线。图上的值显示每个预测值的残差。使用此信息来计算SSE。
A. 3.02
B. 0.75
C. 1.01
D. 以上皆非
答案: A
SSE是预测的误差平方和,此处SSE= = )^2 + (.4)^2 + )^2 + )^2 + )^2 = 3.02
29
众所周知,高度和重量是正相关的。忽略绘图比例(变量已被标准化),两个散点图(图1,图2)中的哪一个更可能是示出高度(Var1-X轴)和重量(Var2-Y轴)的值的绘图。
A. 图2
B. 图1
C. 二者都是
D. 无法判断
答案:A
图2显然更好地表示了高度和重量之间的关联。随着个体越来越高,他们占据更多的体积,这导致重量的增加,因此可以看见是正比例的关系。右图显示的是正比例关系,而左图则显示了反比例关系。
30
假设公司X的工资分配中位数为35,000美元,第25和第75百分位数分别为21,000美元和53,000美元。一个薪水$ 1的人会被视为异常值吗?
A. 会
B. 不会
C. 需要更多信息才能判断
D. 以上都不对
答案C
31
关于“回归”和“相关”,下列哪个选项是正确的?
注意:y是因变量,x是自变量
A. 在两者中,x和y之间的关系是对称的。
B. 在两者中,x和y之间的关系不是对称的。
C. 在相关的情况下,关系在x和y之间不是对称的,但是在回归的情况下它是对称的。
D. 在相关的情况下,关系在x和y之间不是对称的,但是在回归的情况下它是不对称的。
答案:D
1. 相关是一个统计度量,用于测量两个变量之间的线性关联。它对称地处理y和x。
2. 回归是建立了从x预测y的方法,两个变量之间的关系是不对称的。
32
我们可以基于平均值和中值计算变量的偏度吗?
A. 可以
B. 不可以
答案:B
偏度与平均值和中值之间的关系没有直接的关系。
33
假设你有n个数据集,包含有两个连续变量(y是因变量,x是独立变量)。我们计算了这些数据集的汇总统计,得到以下结果:
所有给定的数据集是否相同?
A. 是
B. 不是
C. 无法判断
答案:C
回答这个问题,你需要了解Anscombe的四组数据,请参考该链接:;s_quartet
34
观察次数对过拟合有怎样的影响?请选择正确答案。
注意:其他参数都是相同的。
1. 如果观察次数比较少,容易产生过拟合。
2. 如果观察次数比较少,不容易产生过拟合。
3. 如果观察次数比较多,容易产生过拟合。
4. 如果观察次数比较多,不容易产生过拟合。
A. 1和4
B. 2和3
C. 1和3
D. 以上皆非
答案:A
特别是,如果我们有的观察值比较少且值很小的话,那么我们的模型会快速过拟合数据。因为我们只有几个点,如果增加模型的复杂性,如多项式的阶,它会比较容易拟合到我们的观察数据上去。
另一方面,如果我们有大量观察数据,即便用非常复杂的模型,也很难过度拟合,因为我们输入的是高密度观察数据。
35
假设您已在数据集上拟合了一个复杂的回归模型。现在,您正在使用Ridge回归与调整参数lambda以降低其复杂性。选择下面的描述,哪个表达了偏差和方差与λ的关系。
A. 在λ非常大的情况下,偏差低,方差低。
B. 在λ非常大的情况下,偏差低,方差高。
C. 在λ非常大的情况下,偏差高,方差低。
D. 在λ非常大的情况下,偏差高,方差高。
答案:C
如果λ很大,则意味着模型不是很复杂,这种情况下,会产生偏差高且方差低的结果。
36
假设您已在数据集上拟合了一个复杂的回归模型。现在,您正在使用Ridge回归,并调整参数λ以减少其复杂性。选择下面的描述,哪个表达了偏差和方差与λ的关系。
A. 在λ非常小的情况下,偏差低,方差低。
B. 在λ非常小的情况下,偏差低,方差高。
C. 在λ非常小的情况下,偏差高,方差低。
D. 在λ非常小的情况下,偏差低,方差低。
答案: B
如果λ很小,则意味着模型比较复杂,这种情况下,会产生偏差低且方差高的结果,模型会对数据过拟合。
37
关于ridge回归,下面哪个(些)说法是正确的?
1. 如果λ为0,模型等同于现行回归模型工作。
2.如果λ为0,模型不会像线性回归模型一样工作。
3. 如果λ趋向于无穷,我们会得到极小的系数,趋向于0。
4. 如果λ趋向于无穷,我们会得到极大的系数,趋向于无穷大。
A. 1和3
B. 1和4
C. 2和3
D. 2和4
答案:A
具体来说,我们可以看到,当lambda为0时,我们得到我们的最小二乘解。当λ达到无穷大时,我们得到非常小的系数,趋向于0。
38
下面的三张残差图,哪一张比另外两张表现更差一些?
Note: 注意:
1. 所有的残差都已经标准化。
2. 图示均为预测值vs残差。
A. 1
B. 2
C. 3
D. 1 、2
答案:C
预测值和残差之间不应有任何联系。如果它们之间存在关系,则意味着模型没有完全捕获数据中的信息。
39
对于下面的方法,哪些系数是没有闭式解(closed form solution)的?
A. Ridget回归
B. Lasso
C. Ridge回归和Lasso都有
D. Ridge回归和Lasso都没有
答案:B
Lasso没有闭式解。L1惩罚值使得解为非线性,所以需要估算答案。如果需要了解更多闭式解的知识,请参看这个链接()。
40
考察这个数据集
删除哪个粗体点对拟合的回归线具有最大的影? 响如上图虚线所示
A) a
B) b
C) c
D) d
答案:D
线性回归对数据中的异常值比较敏感。虽然c也是给定数据空间中的异常值,但它是接近回归线(残差较小),所以它不会影响太大。
41
在一个简单的线性回归模型(一个独立变量)中,如果我们将输入变量改变1个单位。输出变量将如何变化?
A: 变化1
B. 不变
C.变化为截距
D. 变化为斜率
答案: D
简单线性回归方程表达式为:Y=a+bx。现在我们将x增加1,那么y值将为a+b(x+1),也就是说y的增加量等于b。
42
逻辑回归的输出概率在[0,1]的范围内。逻辑回归使用以下哪个函数来实现概率转换?
A. Sigmoid
B. 求模
C. 平方
D. 机率单位
答案:A
Sigmoid函数用于在逻辑回归中把输出概率转换到[0,1]范围之间。
43
关于在线性回归和逻辑回归中的成本函数关于权重/系数的偏导数,下面的陈述是真实的?
A. 两者不同
B. 两者相同
C. 无法判断
D. 以上皆非
答案:B
参看该链接。()
44
假设我们使用Logistic回归模型分析n类分类问题。在这种情况下,我们可以使用留一法(One-vs-rest method)。关于这个问题,下面哪个选项是正确的?
A. 我们需要在n类分类问题中拟合n个模型。
B. 我们需要在n类分类问题中拟合n-1个模型。
C. 我们需要在n类分类问题中拟合1个模型。
D. 以上皆非
答案:A
如果有n项,那么需要n个单独的逻辑回归去拟合,其中每组的概率是需要在剩余其他组合中去拟合的。例如,对于一个3项(-1,0,1)分类器,那就需要训练3个逻辑回归分类器。
1. -1 vs 0 and 1
2. 0 vs -1 and 1
3. 1 vs 0 and -1
45
一下是两个不同的逻辑回归模型,具有不同的β0和β1值。
下面关于这两个不同逻辑回归模型的β0和β1,哪个(些)说法是正确的?
注意:设Y = β0 + β1*X,其中β0是截距,β1是系数。
A. 绿色模型的β1比黑色的大。
B. 绿色模型的β1比黑色的小。
C.绿色模型的β1和黑色的一样。
D. 无法判断。
答案:B
黑色模型:β0 = 0, β1 = 1,绿色模型:β0 = 0, β1 = −1
结束语
希望大家能够喜欢此次测试,并能够从中获益。此次测试的重点在于回归的概念和运用技术。
我们试图通过此文来解答您的疑问,不过如果有错误的话,请在留言中指出。如果您还有任何关于改进的建议,请不吝指出,我们会在下次测试题集中加以完善。
您可以测试一下知识和技巧,请点击在线竞赛,与全球的数据科学家较量一番吧()。
来源: