如果一个模型在测试集上偏差很大,方差很小,则说明该模型()
A.过拟合
B.可能过拟合可能欠拟合
C.刚好拟合
D.欠拟合
A.过拟合
B.可能过拟合可能欠拟合
C.刚好拟合
D.欠拟合
第1题
A.异方差
B.完全多重共线
C.遗漏变量偏差
D.虚拟变量陷阱
第2题
利用数据集401KSUBS.RAW。
(i)利用OLS估计e401k的一个线性概率模型,解释变量为inc,inc²,age,age²和male。求通常的OLS标准误和异方差-稳健的标准误。它们有重要差别吗?
(iii)对第(i)部分估计的模型求怀特检验,并分析系数估计值是否大致对应于第(ii)部分中描述的理论值。
(iv)在验证了第(i)部分的拟合值都介于0和1之间后,求这个线性概率模型的加权最小二乘估计值。它们与OLS估计值有重大差别吗?
第3题
数据集401KSUBS.RAW包含了净金融财富(nenfa)、被调查者年龄(age)、家庭年收入(inc)、家庭规模(fsize)方面的信息,以及参与美国个人的特定养老金计划方面的信息。财富和收入变量都以千美元为单位记录。对于这里的问题,只使用无子女已婚者数据(marr=1,fsize=2)。
(i)数据集中有多少无子女已婚夫妇?
(ii)利用OLS估计模型
nettfa=β0+β1inc+β2age+u;
并以常用格式报告结果。解释斜率系数。斜率估计值有何惊人之处吗?
(iii)第(ii)部分的回归截距有重要意义吗?请解释。
(iv)在1%的显著性水平上,针对H0:β2>1检验H0: β2=1,求出p值。你能拒绝H0吗?
(V)如果你做一个nettfa对inc的简单回归,inc的斜率估计值与第(ii)部分的估计值有很大不同吗?为什么?
第4题
A.级别划分较多的属性不会影响模型效果
B.在某些噪音较大的分类或回归问题上不会过拟合
C.每次学习使用不同训练集,一定程度避免过拟合
D.能够处理高纬度的数据,并且不做特征选择
第5题
A.确定已实施的控制测试是否为信赖控制提供了充分、适当证据
B.判断是否需要实施进一步实质性程序以应对潜在的错报风险
C.判断是否需要实施进一步控制测试程序以应对潜在的错报风险
D.了解这些偏差及其潜在后果
第6题
A.RDD支持各种粗粒度和细粒度的操作
B.RDD提供一种高度受限的共享内存模型,是一个弹性分布式数据集
C.RDD读取的数据都存储在一台机器上
D.RDD是只读存储
第9题
A.此功能对模型有很大影响(应保留)
B.此功能对模型影响不大(应忽略)
C.在没有更多信息辅助情况系,就无法评论此功能的重要性
D.无法确定
第10题
A.数据集合扩充
B.L1和L3正则化
C.提前停止训练
D.使用Dropout方法