我们想要训练一个 ML 模型,样本数量有 100 万个,特征维度是 5000,面对如此大数据,如何有效地训练模型(多选)?
A、对训练集随机采样,在随机采样的数据上建立模型
B、尝试使用在线机器学习算法
C、使用 PCA 算法减少特征维度
A、对训练集随机采样,在随机采样的数据上建立模型
B、尝试使用在线机器学习算法
C、使用 PCA 算法减少特征维度
第1题
A.我们随机抽取一些样本,在这些少量样本之上训练
B.我们可以试用在线机器学习算法
C.我们应用PCA算法降维,减少特征数
D.B和C
E.A和B
F.以上所有
第4题
A、样本越多,模型训练越快,性能越好。
B、样本越少,模型的方差越大。
C、如果模型性能不佳,可增加样本多样性进行优化。
D、增加数据可以减少模型方差。
第5题
(i)变量cigs是平均每天抽烟的数量。样本中有多少人根本就不抽烟?有多大比例的人声称每天抽20支?你为什么认为抽20支香烟的人会有所堆积?
(ii)给定你对第(i)部分的回答,cigs看起来具有条件泊松分布吗?
(iii)用log(cigpric)、log(income)、white、educ、age和age2作为解释变量,估计cigs的一个泊松回归模型。估计的价格和收入弹性是多少?
(iv)利用极大似然标准误,价格和收入变量在5%的水平上统计显著吗?
(v)求方程(17.35)后面介绍的σ2估计值。σ是多少?你应该如何调整第(iv)部分中的标准误?
(vi)利用第(v)部分中调整后的标准误,价格和收入弹性现在统计显著异于零吗?请解释。
(vii)利用更稳健的标准误,教育和年龄变量显著吗?你如何解释educ的系数?
(viii)求泊松回归模型的拟合值yi。找出最大值和最小值,并讨论指数模型对瘾君子的预测表现。
(ix)利用第(viii)部分的拟合值,求yi和yi之相关系数的平方。
(x)使用第(iii)部分中的解释变量(及相同的函数形式),用OLS估计cigs的一个线性模型。线性模型和指数模型哪个拟合得更好?两者的R都很大吗?
第6题
第7题
A.-156.45
B.-137.46
C.-154.37
D.-147.96
E.-157.48
第10题
A.4.00
B.4.17
C.4.25
D.5.00
为了保护您的账号安全,请在“上学吧”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!