2018校招-大疆机器学习笔试题

发表于 2018-07-08 更新于 2025-05-04 分类于算法阅读次数： Disqus：本文字数： 0 阅读时长 ≈ 1 分钟

写在前面

本篇博客写的是关于大疆机器学习岗位的笔试题B卷（分两次考试：A卷和B卷），对其他岗位不具有参考性。今年的大疆笔试题题量大（单选，多选，填空，问答，编程），时间却很短（1个小时），可以说是时间短，题目多。好多人都没有做完，包括我。不说了，趁着刚做完，把题目做一个记录，题目来自于一些同学的拍照和自己的记忆。

题目

单选题

1. 关于Logistic回归和SVM，以下说法错误的是？

Logistic回归可用于预测事件发生概率的大小

Logistic回归的目标函数是最小化后验概率

SVM的目标的结构风险最小化

SVM可以有效避免模型过拟合

2. 假设三个稠密矩阵（Dense Matrix）A, B, C的尺寸分别为m*n, n*q和p*q，且$m<n<p<q$，一下计算顺序会加速的是？

(AB)C

AC(B)

A(BC)

所有效率都相同

答案：A

3. 以下有关特征数据归一化的说法错误的是：

特征数据归一化加速梯度下降优化的速度

特征数据归一化有可能提高模型的精度

线性归一化适用于特征数值分化比较大的情况

概率模型不需要做归一化处理

4. 假定你在神经网络中的隐藏层中使用激活函数X，在特定神经元给定任意输入，你会得到输出[-0.0001]，X可能是一下哪一个？

ReLU

tanh

sigmoid

其他都不是

5. 下列哪些项所描述的相关技术是对的？

AdaGrad和L-BFGS使用的都是一阶差分

AdaGrad和L-BFGS使用的都是二阶差分

Adagrad使用的是一阶差分，L-BFGS使用的是二阶差分

Adagrad使用的是二阶差分，L-BFGS使用的是一阶差分

多选题

1. 关于主成分分析PCA说法正确的是：

我们必须在使用PCA前规范化数据

我们应该选择使得模型有最大variance的主成分

我们应该选择使得模型有最小variance的主成分

我们可以使用PCA在低纬度上做数据可视化

2. 以下描述错误的是？

SVM是这样一个分类器，他寻找具有最小边缘的超平面，因此它也经常被称为最小边缘分类器（minimal margin classifier）

在聚类分析中，簇内的相似性越大，簇间的差别越大，聚类的效果越好

在决策树中，随着树中节点变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题

聚类分析可以看做是一种非监督的分类

3. 假设目标遍历的类别非常不平衡，即主要类别占据了训练数据的99%，现在你的模型在训练集上表现为99%的准确度，那么下面说法正确的是：

准确度并不适合衡量不平衡类别问题

准确度适合衡量不平衡类别问题

精确度和召回率适合于衡量不平衡类别问题

精确度和召回率不适合衡量不平衡类别问题

4. 神经网络训练过程中的哪些现象表明可能出现了梯度爆炸？

模型梯度快速变大

模型权重变为NaN值

每个节点和层的误差梯度值持续超多1.0

损失函数持续减小

应该还有个第五题，不过没有资料了。

填空题

1. 具体题目记不太清楚了，是关于输如一个200x200的图像，经过几次卷积和池化后，求维度大小。
2. 在训练集标签为[0,0,0,1,1,1,1,1], 求信息熵的大小。

简答题

1. BP算法推导
2. 写出Leaky-ReLu的数学公式，相对于sigmoid函数的优点
3. Adagrad的优缺点
4. 在图像处理中，Data augmentation有哪些方式
5. 为什么要进行数据归一化，有哪些方式

编程题

1. 给你一个数列a[0], n[1],…,a[n-1]，n大于4，必定存在i, j, p, q, 使得$i<j<p<q$，且$n[j] - n[i] + n[q]-n[p]$值最大，求出这个最大值，并说明时间复杂度。

2. 给你一个数组，求一个k值，使得前k个数的方差+后面n-k个数的方差最小，并说明时间复杂度。