职位包含 DS/DA/Quant/Engineering Rotator/Big Data/Bio-statistician...\n大小中型公司、金融、IT、药企 都有...\nDS 的考点又杂又多,我的策略:基础考点深刻全面、进阶考点点到为止(学霸请忽略这句话、我基础很差) . Χ\n\n\n一、统计类基础. Χ\n1. 1 概率论和分布\n• 大数定律\n• 中心极限定理\n• 贝叶斯公式和条件概率\n• 常见事件的分布、期望和方差\n• 不同分布之间的关系.--\n• 蓄水池抽样法了解一下(这个不知道归于哪一类,请允许我放这里)\n\n1. 2 假设检验\n• 一些基本概念,比如p-value, confidence interval\n• P-value怎样计算(离散分布/连续分布)\n• Bonferroni correction\n• 假设检验下抽样分布的假设,包含检验正态性、齐方差、何时使用T-test、Z-test、基本的非参数检验;\n• 要能够清楚地做出原假设和备择假设,并且已知 p-value时正确做出推断\n\n1. 3 A/B TESTING\n• 科技类公司会考,推荐Udacity里google 的 A/B test的课。\n• 如何设计实验,如何选择合理的衡量metrics\n\n\n1. 4 SIMULATION (就被考过一次). 1point 3acres\n• Inverse transformation\n• 听说的没被考过,gibbs sampling\n\n\n1. 5【准备经历】\n• 我把同济大学《概率论和数理统计的》习题册、相关的简单例题做了两遍。\n• 《A Practical Guide to Quantitative Financial Interviews》相关题目做了三遍,(用处:搞第一遍时想死,搞完三遍后变得对所有的统计应用题莫名有自信、并怀揣期待)\n• 网络上的“统计 数学 面经”\n.\n\n二、ML/NLP - PROJECT相关. Χ\n2. 1 一些建模的GENERAL问答\n• 怎么找outlier\n• 怎么搞missing value ..\n• 怎样处理imbalanced data. 1point 3acres\n• Model evaluation 要清楚各个metrics的特点和适用情况\n a. Cross-Validation、stratified cross-validation\n b. MSE,MAE,impurity function,cross-entrop,precision, recall, AUC, ROC, F1 … . .и\n• false positive 和 false negative:给出false positive比false negative更重要的例子\n• 怎样选 feature\n• Overfitting, underfitting各自的表现和解决方式\n• Variance/bias trade-off\n• Out-of-bag sample\n• 解释 gradient descent, stochastic gradient descent, mini-batch gradient descent…\n• Statistical learning 和machine learning的区别\n• spherical hashing,我十分感觉这题超纲......不准备也罢。\n• 没被考到过,但是个人觉得还是了解一下比较好的知识点:\n a. Parametric / Non-parametric model\n b. Generative / Discriminant model\n c. Curse of dimension\n\n\n2. 2 REGRESSION\n• 线性回归的基本假设,违背基本假设时怎么办\n• 如何衡量共线性,VIF\n• 对比correlation和causation,分别如何测量\n• 线性回归,对数据进行各种线性变换时模型怎么变,预测值、R方、系数等等怎么变\n• 为什么OLS下残差和为零\n• 根据residule plot和QQ-plot判断拟合得好不好. .и\n• 没被考到过但是我能想到的potential考点. From 1point 3acres bbs\n a. Logistic 回归的参数怎么估计\n b. Logistic回归的LOSS function的形式\n c. 线性回归中为什么使用OLS估计,OLS估计量的一些性质(BLUE)\n.google и\n\n2. 3 REGULARIZATION. 1point3acres.com\n• 对比Lasso 和Ridge\n• 不同的编程语言Lasso的结果一样吗?不一样,因为grid不一样。我也不知道考这个干嘛。. 1point3acres.com\n• L1 norm 和L2 norm\n• Regularization的估计系数是无偏的吗?\n\n2. 4 TREE & ENSEMBLE\n• 解释tree模型\n• 解释random forest模型,并且对比着解释boosting 模型(GBT比较常考).--\n• Random forest 和GBT 模型在编程语言中的可调参数\n• 要知道random forest的每棵树最好造深一些,因为random forest更适用于low bias high variance; boosting model的每棵树不要太深\n• 最欢什么模型?为什么?\n• 总之建议了解下各个模型的优缺点,适用于什么情况,什么data,复杂度和计算量与什么有关。\n\n\n2. 5 KNN\n• 请解释KNN,然后把它的实现代码写出来。\n\n\n2. 6 K-MEANS\n• 请解释K-means,然后把它的实现代码写出来\n• 怎么选k\n• 怎么衡量结果(非监督学习,我猜面试官往往希望听到一些与domain people的合作)\n\n\n2. 7 SVM\n• 请解释SVM,(似乎任何模型都可能“解释该模型”)\n• 什么是Support vector\n• 请解释kernel trick, 为什么它kernel matrix是正定的\n• 要知道SVM的复杂度依赖于什么,样本量还是变量数\n• 解释SVM模型的几个重要参数\n\n\n2. 8 ML相关的算法实现\n• 我被考到过的有\n a. 请写出一个KNN算法. 1point3acres.com\n b. 请写出一个KMeans算法\n c. 请写出一个mini-batch gradient descent函数\n\n\n2. 9 NLP相关\n• 除非你面试NLP engineer,否则很少被主动考到. Χ\n• 根据面试岗位的不同,对于有的岗位ML model是建立在text data上的,所以NLP就可以加分\n• 一些基础的概念比如:\n a. BOW model, N-gram model\n b. Term matrix, T