机器学习面试问题
机器学习面试问题
1、区分机器学习和深度学习
机器学习是人工智能的一个子集,它为机器提供了自动学习和改进的能力,无需任何明确的编程。
而深度学习,机器学习的子集,能够做出直觉决策的人工神经网络。
2、你对Recall和Precision这个术语有什么了解?
召回被称为真正的正面率。它指的是您的模型声明的阳性数量与整个数据中可用阳性数量的比较。
精度,或者称为正预测值,基于预测。它是模型声称的准确阳性数量的测量值,与模型实际声明的阳性数量相比较。
3、监督机器学习和无监督机器学习之间的区别?
在监督学习中,机器在标记数据的帮助下进行训练,即用正确答案标记的数据。
而在无监督机器学习中,模型通过自己发现信息来学习。与监督学习模型相比,无监督模型更适合于执行困难的处理任务。
4、什么是K-means和KNN
K-means是一种无监督算法,用于聚类问题的过程,KNN或K最近邻是一种监督算法,用于回归和分类过程。
5、什么使分类与回归不同
这两个概念都是监督机器学习技术的一个重要方面。通过分类,输出被分类为用于进行预测的不同类别。而回归模型通常用于找出预测和变量之间的关系。分类和回归之间的关键区别在于,在前者中,输出变量是离散的,而在后者中是连续的。
6、您将如何处理数据集中的缺失数据?
数据科学家面临的最大挑战之一是数据丢失问题。您可以通过多种方式对缺失值进行归因,包括分配唯一类别,删除行,使用均值/中值/模式替换,使用支持缺失值的算法,以及预测缺失值等等。
7、您对归纳逻辑编程(ILP)有何了解?
机器学习的子领域,归纳逻辑编程通过使用逻辑编程来开发预测模型来搜索数据中的模式。该过程假定逻辑程序是假设或背景知识。
8、您需要采取哪些步骤来确保不会过度使用特定型号?
当模型在训练期间提供大量数据时,它开始从数据集中的噪声和其他错误数据中学习。这使得模型难以学习除了训练集之外概括新实例。有三种方法可以避免机器学习中的过度拟合。第一种方法是保持模型简单,第二种方法是使用交叉验证技术,第三种方法是使用正则化技术,例如LASSO。
9、什么是合奏学习?
或者,集合方法被称为学习多分类器系统或基于委员会的学习。集合方法是指构建分类器集的学习算法,然后对新数据点进行分类以选择其预测。该方法训练了许多假设以解决相同的问题。集合建模的最佳示例是随机森林树,其中许多决策树用于预测结果。
10、命名机器学习项目中所需的步骤?
实现良好工作模型应采取的一些关键步骤是收集数据,准备数据,选择机器学习模型,模型训练,评估模型,调整参数,最后是预测。