1.算法
算法是一系列明白的步骤或规定,用于处置特定疑问或成功特定义务。
在机器学习中,算法用于从数据中学习形式,并做出预测或决策。
示例 :线性回归、决策树、支持向量机(SVM)、神经网络等都是经常出现的机器学习算法。例如,线性回归依据历史数据预测延续值(如房价)。
2.模型
模型是经过机器学习算法从数据中学习到的数学示意。它能够对新数据启动预测或分类。
示例 :决策树模型可以依据输入特色来选择输入类别;神经网络模型可以识别图像中的物体。
3.训练数据
训练数据是指用于训练机器学习模型的数据集。
它由输入输入对组成,可协助模型学习所需的义务。
训练数据越多样化、越有代表性,模型的性能就越好。
示例 :关于预测房价的模型,训练数据或者包含屋宇特色(如大小、卧室数量)及其相应的多少钱。
4.测试数据
测试数据是一个独自的数据集,用于评价机器学习模型在未知数据上的体现。
这有助于防止适度拟合,即模型在训练数据上或者体现良好,但在新数据上却体现不佳。
示例 :训练渣滓邮件过滤器后,你可以在以前从未见过的电子邮件上对其启动测试,以审核其准确性。
5.特色
特色是模型用来启动预测的数据的单个可测量属性。
在机器学习的背景下,选用正确的特色关于构建良好的模型至关关键。
示例 :在预测房价时,特色或者包含卧室数量、面积和位置。
6.标签
标签是与每个训练样本关联的目的值或类别。
在监视学习中,模型经常使用这些标签来学习输入和输入之间的相关。
示例 :在预测电子邮件能否为渣滓邮件的模型中,标签将是“渣滓邮件”或“非渣滓邮件”。
7.适度拟合
适度拟合是指模型对训练数据(包含噪声和意外值)的学习过于深化,造成新数据上的体现不佳。
这象征着模型与训练数据的拟合水平过高,使其通用性较差。
示例 :由于适度拟合,模型在训练数据上体现完美,但在测试数据上体现不佳。
8.欠拟合
当模型过于便捷,不可捕捉数据中的形式时,就会出现欠拟合,从而造成训练和测试数据的性能不佳。
示例 :经常使用线性回归来拟合一个显著非线性的相关,造成预测误差较大。
准确性是权衡分类模型正确预测的比例。计算方法是正确预测的数量除以总预测数量。
示例 :假设一个模型能够正确识别 100 封电子邮件中的 90 封能否为渣滓邮件,则其准确率为 90%。
10.准确率和召回率
准确率和召回率是评价分类模型的关键目的,尤其是在不平衡的数据集中。
示例 :在疾病筛查中,高准确率象征着大少数被诊断为患病的人确实患病;高召回率象征着大少数实践患病的人被成功识别。
11.学习率
学习率是一个超参数,它控制模型权重相关于损失梯度的降级水平。
较高的学习率或者会造成模型收敛过快而错过最优解,而较低的学习率则或者造成训练环节过慢。
示例 :在神经网络中,学习率选择了模型在训练时期从失误中学习的速度。
一个 epoch 是指在模型训练环节中对整个训练数据集启动一次性完整的遍历。
多个 epoch 可以让模型更好地学习,由于它会在每次遍历中调整其权重。
示例 :假设有1000个训练样本,1个epoch象征着模型曾经看过一切1000个样本一次性。
13.超参数
超参数是在训练之前设置的参数,用于控制学习环节和模型结构。
与模型参数不同,超参数不能经过训练间接学习到。
示例 :学习率、批量大小(batch size)、神经网络的层数和每层的神经元数量等都是经常出现的超参数。
14.损失函数
损失函数用于权衡模型预测值与实在值之间的差距。
训练环节中,模型经过最小化损失函数来启动优化。
示例 :均方误差(MSE)罕用于回归义务,交叉熵损正罕用于分类义务。
正则化是一种技术,用于防止模型适度拟合。
它经过在损失函数中减少处罚项,限度模型的复杂度。
示例 :