线性回归模型的目标是找到一条直线(或超平面)来最小化预测值与真实值之间的差距。其损失函数通常采用均方误差(MSE)。

练习题1:给定一个简单的数据集,特征X和标签y如下,请计算使用线性回归模型 y = wX + b 时,当权重 w=2, 偏置 b=1 时的均方误差(MSE)。
| X | y |
|---|---|
| 1 | 3 |
| 2 | 5 |
| 3 | 7 |
答案解析:
- 计算预测值:当X=1时,预测值 = 2*1 + 1 = 3;当X=2时,预测值=5;当X=3时,预测值=7。
- 计算误差:三个样本的误差均为0。
- 计算MSE:(0² + 0² + 0²) / 3 = 0。
这个结果说明当前的参数(w=2, b=1)完美地拟合了给定的训练数据。
逻辑回归虽然名字中有“回归”,但它实际上是一种用于解决二分类问题的算法。它通过Sigmoid函数将线性回归的输出映射到(0,1)区间,表示为概率。
练习题2:在逻辑回归中,我们通常使用什么函数来将线性输出转换为概率?这个函数的表达式是什么?
答案解析:逻辑回归使用Sigmoid函数(也称为Logistic函数)来转换概率。其表达式为:σ(z) = 1 / (1 + e⁻ᶻ),其中 z 是线性模型的输出(即 z = wᵀx + b)。该函数将任何实数 z 映射到 (0,1) 区间。
决策树与模型评估
决策树通过一系列的判断规则对数据进行分类或回归。构建决策树的关键在于如何选择最佳的特征进行节点分裂。
练习题3:在构建分类决策树时,常用的特征选择指标有哪些?请至少列出两种并简要说明。
答案解析:常用的特征选择指标包括:
- 信息增益(Information Gain):基于信息熵的减少来选择特征。它选择能够使数据不确定性下降最多的特征。
- 基尼不纯度(Gini Impurity):衡量一个随机选中的样本在数据集中的子集中被错误分类的概率。决策树会选择能够最大程度降低基尼不纯度的特征进行分裂。
评估一个分类模型的性能至关重要,混淆矩阵是其中的基础工具。
练习题4:对于一个二分类模型,其预测结果在测试集上的混淆矩阵如下,请计算该模型的准确率(Accuracy)和精确率(Precision)。
| 预测为正例 | 预测为负例 | |
|---|---|---|
| 实际为正例 | 50 (TP) | 10 (FN) |
| 实际为负例 | 5 (FP) | 35 (TN) |
答案解析:
- 准确率 = (TP + TN) / 总样本数 = (50 + 35) / (50+10+5+35) = 85 / 100 = 0.85 (或85%)。
- 精确率 = TP / (TP + FP) = 50 / (50 + 5) = 50 / 55 ≈ 0.909 (或90.9%)。
支持向量机(SVM)
支持向量机是一种强大的分类器,其核心思想是寻找一个最大间隔的超平面来分离不同类别的数据。
练习题5:什么是支持向量机中的“支持向量”(Support Vectors)?
答案解析:支持向量是那些距离分离超平面最近的数据点。这些点直接决定了最优超平面的位置和方向,因为超平面只由这些少量的关键样本点决定,而与其他大部分样本点无关。移除非支持向量的样本不会改变模型。
聚类算法:K-Means
K-Means是一种经典的无监督学习算法,旨在将数据划分为K个簇。
练习题6:简述K-Means聚类算法的主要步骤。
答案解析:K-Means算法主要包含以下步骤:
- 初始化:随机选择K个数据点作为初始的簇中心(质心)。
- 分配步骤:将每个数据点分配到距离它最近的质心所在的簇。
- 更新步骤:重新计算每个簇的质心(通常取簇内所有点的均值)。
- 迭代:重复步骤2和步骤3,直到质心的位置不再发生显著变化或达到预定的迭代次数。
神经网络基础
神经网络由大量的神经元相互连接构成,反向传播算法是其训练的核心。
练习题7:在训练神经网络时,我们使用反向传播(Backpropagation)算法的主要目的是什么?
答案解析:反向传播算法的主要目的是高效地计算损失函数相对于网络中每一个权重和偏置参数的梯度。这些梯度信息随后被优化器(如梯度下降法)用来更新网络参数,从而逐步降低损失函数的值,使模型的预测更加准确。
内容均以整理官方公开资料,价格可能随活动调整,请以购买页面显示为准,如涉侵权,请联系客服处理。
本文由星速云发布。发布者:星速云。禁止采集与转载行为,违者必究。出处:https://www.67wa.com/133780.html