联邦学习公式推导--为何只需要发送模型参数而不是模型梯度？_联邦学习中模型参数是梯度信息吗

作者：笔触狂放9 | 2024-03-15 06:29:23

踩

联邦学习中模型参数是梯度信息吗

参考文献：https://arxiv.org/pdf/1602.05629v4.pdf

对于一个机器学习应用来说，我们需要找到一个目标函数，使其最小化
$\frac{1}{n}\sum_{i=1}^{n}f_i(w)$
上面等式中， $f_i(w) = l(x_i, y_i, w)$ ，表示参数为 $w$ 的模型在样本 $x_i, y_i)$ 上预测的损失。
假设现在有多个设备并行计算模型在某个数据集上的总体预测损失，总样本数为 $n$ ，设备 $k$ 上有 $n_k$ 个样本，那么设备 $k$ 上的损失为：
$F_{k}(w) = \frac{1}{n_k}\sum_{i=1}^{n_k}f_k(w)$
那么模型在整个数据集上的预测损失为：
$\sum_{k=1}^K \frac{n_k}{n} F_k(w) = \frac{1}{n}\sum_{k=1}^K\sum_{i=1}^{n_k}f_i(w)$
相当于使用同一个模型在整个数据集上跑了一遍，得到了总体的平均损失
为了减少client和server间的通信次数，可以让更多的计算在client上完成。
- 假设第 $t$ 轮通信中设备k进行一次梯度下降得到的梯度为： $gk=\nabla F_k(w_t)$ ， $g_k$ 最终会发送到服务器。 $w_t$ 是第 $t$ 轮通信中模型的参数。
- 根据求导法则可知： $\nabla f(w_t) = \sum_{k=1}^K \frac{n_k}{n} \nabla F_k(w_t)$ ，所以服务器拿到所以client的参数之后，更新下一轮模型的参数为：
  $w_{t+1} = w_t - \alpha \nabla f(w_t) = w_t - \alpha \sum_{k=1}^{K} \frac{n_k}{n} g_k$
- 又因为设备 $k$ 可以用局部数据更新参数：
  $w^k_{t+1} = w_t - \alpha g_k \\ \alpha g_k = w_t - w^k_{t+1}$
- 代入上面公式：
  $w_{t+1} = w_t - \sum_{k=1}^K \frac{n_k}{n} (w_t - w^k_{t+1}) = w_t - \frac{\sum_{k=1}^K n_k}{n}w_t + \sum_{k=1}^{K}\frac{n_k}{n}w^k_{t+1} \\ w_{t+1} = \sum_{k=1}^{K}\frac{n_k}{n}w^k_{t+1}$
- 上面是进行一次梯度下降，如果进行多次梯度下降，设备 $k$ 的更新参数公式为：
  $w_{t+1}^k = w_t - \alpha g_k^1 - \alpha g_k^2 \ \ - ...-\ \ \alpha g_k^{epoch} \ \ 其中 g_k^i表示第i次梯度下降 \\ w_{t+1}^k = w_t - \alpha (g_k^1 + g_k^2 \ \ + ...+g_k^{epoch}) \\ 令 \ \ \ g_k = g_k^1 + g_k^2 \ \ + ...+g_k^{epoch}, \ \ 则有 \ \ \ w_{t+1}^k = w_t-\alpha g_k$
- 所以可以在本地进行多次梯度下降并更新本地模型参数，然后将本地模型参数发送给服务器，服务器对这些参数进行加权平均得到全局模型参数，最终发送给各个设备，这样就能减少客户端和服务器间的通信次数。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/239250