Pytorch常见的优化器有: 1. SGD(随机梯度下降):每次迭代随机选择一个样本进行梯度更新。 2. Adagrad:自适应调整每个参数的学习率,对于频繁出现的参数,学习率下降较快,对于不频繁出现的参数,学习率下降较慢。 3. Adadelta:Adagrad的改进版,通过学习过去所有梯度平方的平均值来调整每个参数的学习率。 4. Adam:结合了Adagrad和Momentum的优点,除了自适应学习率外,还使用梯度的一阶矩估计和二阶矩估计来调整每个参数的学习率。 5. RMSprop:结合了MomentumAdagrad的优点,使用指数加权平均来调整每个参数的学习率。 6. LBFGS:使用LBFGS算法来更新参数,即每次根据目标函数的梯度和之前的历史梯度信息来更新参数。 这些优化器各有优缺点,选择合适的优化器取决于具体的问题和数据集。