第五章：huggingface的Trainer.train()源码与流程解读_huggingface trainer.train()

作者：码创造者 | 2024-07-16 16:52:30

踩

huggingface trainer.train()

文章目录

前言
一、train()函数源码
二、train函数的resume_from_checkpoint参数
三、self._memory_tracker.start()函数
四、获取args参数(TrainingArguments)
- 五、self._move_model_to_device配置设备
六、 resume_from_checkpoint 与model_path关联
七、self._hp_search_setup函数
八、训练批量参数(self._train_batch_size)
九、模型self.model确认(self.model_init)
十、resume重载checkpoint
十一、模型重载设备设定
十二、self._inner_training_loop函数
- 1、inner_training_loop调用源码
- 2、inner_training_loop源码解读
总结

前言

大模型基本使用huggingface来实现。对于不太理解其内容基本按照官网教程或相关博客等来实现。想进一步激发开源大模型在行业领域提升性能是棘手问题。该问题会涉及开源代码二次开发进行实验测试。基于此，本教程不同文字或理论介绍内容，而从源码解读其训练逻辑、权重保存、高效微调方法(LoRA)、断点续训方法、模型推理权重处理等方法。本教程所有内容完全依托huggingface源码与相关Demo验证来解读，助力大模型使用。

本篇文章基于基于上一章构建Demo解读Trainer的train()源码，并给出一个完整train()源码流程。

一、train()函数源码

之前文章已给出Trainer来训练模型Demo。可知，Trainer的train()是整个模型训练集成，我后面会对该源码相关详细细节解读。这里，我先给出train函数源码。

train函数是Trainer类的一个方法函数，其完整源码如下：


    def train(
        self,
        resume_from_checkpoint: Optional[Union[1
2
3

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/码创造者/article/detail/835306