我家小花儿

这个屌丝很懒，什么也没留下！

热门标签

Datawhale夏令营第四期——从零入门AI生图AIGC方向 task1笔记总结_datawhale的ai夏令营第四期

作者：我家小花儿 | 2024-08-16 06:44:50

踩

datawhale的ai夏令营第四期

#目录#

一、夏令营内容介绍

适宜学习人群

学习内容提要

二、挑战赛介绍

比赛要求

样例

三、跑通baseline的过程及tips

搭建环境

报名赛事

创建PAI实例

体验baseline

四、课外知识补充

文生图的发展历程

LoRA微调

ComfyUI工具

ControlNet模型

一、夏令营内容介绍

从零入门AI生图原理&实践是Datawhale 2024年暑期夏令营第四期的学习活动（“AIGC方向”），是基于魔塔社区“可图Kolors-LoRA风格故事挑战赛”开展的实践+学习活动。

适合以下人群进行学习——

1）想入门并亲手实践AIGC文生图

2）想学习工作流搭建

3）想实践LoRA微调

学习内容提要：从文生图实现方案逐渐进阶，教程偏重图像工作流、微调、图像优化等思路，最后会简单介绍AIGC应用方向、数字人技术等等

附：Datawhale官方速通教程链接：Task 1 从零入门AI生图原理&实践

此笔记主要介绍我作为一个新手小白对于Task 1 的学习、实践、理解和拓展知识点的汇总

二、挑战赛介绍

比赛官网地址：https://tianchi.aliyun.com/s/ce4dc8bf800db1e58d51263ff357d28f

比赛要求：
1、参赛者需在可图Kolors 模型的基础上训练LoRA 模型，生成无限风格，如水墨画风格、水彩风格、赛博朋克风格、日漫风格......
2、基于LoRA模型生成 8 张图片组成连贯故事，故事内容可自定义；基于8图故事，评估LoRA风格的美感度及连贯性
样例：偶像少女养成日记

附：作品讨论区：魔塔社区相关作品及讨论

三、跑通baseline的过程及tips

第一步——搭建环境（可结合上附速通链接食用）

step1 ：注册阿里云账号（新用户食用，老用户可跳过此步骤）

step2 ：免费试用算力

step3 ：进入魔塔社区授权

（同样的新用户需要先注册+绑定，下为新用户注册绑定步骤）

魔塔社区授权

第二步——报名赛事

链接：https://tianchi.aliyun.com/competition/entrance/532254

第三步——创建PAI实例

第四步——体验baseline

step1 ：下载baseline文件


git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

在终端内粘贴以上代码直接回车即可

step2 ：进入文件夹，打开baseline文件

step3 ：安装环境，重启kernel

step4 ：调整prompt，运行（等待约15-20分钟）

step5 ：下载结果图（可选择心仪的上传至比赛官网作品）


mkdir /mnt/workspace/kolors/output & cd 
cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch\=0-step\=500.ckpt /mnt/workspace/kolors/output/
cp /mnt/workspace/kolors/1.jpg /mnt/workspace/kolors/output/

在终端输入这段代码回车，之后在左侧output文件夹内把对应图片作品的两个文件都下载到本地

step6 ：关闭！

最后完成后要返回魔塔社区关闭才能不浪费算力啦！

四、课外知识补充

知识点一：文生图的发展进程

其实这是我第一次接触文生图，对此还是感觉很神奇的，也很希望能够继续深入地学习调控AI来进行绘图和创作，以及开发其他的功能。

文生图（Text-to-Image Generation）是一种通过文本生成图像的技术，其发展历程可以追溯到早期的计算机视觉和自然语言处理研究。

知识点二：LoRA微调

Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank Adaptation”，即低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。

我个人的理解就是：

LoRA的方法是保持整体大板块不动的情况下去分解小矩阵进行调整，来提高效率和稳定性。

附：

1、关于LoRA更深层次的学习：浙大发表的LoRA的综述

2、关于LoRA相比于其他方法的优势点：如何在保持高效的同时提高微调效果

知识点三：ComfyUI工具

ComfyUI 是一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能，用户可以轻松地进行模型微调、数据预处理、图像生成等任务，从而提高工作效率和生成效果。

我个人的理解就是：

ComfyUI主要是通过固定自己设计的一个一个的模块，来让数据和图像生成流动起来，成为一个流水线一样的工具。相当于我自己创造了一个最适合我研发和使用的小帮手，里面一步一步按照我生产创作的流程来实现。

附：

1、ComfyUI的基础介绍：comfyUI好在哪？

2、ComfyUI的入门和自学：ComfyUI完全入门

知识点四：ControlNet模型

ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型（如Stable Diffusion模型）上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程，而ControlNet的作用在于引入额外的控制信号，使得用户能够更具体地指导图像生成的各个方面。

Stable Diffusion 的基本工作原理就是以文字作为引导条件，生成符合条件的图像。其短板就是无法对图像细节做精准控制，例如构图、动作、面部特征、空间关系等。ControlNet 的出现弥补了这一不足，更是成为SD绘画中必须熟练掌握的工具。

我个人的理解是：

ControlNet就是一种通过观察所给图像、动作、特殊图形等等先进行输入和学习之后按照所给数据和要求来生成图片的一个大模型工具。

附：

1、对ControlNet最简洁的介绍：一文搞懂Stable Diffusion最重要的插件

2、对ControlNet的简单教学：又小又全的集成 ControlNet 模型

以上就是我对于Datawhale夏令营第四期的AIGC方向Task1的笔记和学习过程的总结和理解感悟，当中有非常多对于其他优秀作者和开发者的引用，非常感谢他们的付出，才能让我们这些小白越来越清晰和快速地能够接触、理解和掌握一项项AI技能。我非常期待后期的继续学习和探索，希望我们可以共同进步！

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/987047