当前位置: 首页 > news >正文

城乡厅建设部网站首页外贸营销推广

城乡厅建设部网站首页,外贸营销推广,谷歌海外推广,长沙建网站设计Lora:Low-Rank Adapation of Large Language modelsIntroductionMethodExperiment代码Introduction 这篇论文最初与21.06上传与arXiv,作者指出在当时,NLP的一个重要范式是先训练一个通用领域的模型然后在通过微调适应不同的领域与数据&#…

Lora:Low-Rank Adapation of Large Language models

  • Introduction
  • Method
  • Experiment
  • 代码

Introduction

这篇论文最初与21.06上传与arXiv,作者指出在当时,NLP的一个重要范式是先训练一个通用领域的模型然后在通过微调适应不同的领域与数据,但是对于当时的大模型来说,是十分昂贵的,于是作者提出了一个叫Low-Rank- Adaptation的方法,也叫Lora,它冻结了Pre-Train model ,然后在Transformer的每一层注入了可训练的 rank decomposition matrices,作者指出与 用了Adam的GPT-3相比,需要更新的参数量少了10000倍,显存少了三倍,性能也有略微提升。

作者假设在微调时,Pre-train model的权重矩阵在过度更新参数时,它的权重矩阵的秩是很低的,于是作者的想法就是把 一些Dense layer的权重替换成低秩分解矩阵,然后作者发现效果也不错。

在这里插入图片描述

Lora主要有这些优势:

  1. 一个Pre-train model可以用来为不同的任务建立许多小的LoRA模块,可以冻结共享模型,并通过替换图1中的矩阵A和B来有效地切换任务,从而大大减少存储需求和任务切换的开销。
  2. Lora 更高效并且降低了硬件门槛。
  3. 在推理时,可以把图一中两种颜色的矩阵合并,与完全finetune的速度没有差别。
  4. LoRA与许多先前的方法是不相关的,并且可以与许多方法相结合。

作者又介绍了一些符号的定义:(这里我直接词典翻译)
术语和惯例 我们经常提到Transformer架构,并对其维度使用常规术语。我们把Transformer层的输入和输出维度大小称为model。我们用Wq、Wk、Wv和Wn来指代self-attention模块中的查询/键/值/输出投影矩阵。W或W0指的是预训练的权重矩阵,∆W指的是适应过程中的累积梯度更新。我们用r来表示一个LoRA模块的秩。我们遵循(Vaswani等人,2017;Brown等人,2020)规定的惯例,使用Adam(Loshchilov & Hutter,2019;Kingma & Ba,2017)进行模型优化,并使用Transformer MLP前馈维度dfn=4×dmodel。

Method

一个神经网络包含许多dense layers,它们通常都是满秩的,但是通过下游任务微调后,这些权重矩阵通常是低秩的,但是他们仍然可以有效学习。作者收到启发,假设Pre-Train model 的权重矩阵为 w0:

在这里插入图片描述

冻结它,引入新的底秩分解矩阵 :

在这里插入图片描述

这里有些类似于1 * 1 conv的形式,中间的 维度 r 都是为在加速的前提下尽可能保留更多的信息,r的选择我认为作者应该会考虑与完全 finetune 权重矩阵的秩差不多的数。其中 W0 与 BA (其中BA与图1对应)与相同的Input 做矩阵乘法,然后二者在求和。

公式如下:

在这里插入图片描述
其中A通过正态分布 初始化,B则全0,所以BA也是全0矩阵。

这个额外的矩阵是支持热‘插拔的’,是指我可以在不同的下游任务应用不同的矩阵,比如我想做词性标注,我只需要原始的Pre-train model 加上在词性标注数据上finetune 的 BA就可以了,并且速度不受影响。

Experiment

在这里插入图片描述

代码

from peft import get_peft_model, LoraConfig, TaskTypepeft_config = LoraConfig(task_type=TaskType.CAUSAL_LM, inference_mode=False, r=8, lora_alpha=32, lora_dropout=0.1,target_modules=['query_key_value']
)model = "加载的模型"
model = get_peft_model(model, peft_config)
# 打印参数情况
model.print_trainable_parameters()
接下来和正常训练模型一样
http://www.wangmingla.cn/news/33752.html

相关文章:

  • asp.net网站开发介绍优化建站seo门户
  • 企业自助建站系统源码org域名注册
  • 企业做网站的好处seo 0xu
  • 企业网站怎么做毕业设计免费seo免费培训
  • 贵阳有哪家做网站建设好点的搜索引擎技术包括哪些
  • 为网站制定推广计划有源码怎么搭建网站
  • 3d演示中国空间站建造历程企业建站流程
  • 黑龙江省建设厅官网免费seo工具汇总
  • 服装移动网站策划案网站设计制作在哪里找
  • 在百度里面做网站要多少钱策划公司一般怎么收费
  • iis启动wordpress泰州seo排名扣费
  • 代理贷款平台加盟网络优化大师
  • 个人网站设计欣赏专业的seo外包公司
  • tomcat做的网站打不开了广州网站建设推广专家
  • 做网站互联互通百度推广的步骤
  • wordpress 插件 弹窗深圳百度seo怎么做
  • 网页美工设计报价单seo营销外包
  • 什么网站可以做国外批发网湘潭网站设计外包公司
  • 网站优化网站建设公司seo关键词排名软件
  • 阿里巴巴官网网址是多少百度seo优化网站
  • 建设企业网站的申请互联广告精准营销
  • 如何阿里网站建设谷歌引擎搜索
  • 网站建设行业前景宁波免费seo排名优化
  • 沈阳网站wordpress官网入口
  • 做盗版网站会怎样页面seo是什么意思
  • 主机怎么做网站服务器排行榜软件
  • 自己做的网站根目录哪里找到十大接单推广平台
  • 江门网站推广技巧市场推广方案
  • 网站关键词排名如何做网站建设与优化
  • 购物网站html深圳网络推广外包公司