当前位置: 首页 > news >正文

中山移动网站建设公司品牌整合营销推广

中山移动网站建设公司,品牌整合营销推广,企业做网站系统,渭南市住建设局网站基于GitHub项目:https://github.com/datawhalechina/llms-from-scratch-cn 为什么需要人类反馈? 适应人类需求。 RLHF 的三大阶段 阶段1:监督微调(SFT) 目标:模型生成人类想要的回答 方法:…

基于GitHub项目:https://github.com/datawhalechina/llms-from-scratch-cn

为什么需要人类反馈?

适应人类需求。

RLHF 的三大阶段

阶段1:监督微调(SFT)

  • 目标:模型生成人类想要的回答

  • 方法:人类示范优质回答

  • 数据:人工编写的问答对

用户:如何做煎蛋?
人类示范:首先,在平底锅加少许油,中火加热。然后打入鸡蛋...

阶段2:奖励模型训练

训练一个"裁判模型"来评判回答质量:

收集对比数据

  • 给模型同一个问题生成多个回答

  • 人类标注哪个回答更好

问题:解释量子纠缠
回答A:量子纠缠是量子力学现象...(专业但晦涩)★
回答B:想象两个心灵感应的粒子...(通俗易懂)★★★

训练奖励模型

  • 输入:问题 + 回答

  • 输出:质量评分

  • 目标:准确预测人类偏好

关键点:奖励模型学会人类价值观:简洁性、安全性、有用性

阶段3:强化学习微调(PPO)

原始模型->>+奖励模型: 生成回答
奖励模型->>-原始模型: 评分反馈
原始模型->>原始模型: 根据评分调整参数

使用近端策略优化(PPO) 算法:

  1. 模型生成回答

  2. 奖励模型打分

  3. 模型调整策略获得更高分

  4. 避免偏离原始能力(KL散度约束)

RLHF 的效果 

经过RLHF训练的模型:

能力提升效果
有用性回答更精准解决用户问题
诚实性减少"一本正经胡说八道"
无害性过滤有害/偏见内容
风格适配能调整正式/幽默等风格

RLHF实战 

# 伪代码 - PPO核心训练循环
for epoch in range(num_epochs):# 1. 生成回答responses = model.generate(prompts)# 2. 获取人类/奖励模型评分rewards = reward_model.score(prompts, responses)# 3. 计算原始模型评分(KL约束)with torch.no_grad():old_log_probs = original_model(responses)# 4. PPO优化loss = ppo_loss(current_log_probs, old_log_probs, rewards)optimizer.zero_grad()loss.backward()optimizer.step()

 

http://www.wangmingla.cn/news/106177.html

相关文章:

  • 网站建设收费标准精英刷外链网站
  • 网站开发如何设置视频公众号怎么做文章推广
  • 株洲seoseo初学教程
  • 网站开发成本会计分录seo sem
  • react用于做PC网站优化设计六年级上册语文答案
  • 快速搭建网站的工具有哪些专业关键词排名优化软件
  • ueditor解析wordpress四川seo优化
  • wordpress迁移上海seo网站推广
  • 扬州企业网站建设2023最新15件重大新闻
  • 闸北区网站建设二级网站怎么做
  • 网站维护页面怎么做的网络推广软件免费
  • 广告设计师证怎么考深圳搜索引擎优化推广便宜
  • 网站为什么要续费app推广文案
  • 预付网站建设费用会计分录一键搭建网站
  • 天津网站seo策划游戏推广员拉人技巧
  • js获取网站html百度霸屏全网推广
  • 网站建设08优化排名
  • 风机网站怎么做seo扣费系统
  • 全网网站建设维护小红书推广费用一般多少
  • jsp做网站图片怎么存储廊坊关键词排名首页
  • dw做网站弊端高州网站seo
  • 湖南定制响应式网站有哪些上海网站排名优化怎么做
  • 积分交易网站开发市场策划方案
  • 大连网站制作每日财经最新消息
  • 网站规划建设方案模板软文发布平台
  • 国际新闻最新消息今天新闻大事件 中方seo排名优化软件免费
  • 平台公司和国企的区别seo公司
  • 室内设计网站哪里可以看南宁百度关键词推广
  • goland 网站开发站长素材网站官网
  • 专业网站建设哪里好自助建站系统开发