今天学点AI
一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO……
https://www.jiqizhixin.com/articles/2024-08-05-4
为了对齐 LLM,各路研究者妙招连连。 这篇文章是关于大型语言模型(LLM)对齐技术的综述,涵盖了多种对齐方法,包括基于人类反馈的强化学习(RLHF)、基于人工智能反馈的强化学习(RLAIF)、PPO、DPO等。主要观点:
1. LLM对齐的重要性
-
LLM虽然功能强大,但可能生成有害或无用的结果,对齐技术确保LLM与人类价值观一致。
2. RLHF技术
-
使用人类反馈微调模型,对齐语言模型与用户意图。 -
InstructGPT:OpenAI的技术,通过人类偏好评估响应,优化模型性能。 -
Anthropic的RLHF:研究不同规模模型的对齐效果,发现大型模型对齐带来的好处。
3. RLAIF技术
-
降低获取人类偏好数据集的成本,使用AI反馈进行强化学习。 -
Anthropic的RLAIF:基于章程的监督学习和AI反馈。 -
谷歌的RLAIF:研究人类反馈与AI反馈的效果,使用结构化prompt和偏好概率。
4. 直接人类偏好优化
-
探索不依赖标量奖励信号的方法,直接优化LLM策略。 -
DPO:直接偏好优化,简化对齐流程。 -
DPOP、β-DPO、IPO、sDPO、GPO:DPO的不同变体,针对不同场景优化。
5. Token级DPO
-
在token层面进行信用分配,扩展DPO的应用。
6. 迭代式/在线DPO
-
持续收集新偏好数据集,提升LLM性能。
7. 二元反馈
-
使用点赞或点踩等二元反馈简化对齐过程。
8. 融合SFT和对齐
-
研究将监督式微调和对齐整合的方法,减少灾难性遗忘。
9. 长度控制式DPO和无参考DPO
-
控制LLM输出长度,消除对参考模型的需求。
10. 逐列表的偏好优化
-
使用逐列表的数据集直接进行偏好优化。
11. 负偏好优化
-
使用不期望的响应进行对齐。
12. 纳什学习
-
解决成对偏好中的不一致问题,提高对齐效果。
13. 不同方法的比较
-
研究比较了DPO、KTO、IPO、CPO等方法,发现KTO在多个基准上表现更优。
14. 未来研究方向
-
探索统一评估任务、扩展到更大规模模型、二元反馈的实验、AI反馈的有用性、加速纳什学习、迭代/在线学习的终止、简化SFT与对齐的组合。
AI新闻推荐
刚刚,“地表最强”人形机器人发布!OpenAI加持,已在宝马打工
https://www.qbitai.com/2024/08/175409.html
基本信息
-
名称:Figure 02 -
类型:人形机器人
公司背景
-
公司:Figure AI -
成立时间:2022年 -
投资方:OpenAI、微软、英伟达、贝佐斯等 -
估值:26亿美元 -
前代产品:Figure 01(2023年推出)
技术特点
-
视觉系统:6个高性能摄像头,AI驱动 -
续航能力:提升50%以上 -
计算能力:AI推理能力提高3倍 -
手部设计:第四代,16个自由度,承重25公斤 -
结构:外骨骼结构,提升刚度 -
语音交互:端到端语音对话推理
应用场景
-
工作场所:宝马工厂 -
工作内容:拿钢材、组装器械
设计亮点
-
外观:线路布局紧凑隐蔽,提高美观度和可靠性 -
电池组:升级至2.25KWh,延长运行时间 -
UI设计:默认语音界面
社会反响
-
网友评价:对机器人进化速度表示惊叹 -
步态问题:步态被一些人认为笨拙
招聘信息
-
团队规模:120人 -
招聘状态:开放
其他信息
-
CEO期望:希望Figure 02能工作近20小时/天 -
AI模型:与OpenAI合作定制
个人感想
Figure 02的发布标志着人形机器人技术的又一大步。其在视觉、计算、语音交互等方面的显著提升,预示着未来劳动自动化的广阔前景。尽管存在一些设计上的争议,如步态问题,但这并不影响其在工业应用中的潜力。随着技术的不断进步,我们有理由相信,人形机器人将在不久的将来扮演更加重要的角色。
AI文章推荐
马斯克八月最新2万字长访:xAI, Neuralink及人类未来 (附精校视频)
https://mp.weixin.qq.com/s/k3S7cnsTeYVQ3MvpAxLTEQ
Neuralink 技术进展:
Musk 描述了 Neuralink 的最新发展,包括人体植入物的成功和未来计划,旨在通过增加电极数量和改进信号处理,大幅提升人脑与机器的通信速度。 AI 与人类融合: 他预测 AI 可能在良性情况下增强人类的快乐和生活质量,特别是在娱乐和性行为方面,并讨论了 AI 如何通过模因压缩信息,提高交流效率。 技术对人类影响: Musk 认为技术进步将对人类与人工智能的共生关系产生深远影响,包括提高交流速度和质量,以及通过 AI 增强人类体验。 AI 系统的安全性: 他强调了设计 AI 系统时避免意识形态偏见的重要性,确保 AI 系统能够做出合理决策,不偏离真理。 技术与文明兴衰: Musk 讨论了技术进步如何成为推动文明发展的关键力量,同时指出过度繁荣可能导致生育率下降,威胁文明存续。
文章金句
“几年后,Neuralink 将变得非常强大,因为我们将大幅增加电极的数量,并改进信号处理。”
“如果一个单词能够传达通常需要 10 个简单单词才能表达的内容,那么你可能就得到了 10 倍的压缩。”
“在设计目标函数时,要避免无意中产生意想不到的后果,甚至在超级智能的支持下,轻微的意识形态偏见也会造成巨大损害。”
“真正的领导力在于面对危机时的勇气和坚定。”
“衡量成功的标准是我能做多少有用的事情。”
AI绘画领域新闻
FLUX.1: First Impressions
FLUX.1: 初印象
https://replicate.com/blog/flux-first-impressions
全文摘要
FLUX.1是Replicate平台上的一款创新AI模型,它采用“流匹配”技术从文本生成图像,与传统扩散模型不同,FLUX.1在速度、控制和美学上具有独特优势。它在处理复杂文本到图像转换、理解艺术风格、构图复杂场景以及创造具有“流”美学的图像方面表现出色。
关键点
-
FLUX.1技术特点: FLUX.1使用“流匹配”技术,直接将噪声映射到真实图像,提供速度、控制和独特美学的优势。 -
文本到图像转换: 即使在复杂场景如表情包中,FLUX.1也能准确翻译文本到视觉表现,展现其结合精确文本渲染和独特“流”美学的能力。 -
艺术风格理解与应用: FLUX.1不仅模仿艺术风格,更理解其底层原理,允许进行创意重释,如将超级英雄以立体主义风格呈现。 -
复杂场景构图: 模型擅长创造可信且视觉吸引的场景,如悬浮书籍的魔法图书馆,展示其在故事讲述和视觉叙事中的潜力。 -
“流”美学特征: 作为流匹配技术的结果,“流”美学赋予图像独特的有机运动和流动性,与传统艺术技术相融合,使FLUX.1图像具有梦境般的视觉效果。
文章还提到了FLUX.1 [schnell]版本,这是为速度和本地执行优化的版本,适合艺术家、开发者以及对AI图像生成感兴趣的人探索使用。
AI工具推荐
网站名称:海绵音乐
https://www.haimian.com/featured
功能:AI音乐
简介:一个专为用户提供 AI 音乐创作的平台,通过先进的技术帮助用户一键生成音乐作品。目前该平台仅支持中国大陆地区用户使用。
效果非常好,人声没有杂音,完美支持中文,音乐也还算好听(间奏尤其不错),可以媲美Suno。
公众号“言寡意多”,AI资讯推送。
专栏“AI副业”,AI副业项目推送。
AI工具导航站“未来已来”,AI工具收录。
https://ainavtool.com/
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...