Generative AI分享:从大模型到Diffusion¶
内容科技的关键问题¶
内容的关注点¶
内容的解构与重构¶
内容营销的变迁:越来越重视全方面多触点的内容体验¶
短期降本增效、中期民主化、长期个性化¶
基于概念的创作是未来¶
从红杉那篇文章讲起¶
文本 | 代码 | 图像 | 语音 | 音乐 | 视频 | 3D | |
---|---|---|---|---|---|---|---|
虚拟人(综合:小冰) | character.ai、Woebot、Replika、心识宇宙、聆心智能、ChatGPT、Glow | Artbreeder | Resemble.ai、Otter.ai | 诗云科技、Synthesia、reface | |||
辅助开发 | Github Copilot、Repl.it | Finetune as 、Service | Dream 、Textures | ||||
内容创作 | 彩云小梦、Giiso机器人、秘塔写作、火龙果写作 | Midjourney、Wombo、NovelAI、Tiamat、盗梦师、6pen、意间、图宇宙 | MuseNet、Amper Music、AIVA | RunwayML、Descript、右脑科技 | Magic3D | ||
工作效率 | Notion AI、Mem、澜舟科技 | Adept | WithPoly | ||||
市场营销 | Jasper.ai、Copy.ai | Omnekey | 各路AI外呼工具 | ||||
支持销售 | GONG | GONG | |||||
产品电商 | ZMO.AI | ||||||
游戏娱乐 | AI Dungeon、Infinite Story、inworld | rct.ai | Scenario.gg | 格子互动 | Soundful |
典型举例¶
Jasper.ai VS Copy.ai¶
迁移到中国对应的应用场景的竞品少之又少,将来的发展也不乐观: 1. 中国广告渠道上,内容能够对应到上述生成场景的情况较少,短信、公众号文章、小红书种草和上述的情况都有比较大的区别;而SEO的服务体系又随着百度的流量下滑逐渐固化。
- 中文语料数据质量差距明显,在数据清洗成本上,多方不愿意付出足够的成本;
AI Dungeon¶
通过AI来设定背景故事,通过输入文字来进行“续写”游戏,最终得到一个结局。没有任何数值系统来保证其游戏性。作为一个早期的产品似乎没有真正能够突破最初的框架。
但是不妨想想下和ChatGPT这样的技术能力,以及和https://infinite-story.com/这样的传统众包式、多结局故事创作模式?
Adept¶
Fundraising:$65M
将很多软件的基本命令抽象化(RPA),再结合GPT-3等的文本/代码生成能力,形成了下一代RPA的雏形,无需懂得任何编程概念也可以写流程自动化。
**Scienariogg **¶
RunwayML¶
Fundraising:$ 95.5M
技术进展历程¶
区分主要的模型框架和训练结构 模型框架:CNN, RNN, Transformer 训练结构:Reinforcement Learning,GAN,VAE,Diffusion
MindVerse AI艺术的背后:详解文本生成图像模型
两句话描述突破和局限性:
-
通过语言可以进行图片内容的全局、局部、多维度、开放性的编辑控制了,不再局限于笔触层面的风格变化(变梵高),也可以影响场景语义(加只猫);灵活度和惊喜度远超上一代风格迁移能力。
-
缺少感情控制,创作者可以创造强烈的视觉和情感,但是对于一些基于文化层面的表达,AI还没做到和人一个层级,在复杂细节和合理留白之间无法取得合理平衡,直接使用前往往还需要很多修改。
关键技术突破¶
**Transformer **¶
Transformer应当是和CNN、RNN这些网络结构同级的一种新的网络结构,它的主要贡献是彻底抛弃了之前CNN、RNN等网络结构,而提出了只使用自注意力机制来搭建网络。这也是它的论文为什么叫“Attention is all you need”的原因,说的更直白点,这篇论文应该叫“You don't need CNN,RNN,LSTM... Attention is all you need”。
自然语言处理的不同任务是不同的题型,而训练的过程就是教会神经网络怎么做题。不同的学生因为大脑结构(网络结构)的不同导致它们的擅长的地方不一样。
在预训练的思想没有提出来之前,这些学生的学习模式是针对特定的任务使用对应的数据集进行训练,比如翻译任务,我们给它一段原文和译文,让它自己去做题和对答案,它对完答案后就会不断模仿正确答案去修改自己的思路(即网络参数)。在做过上个成千上万道题后,它就能回答个八九不离十了。
但是这种训练方式的问题也很明显,就是你练哪种题型,神经网络就只会哪种题型。比如一个在翻译任务上效果非常好的网络,对于分类任务的效果说不定就很差。
在预训练的思想提出来之后,训练的方式进行了革命性的颠覆。现在我们不再只是教神经网络做某种特定的题,而是教它们从源头上学会单词的意思以及语法内容。我们希望它们去“读书”,也就是去互联网上的海量文本中进行学习。互联网上最好的预训练样本之一就是维基百科,它内容丰富、语句规范,而且包罗万象。当然,就算对于同一本课本,不同的老师教法也可以不同。BERT就是其中一位老师,它的教法是让学生们对课本内容做完形填空。比如一个句子: “Steve Jobs was the co-founder, chairman, and CEO of Apple.” 老师将其中的CEO这个单词遮住,变成 “Steve Jobs was the co-founder, chairman, and
GAN(对抗生成网络)¶
第一代风格迁移应用的技术突破,代表应用Prisma(https://prisma-ai.com/),DeepDream(https://deepdreamgenerator.com/);
(插一句:Prisma已经跟进推出了基于diffusion的新应用Lensa)
VAE(变分自编码器)¶
第一代文字转图片生成的突破点,代表应用Dall-E第一代。
CLIP(Contrastive Language-Image Pre-Training)by OpenAI¶
使用已经标注好的"文字-图像"训练数据, 一方面对文字进行模型训练, 一方面对图像进行另一个模型的训练, 不断调整两个模型内部参数, 使得模型分别输出的文字特征值和图像特征值能让对应的"文字-图像"经过简单验证确认匹配;
之前也有人尝试过训练"文字-图像" 匹配的模型, 但CLIP最大的不同是, 它搜刮了40亿个"文本-图像"训练数据。40亿个相关数据全部来源于互联网带有各种文本描述, 比如标题, 注释, 甚至用户打的标签。
LAION(数据集基础)¶
LAION 是一个跨全球的非营利机器学习研究机构,今年3月开放了当前最大规模的开源跨模态数据库LAION-5B,包含接近60亿(5.85 Billion)个图片-文本对, 可以被用来训练所有从文字到图像的的生成模型,也可以用于训练 CLIP这种用于给文本和图像的匹配程度打分的模型,而这两者都是现在 AI 图像生成模型的核心。
除了提供以上的海量训练素材库,LAION 还训练 AI 根据艺术感和视觉美感,给LAION-5B 里图片打分, 并把得高分的图片归进了一个叫 LAION-Aesthetics 的子集。 事实上, 最新的AI绘画模型包括随后提到的AI绘画模型王者 Stable Diffusion都是利用LAION-Aesthetics这个高质量数据集训练出来的.
Diffusion Model(生成框架变革)¶
Diffusion这个词也很高大上, 但基本原理说出来大家都能理解, 其实就是"去噪点". 对, 就是我们熟悉的手机拍照(特别是夜景拍照)的自动降噪功能. 如果把这个去噪点的计算过程反复进行, 在极端的情况下, 是不是可能把一个完全是噪声的图片还原为一个清晰的图片呢?
简单的去噪程序也不可能, 但是基于AI能力去一边"猜"一边去噪。从简单的生成器、判别器的颗粒度,变成一个逐步引导方向,由粗到细的过程。这个过程增多了中间步骤,获得了相较于GAN、VAE更细致的引导能力。通过结合上述的CLIP作为指导工具,就形成了最近的突破。
InstructGPT(引导式微调GPT)¶
使语言模型更大并不能从本质上使它们更好地遵循用户的意图。 例如,大型语言模型可能会生成不真实的、有毒的或对用户没有帮助的输出。 换句话说,这些模型与其用户不一致。 在本文中,我们展示了一种途径,可以通过根据人类反馈进行微调,使语言模型与用户对各种任务的意图保持一致。 从一组标记器编写的提示和通过 OpenAI API 提交的提示开始,我们收集了所需模型行为的标记器演示数据集,我们用它来使用监督学习微调 GPT-3。 然后,我们收集模型输出排名的数据集,我们使用该数据集通过人类反馈的强化学习进一步微调该监督模型。 我们将生成的模型称为 InstructGPT。 在对我们的提示分布的人工评估中,1.3B 参数 InstructGPT 模型的输出优于 175B GPT-3 的输出,尽管参数少 100 倍。 此外,InstructGPT 模型显示了真实性的提高和有毒输出生成的减少,同时对公共 NLP 数据集的性能回归最小。 尽管 InstructGPT 仍然会犯一些简单的错误,但我们的结果表明,根据人类反馈进行微调是使语言模型与人类意图保持一致的一个有前途的方向。
我们希望语言模型有帮助(它们应该帮助用户解决他们的任务)、诚实(它们不应该捏造信息或误导用户)和无害(它们不应该对人或环境造成身体、心理或社会伤害) 总体来说,Chatgpt 和 InstructGPT 一样,是使用 RLHF(从人类反馈中强化学习)训练的。不同之处在于数据是如何设置用于训练(以及收集)的。之前的 InstructGPT 模型,是给一个输入就给一个输出,再跟训练数据对比,对了有奖励不对有惩罚(0/1反馈);现在的 Chatgpt 是一个输入,模型给出多个输出,然后人给这个输出结果排序,让模型去给这些结果从“更像人话”到“狗屁不通”排序,让模型学习人类排序的方式(打分反馈)。
核心贡献玩家¶
Stable Diffusion¶
指由商业公司Stability.ai开源推出的模型,本身的产品名叫Dream Studio:
Stability AI的创始人是一名对冲基金行业的从业者,个人捐助使用了一个由4000个Nvidia A100 GPU组成的集群,在AWS中运行,在一个月的时间里训练Stable Diffusion。慕尼黑路德维希-马克西米利安大学的机器视觉和学习研究小组CompVis监督了训练,而Stability AI则捐赠了计算能力。
当前大多数市面应用都基于Stable Diffusion,是几乎后续所有创新应用的基础。
Dall-E 2 by OpenAI¶
Parti、Imagen by Google¶
上述两个公司的相关成果,均没有开放开源模型和API,效果也没有经过广泛验证。Dall-E 2可以在OpenAI的网站上使用,效果并没有领先Stable Diffusion
ChatGPT by OpenAI¶
优势:
概括能力很强
局限:
概念互相混淆;自作聪明
未来技术方向¶
专有数据集持续微调(Fine Tune)¶
https://huggingface.co/sd-dreambooth-library/cnstory
Lora / Custom Diffusion¶
InstructGPT / ChatGPT¶
通用模型+可插拔的Middle Layer Model¶
From Greylock Interview with Sam Altman (OpenAI CEO)
进一步提速(训练+推理)¶
从多张中进行更好的稳定选择,加速性能使得大批量生产的成本飞速降低,也提供更多结果选择使得结果的稳定性问题得到缓解。几乎每周都可以看到下述的性能优化进展。当前的成本还不够低。
和其他的技术组合¶
和动作模型进行结合,和其他的GAN/VAE模型组合使用,甚至结合传统机器学习和图形学的一些成果。
如结合3D本身的编辑生成;结合Web3的区块链进行确权和故事共创:
更好的Prompt Engineering¶
可以自己逐步build prompt的工具:
使用更多模态的信息做Prompt¶
(来源:https://ipqow8skbh.feishu.cn/docx/AP5zdUAdKo1GiWxPBfqcdmvynyh 侵删)