GPT-2

  • GPT-2

主要解决的问题:当模型被别人用更大的数据集参数量打败时,应该怎么做?

GPT2虽然还是在做语言模型,但是下游任务使用了一个叫做zero-shot的设定,即做下游任务时不需要下游任务的任何标注信息,也不需要训练模型——只要预训练一个大模型来预测子任务,这个预训练的大模型在任何地方都可以用。

GPT1和GPT2的区别

GPT1时我们在构建下游任务输入时引入了起始、截断和终止符,这些模型在开始的预训练阶段时没有看到的,但是有微调的情况时,模型可以再学习到这些符号的意思。但是GPT2要做zero-shot时,在做下游任务时模型不能被调整了,再引入这些特殊字符时模型会感到很困惑,所以在构建下游任务输入时不能引入那些模型没见过的符号,而需要使下游任务的输入和之前预训练时模型看到的文本长得一样,输入形式应该更像一个自然语言。

例如:在做句子翻译任务时,训练的句子可以被写为:(translate to french, english text, french text).

其中translate to french在后文叫做prompt也叫做提示,相当于做了一个特殊的提示词。

如果要做阅读理解任务时:可以写作(answer the question, document(阅读的文本), question, answer)

answer the question相当于任务提示。

这些构建提示词的方式是前人提出的,假设为如果训练的模型足够强大就可以理解这些提示词的意思,而且这种提示词在文本中也比较常见,模型可以理解。

GPT2的数据集

没有选择Common Crawl这种具有很多冗余无用信息的项目,选用的是reddit里面已经被人工筛选出的有意义的,并且具有至少3karma值的网页进行数据处理,大概有800万个文本,40gb的文字。

  • GPT-3

主要解决的问题:

1.做下游子任务时需要大量有标号的数据集。

2.样本没有出现在数据分布里面,大模型的泛化性不见得比小模型更好。微调效果好不能说明预训练模型泛化性好,因为可能是过拟合预训练的训练数据,这些训练数据与微调使用的数据刚好有一定的重合性。

3.人类不需要一个很大的数据集做任务。

为了解决上面几个问题,GPT-3的训练使用了情境学习(In-context Learning),它是元学习(Meta-learning)的一种,元学习的核心思想在于通过少量的数据寻找一个合适的初始化范围,使得模型能够在有限的数据集上快速拟合,并获得不错的效果。

GPT3的数据集

使用了之前GPT2中弃用的Common Crawl的数据,构建数据步骤:

1、使用之前的reddit的数据作为正例,Common Crawl作为负例训练二分类器,预测Common Crawl的网页,过滤掉不好的

2、使用lsh算法(常用技术)去重

3、增加已知高质量数据,把之前的BERT、GPT1、GPT2数据集拿过来

4、因为Common Crawl数据集还是很脏,所以在真实采样时赋予了一定权重进行采样:

  • GPT3.5(ChatGPT/InstructGPT)

主要解决的问题:预训练模型具有偏见性。

预训练模型就像一个黑盒子,没有人能够保证预训练模型不会生成一些包含种族歧视,性别歧视等危险内容,因为它的几十GB甚至几十TB的训练数据里几乎肯定包含类似的训练样本。InstructGPT/ChatGPT都是采用了GPT-3的网络结构,通过指示学习构建训练样本来训练一个反应预测内容效果的奖励模型(RM),最后通过这个奖励模型的打分来指导强化学习模型的训练。

什么是指示学习?

指示学习是谷歌Deepmind的Quoc V.Le团队在2021年的一篇名为《Finetuned Language Models Are Zero-Shot Learners》文章中提出的思想。指示学习(Instruct)和提示学习(Prompt)的目的都是去挖掘语言模型本身具备的知识。不同的是Prompt是激发语言模型的补全能力,例如根据上半句生成下半句,或是完形填空等。Instruct是激发语言模型的理解能力,它通过给出更明显的指令,让模型去做出正确的行动。指示学习的优点是它经过多任务的微调后,也能够在其他任务上做zero-shot,而提示学习都是针对一个任务的。泛化能力不如指示学习。

我们可以通过下面的例子来理解这两个不同的学习方式:
1.提示学习:给女朋友买了这个项链,她很喜欢,这个项链太____了。
2.指示学习:判断这句话的情感:给女朋友买了这个项链,她很喜欢。选项:A=好;B=一般;C=差。

怎么消除偏见的?

人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF),将人工反馈作为强化学习的奖励,将模型的输出内容和人类喜欢的输出内容的对齐。人类喜欢的不止包括生成内容的流畅性和语法的正确性,还包括生成内容的有用性、真实性和无害性。

ChatGPT和InstructGPT的训练方式相同,不同点仅仅是它们采集数据上有所不同,但是并没有更多的资料来讲数据采集上有哪些细节上的不同。考虑到ChatGPT仅仅被用在对话领域,猜测ChatGPT在数据采集上有两个不同:1. 提高了对话类任务的占比;2. 将提示的方式转换Q&A的方式。

22.webp

24小时热点

行情分析

市场多头的动能开始减弱,空头随时有可能反扑回来,所以建议控制 ...

31914

雪崩科技

FTX CEO回应浮亏的美元

“Bitfinex排行榜显示FTX CEO账面浮亏超1300 ...

16015

知道创宇

江卓尔解读CB上市、NFT、BCH走向

今年这场疯牛还能持续多久……

66780

AVAX区块链浏览器

热点专题

NFT艺术品到底是什么?

Beeple,“EVERYDAYS: THE FIRST 5 ...

2318557

Opera House

最全的NFT发展史

当我们理解一个新生事物,必须要首先了解其起源,通过对其源头以 ...

1752801

iBox

“华英会”诈骗圈钱5000亿!崩盘后将会凄惨无比

“华英会”崩盘的预警已多次发出,尽管尚未正式宣布崩盘,但大家 ...

1328854

Magic Eden

什么是IDO?这种模式会带来怎样的影响?

要理解IDO(Initial DeFi Offering)初 ...

1158056

Bitstamp交易所

链圈百科:韩国政府机构组织图

一、行政院 韩国行政院是一个由政府的行政机构组成的中央政府 ...

1045720

BitKeep钱包

有黑客采取新型 USDT 假充值手法

根据慢雾区情报,有黑客采取新型 USDT 假充值手法,黑客采 ...

1015812

区块链博客

元宇宙平台合法吗

现在,元宇宙平台备受热捧,但有人质疑其合法性。在此,我们将对 ...

988901

T网

4种利用永续合约资金费率套利的策略

下文将介绍在保持市场中立的条件下,如何从永续掉期资金费率中套 ...

948964

DCG区块链孵化器

国内NFT平台是怎么赚钱的?

2021年被称为NFT的“元年”,互联网巨头、各大企业、艺术 ...

813235

CoinBene满币网

宝二爷郭宏才的乘风破浪之旅

10年后的比特币会涨到10万美元吗?宝二爷说过:“先吹吹牛B ...

727516

QuillAudits