XLNet团队：赢BERT靠的并不是数据集更大，公平对决也碾压对手

摘要：\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002Ff6fd3878a61842c182bd10905243a399\" img_width=\"1080\" img_height=\"507\" alt=\"XLNet团队：赢BERT靠的并不是数据集更大，公平对决也碾压对手\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E具体的超参数设置如下：\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli class=\"ql-align-justify\"\u003E相同的batch size：256\u003C\u002Fli\u003E\u003Cli class=\"ql-align-justify\"\u003E相同的训练步数：1M\u003C\u002Fli\u003E\u003Cli class=\"ql-align-justify\"\u003E相同的优化器：Adam，学习率1e-4，10K预热，线性衰减\u003C\u002Fli\u003E\u003Cli class=\"ql-align-justify\"\u003E相同的训练语料库：Wikipedia + BooksCorpus。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp9.pstatp.com\u002Flarge\u002Fpgc-image\u002F658f7fb6aae245db8856e5ba8bd148e5\" img_width=\"1080\" img_height=\"992\" alt=\"XLNet团队：赢BERT靠的并不是数据集更大，公平对决也碾压对手\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E测试结果说明了一些问题：\u003C\u002Fp\u003E\u003Col\u003E\u003Cli class=\"ql-align-justify\"\u003E使用几乎相同的数据和训练方法，XLNet在所有数据集上均以相当大的优势超越BERT。

"\u003Cdiv\u003E\u003Cblockquote\u003E\u003Cp\u003E晓查发自凹非寺\u003C\u002Fp\u003E\u003Cp\u003E量子位出品 | 公众号 QbitAI\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E几周前，谷歌发布了新的NLP模型XLNet，它在20项基准测试中均优于BERT。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F62697ebe34bf4740933686ee8d45c212\" img_width=\"1080\" img_height=\"360\" alt=\"XLNet团队：赢BERT靠的并不是数据集更大，公平对决也碾压对手\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E但是与BERT相比，XLNet模型的训练数据比BERT大10倍。这让学术界和工业界对此产生了疑问：XLNet如果只接受与BERT相同规模的训练数据会如何？XLNet的胜利是否只是数据集的胜利？\u003C\u002Fp\u003E\u003Cp\u003E今天，XLNet研究团队在Medium网站上用实际数据解答了众人的疑惑。他们使用近乎相同的数据集在XLNet和BERT之间进行公平对决，看看前者的性能到底有没有本质的提升。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E参数配置\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E为了保证公平性，团队确保BERT和XLNet中几乎所有可能的超参数尽量相同。在无法保证二者相同的情况下，他们还让参数的优势更向BERT倾斜。\u003C\u002Fp\u003E\u003Cp\u003E超参数用的是原来BERT作者发布的数据。也就是说，这么做更有可能针对BERT而不是XLNet进行优化。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002Ff6fd3878a61842c182bd10905243a399\" img_width=\"1080\" img_height=\"507\" alt=\"XLNet团队：赢BERT靠的并不是数据集更大，公平对决也碾压对手\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E具体的超参数设置如下：\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli class=\"ql-align-justify\"\u003E相同的batch size：256\u003C\u002Fli\u003E\u003Cli class=\"ql-align-justify\"\u003E相同的训练步数：1M\u003C\u002Fli\u003E\u003Cli class=\"ql-align-justify\"\u003E相同的优化器：Adam，学习率1e-4，10K预热，线性衰减\u003C\u002Fli\u003E\u003Cli class=\"ql-align-justify\"\u003E相同的训练语料库：Wikipedia + BooksCorpus。XLNet团队使用与BERT repo中描述相同的工具来处理维基百科。但由于某些未知原因，XLNet维基百科语料库只有20亿单词，而BERT有25亿单词。因此XLNet训练集反而更小。\u003C\u002Fli\u003E\u003Cli class=\"ql-align-justify\"\u003E相同的模型架构参数：24层，1024个隐藏单元，head数16\u003C\u002Fli\u003E\u003Cli class=\"ql-align-justify\"\u003E相同的微调超参数搜索空间\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E他们修改了一些与数据相关的实现细节，以便与BERT进行一对一的比较：\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli class=\"ql-align-justify\"\u003E在之前的实现中，未被覆盖的token在预训练中看不到CLS和SEP。在现在的实现中，未被覆盖的token可以看到CLS和SEP，这与BERT一致。\u003C\u002Fli\u003E\u003Cli class=\"ql-align-justify\"\u003E在微调中，XLNet使用“BERT格式”[CLS，A，SEP，B，SEP]取代[A，SEP，B，SEP，CLS]。\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E此外，他们还考虑了BERT的三种变体，并报告每个单独任务的最佳微调结果。\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli class=\"ql-align-justify\"\u003E模型-I：作者发布的原始BERT\u003C\u002Fli\u003E\u003Cli class=\"ql-align-justify\"\u003E模型-II：具有全词覆盖的BERT，也是由作者发布\u003C\u002Fli\u003E\u003Cli class=\"ql-align-justify\"\u003E模型-III：由于下一句预测（NSP）可能会影响性能，使用已发布的BERT代码预训练一个新的没有NSP损失的模型。\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E以上的设置可能会为BERT带来一些优势，因为BERT可以通过不同的变体获得单个任务的最佳性能。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E对比结果\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E二者在SQuAD、RACE等测试集上的结果如下，过程中没有使用数据扩增、集成学习或多任务学习。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp9.pstatp.com\u002Flarge\u002Fpgc-image\u002F658f7fb6aae245db8856e5ba8bd148e5\" img_width=\"1080\" img_height=\"992\" alt=\"XLNet团队：赢BERT靠的并不是数据集更大，公平对决也碾压对手\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E测试结果说明了一些问题：\u003C\u002Fp\u003E\u003Col\u003E\u003Cli class=\"ql-align-justify\"\u003E使用几乎相同的数据和训练方法，XLNet在所有数据集上均以相当大的优势超越BERT。\u003C\u002Fli\u003E\u003Cli class=\"ql-align-justify\"\u003E10倍数据对训练效果的提升不如从BERT到XLNet的变化明显。11个基准测试中，有8个从BERT切换到XLNet的提升更为明显。\u003C\u002Fli\u003E\u003Cli class=\"ql-align-justify\"\u003E在CoLA和MRPC等一些基准测试中，更多数据上训练的模型得分反而低于在较少数据上训练的模型。\u003C\u002Fli\u003E\u003C\u002Fol\u003E\u003Cp\u003E上述结果中让我们获得了一些宝贵的经验。\u003C\u002Fp\u003E\u003Col\u003E\u003Cli class=\"ql-align-justify\"\u003E\u003Cstrong\u003EXLNet确实提高了性能。\u003C\u002Fstrong\u003E实验结果1表明，在相同的训练条件下XLNet相对于BERT具有优势。\u003C\u002Fli\u003E\u003Cli class=\"ql-align-justify\"\u003E\u003Cstrong\u003EXLNet-Large可以更好地进行优化。\u003C\u002Fstrong\u003E实验结果2和3似乎表明XLNet-Large（更多训练数据）没有充分利用数据规模。\u003C\u002Fli\u003E\u003C\u002Fol\u003E\u003Cp\u003E\u003Cstrong\u003E对未来工作的启发\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003EXLNet团队表示，将继续研究如何正确扩展XLNet语言预训练。根据目前有限的观察结果，他们推测以下训练细节可能会发挥重要作用：\u003C\u002Fp\u003E\u003Cp\u003E数据相关：数据规模、数据来源、数据清洗、数据编码、数据格式化。\u003C\u002Fp\u003E\u003Cp\u003E优化相关：学习率、batch size、训练步数、优化器。\u003C\u002Fp\u003E\u003Cp\u003E这些超参数之间可能有高阶的相互作用。\u003C\u002Fp\u003E\u003Cp\u003EFacebook AI最近的RoBERTa进入GLUE排行榜第一，似乎也暗示了训练细节的重要性。\u003C\u002Fp\u003E\u003Cp\u003E原文链接：\u003C\u002Fp\u003E\u003Cp\u003Ehttps:\u002F\u002Fmedium.com\[email protected]\u002Fa-fair-comparison-study-of-xlnet-and-bert-with-large-models-5a4257f59dc0\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E— 完 —\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E诚挚招聘\u003C\u002Fp\u003E\u003Cp\u003E量子位正在招募编辑\u002F记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。\u003C\u002Fp\u003E\u003Cp\u003E量子位 QbitAI · 头条号签约作者\u003C\u002Fp\u003E\u003Cp\u003Eվ'ᴗ' ի 追踪AI技术和产品新动态\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E"'.slice(6, -6), groupId: '6716739644483961352

XLNet团队：赢BERT靠的并不是数据集更大，公平对决也碾压对手

热门新闻

周热门

XLNet团队：赢BERT靠的并不是数据集更大，公平对决也碾压对手

国脉文化(600640.SH)：暂未涉及人工智能旅游线上业务

英伟达飙涨或未结束！美银：能再涨24%，未来将主导计算市场

人工智能：对成人娱乐AI产品的担忧加剧

台积电拟对英伟达涨价 大摩称其他客户或也将跟进

苹果与 OpenAI 阿尔特曼合作，在 AI 领域迎头赶上

特斯拉今年或花费30亿到40亿美元 购买英伟达产品

Siri联合创始人：苹果与OpenAI合作可能只是权宜之计

密度业内最高 美光出样全新GDDR7显存：能效提升50%

交银国际：科技行业下半年AI主题或将继续 半导体或持续分化

FTC盯上微软！交易疑似绕开反垄断审查

Salesforce拟在伦敦开设新的人工智能中心

Meta因使用个人数据训练AI模型收到欧盟11起投诉

美国FTC调查微软与AI初创公司Inflection的交易

美国财长耶伦：在金融体系中采用人工智能或带来“重大风险”

行业巨头强强联手！英伟达与鸿海将建设先进计算中心

热门新闻

周热门

台积电拟对英伟达涨价大摩称其他客户或也将跟进

特斯拉今年或花费30亿到40亿美元购买英伟达产品

密度业内最高美光出样全新GDDR7显存：能效提升50%

交银国际：科技行业下半年AI主题或将继续半导体或持续分化