網(wǎng)站制作NEWS
Google的 Pathways(理想)與 PaLM(現(xiàn)實(shí))
Google在2021年提出Pathways構(gòu)想,旨在解決當(dāng)前模型的主要問(wèn)題,構(gòu)建一個(gè)更接近人腦的框架。這一愿景在2022年通過(guò)Pathways系統(tǒng)得以實(shí)現(xiàn),用于更高效地訓(xùn)練大型模型。然而,系統(tǒng)過(guò)于復(fù)雜,工程性較強(qiáng),對(duì)此不做具體評(píng)價(jià)。
同年4月,Google發(fā)布PaLM,基于Pathways系統(tǒng)訓(xùn)練的超大規(guī)模語(yǔ)言模型。經(jīng)過(guò)全面研究,PaLM展示了“大力出奇跡”的潛力,是基于經(jīng)典結(jié)構(gòu)的全注意力Transformer模型,與GPT-3相比在某些方面有所提升。模型基于廣泛的數(shù)據(jù)集訓(xùn)練,包括網(wǎng)頁(yè)、書籍、Wikipedia、新聞文章、源代碼和社交媒體對(duì)話。在測(cè)試中,PaLM在few-shot實(shí)驗(yàn)和finetune實(shí)驗(yàn)中展現(xiàn)出競(jìng)爭(zhēng)力,但與最好的encoder-decoder模型相比仍存在差距。在Big-Bench測(cè)試中,PaLM取得顯著成果。
總結(jié)而言,PaLM作為Pathways愿景的第一步,成功擴(kuò)展了大模型的能力邊界,特別是針對(duì)few-shot場(chǎng)景。它驗(yàn)證了Pathways訓(xùn)練系統(tǒng)的有效性,并為下一代模型架構(gòu)的研發(fā)積累了寶貴經(jīng)驗(yàn)。盡管PaLM未帶來(lái)驚喜,但它對(duì)傳統(tǒng)模型架構(gòu)和訓(xùn)練方法的改進(jìn)具有重要意義。
在探索大型模型的過(guò)程中,Google還嘗試過(guò)基于MoE(Mixture-of-experts)的大型稀疏模型,如GShard、Switch-Transformer和GLaM。這些模型通過(guò)MoE實(shí)現(xiàn)了在大型模型中包含多個(gè)子網(wǎng)絡(luò),針對(duì)不同token自動(dòng)選擇最佳子網(wǎng)絡(luò)進(jìn)行推理的能力。盡管PaLM并未完全實(shí)現(xiàn)Jeff Dean所提出的Pathways愿景,但MoE模型可能更接近這一目標(biāo)。有猜測(cè)指出,一個(gè)超大的類MoE模型可能正在Pathways系統(tǒng)上訓(xùn)練。
多重隨機(jī)標(biāo)簽