當(dāng)前日期是: 2025-01-10 常常尻夜夜操天天操夜夜操天天操,青青青草原手机在线免费观看视频 ,欧美亚洲另类在线一区二区

国产精品高清免费在线视频-亚洲精品午夜福利一区-91成人精品国产免费男男-噼里啪啦日本一区二区

上海啟嘟渡科技商貿(mào)有限公司
SEARCH

與我們合作

我們專注提供互聯(lián)網(wǎng)一站式服務(wù),助力企業(yè)品牌宣傳多平臺(tái)多途徑導(dǎo)流量。
主營(yíng)業(yè)務(wù):網(wǎng)站建設(shè)、移動(dòng)端微信小程序開發(fā)、營(yíng)銷推廣、基礎(chǔ)網(wǎng)絡(luò)、品牌形象策劃等

您也可通過下列途徑與我們?nèi)〉寐?lián)系:

微 信: wxyunyingzhe

手 機(jī): 15624122141

郵 箱:

Skip-gram

更新時(shí)間:2025-01-10 01:20:04

標(biāo)簽(空格分隔):NLP

skip-gram與cbow相比,skip-gram在處理不常用詞匯時(shí)效果更佳。例如,對(duì)于一個(gè)句子'w1w2w3w4',window_size=1。

在cbow模型中,模型學(xué)習(xí)的是預(yù)測(cè)給定上下文后出現(xiàn)單詞的概率,最大化的是下面公式所示的概率值。

但這對(duì)不常見的單詞來說是個(gè)問題,因?yàn)椴怀R姷膯卧~在給定的上下文中不常出現(xiàn),導(dǎo)致模型分配給它們很小的概率。

相比之下,skip-gram模型學(xué)習(xí)的是給定單詞后去預(yù)測(cè)上下文的概率,最大化的是下面公式所示的概率值。在例子中,頻繁出現(xiàn)的和不頻繁出現(xiàn)的單詞被相同對(duì)待,從而使得模型能夠?qū)W習(xí)到罕見的單詞。

skip-gram通過最優(yōu)化似然目標(biāo)函數(shù)來學(xué)習(xí)預(yù)測(cè)給定單詞后的上下文。以句子'I am writing a summary for NLP.'為例,模型根據(jù)目標(biāo)詞'summary',預(yù)測(cè)窗口大小為2的上下文單詞。

目標(biāo)函數(shù)通過最大化公式所示的似然函數(shù)來實(shí)現(xiàn)。事實(shí)上,給定一個(gè)句子,skip-gram模型可以實(shí)現(xiàn)這一目標(biāo)。相反,將每個(gè)單詞都當(dāng)作目標(biāo)詞,預(yù)測(cè)上下文詞,目標(biāo)函數(shù)可以表示為公式所示。

給定單詞集w和它們的上下文集c,我們考慮條件概率P(c|w),并給出預(yù)期,目標(biāo)是找出條件概率公式所示的參數(shù)公式,以最大化語料庫中出現(xiàn)的概率。

公式所示目標(biāo)函數(shù)的簡(jiǎn)化形式為公式所示。接下來,問題是如何定義公式,它必須滿足兩個(gè)條件:一是公式;二是公式。

自然的方法是使用softmax函數(shù)來定義公式。其中,公式是單詞w和w的上下文單詞c的向量化表示,U表示所有可用上下文的集合。

在這個(gè)模型中,我們假設(shè)目標(biāo)單詞w和上下文c來自不同的詞匯表矩陣V和U,每個(gè)單詞在模型中扮演了兩種角色:一個(gè)作為目標(biāo)單詞,另一個(gè)作為上下文單詞。這就是為什么需要兩個(gè)獨(dú)立矩陣的原因,它們必須具有相同的維度:V * k,其中k是超參數(shù),表示每個(gè)詞向量的維數(shù)。

通過內(nèi)積來衡量公式和公式兩向量間的相似性,如果它們有近似的含義,則表示它們的向量化表示有近似相似性,從而提高它們的共現(xiàn)概率公式。

目標(biāo)函數(shù)可以表示為公式所示,但計(jì)算起來過于復(fù)雜,因?yàn)樗硎緸閘og(sum)。在考慮所有單詞的上下文的情況下,時(shí)間復(fù)雜度為O(|Vocab|)。

通常,我們選擇在求和內(nèi)取log而不是在外,這有助于優(yōu)化過程。在某些點(diǎn)處,需要將函數(shù)的梯度設(shè)為0,這通常通過線性計(jì)算實(shí)現(xiàn)。對(duì)比之下,根據(jù)鏈?zhǔn)椒▌t,求和的log導(dǎo)數(shù)為1/(your sum)⋅(derivative of the sum)。

現(xiàn)在,通過重新構(gòu)造目標(biāo)函數(shù)并進(jìn)行近似,我們引入了負(fù)采樣策略。在skip-gram模型中,我們假定(w,c)在訓(xùn)練數(shù)據(jù)集中是一個(gè)詞與其上下文詞的對(duì),共現(xiàn)概率應(yīng)該很大。因此,我們提出了一個(gè)二元分類問題。

我們使用sigmoid函數(shù)來定義公式,其中參數(shù)公式控制分布公式。通過隨機(jī)采樣不在語料庫中的詞對(duì)(w, c),我們?cè)黾恿四繕?biāo)函數(shù)的復(fù)雜度,從而最大化公式所示的目標(biāo)函數(shù)。

通常情況下,我們?yōu)槊總€(gè)數(shù)據(jù)樣本取k個(gè)負(fù)樣本。對(duì)于小型訓(xùn)練數(shù)據(jù)集,建議k值在5-20之間;對(duì)于大型訓(xùn)練數(shù)據(jù)集,建議k值在2-5之間。這樣,目標(biāo)函數(shù)可以表示為公式所示。

總結(jié),skip-gram模型在處理不常用詞匯時(shí)表現(xiàn)出色,通過優(yōu)化似然目標(biāo)函數(shù)來預(yù)測(cè)給定單詞的上下文,通過負(fù)采樣策略增加模型的復(fù)雜度,從而提高對(duì)罕見詞匯的學(xué)習(xí)能力。

標(biāo)簽: skipgram

多重隨機(jī)標(biāo)簽

猜你喜歡文章

QQ客服 電話咨詢
日韩高清毛片免费观看| 偷自拍亚洲欧美一区二页| 黄色av尤物白丝在线播放网址| 午夜福利直播在线视频| 五月婷日韩中文字幕四虎| 国产一区二区三区午夜精品| 九九视频通过这里有精品| 亚洲精品蜜桃在线观看| 麻豆精品视频一二三区| 国产精品一级香蕉一区| 国产偷拍盗摄一区二区| 老司机亚洲精品一区二区| 欧美日韩一级aa大片| 日韩精品在线观看一区| 丁香六月婷婷基地伊人| 福利在线午夜绝顶三级| 免费观看一区二区三区黄片| 国产亚洲中文日韩欧美综合网| 亚洲精品一区二区三区日韩| 手机在线观看亚洲中文字幕| 99精品人妻少妇一区二区人人妻| 成人精品一区二区三区综合| 国产视频一区二区三区四区| 国产精品成人一区二区在线 | 国产一区一一一区麻豆| 国产精品免费福利在线| 在线一区二区免费的视频| 亚洲熟妇中文字幕五十路| 精品少妇人妻一区二区三区| 亚洲第一区欧美日韩在线| 日韩精品中文字幕在线视频| 亚洲欧美日韩国产成人| 久久精品偷拍视频观看| 在线观看视频日韩精品| 欧美日韩国产福利在线观看| 国产91麻豆精品成人区| 午夜福利视频偷拍91| 出差被公高潮久久中文字幕| 成人免费高清在线一区二区| 亚洲一区精品二人人爽久久| 国产一区二区三区免费福利|