国产精品高清免费在线视频-亚洲精品午夜福利一区-91成人精品国产免费男男-噼里啪啦日本一区二区

上海啟嘟渡科技商貿(mào)有限公司
SEARCH

與我們合作

我們專注提供互聯(lián)網(wǎng)一站式服務(wù),助力企業(yè)品牌宣傳多平臺(tái)多途徑導(dǎo)流量。
主營(yíng)業(yè)務(wù):網(wǎng)站建設(shè)、移動(dòng)端微信小程序開(kāi)發(fā)、營(yíng)銷推廣、基礎(chǔ)網(wǎng)絡(luò)、品牌形象策劃等

您也可通過(guò)下列途徑與我們?nèi)〉寐?lián)系:

微 信: wxyunyingzhe

手 機(jī): 15624122141

郵 箱:

『IR 信息檢索入門必看』#8 倒排索引模型(簡(jiǎn)明)

更新時(shí)間:2025-01-10 09:36:00

文件組織架構(gòu),也稱 index (索引),常用于提升一個(gè)檢索系統(tǒng)的性能。

回顧向量空間模型,我們知道在查詢時(shí),命中的 doc 應(yīng)該是與 query 最為相近的幾個(gè)向量。當(dāng)查詢時(shí),若只在所有 可能相似的文檔 (至少含有一個(gè) query 中的關(guān)鍵詞)中查找,可以大大減少資源浪費(fèi)。

那么就需要先得到 query 中各個(gè) term 出現(xiàn)過(guò)的文檔,再取 并集 ,最后在并集中進(jìn)行相似度的計(jì)算——「 過(guò)濾 」思想。

此時(shí)用特殊的索引方式,就可以更快地實(shí)現(xiàn)文檔的過(guò)濾。有人提出 Hash 的設(shè)想,但是 Hash 的缺點(diǎn)在于不能模糊匹配,當(dāng)用戶的 Query 和詞典中的 term 略有差距時(shí),可能在 hash table 中會(huì)相距十分遙遠(yuǎn)。

我們通過(guò)一組對(duì)比,引入「 倒排 」的概念:

由此我們可以得到倒排文件組織架構(gòu)的 構(gòu)成

有了上述的架構(gòu),當(dāng)用戶輸入 query 時(shí),我們可以提取出 term,直接訪問(wèn)對(duì)應(yīng)的 Index file,再根據(jù)鏈接來(lái)到 Posting file。對(duì)于多個(gè) term,可以先完成交、并等邏輯運(yùn)算,得到結(jié)果后,再去訪問(wèn)過(guò)濾后的文檔集。

由此,我們可以知道當(dāng)爬取到新的文檔時(shí),構(gòu)建索引的步驟:

接下來(lái)介紹搜索引擎如何解析一個(gè)新爬取到的文檔,這個(gè)過(guò)程往往是離線進(jìn)行的(在線進(jìn)行的是用戶查詢過(guò)程)。

而由于文檔的多樣性,往往解析過(guò)程中會(huì)面臨各式各樣的問(wèn)題:文件格式、各國(guó)語(yǔ)言、字符編碼、停用詞等。這些問(wèn)題往往用 啟發(fā)式 (heuristically)的方法解決。

Token 來(lái)自文檔的原始字符串,是根據(jù)空格劃分提取出的原始單詞。在實(shí)際中,要考慮:是否保留 's 、是否保留連字符、專有名詞是否拆開(kāi)、數(shù)字嵌入等子問(wèn)題。

而針對(duì)不同語(yǔ)言,也有更多新的問(wèn)題:法語(yǔ)中大量的 ' 使用、德語(yǔ)中名詞復(fù)合現(xiàn)象、中文日文不適用空格分詞、日語(yǔ)的平假片假、阿拉伯語(yǔ)的書(shū)寫(xiě)次序等。

在文本中,往往還需要把最頻繁出現(xiàn)的無(wú)意義詞停用。在文檔解析中,如何利用停用詞進(jìn)行壓縮空間?在查詢優(yōu)化中,如何判別停用詞?當(dāng)停用詞有意義時(shí),如何識(shí)別?這些都是需要考慮的問(wèn)題。

在英語(yǔ)中,通常時(shí)以定義「 等價(jià)集 」(equivalence classing)來(lái)歸并詞項(xiàng)。通常將單詞歸并到其原型,而對(duì)于特殊的單詞有特殊的規(guī)則,例如規(guī)定 “U.S.A.” 歸并于 “USA”,規(guī)定 “anti-discriminatory” 歸并于 “antidiscriminatory”。

對(duì)于有的單詞,不同形式可能含有不同語(yǔ)義,例如 window/windows/Windows。此時(shí)在查詢時(shí)可以先做 不對(duì)稱展開(kāi) (asymmetric expansion),對(duì)展開(kāi)項(xiàng)搜索后取并集。

主要針對(duì) Synonyms (同義詞)、Homonyms (同形同音異義詞),這種情況下也可以利用等價(jià)集和不對(duì)稱展開(kāi)解決。

此外,當(dāng)用戶查詢中有英文拼寫(xiě)錯(cuò)誤時(shí),常用的方法是 Soundex (探測(cè)法),返回同音字串。Soundex 是基于語(yǔ)音啟發(fā)式方法生成的 語(yǔ)音等價(jià)集 。這種方法在漢語(yǔ)拼音中同樣有很大應(yīng)用。

將單詞的名詞、動(dòng)詞、形容詞等形式統(tǒng)一歸并到 詞根 ,將單復(fù)數(shù)、人稱所有格、時(shí)態(tài)等統(tǒng)一歸并到 原型

解析完文檔后,我們可以將新的文檔直接存入文檔集,也可以利用 摘要生成 技術(shù)生成 Surrogates (文檔替代品),減少存儲(chǔ)空間。

此外,當(dāng)我們搜索到頁(yè)面文檔時(shí),其文件格式可能各不相同,如 HTML、XML 等,故檢索到網(wǎng)頁(yè)后還需要進(jìn)行 Page Purifing (文檔凈化),從而獲得便于識(shí)別的文本文檔和內(nèi)部鏈接。

之前的文章介紹過(guò),用于連接 term 和 doc 的詞典表往往是個(gè)稀疏矩陣。而倒排文件用 鏈表 的形式存儲(chǔ)每一行的內(nèi)容,即包含此 term 的所有 doc 及其基本信息,串接而成。鏈表中的每個(gè)元素稱為一個(gè) posting (記錄)。

其中,基本信息可以包含:Document ID (文檔的唯一標(biāo)識(shí))、Location Pointer (該文檔在 Doc file 中的位置)、原始的權(quán)重因子。

存儲(chǔ)原始的權(quán)重因子,是為了在查找的時(shí)候更方便的計(jì)算詞項(xiàng)權(quán)重??梢园?df、tf、最大頻度、總文檔數(shù)等等。

此外,鏈表中的元素以 Doc ID 排序,這樣存儲(chǔ)有利于多頁(yè)倒排表的 合并 匹配。

索引文件通常以詞典的形式存儲(chǔ) term ID、含有該 term 的文檔數(shù)以及該 term 在記錄文件中的位置(指針)。

以下列出幾種常用的索引文件組織形式:

前文提到,在解析一篇文檔獲得索引時(shí),最簡(jiǎn)單的方法就是先提取 token,再獲得 term 作為索引。而在真正高效的索引模型(Index Model)中,往往要先對(duì)文檔進(jìn)行 特征選取 ,從而構(gòu)成索引。

而特征選擇問(wèn)題,可以轉(zhuǎn)化為詞項(xiàng)權(quán)重(term weighting)計(jì)算,一篇文檔中權(quán)重較大的 term 往往更能表示這篇文檔。

在前面的文章中有提到,tf 及其衍生的權(quán)重計(jì)算方法,是 IR 模型中最常用的權(quán)重計(jì)算方法。這里就不再重復(fù)介紹,僅提及一個(gè)有趣的定理 Zipf's Law 。

該定理描述了如下現(xiàn)象:在一個(gè)大的文檔集中,統(tǒng)計(jì)出各個(gè)詞項(xiàng)的 tf 排名后,記排名為 r ,頻率為 f ,則有

而在實(shí)際中,排名最高的詞項(xiàng)通常都是停用詞,最「 重要 」的詞往往詞頻不是很高,而最罕見(jiàn)的詞往往沒(méi)有普遍價(jià)值。這也與 tf·idf 的思想契合,下圖說(shuō)明了這一點(diǎn)。

在倒排文檔中,移除停用詞和罕見(jiàn)詞、保留重要詞,可以節(jié)約大量的記錄空間。

對(duì)于一個(gè)確定大小的文檔集,需要多少詞項(xiàng)才能很好的索引全部文檔呢?這便是根據(jù)文檔集大小確定詞典大小(Lexicon Size)的問(wèn)題。 Heap's Law 對(duì)此進(jìn)行了估算:

其中, K 通常取 10 到 100 間的整數(shù), 通常取 0.4 到 0.6 之間的小數(shù)。繪制出的圖如下:

在一個(gè)向量空間中,文檔由 基向量 加權(quán)構(gòu)成的向量表示。

我們可以計(jì)算文檔之間的相似度,相似度越高,代表空間越緊湊,反之則越松散。計(jì)算文檔集兩兩之間的相似度需要 的復(fù)雜度。

當(dāng)然,如果先計(jì)算出一個(gè)「 平均文檔 」,再計(jì)算其他文檔與其的相似度,則只需要 的復(fù)雜度。

詞項(xiàng)判別模型則是通過(guò) 引入 一個(gè)新的 term 作為基向量,觀察相似度的變化分析該 term 的重要性。大致的思想是:

多重隨機(jī)標(biāo)簽

猜你喜歡文章

QQ客服 電話咨詢
国内尹人香蕉综合在线| 丝袜av一区二区三区四区五区| 欧美一本在线免费观看| 国产精品视频久久一区| 中文字幕禁断介一区二区| 国产又粗又猛又长又大| 欧美午夜国产在线观看| 日本精品视频一二三区| 国产精品午夜小视频观看| 老司机精品视频在线免费看| 中文字幕一二区在线观看| 国产精品欧美日韩中文字幕| 国产美女网红精品演绎| 亚洲综合一区二区三区在线| 久久婷婷综合色拍亚洲| 国产日韩欧美专区一区| 日本人妻熟女一区二区三区| 四季av一区二区播放| 97人妻精品免费一区二区| 日本东京热加勒比一区二区| 国产午夜精品久久福利| 国产av精品一区二区| 日系韩系还是欧美久久| 好吊妞视频只有这里有精品| 国产真人无遮挡免费视频一区 | 国产肥女老熟女激情视频一区| 爱在午夜降临前在线观看| 亚洲欧洲一区二区综合精品| 日韩成人高清免费在线| 亚洲国产婷婷六月丁香| 日本中文在线不卡视频| 欧美日韩精品综合在线| 好吊一区二区三区在线看| 在线一区二区免费的视频| 微拍一区二区三区福利| 久久国产精品热爱视频| 麻豆一区二区三区精品视频| 中文字幕亚洲精品在线播放| 日韩欧美综合在线播放| 欧美一区二区不卡专区| 久久热九九这里只有精品|