當前位置:學問君>學習教育>畢業論文>

資訊檢索中概念術語的提取方法探析論文

學問君 人氣:8.61K

隨着網絡技術的發展,網絡資訊越來越多,文字的數量也急劇增加,資訊檢索技術的出現滿足了人們對需求資訊的獲取和使用。網絡成爲資訊獲取的來源和渠道之一,然而,從這些海量的文字中獲取所需要的知識成爲專家學者研究的熱點。目前大多數的搜素引擎採用關鍵詞匹配技術進行檢索,現階段學者將更多的目光投向新型的檢索模式和方法,以改進搜尋效果。在資訊檢索的經典模式中,用來描述一篇文檔的一組具有代表性的關鍵詞叫做術語。對於一篇文檔而言,術語很可能包含了多個含義,而在不同的上下文中,術語的意義不同。一個術語或者詞組會有多種意義,一個領域的特定概念是明確的,因而,當資訊檢索中,採用領域概念描述文檔比術語更有意義。使用領域特定概念呈現在文檔中比檢索屬於特定領域文檔的術語更有用。可透過算法進行文檔概念的抽取,利用這些描述文檔內容的概念非傳統的詞條,詞頻進行檢索,相對於傳統的檢索,減少了不少工作量,提高了檢索精度。

資訊檢索中概念術語的提取方法探析論文

1相關研究

資訊檢索也稱爲資訊查找或資訊搜尋,1965年,Rocchio研究了在向量空間模型中把資訊查詢和術語重新加權相結合的經典技術,並在隨後出版發行[1]繼承了Rocchio的研究,並提出了術語重新加權公式的變形[2].1976年,Robertson和sparkJoneS提出了概率模型[3],有關該模型的詳細討論見van-Rijsbergen的著作[4].1981年Wu和salton使用相關反饋來給從相關文檔中提取出來的概念術語(用概率公式)重新加權,並用概念術語來檢索資訊[5],實驗表明了這些方法能夠提高檢索的性能。

實驗證明,提取文檔的領域概念術語在資訊檢索過程中能夠更加準確和高效。因此採用概率加權方式提取領域概念術語,並將本體納入領域概念提取過程中,不僅解決了無詞典情況下的概念術語自動提取研究,並且有更高的準確率。

2概念術語提取方法

概念的出現不是孤立存在。在一篇文檔中,如果概念有較高的權重,那麼這篇文檔通常還會包含與概念相關的其他概念。如電至少有兩個不同的意義:電荷和電費。如果在一篇文檔中討論電荷,那麼這篇文檔通常會包含如電流、電力等術語。而對於電費,文檔中通常包含如支付、額度等術語。因此,概念術語提取算法就是透過檢視概念和與之相關的概念來計算這一概念權重值。

每一篇文檔都有一組術語和其對應的頻率,將列表中的每一個術語映射到與之對應的概念以及計算當前文檔中每個概念的權重是研究重點,因此本體發揮很重要的作用,文檔中的術語都可以從本體中獲得其相關的概念組。一個術語可以映射到一個或者多個概念,如上文提到,電可以映射到電荷、電費,本研究就是要從這些映射的概念中,找到最合適的特定領域的概念。

爲了提取正確的概念,本研究涉及到相關概念。構建了簡易的概念間關係網,這一概念關係網來自本體中的物理學領域的一部分概念圖,如果這個術語的相關概念在文檔中出現的次數越多,概念的權重就越高。該算法將文檔中的術語表和頻率作爲輸入,然後返回一個概念列表以及概念的權重。

領域概念提取算法如下:在一篇文檔Γ的術語表裏,ti表示每個術語,cij是從本體中獲得的相關概念。每個相關概念cij的.權重就是cij··signficance最初作爲術語ti的歸一化頻率,即ti·frequency.對於每個相關概念cij,該方法重在文檔中相關概念rcp的出現。然後,針對與概念rcp對應的術語tp的產生,透過α歸一化術語的頻率來增量相關概念cij的權重。

signficance·cij=ti·frequency+α|tp·frequency.在這裏,α就是相關概念的權重,在本實驗中,將α=12.要獲得領域概念術語,因而該算法將選取權重值最大的概念作爲領域概念。

算法3.1:概念的提取以及概念權重輸入:t1,t2,…,tn是文檔Γ的領域術語列表;ti·frequency領域術語ti的歸一化頻率;Γ文檔中標記的總數。

輸出:c1,c2,…,cm概念列表和概念的權重ci·significance對領域術語ti歸一化頻率

3實驗測試和分析

爲了評價上文算法的性能,在搜尋引擎(百度)中進行不同的查詢並且收集了與查詢相對應的前20篇文檔。觀察來檢測與物理領域相關的文檔並計算準確度。評估該算法,實驗以相同的20篇文檔作爲輸入,用概念列表和概念權重從輸入的所有文檔中過濾出領域文檔。人爲已經過濾出屬於物理領域的文檔。每一篇文檔dj用概念向量c={c1,c2,…,cm}來表示。當且僅當概念ci的相關文檔出現在文檔中時,這個概念ci的權重值vi>0.對於查詢詞q,在物理領域,與之對應的概念就是cq,如果在文檔中概念的權重值vq>0,那麼這篇文檔dj就被選取出來。透過該算法返回的過濾輸出是人爲進行驗證並且用準確率和召回率評價該算法。

對於查詢C,集合C包含了由搜尋引擎返回的前20篇文檔。從集合C中,人爲標記出與查詢C相關的文檔集合F,集合R就表示人爲所選取出來的相關文檔,即標準文檔,|R|就是集合F中元素的數量;對集合C中的相同文檔進行進一步處理,其處理方式上面已經討論過的使用領域文檔和權重值進行過濾,過濾之後,生成一個個文檔,就是算法所選取出來的文檔,即機器文檔A,|A|就是機器文檔A中元素的數量。而且,|Ra|就是集合F和集合A的交集的文檔數量。

對於輸入的查詢,這裏準確率的計算是:運用了概念提取算法過濾出的文檔中的相關文檔數量|Ra|除以算法過濾出的文檔數量|A|.對於輸入查詢,這裏召回率的計算是:運用了概念提取算法過濾出的文檔中的相關文檔數量|Ra|除以沒有運用概念提取算法的20篇文檔中相關文檔數量|R|.

輸入查詢12次,分別統計了20篇文檔中相關文檔的數量|R|(未用概念提取算法)、過濾後的文檔數量|A|(概念提取方法)、過濾後的相關文檔數量|Ra|(概念提取方法),根據得到的統計結果分別計算準確率(未用概念提取方法)、準確率%(概念提取方法)、召回率%(概念提取方法)。透過計算出了的準確率和召回率,未使用概念提取方法所得到的相關文檔的準確率大部分在5%-40%之間,然而透過概念提取方法得到的準確率達到100%佔據70%,其餘的在60%-80%之間,召回率達到100%佔據70%,其餘的在70%-90%之間。透過實驗表明,採用概念和概念的權重值過濾領域文檔提高了資訊檢索的準確率。

結合本體的相關概念的領域概念術語自動提取方法,從實驗中可以看出,利用本體獲得術語的相關概念減輕了無詞典帶來的壓力,並且該本體術語可以進行擴充,解決了領域概固定化等問題;採用相關概念提取領域概念,提高了準確率。仍存在不足,一方面概念提取算法還存在過濾掉了低頻的概念,而對文檔而言較重要的概念,另一方面還存在冗餘概念因此,今後研究中將會完善算法。