如圖4所示,石油地質語義檢索原型系統主要由解析模塊、索引模塊、檢索模塊、語義標引和本體模塊五部分組成[6],其中索引模塊中的語義標引、本體模塊以及檢索模塊中本體搜索為本文在Lucene開源包基礎上新增的部分,并且對原有的排序模塊進行完善優化,形成新的基于權重的排序模塊。各個模塊的具體功能介紹如下。(1)解析模塊:主要對各種類型的電子文檔進行,目前能夠解析的文檔類型包括Doc、PDF、Xml和Html,在未來工作中將進一步擴展可解析的文檔類型。(2)索引模塊:基于Lucene已有的分詞器進行文檔預處理,去除停頓詞,保留主題詞。一方面將高頻主題導入形成石油地質領域概念詞庫,另一方面將高頻主題詞作為每個文檔的標引詞匯,形成語義標引文檔集。(3)本體模塊:利用Jena實現了本體的解析與推理[7],將本體中的等級、等同和相關關系解析處理,并利用概念擴展算法實現了對檢索詞的語義擴展[8-9],形成新的檢索詞列表。(4)檢索模塊:將經過本體擴展后的全新檢索詞列表重新作為輸入條件,在本體庫和資源庫中進行查詢,匹配相應數據資源并返回至排序模塊。(5)排序模塊:根據本體中的概念與概念之間的距離,對匹配到數據資源進行重新排序,并將最終權重計算后的結果作為最終的系統檢索結果返回給用戶[10]。當用戶輸入檢索詞后,整個原型系統的工作流程如圖5所示,Lucene基礎層完成對文檔的索引和標注,應用層通過Jena本體解析工具和語義擴展算法完成對用戶輸入查詢詞的擴展[1,11-13],并返回新的檢索列表對應的結果,使用應用排序規則實現資源的綜合排序,最終為用戶提供準確的信息服務[14,15]。
3.2檢索試驗
地質知識檢索系統實現了基于石油地質領域本體的語義查詢,圖6顯示了輸入“油氣田”關鍵詞并檢索石油地質本體的查詢結果頁面[1]。(1)“油氣田”相關概念:油氣區、油氣藏、油氣田勘探、油氣田開發等,其屬性有“定義”,其實例有中原油田、長慶油田等。(2)通過擴展“油氣田”的相關概念,可檢索出標引為“油氣藏”、“油氣田勘探”、“油氣田開發”、“油氣田管理”等文檔。(3)還可以對檢索結果進行深一步的概念查找,如“油氣生成”。
4總結
發表評論 |