近日,科研處收到國家教育部《關(guān)于教育部人文社會科學研究一般項目2012年結(jié)項情況(第四季度)的通知》,我校管工學院
《科技文獻推薦系統(tǒng)若干問題研究》理論研究成果內(nèi)容主要包括兩個方面:1.基于概念泛化的科技文獻推薦算法理論,其基本內(nèi)容是針對科技文獻特征詞在語義上的層次特性,提出基于概念泛化的內(nèi)容過濾推薦算法。采用矢量空間模型作為用戶興趣偏好和科技文獻特征的描述模型;在比較科技文獻特征與用戶興趣偏好的相似程度時,首先從字符層面比較科技文獻特征詞與用戶興趣特征詞,然后在基于ODP目錄結(jié)構(gòu)的用戶興趣偏好概念泛化樹上對字符不相同的特征詞對進行語義比較、并修正特征詞權(quán)重,可以避免遺漏“字符不同,但語義相似”關(guān)鍵詞對。理論分析和實驗結(jié)果表明,該算法能夠更加全面、準確地推薦科技文獻對象。2.基于泛化語義相似的科技文獻混合推薦算法理論,其基本內(nèi)容是傳統(tǒng)的科技文獻檢索技術(shù)按照關(guān)鍵詞字符是否相同的方式,匹配搜索與用戶當前文獻相似的文獻進行推薦時,往往會丟失一部分特征向量“字符不相同,但語義相似”的文獻。本文從內(nèi)涵和外延兩個角度研究了科技文獻相似性度量問題,首先從科技文獻內(nèi)涵的角度在文獻特征詞字符匹配基礎(chǔ)上采用泛化方法將待推薦文獻關(guān)鍵詞與當前文獻關(guān)鍵詞及其父/子關(guān)鍵詞進行匹配;然后從外延角度結(jié)合科技文獻項目的特點將文獻共引因素引入文獻相似性度量;最后根據(jù)關(guān)鍵詞泛化相似度和共引關(guān)聯(lián)度定義混合相似度HS對候選科技文獻進行排序推薦,理論分析和實驗數(shù)據(jù)表明,該算法能夠在一定程度上避免遺漏“特征詞字符不同、但語義相似”科技文獻的問題。
《科技文獻推薦系統(tǒng)若干問題研究》理論研究成果對應(yīng)的程序以原型系統(tǒng)的形式申請國家軟件著作權(quán)登記、并順利獲的授權(quán)。原型系統(tǒng)的核心算法模塊包括兩部分內(nèi)容:基于概念泛化的科技文獻推薦算法模塊,其算法核心思想為CGR算法與一般的字符匹配文獻推薦算法的根本區(qū)別是在進行相似度計算時,CGR算法不僅對用戶興趣偏好關(guān)鍵詞和文獻特征關(guān)鍵詞進行簡單字符匹配,進一步還利用概念泛化技術(shù)對字符不同、但語義相似或交叉的關(guān)鍵詞進行修正匹配,以避免因“字符不同、語義相似”而造成重要文獻被遺漏推薦。2. 基于泛化語義相似的科技文獻混合推薦算法模塊,其算法核心思想為計算文獻i和文獻j之間相似度的基本思想是首先構(gòu)建文獻i關(guān)鍵詞的泛化樹結(jié)構(gòu);其次進行文獻i和文獻j的關(guān)鍵詞泛化匹配計算文獻的關(guān)鍵詞泛化相似度;然后通過共引情況計算文獻的共引聯(lián)度;最后按照混合相似度由高到低對相似科技文獻進行推薦。