一、研究進展情況
主要內(nèi)容:
1.研究計劃總體執(zhí)行情況及各子課題進展情況
重大項目“基于認知計算的學術(shù)論文評價理論與方法研究”,是根據(jù)計劃協(xié)同各個子課題從不側(cè)面推動整個課題研究工作的開展。立項后,各子課題按照本課題申報書的要求,分工協(xié)作,按照“現(xiàn)狀與需求分析——目標擬定——理論框架構(gòu)建——評價方法創(chuàng)新——支撐性技術(shù)實現(xiàn)——示范應(yīng)用與實證研究——總結(jié)完善評價理論體系”的路徑展開研究,取得了階段性的成果。
課題組對“基于認知計算的學術(shù)論文評價理論與方法研究”項目的需求進行了調(diào)研分析,構(gòu)建了相關(guān)論文數(shù)據(jù)集2個,分析了學術(shù)論文關(guān)鍵詞標注規(guī)律和引文增長規(guī)律,提出了基于認知計算的學術(shù)論文評價理論框架,并就學術(shù)文本的格式化提取技術(shù)、引文抽取技術(shù)、結(jié)構(gòu)功能識別技術(shù)、詞匯功能識別技術(shù)等相關(guān)支撐技術(shù)進行了研究與探索。同時,課題組已發(fā)表論文11篇,其中包括以“From Zero to One: A Perspective on Citing”為代表的外文論文5篇、以“科學論文功能單元本體設(shè)計與標引應(yīng)用實驗”為代表的中文論文6篇,并在國際頂級信息學院聯(lián)年會iConference2019中發(fā)表poster 3篇,申請國家發(fā)明專利“一種PDF文件向ODF文件轉(zhuǎn)化的方法”1項,獲得軟件著作權(quán)2項,階段性成果良好,為后續(xù)研究提供了有力支撐。
至今,本課題已基本完成了各子課題研究規(guī)定的內(nèi)容,研究計劃總體執(zhí)行情況及各子課題研究進展順利。其余內(nèi)容,尤其是在子課題基礎(chǔ)上形成具有重要學術(shù)價值與應(yīng)用價值的綜合性研究成果,則是下階段的主要任務(wù)。
2.調(diào)查研究及學術(shù)交流情況
2.1調(diào)查研究情況
立項以來,課題組緊密結(jié)合項目研究需要,通過文獻調(diào)研、專家訪談、實地考察等方式,對“基于認知計算的學術(shù)論文評價理論與方法研究”項目相關(guān)研究進行全面的調(diào)研,從認知計算的理論與應(yīng)用、傳統(tǒng)理論與方法支撐下的學術(shù)論文評價與發(fā)展、學術(shù)文本內(nèi)容研究中的認知計算應(yīng)用以及學術(shù)評價研究中的認知計算應(yīng)用四個方面對現(xiàn)有的國內(nèi)外相關(guān)研究進行系統(tǒng)梳理,為后續(xù)的相關(guān)研究奠定了一定的基礎(chǔ)。
2.2學術(shù)交流情況
依托《基于認知計算的學術(shù)論文評價理論與方法研究》重大項目,本課題組積極在國內(nèi)外開展學術(shù)交流;一方面,及時跟蹤本重大項目相關(guān)的最新研究進展;另一方面,積極宣傳本重大項目的研究成果,增加學術(shù)和社會影響力。
在國際學術(shù)交流方面,積極參加國際學術(shù)頂級會議,交流學術(shù)研究成果。2019年3月份,本課題組的三篇poster,分別為《A Novel Computer Vision Based Method for PDF Academic Literature Structure Understanding》、《Biomedical compound figure detection using deep convolutional neural network》和《Keyword-Citation-Keyword Network:A new method for Discipline Knowledge Structure Analysis》同時被國際信息學院聯(lián)盟年會iConference接收,三位同學赴美國參加該會議,并進行poster展示;2019年6月,重大項目首席專家陸偉組織了ACM/IEEE JOINT CONFERENCE ON DIGITAL LIBRARIES(JCDL)會議的workshop4:Organizing Data, Information, and Knowledge in Big Data Environments,同時有一篇proposal在該workshop上進行展示。此外,本課題組有一篇長文《Author-selected Keyword Semantic Function Analysis-A Case Study of Informetrics》被17th International Conference of the International Society for Scientometrics and Informetrics接收,將于2019年9月赴意大利羅馬進行論文成果展示,同時進行學術(shù)交流。
在國內(nèi)學術(shù)交流方面,課題組成員積極參加國內(nèi)學術(shù)會議,同時組織和參加相關(guān)的學術(shù)研討會,對本項目的研究成果進行展示。2019年3月,陸偉在中科院武漢分院做了《基于認知計算的學術(shù)論文評價與方法》主題報告,分享了本項目在學術(shù)論文評價與方法研究中取得的研究成果。2018年3月,本課題組舉辦了“語義指紋與關(guān)系推薦學術(shù)論壇”,邀請了國內(nèi)外著名研究機構(gòu)和高校的多位學者進行報告和交流,本課題組程齊凱老師做了《學術(shù)文本深度挖掘:框架、技術(shù)與應(yīng)用》的報告,對學術(shù)文本分析的框架進行了講解。2019年5月,本課題組舉辦了“多學科視角下的信息檢索與人機交互”專題研討會,邀請國內(nèi)外多名專家學者就信息檢索與人機交互等相關(guān)主題進行報告和交流,同時陸偉在會上做了《學術(shù)文本語義挖掘及推薦》報告,介紹了本項目研究取得的成果,促進了學術(shù)交流,提高了成果的社會影響力。
3.研究中存在的主要問題與改進措施
通過整體評估發(fā)現(xiàn),盡管各個子課題研究在穩(wěn)步推進,但仍然存在一些問題。主要表現(xiàn)在:
第一,部分子課題研究的不太均衡。目前關(guān)于基于認知計算的學術(shù)論文評價理論框架構(gòu)建研究較充分,而關(guān)于基于認知計算的學術(shù)論文評價方法的技術(shù)實現(xiàn)研究相對不足。
第二,課題組圍繞本項目研究發(fā)表的一系列典型論文、軟著等形式成果的影響力有待擴大,此外,基于認知計算的學術(shù)論文評價方法模型與技術(shù)的應(yīng)用有待進一步深化。
下一步的研究計劃將從上述問題著手,通過加強子課題的研究,提升本課題研究的學術(shù)價值和應(yīng)用價值。
二、研究成果情況
主要內(nèi)容:
1.代表性成果之一:《From Zero to One: A Perspective on Citing》
成果形式:論文
完成人:黃永,步一,丁穎,陸偉
完成單位:武漢大學信息管理學院
發(fā)表期刊:《Journal of the American Society for Information Science and Technology》
發(fā)表時間:2019年1月
基本內(nèi)容:
論文的被引次數(shù)已經(jīng)成為評價論文質(zhì)量的常用指標之一。論文的被引次數(shù)是一個隨時間而累積的結(jié)果,本研究對不同被引次數(shù)的論文(低被引,中被引,高被引)的不同階段(初始階段:0-1,后續(xù)階段:1-N)的被引時長分別進行比較分析。研究發(fā)現(xiàn),三種不同類型的論文在初始被引階段即0到1,時間長沒有明顯的差異;而在后續(xù)階段即1到N,高被引論文獲得被引的速度比中被引和低被引的論文更快,而且隨著N的增加,這個差異更加明顯。
主要觀點與學術(shù)價值:
高被引、中被引以及低被引三種不同類型的論文在初始被引階段即0到1,時間長沒有明顯的差異;而在后續(xù)階段即1到N,高被引論文獲得被引的速度比中被引和低被引的論文更快,而且隨著N的增加,這個差異更加明顯。該研究發(fā)現(xiàn),啟示學者應(yīng)該盡量提高論文的可見性,使得論文更快獲得被引,從而提高論文的被引次數(shù)。
成果社會影響:
該成果已被情報學領(lǐng)域的頂級期刊JASIST錄用,2019年1月網(wǎng)絡(luò)出版至今,在ResearchGate上已經(jīng)獲得66次閱讀。
2.代表性成果之二:《How do author-selected keywords function semantically in scientific manuscripts?》
成果形式:論文
完成人:陸偉,李信,劉智鋒,程齊凱
完成單位:武漢大學信息管理學院
發(fā)表期刊:《Knowledge Organization》
發(fā)表時間:錄用待發(fā)表
基本內(nèi)容:
作者關(guān)鍵詞已經(jīng)被廣泛應(yīng)用于熱點探測、趨勢分析以及學科知識圖譜的構(gòu)建。然而,這些研究很少考慮關(guān)鍵詞在學術(shù)論文中的語義功能。因此,文章提出了關(guān)鍵詞語義功能,同時構(gòu)建了一個信息計量學領(lǐng)域關(guān)鍵詞語義功能分類框架,其中包含有研究主題、研究方法、研究對象、研究領(lǐng)域、數(shù)據(jù)以及其他;基于該分類框架,對Journal of Informetrics (JOI)發(fā)表論文的關(guān)鍵詞進行語義功能標注,構(gòu)建了一個信息計量學領(lǐng)域的關(guān)鍵詞語義功能標注數(shù)據(jù)集;最后,從關(guān)鍵詞語義功能的強度、多樣性以及對稱性三個方面對關(guān)鍵詞語義功能的分布特征進行揭示。
主要觀點與學術(shù)價值:
本研究從語義層面對作者關(guān)鍵詞進行研究,提出了作者關(guān)鍵詞語義功能的概念,同時構(gòu)建了一個信息計量學領(lǐng)域關(guān)鍵詞語義功能分類框架,為后續(xù)的相關(guān)研究提供一定的理論基礎(chǔ);基于提出的分類框架,本研究以Journal of Informetrics(JOI)為例,構(gòu)建了一個標準化關(guān)鍵詞語義功能標注數(shù)據(jù)集,為后續(xù)的研究提供一定的數(shù)據(jù)基礎(chǔ);此外,揭示了關(guān)鍵詞語義功能的分布特征。
研究結(jié)果表明,隨著作者關(guān)鍵詞數(shù)量的增加,關(guān)鍵詞語義功能多樣性下降,而不規(guī)則性則上升;此外,研究主題和研究方法這兩類語義功能占有絕對的優(yōu)勢,而且這兩類語義功能在關(guān)鍵詞列表中有比較經(jīng)常出現(xiàn)的位置,即隨著關(guān)鍵詞在列表中排序的增加,關(guān)鍵詞具有研究主題語義功能的可能性下降;而具有研究方法語義功能的可能性上升。本研究從關(guān)鍵詞語義功能視角對關(guān)鍵詞進行研究,可將其應(yīng)用于細粒度的信息檢索、信息計量學、信息推薦等研究中。
成果社會影響:
該成果已被Knowledge Organization(SSCI期刊)錄用。
3.代表性成果之三:《科學論文功能單元本體設(shè)計與標引應(yīng)用實驗》
成果形式:論文
完成人:王曉光,李夢琳,宋寧遠
完成單位:武漢大學信息管理學院
發(fā)表期刊:《中國圖書館學報》
發(fā)表時間:2018年07月15
基本內(nèi)容:
科學論文內(nèi)容本體是科學論文內(nèi)容結(jié)構(gòu)和語義功能的形式化和規(guī)范化知識表示,對于科學論文的深度標引和知識挖掘具有重要意義。文章系統(tǒng)梳理了已有科學論文內(nèi)容表示模型和內(nèi)容本體,并以功能單元理論為基礎(chǔ),提出了科學論文功能單元本體的設(shè)計思路,構(gòu)建了包含28個類和5種屬性在內(nèi)的科學論文功能單元本體FUO。借助本體構(gòu)建工具Protégé,對科學論文功能單元本體FUO進行形式化表示。借助語義標注工具GATE,利用功能單元本體FUO對論文進行初步的深度標引實驗,檢驗了該本體的可用性。
主要觀點與學術(shù)價值:
科學論文功能單元本體(FUO)的設(shè)計目標是,從語義功能角度準確定義科學論文內(nèi)容組件的類型及其屬性,構(gòu)建科學論文內(nèi)容結(jié)構(gòu)表示模型,并利用規(guī)范的本體表示技術(shù),建立可共享和可重復使用的科學論文功能單元本體。為了更加清晰地區(qū)分內(nèi)容組件及其屬性,文章首先對Zhang Lei提出的41個功能單元進行調(diào)整。功能單元類型調(diào)整原則:①將具有相似含義的類目進行合并;②排除掉含義較為模糊或適用性不強的類目;③新增類目;谝陨险{(diào)整原則,文章設(shè)計了包含12個一級類、28個二級類的功能單元本體基本模型,并對方法、討論、實驗、數(shù)據(jù)等情報價值較高的部分進行了深入劃分與界定。其次,在參考Bio-Event等模型的基礎(chǔ)上,設(shè)計了功能單元本體FUO的5類屬性。最后,使用Protégé5.1對本體進行了表示。
結(jié)果表明,相較于已有的修辭塊本體、篇章元素本體等,文章提出的功能單元本體FUO具備多層次、多粒度的特征,能夠更全面、細致地揭示科學論文內(nèi)容組成部分的語義功能特征,能夠很好地表示科學論文內(nèi)容組件的語義功能及其屬性,揭示科學論文正文各部分的語義特征,可以用于面向知識發(fā)現(xiàn)的科學論文深度語義標引,為科學論文內(nèi)容本體開發(fā)奠定了基礎(chǔ)。
成果社會影響:
發(fā)表至今12個月,在CNKI已被下載493次,被引1次。
4.代表性成果之四:《一種PDF文件向ODF文件轉(zhuǎn)化的方法》
成果形式:專利
完成人:陸偉;于豐暢;程齊凱
完成單位:武漢大學信息管理學院
發(fā)表期刊:國家知識產(chǎn)權(quán)局
發(fā)表時間:2018年8月
基本內(nèi)容:
本發(fā)明屬于計算機技術(shù)領(lǐng)域,涉及一種文件轉(zhuǎn)化方法,尤其涉及一種PDF文件向OFD文件轉(zhuǎn)化的方法。首先,輸入PDF文件;然后利用機器視覺技術(shù)對PDF文件進行版面分析,得到版面的內(nèi)容分布,再解析PDF文件數(shù)據(jù),獲得該文件中的所有元素的對象,以及對象信息。然后,將對象與版面分布進行映射,定位文字、圖片、表格、公式等元素,接著利用映射之后的對象信息,將PDF的對象轉(zhuǎn)化為OFD格式的對象。最后,將OFD對象按照輸出要求進行排版,并輸出OFD文件。
主要觀點與學術(shù)價值:
本發(fā)明公開了一種PDF文件向OFD文件轉(zhuǎn)化的方法,該方法的流程示意圖所示,該方法的主要步驟包括:
步驟1:輸入PDF文件;
步驟2:利用機器視覺技術(shù)對PDF文件進行版面分析,得到內(nèi)容版塊的分布;
步驟3:解析PDF文件數(shù)據(jù),獲得該文件中的所有元素的對象,以及所有對象的信息;
步驟4:將元素對象和內(nèi)容版塊進行映射,并定位文字、圖片、表格、公式等元素的位置,得到PDF文件元素和內(nèi)容板塊的隸屬關(guān)系;
步驟5:利用對象信息,將映射之后的PDF對象轉(zhuǎn)化為OFD格式的對象;
步驟6:將OFD對象按照輸出要求進行排版,并輸出OFD文件。
本發(fā)明能夠以較高的正確率自動將單個或批量PDF文件轉(zhuǎn)換為OFD文件,并且有效地保證了PDF文件中的圖片、表格、公式等特殊元素的正確性。降低了儲存在PDF文件中的信息的使用難度,提高了PDF文件向OFD文件的轉(zhuǎn)換效率。本發(fā)明有益效果為:采用方案后,能夠自動將單個或批量將PDF文件轉(zhuǎn)換為OFD文件,并且相較于現(xiàn)有方法,有效的保證了轉(zhuǎn)化的成功率和準確率,提高了內(nèi)容的完整程度。
5.代表性成果之五:《基于詞匯功能的學術(shù)文本分析》
成果形式:主題報告
完成人:陸偉
完成單位:武漢大學信息管理學院
會議名稱:“多學科視角下的信息檢索與人機交互”專題研討會
會議時間:2019年5月
基本內(nèi)容:
在學術(shù)大數(shù)據(jù)時代,文獻數(shù)量快速增長,存量巨大;與學者的知識需求更加多樣化、細粒度之間的矛盾越來越突出,因此有必要對學術(shù)文本進行深度語義分析,以更好地滿足學者的知識需求。本報告中,首先,提出了一個包含領(lǐng)域無關(guān)和領(lǐng)域相關(guān)詞匯功能的詞匯功能框架;其次,采用基于規(guī)則的方法半自動構(gòu)建了詞匯功能識別的訓練集;接著,采用SVM、CRF、CNN以及RNN等方法對詞匯功能進行自動識別,其中問題識別準確率達到0.87,方法識別準確率達到0.91;最后,基于上述的研究成果,構(gòu)建了一個CS-LAS系統(tǒng),該系統(tǒng)具有細粒度的問題與方法檢索、細粒度的研究主題與研究趨勢探測等功能。
主要觀點與學術(shù)價值:
本報告中提出了詞匯功能框架以及詞匯功能自動識別的機器學習方法;最后,構(gòu)建了一個具有細粒度檢索與熱點探測等功能的系統(tǒng)。本研究對學術(shù)文本深度語義挖掘進行探索,能夠更好地滿足學者多樣化、細粒度的知識需求。
成果社會影響:
在“多學科視角下的信息檢索與人機交互”專題研討會上做了報告,提升了重大項目研究成果的影響力。
三、下一步研究計劃
在進一步推動各個子課題研究的同時,著力于以下工作:
(1)構(gòu)建基于認知計算的學術(shù)論文多維融合加權(quán)評價模型
以內(nèi)容和傳播認知計算為基礎(chǔ),以學術(shù)論文質(zhì)量評價為核心,以現(xiàn)實用戶需求滿足為目標,設(shè)計科學化、精準化、綜合化的學術(shù)論文評價指標體系和用戶需求滿足模型;在已有的研究基礎(chǔ)之上,構(gòu)建基于認知計算的學術(shù)論文多維融合加權(quán)評價模型,實現(xiàn)對學術(shù)論文在細粒度層面的科學化、綜合化評價。
(2)探索基于認知計算的學術(shù)論文評價理論與方法的創(chuàng)新路徑
以理論研究成果為基礎(chǔ),根據(jù)學術(shù)論文評價過程中各主體的關(guān)系,用相關(guān)分析法分析多方面要素的影響力,尋求學術(shù)論文評價理論與方法的創(chuàng)新路徑,實現(xiàn)評價技術(shù)創(chuàng)新,包括基于文本內(nèi)容理解的學術(shù)論文評價技術(shù)、基于功能分析的學術(shù)論文評價技術(shù)、基于視覺理解的富媒體論文理解與評價技術(shù)以及基于傳播認知計算的學術(shù)論文評價技術(shù)等內(nèi)容。
(3)推動基于認知計算的學術(shù)論文評價技術(shù)理論的研究和應(yīng)用
以服務(wù)實際工作為目標,研究基于認知計算的學術(shù)論文評價技術(shù)的具體實現(xiàn)策略,構(gòu)建示范應(yīng)用,并重點探索如何將基于認知計算的評價方法同傳統(tǒng)方法結(jié)合,構(gòu)建兼具實用性和創(chuàng)新性的學術(shù)論文評價應(yīng)用。
課題組供稿