首頁 > 期刊知識(shí) > 期刊知識(shí)數(shù)據(jù)來源處理
1前言
被引量作為論文學(xué)術(shù)影響力的主要評(píng)價(jià)指標(biāo),在人才評(píng)審、科研立項(xiàng)、科研獎(jiǎng)勵(lì)等過程中發(fā)揮著重要的作用,并衍生出影響因子、H指數(shù)等一系列指標(biāo)。但是其時(shí)滯性、片面性及地域差異性等問題也逐漸受到學(xué)者的詬病。
隨著互聯(lián)網(wǎng)的發(fā)展,學(xué)術(shù)論文的電子化日漸普及,幾乎所有的期刊論文都能夠通過網(wǎng)絡(luò)數(shù)據(jù)庫(kù)被獲取,人們對(duì)學(xué)術(shù)文獻(xiàn)的使用得以被服務(wù)器記錄,這使得研究者開始關(guān)注一個(gè)新的學(xué)術(shù)文獻(xiàn)計(jì)量指標(biāo)———UsageMtricse,即使用量指標(biāo)。使用量指標(biāo)能夠即時(shí)反映論文被使用的情況,亦能在一定程度上反映在科學(xué)研究中被使用但未被體現(xiàn)在引用上的價(jià)值。隨著使用量指標(biāo)被眾多學(xué)者所接受,一些數(shù)據(jù)庫(kù)廠商也緊跟步伐,推出了基于自身平臺(tái)的使用量指標(biāo),如WebofSiencec平臺(tái)的Usage指標(biāo),Springer的Download指標(biāo),Nature的文章頁面瀏覽量指標(biāo)(ArticlePageViews),PLOS的ArticleLevelMtricse,以及中國(guó)知網(wǎng)的總下載量指標(biāo)、熱度指標(biāo)等。一般而言,學(xué)術(shù)論文在被引用前,對(duì)其的使用行為包括瀏覽、下載、閱讀等。以論文為載體,知識(shí)/信息刊出后,首先被讀者瀏覽發(fā)現(xiàn),其中一部分讀者被某一論文的標(biāo)題或文摘信息所吸引,進(jìn)而會(huì)進(jìn)行下載、閱讀,獲取該部分知識(shí)/信息,其中更小一部分讀者會(huì)在其撰寫的論文中進(jìn)行引用,然后經(jīng)同行評(píng)議后發(fā)表,知識(shí)/信息進(jìn)入一個(gè)新的使用-引用的循環(huán)中。在這個(gè)循環(huán)過程中,瀏覽行為夾雜著太多的隨意性,閱讀行為則難以統(tǒng)計(jì),而下載行為則更具針對(duì)性也易于記錄。
雖然讀者可以通過共享、文獻(xiàn)傳遞等方式獲得所需論文,但是從總體上看,從數(shù)據(jù)庫(kù)下載仍為互聯(lián)網(wǎng)時(shí)代獲取論文最主要的途徑,下載量也是最接近、且最易獲取的反映論文實(shí)際使用量的指標(biāo)。因此,在已有研究中,一些學(xué)者將論文的使用量等同于下載量,更多的學(xué)者直接采用下載量作為主要的使用量指標(biāo),來探討其合理性、影響因素以及與被引量的相關(guān)性。上述研究為我們了解論文下載量數(shù)據(jù)的特性等方面提供了豐富的信息,且基本上都認(rèn)為下載量與被引量之間存在著某種程度的相關(guān)性,一些學(xué)者甚至提出可以用論文早期下載量來預(yù)測(cè)其后期被引量,以彌補(bǔ)被引量的時(shí)滯性問題。但是,上述研究在數(shù)據(jù)的選擇和處理上仍有不足之處,從而導(dǎo)致不同研究結(jié)果中論文下載量與被引量相關(guān)性的顯著水平存在較大差異,使得利用論文早期下載量預(yù)測(cè)后期被引量的可行性存在一定的爭(zhēng)論。
首先,由于受數(shù)據(jù)庫(kù)供應(yīng)商的限制,早期的一些研究只能從不同的數(shù)據(jù)庫(kù)獲取下載量和被引量數(shù)據(jù)。如Moed以期刊TetrahedronLtterse為例,其下載量來源于ScienceDrecti,而其被引量來源于SCI數(shù)據(jù)庫(kù),結(jié)果顯示25個(gè)月后兩者的Spearman相關(guān)系數(shù)僅有0.220;Brody等則分別以arXv.orig和Cite-base作為其下載量和被引量數(shù)據(jù)的來源,來探討利用早期下載量預(yù)測(cè)后期被引量的可行性,發(fā)現(xiàn)兩者的相關(guān)系數(shù)從1個(gè)月后的0.270上升到24個(gè)月后的0.440;Guerrero-Boteh和Moya-Anegon從ScienceDrecti和Scopus獲取下載量和被引量數(shù)據(jù)來研究?jī)烧咧g的相關(guān)性,發(fā)現(xiàn)在期刊水平上兩者的相關(guān)系數(shù)為0.780,而在論文水平上兩者的相關(guān)系數(shù)僅為0.480;Schloegl等利用ScienceDrecti提供的下載量數(shù)據(jù),結(jié)合JCR或Scopus提供的被引量數(shù)據(jù),進(jìn)行了一系列相關(guān)研究,相關(guān)系數(shù)范圍為0.600—0.800。這些研究雖然通過數(shù)據(jù)處理,使得每一篇論文的下載量與被引量能夠一一對(duì)應(yīng),但由于不同數(shù)據(jù)庫(kù)平臺(tái)的使用者重合度無法測(cè)量,這樣得出的結(jié)果可能存在偏差。其次,在單篇論文的水平上,大多數(shù)數(shù)據(jù)庫(kù)只提供即時(shí)的累積下載量數(shù)據(jù),并未提供分年下載數(shù)據(jù),這使得研究者要么只能對(duì)某一時(shí)間剖面的下載量與被引量的相關(guān)性進(jìn)行分析,要么只能從期刊水平上進(jìn)行相關(guān)性的動(dòng)態(tài)分析,而從單篇論文水平上的動(dòng)態(tài)相關(guān)性分析則不多見。
而事實(shí)上,讀者使用的是論文本身,并非期刊整體,一本期刊所刊發(fā)的論文不會(huì)集中于完全一模一樣的主題和對(duì)象,因此在同一期刊上,也存在著不同的下載模式和引文模式,這些具有不同下載模式和引文模式的論文在下載量和引用量的相關(guān)性上有何異同尚未見研究報(bào)道。因此,本文擬通過對(duì)圖書情報(bào)領(lǐng)域中文學(xué)術(shù)期刊論文下載量與被引量相關(guān)性的動(dòng)態(tài)變化過程進(jìn)行研究,來探尋不同下載模式和引文模式下,下載量與被引量相關(guān)性的變化規(guī)律。不同于已有文獻(xiàn),本研究的下載量和被引量數(shù)據(jù)均來源于同一數(shù)據(jù)庫(kù)———中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)(ChinaAademicJurnalNt-coeworkPblishinugDatabase,CAJD),這一世界上最大的連續(xù)動(dòng)態(tài)更新的中國(guó)學(xué)術(shù)期刊全文數(shù)據(jù)庫(kù)。本研究擬研究的問題如下:(1)采用來源于同一數(shù)據(jù)庫(kù)的論文下載量與被引量的相關(guān)性,是否高于采用不同數(shù)據(jù)來源的論文下載量與被引量的相關(guān)性?不同下載模式和被引模式下,論文的下載量與被引量的相關(guān)性是否存在差異?(2)論文的早期下載量,在不同下載模式和被引模式下,是否都能用于預(yù)測(cè)論文后期被引量?
2數(shù)據(jù)和方法
2.1數(shù)據(jù)來源與處理
以中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)作為數(shù)據(jù)源,選擇其中的11種圖書情報(bào)領(lǐng)域期刊在2006—2008年發(fā)表,且在2015年12月31日前獲得過被引和下載的9042篇論文作為研究對(duì)象,選擇依據(jù)主要是由于這些期刊創(chuàng)刊時(shí)間較長(zhǎng),在數(shù)據(jù)庫(kù)中收錄完整,且其出版日和上線日基本一致,從而能夠獲得較為真實(shí)的下載量及被引量數(shù)據(jù)。而《圖書情報(bào)工作》、《中國(guó)圖書館學(xué)報(bào)》等期刊因?yàn)槌霭娴缴暇€的滯后期較長(zhǎng),未選擇其作為研究對(duì)象。將該原始數(shù)據(jù)集命名為DataSt1e。DataSt1e中,每篇論文所涉及的數(shù)據(jù)包含論文的基本題錄信息以及該論文在2006—2015年每一自然年的下載量和被引量,分別加總每一自然年的下載量和被引量,得到每篇論文自出版時(shí)到2015年12月31日的總下載量和總被引量;由于不同論文出版月份不同,有的在年初出版,有的在年末出版,因此出版月份較晚的論文在出版當(dāng)年的下載量和被引量無法體現(xiàn)其真實(shí)數(shù)量,為了更加準(zhǔn)確地呈現(xiàn)論文在出版后1年內(nèi)的下載量和被引量,本文假設(shè)每篇論文下載量和被引量在一年的不同月份不存在差異,首先采用如下公式計(jì)算絕對(duì)下載量。
2.2分析方法
2.2.1聚類分析
采用IBMSPSSStatistics23提供的兩步聚類法(Two-StepCluster),分別根據(jù)DataSt2e中每篇論文出版后每年的絕對(duì)被引量和絕對(duì)下載量進(jìn)行聚類分析,獲得不同的下載模式和引文模式。具體聚類步驟為:選擇DataSt2e中每年的絕對(duì)下載量作為連續(xù)變量,聚類準(zhǔn)則采用施瓦茲貝葉斯準(zhǔn)則(BIC),由于之前對(duì)數(shù)據(jù)已經(jīng)進(jìn)行了清理,因此對(duì)離群值不再使用噪聲處理,評(píng)估字段采用唯一的文件識(shí)別號(hào),并勾選創(chuàng)建聚類成員變量,最終得到每一篇論文所屬下載模式。采用同樣的步驟獲得每一篇論文所屬引文模式。聚類質(zhì)量通過內(nèi)聚與分離輪廓測(cè)量指標(biāo)(Silhouettemeas-ureofcohesionandseparation)進(jìn)行評(píng)價(jià),該值大于0表明聚類質(zhì)量較好。
2.2.2相關(guān)性分析
采用Spearman相關(guān)系數(shù)從單篇論文的角度對(duì)總下載量與總被引量的相關(guān)性進(jìn)行分析,同時(shí)分別對(duì)單篇論文的下載量及被引量進(jìn)行排序,分析兩者的秩序相關(guān)性。然后分別研究了總樣本集,以及不同下載模式和不同引文模式下,論文下載量與被引量相關(guān)性的變化趨勢(shì)。