您的当前位置:首页正文

共词分析法的基本原理及Excel实现

2021-07-06 来源:个人技术集锦
第29卷第6期2011年6月情报科学V01.29,No.6June,2011共词分析法的基本原理及EXCEL实现储节旺,郭春侠(安徽大学管理学院,合肥安徽230039)摘要:共词分析法是文献研究的重要方法之一,在国内外众多学科领域都获得了广泛应用。人们主要采用spss、ucinet等软件等进行构建作者和关键词矩阵以分析文献数据,但这些软件比较难以理解和掌握。本文系统探讨了使用大众化软件Excel在共词分析中的使用方法和技巧,并以国内图书情报学知识管理工具研究热点作为研究实例。研究结果证明,Excel在共词分析中具有独到的优势。因此,本文的研究必将促进作为一种重要研究方法的共词分析法的普及化。关键词:共词分析;Excel;图书情报学;知识管理中图分类号:G350文献标识码:A文章编号:1007—7634(2011)06-0931—04GeneralPrinciplesofCo-wordsAnalysisEXCELMethodandAchievedbyCHUJie-wang,GUOChun-xia(ManagementSchoolofAnhuiUniversity,Anhui230039,China)oneatAbstract:Co—wordsanalysismethodisextensivelyinthemanyoftheimportantliteratureresearchmethods.Itisusedconstructsubjects’fieldshomeandabroad.Peoplemainlyco-authorsandco-wordsmatrixbyspss,ucinetandothersoftwaretoanalyzetheliteraturedata,butthesesoftwarea∞moredifficulttounderstandandmaster.,11li8articlediscusseshowtousethepopularsoftwareExcelintheCO--WOrdSanalysis.andtakedomesticknowledgemanagementresearchinthelibraryandinformationsciencea8anexample.’11leresultsprovedthatthere啪uniqueadvantagesforExcelinCO--WOrdSallanalysis.Therefore,theresearchwillpromoteco-wordsanalysismethod,a8method,towardspopularity.importantresearchKeywords:co-wordanalysis;excel;libraryandinforroationscience;knowledgemanagement学研究中心的CallonM和LawJ等人出版了第一部1共词分析法的基本原理共词分析方法最早在20世纪70年代中后期由法国文献计量学家提出的,其思想来源于文献计量学的引文耦合与共被引概念。1986年法国国家科收稿日期:2011—03—01关于共词分析法的学术专著nl。共词分析经过20多年的发展,已经被广泛应用到人工智能、科学计量学、信息科学和信息系统、信息检索等领域许多领域,取得了重要研究成果。共词分析法主要是对同一篇文献中词汇对或名基金项目:国家社科基金项目(10BTQ035);-安-微大学创新团队项目(SKTDOIOB)作者简介:储节1匝(1969-),男。安徽岳西人,教授,博士,主要从事知识管理、教育管理、科技·管理研究;郭春使(1973一),女。河北固安人。叠憾授.932情报科学29卷词短语共同出现的次数进行统计,以此为基础对这判别分析等。些词进行分层聚类,揭示出这些词之间的亲疏关系,国内在做共词分析时,大部分只是在词频统计进而分析它们所代表的学科和主题的结构变化n】。时使用了Excel,在共词矩阵构建中,绝大部分文章一般认为词汇对在同一篇文献中出现的次数越多,都是使用一些专门软件构建而成,虽然有些文章提则代表这两个主题的关系越紧密。由此,统计一组到可以使用Excel进行构建,也语焉不详。笔者经过文献的主题词两两之间在同一篇文献出现的频率,较长时间的研究发现,Excel可以很好地成为文献计便可形成一个由这些词对关联所组成的共词网络,量研究的基本工具,也可以胜任共词分析、聚类分析网络内节点之间的远近便可以反映主题内容的亲疏等复杂数据分析的需要。并希望藉此推动文献计量关系。共词分析就是以此为原理,将文献主题词作学的普及化应用。为分析对象,利用包容系数、聚类分析等多种统计分析方法,把众多分析对象之间错综复杂的共词网状2.1词频统计关系简化为以数值、图形直观地表示出来的过程。Excel进行共词分析的一般方法是:共词分析同样可以分析作者合作情况。第一步、将题录数据导入Excel数据表。运用共词分析法进行文献情报的分析研究大致第二步、提取关键词字段,用Excel的数据分列可分为六个步骤。①确定分析的问题;②确定分析功能将关键词分列为一列一列的数据,使每一个词的词汇单元;③筛选出高频词;④确定词汇对共现的单独呈现,并单独存储在新表单中,将该表命名为频率,构建共词矩阵;⑤对共词矩阵,采用聚类法、关“关键词表”。这时的数据是每一列一个关键词,每联法、词频法、突发词监测法等进行信息分析;⑥对行的关键词来自同一篇文献。共词结果进行分析【3】。在实际操作中,一般按照以第三步、将所有关键词复制到一张新表,去掉空下顺序进行,选取高频词,构建共词矩阵,选用因子白行。启动数据透视表(单项表),计数关键词,并按分析、聚类分析和多维尺度分析等方法进行信息分计数结果降序排列。确定高频词和低频词的分界析,对分析结果的解犁引。其中最后一步是至关重点。根据Donohue于1973年提出的高频词低频词界要的,是体现研究结论和价值的关键部分。分公式:T-(一l+Ⅱ干面/2)计算出高频词阀值№1。2Excel在共词分析中的优势2.2构建共词矩阵第一步:在上述关键词表中,删除空白条目和单Excel是微软公司office的组建之一,是目前公一关键词条目。按照关键词二为主要标准排序,则认的功能最强、技术最先进、使用最广泛的电子表格第二个关键词为空白的条目后置,一起删除。软件。由于其简单易用、数据呈现直观,深受用户喜第二步、清除非高频词。在每一列之后新建一爱。一般用户使用其基本功能,包括内嵌的函数,就空白列。用VLOOKUP函数对高频词数组进行查可以完成绝大部分数据管理和分析工作。对于高级找。将高频词词频引用在该词后面相邻位置的空白用户,Excel携带的数据分析和规划求解两个模块,.单元,升序排序后,将值为“#N/A”的全部删除,同样也能满足基本需要。如果充分利用其内含的VBA的方法对数列2-n进行操作。如果在一行中,前面语言进行编程,几乎可以满足所有数据分析处理的有空白单元,则将对应行的数据前移。要求。另外,Excel还有一个优势,只要进行了一次第三步、仿照以上作者共现的研究方法,对关键数据处理,后面再有其它数据,只要输入,就可以立词进行俩两组对。根据组合数计算公式:即得到结果,实现了数据分析处理的动态化。因此,Excel在国内外科研和教学中广泛运用于各种问题同一生一丝!l志l一志!一是!(咒一点)!的数据分析和处理。运用Excel中组合函数COMBIN(number,nulll.为了方便用户使用,还有一些专门强化EXCELbetchosen)进行计算,式中number=11,number__cho.统计分析功能的第三方软件,如WinSTAT等b1。sen=koWinSTAT通过WinsTAT的使用,用户可以在EXCEL第四步、整合成两列数组。将上述两两组的数中实现许多复杂的统计分析功能,如方差分析、协方据对,每组单独排序,去掉单个关键词条目。然后将差分析、多元回归、因子分析、聚类分析、生存分析、所有组数据合并到一起,形成两列数据。6期共侧分析法的基本原理及EXCEL实现第厄步.共词矩眸构建。对L述高频词对受卫复制到列下.构成新的数维.见表I。表1离期目敷蛆构建}惠袁Ⅻ蛳m*键91I*镕W2《“盖键目HⅫU【*m目口搬济Ⅻ%知识臂ⅧⅫU【恃目自m“#Ⅻ口!&*M目mⅫ∞*≈Ⅻq2滞2磷警自口!符ⅧⅫH#济目Ul&*知V!剖新启动Excel中的数据透视表(交叉列联表).蝌1所示。即n』生成共词矩阵,表2所示。{跫E谰一曩—黑■■啊■嘲丽嘲■圈■暖一图1数据透视裹裹2共词矩阵{意袁H#《弹t目2戈麟日2)罐目I嚣Ij蛐蜥黼R苷埋Ⅻ≯#瞄Ⅻu娃Ⅻ煳!总计知V【斟新II*lU{‘B癌1II,目t般济lI2目Ⅱ骷1IⅫⅪ湘m11——量生———j———王——j—一23聚类分析聚类分析分为R型聚类和Q型聚类。Q型聚类是对观测值壤类.R型壤类是对变量聚类”】。利用ExceI数据分析上其实现R璎聚类分析的操作流程为:①加载分析丁具库;②原始数据输入:③数据转换:③求解相盖矩鞘·.⑤聚类分类:⑥分类结果解释l|l关键词的其词矩阵构建好以后.可以育接求出相芰系数.操作方法是:选择T具栏一1.具_+数据分析一相关系敷。R型聚类分析足以相戈系数为基础进行的聚类,必须刘相关系数进行硅著性}龟验。将在某一置信度n之F显著相戈的元素归为一粪。一般情况F.Bffi越凡.相戈元素个数会越多,圆此可以逐渐增大蛀苦水平“值,将显著榭父的元素逐--iJl类井卿出谱系刚.即为学科研究的Ⅻ洲刳谱.或者I兑nf税化汁葬to=0JF面二鬲.EqW。lrl>ro.9llJ标识元索之间相荚.可咀归为一类.甭则不能归为J奘。其巾k为自m度为n一2的I双尾分布,n为样本数。3ExceljE词分析法的算例本文以情报学代表性刊物《情撤学报》《盥持情报工作》、《情报理论与实践》、《情报资料r作》《十自撤科学》、《情报杂志》为数据濉按照Hj问为2000—2009、标题包禽“知识恃理’的检索限制.对CNKI全文库进行榆索,去掉一篇非学术论文,共彳『检索文献400篇。将这些文献的简明题录首先在wo一巾转换成是擀形式.转换的方法足:将形如“。”的字段分隔符.替换成制表符.然后使用word中捕人表格的功能将数据转换成表格,再将其褴体导人到Excel数据表。井将第一行作为字段行.每一列分别标上年代、作者、标题、挣I州名,盖键词,作者机构.接蒋,运用Excel排序击燕,操作片法:数据一0;i}选一高级筛选,选掸“将筛选结果复制到其它区域”.并选择“选掸不重复的【E录”、将数据复制刘一个新的区域.然后将原有教据清除.泼数据就是去重耵的胚录数据。31词频统计词频统计是研究学科研究热点常规的方法.本文采用Ex鹏】提供的功能干以鬟现。根据L连的斤法分列m戈键洲.并将所有冀键词进行排列.统if_{埠出Il=434。因此T=257.为阀值为26,即核心关键词只右知识管理.图书馆、知识经济_个。遗监然4i能反映研究的根本『口】题。出现该问题的原因主要是所选期刊ff特殊性,载文照还不足“反映本领域的研究热点本文取词频大干等于5的关键间列袭(去掉没有宴际意义的“比较研究”),如表I所示。曩3高《关键目ⅫH&济”&nⅫ*管理6博息营mMⅫmR8缸据&掘8mmtn7Ⅻ口!”{&17府息赘&*月7*l“{—∞№日5信息5竞争情报i2Ⅻm甘Ⅸ技术6管理艇一£5*n#m6934情报科学表4关键词两两数组(局部)29卷关键词列l信息组织知识链知识经济知识经济知识经济知识经济知识经济知识经济知识经济知识经济关键词列l知识管理知识管理知识管理知识管理知识管理知识管理知识管理知识管理知识管理知识管理关键词列l信息构建知识管理知识管理知识管理知识管理知识管理知识管理知识管理知识管理知识管理关键词列l知识组织知识链知识库知识经济知识经济知识经济知识经济知识经济知识经济知识经济关键词列l知识管理知识管理信息信息知识管理知识经济知识经济图书馆知识知识管理关键词列l知识管理系统知识管理系统知识管理系统知识管理知识管理知识共享知识地图知识创新隐性知识信息技术关键词列l知识管理知识管理知识管理系统企业数据挖掘知识创新知识服务信息管理信息管理知识管理关键词列l知识组织知识组织知识链知识库知识库知识经济知识经济知识经济知识经济知识经济3-2共词矩阵构建据此分析,在仪=0.0025,r>ra=0。5088,即99.75%的把握,知识管理与其它关键词密切相关(仅“企业知识管理”除外),图书馆与知识管理、知识共享和知识服务密切相关,信息与知识、信息管理密切相关,数据挖掘与图书馆、数据库、知识地图密切相关……其它情况依此类推,逐渐聚类。本实例,经过整理,最后只剩下5列。根据组合数计算公式计算得COMBIN(5,2)为10,即需要生成10组数据,及AB、AC、AD、AE、BC、BD、BE、CD、CE、DE。最后形成的两两数组如表3所示。将上述两两组的数据对,每组单独排序,去掉单个关键词条目。然后将六组数据合并到一起,形成两列数据,共有数据450组。运用数据透视表构建33*33的共词矩阵。如表4(局部)所示:3.3聚类分析4结语通过本文的研究,笔者认为Excel作为文献计量分析的基本工具,具有众多的优越性。Excel可以进行手工干预,使研究的结果更为精确。在内容分析中,EXCEL更是可以发挥它直观、易于操作的特点,对共词结果进行分析。参考文献1秦长江,侯汉清.知识图谱——信息管理与知识管理的新按照上述方法计算相关系数,得出相关系数矩阵。见表5所示。表5相关系数矩阵(局部)电子政务0.435114985l0.4551685981l0.3729833610。3742332950.460573364高校图书馆0.418957572管理模式0.410959027绩效评价0.429019184竞争情报0,410589662企业0.343706l88领域[J】.大学图书馆学报,2009,(1):30-37.0.3792486460.3623815150.4628290480.4492939232张勤,马费成.国外知识管理研究范式——以共词分析为方法忉.管理科学学报,2007,(6):65—75.3钟伟金,李佳.共词分析法研究(一卜—一共词分析的过程0.4407434270.4342253090.3747403780.35930733计算仅、ra、k的值,见表6:表6n、ro、k的值n-2O.00250.005O.00750.OlO.01250.015O.0175O.020.0225O.0250.0275O.030.03250.035O.03750.040.04250.0450.0475O.050.5087561160.4770451880.4570218150.4420715390.43001240.4198380820.41099708k3.2902764543.022l17832.8608399382.7440419172.6519126852.5755421212.5101391732.45282418与方式【J】.情报杂志,2008,(5):70-72.4张勤,徐绪松.定性定量结合的分析方法——共词分析法【J】.技术经济,2010,(6):20-24.5李志春,王守英.拓展Excel统计分析功能的软件——win.STATIJ].数理医药学杂志,2002,(1):61—62.6魏瑞斌.基于关键词的情报学研究主题分析[J】.情报科学,2006,(9):1400-1404.7宋志刚,谢蕾蕾,何旭洪编著.SPSSl6实用教程IS].北京:人民邮电出版社,20081302.0.加31527650.396083820.389636576O-3836997720.378190142O.3730436660.3682100070.36364884l2.加17282652.3555682782.3134242822.2746138582.2386164722.2050258322.1735185978春乃芽.利用Excel实现R型聚类分析田.物探与化探,2007,(铆:374—376.0.3593273340.355218385O.351299343O.347551079O.3439572882.143833142.1157547122.0891048262.0637334872.039513438(责任编辑:刘凤琴)

因篇幅问题不能全部显示,请点此查看更多更全内容