内容提要:语义网络分析方法是以计算机为辅助的呈现和解释词语关系的文本分析方法。从术的角度来说,语义网络分析方法全面实现了传播学研究探求文本的表意、修辞及社会动因的研究目的,但从道的角度来看,其作为“元认知”的计算设计与传播学理论结合的前景尚不明朗。传播学研究在应用这一技术工具时,应意识到语义网络分析存在理论无关、忽视语法结构的缺陷,从而在具体的应用场景中对语义网络分析方法进行修正和补充,重视开发语义网络分析方法对于传播学研究的定制工具。只有术道相长,才能进一步提升语义网络分析方法对于传播学研究的理论价值。
关 键 词:语义网络/传播学/文本分析/研究范式
作者简介:谷羽,南京大学新闻传播学院、南海研究协同创新中心在站博士后,湖北经济学院新闻与传播学院讲师。
一、研究范式转向:语义网络分析方法引入传播学的时代背景
在传统的传播学研究范式中普遍存在着寻求传播效果最大化的功能主义倾向。尤其美国学者主导的经验主义传播学派,主张像实验科学一样寻求传播现象的因果联系,就传者及其传播内容对受众认知产生的影响得出经验性的结论。随着后现代主义学者们掀起对于“社会学科寻求法则式命题”的批判风潮①,传播学研究的范式也遭到了拷问。黄旦发出了从功能主义向建构主义转化的呼吁,要求传播学研究“从社会决定论向社会互动论转化;从抽象的因果推论向具体的事实描述转化;从事例归纳向意义解释转化”②。传播学研究不再局限于对某种传播现象给予因果机制的判定,描述传播现象以及描述该现象发生的社会情境或所在群体特征也是传播学研究的重点所在③。从多元的、异质性的传播现象中发现新的研究主题,探索文本背后的意义如何建构、为何建构,成为传播学理论发展的新动力。
研究范式改变的大背景下,研究方法的进阶显得迫切而必要。传统传播学研究中的实证主义方法常常使研究者有意无意地忽略研究假设之外的,更能体现事物多样性的小概率现象。而质化方法在运用理论解释现象或通过现象归纳理论的过程中,囿于落脚点(往往是个案)和研究者视角的个性化特征,难以展开横向比较。更为重要的是,随着大数据的兴起,传统的研究方法不适合分析碎片化的、大容量的传播内容,需要“引入一批如语义网络分析方法、语料库语言学等以计算机为辅助的研究方法”④。语义网络分析方法由此进入了传播学研究者的视野。
语义网络分析最早见于认知心理学的文献,这一领域的学者认为词汇分层级、分类别地储存于人类记忆中,因而我们的大脑中存在结构化的意义系统⑤,呈现词语间关系的空间模型代表了深层思维表意的意图⑥。因此,可以依据词语的词频、共现频率以及间隔距离来探索文本中的意义。随着计算机信息处理技术的进步,语义网络分析方法作为机器学习(Machine Learning)领域的一个分支被广泛应用于人工智能技术,其在传播学研究中的应用刚刚起步。在已有的传播学研究个案中,语义网络分析被用于解读单个传播主体生产的主题聚焦的文本,或用于处理来自多个主体的零散信息片段,呈现出较强的适用性。例如,剖析总统讲话文稿,以理解总统的修辞方式和整套行政班子的政治观点倾向。⑦通过对开放式的问卷调查结果进行编码和归类,检验线下社交能力(外向,自信)更强的人在Facebook上是否更受欢迎。⑧
从长远来看,由于语义网络分析方法较好地平衡了研究者的主观判断和文本语言逻辑的客观性,并且结合了社会关系网络分析和文本分析,语义网络分析方法将成为未来传播学研究的得力工具。
二、语义网络分析方法在传播学领域的应用情况
1.语义网络分析方法在传播学研究中的功能与应用场景
语义网络分析的基本功能在现有传播学研究中均有涉及,包括高频词识别、词语共现及其权重模式、词语聚类和中心词呈现。它既可与传统的传播学研究方法结合起来使用,也可单独使用,具体应用场景可分为以下三类:
一是基于语义网络分析的聚类功能,对传播学研究的主题进行分类梳理。例如对历年来参加国际传播学协会(ICA)会议的论文的主题进行梳理和呈现,可以发现传播学研究焦点的历史性演变;⑨或者,比较西方国家和东方国家的传播学研究主题的地域性差异与区域性特征⑩。
二是用于数据挖掘的情感分析(sentiment analysis)。情感是人类传播的重要表达方式,侦测情感可以预测传播者的态度、行为倾向,因此被广泛应用于基于新闻文本的受众反馈研究、政治立场和意识形态研究等。语义网络分析方法通过有监督的注释可以完成对社交媒体文本的情感分类,其准确率接近人工编码的结果。(11)韩纲等人通过收集超过269万条癌症相关推文建构了关键词汇分类词库,在此基础上实现了同步呈现构成的语义网络(semantic network),以及对癌症的积极或消极情绪的情感网络(sentiment network)的可视化分析。(12)
另外,语义网络分析方法可以与人工编码的情感分析相结合,呈现情感分布的细节和强度。例如,研究者搜集了一年内所有与疫苗接种有关的推特链接文章,人工将这些文章分为正面(支持疫苗接种)、负面(反对疫苗接种)以及中立(态度模糊或平衡)三个文本集。通过呈现三类情感文本集的语义网络,研究者发现正面态度文本的语义网络的聚合性强于负面态度文本:正面态度文本的语义网络围绕关键词“父母”建构,聚焦于传播接种疫苗的健康风险与好处,医学类名词显著度高;而负面态度文本的语义网络围绕着关键词“孩子”构建,聚焦于医院、媒体、疫苗产业等表示机构组织的词语。(13)
三是用于传播学理论指导下的文本比较。传播学研究的文本分析主要有三个目的:一是追寻意义,二是描述结构与功能,三是发现文本的前因与后果。(14)在全球化和数字化的大背景下,跨文化、跨阶层、跨性别等另类文本的比较更适宜实现上述研究目的,呈现网络技术与传播图景的共变。语义网络分析方法以提炼文本的显著意义与逻辑关系实现了不同类别文本之间的横向比较。例如,黄冬通过比较政府网站与新浪微博围绕“中国梦”形成的语义网络,发现“中国梦”未在民众舆论场(新浪微博)得到预期的解读效果。(15)在这一研究中,语义网络分析帮助研究者直观地呈现了关于“中国梦”的政府文本与民众文本在高频词、词语联系上的差别,较好地说明了社交媒体并不遵从传统媒体议程设置的规律,并引导研究者进一步探求社交媒体的议程设置机制。
语义网络分析不仅较为客观地呈现了文本生产者认知中的表意,还试图展现认知产生的逻辑推理过程,尤其适用于当下社交媒体中一对多、多对一以及多对多的传播情境。例如,语义网络分析可以通过处理来自多个生产者的文本集,探求群体的共同认知;或者通过处理特定生产者的多个文本,探求该文本生产者的认知结构,从而便捷地实现探求文本的表意、修辞方式以及社会动因的研究目的。
2.语义网络分析方法在传播学研究中的适用范畴及局限性
语义网络分析也有其应用边界。需要认识到,所谓的“语义逻辑”并不是本质的事实,很大程度上是研究者和作为研究对象的文本生产者共同建构的产物。
基于经验的文本研究是为了反映文本在不同情况下的类型化表现,而不是穷尽所有文本的所有表现形式。语义网络分析可以将文本中的语义关系精炼化与类属化,但不适宜作为描述性的调查方式而被独立地应用于传播学研究中,它需要与其他研究方法结合,在描述的基础上对传播机制加以理论化地诠释。具体而言,研究者需要注意两个陷阱:
首先,由于语义网络分析不能实现与文本生产者的直接对话,所以语义网络分析并不能就文本差异对复杂社会背景下文本生产的机制进行解释。以情感分析为例,语义网络分析虽然可以区分正面情感和负面情感,但是它无法探知正面情感或负面情感产生的社会机理。因此,语义网络分析一旦脱离传播学研究的人文关怀,就会变成纯粹的文字游戏,缺乏理论进步的动力。从信度方面来说,由于受到获取网络文本的时间节点以及网络文本等“自由”文本(free text)的匿名发布行为的限制,难以确信文本的情感表达真实反映了主体的意图,因此在用语义网络的文本分析结果预测文本生产者的现实行为时需要格外谨慎。
其次,语义网络分析只对词语共现关系作出判断,不考虑文本的语法结构,在数据清洗的过程中要去除冠词、介词、连接词等不产生实际意义的词语。其遵循的是乔姆斯基的形式语言学判定,即“句法具有自主性,独立于语义之外”(16)。因此,语义网络分析更适用于处理数据容量大、碎片化程度高、语法结构不严谨的用户生成文本(User Generated Content),如社交媒体用户的发布内容。对于新闻报道等复杂文本,语义网络无法实现类似《作为话语的新闻》等经典传播学研究的文本解读,即通过解剖关键句子的语法结构发掘文本中暗藏的权力隐喻。这或许造成了语义网络分析最大的缺憾:尽管语义网络分析的平面化呈现强调了意义关联(association),但将语法(syntax)的意义排除在分析之外无助于挖掘文本的意义层次,及其与社会结构之间的互动。
三、对术的考量:语义网络分析方法的技术渊源及反思
鉴于语义网络分析方法主要依赖计算机技术实现对文本(或语料)的词语提取、词语关系分析和可视化呈现,很多传播学者仅仅把它看作是传统文本分析方法的技术更迭。不可否认,当代人文科学的发展在很大程度上依靠技术,但技术不仅是一种工具力量,也是一种文化力量。从术的意义上理解语义网络分析方法,除了关注其作为技术手段本身的器具特征,也要关注它对于人文和社会学科,尤其是传播学,所带来的文化影响。因此,本文需要从技术哲学的视角讨论语义网络分析方法的理论起点、方法论问题和形而上学问题。
1.以认知逻辑为中心的理论起点
典型的语义网络结构呈现为一个树枝型联系图(见图1),反映认知逻辑的拓扑关系。以图1为例,“微博”“个人”“信息”构成了该语义网络中的三大中心节点,说明它们是新浪微博用户表述隐私时最频繁提及的词语。放大其中的一个细节可发现:“保护”和“侵犯”两词鲜有直接的词语联系,说明新浪微博用户在探讨隐私问题时较少同时提及保护和侵犯,尽管两者被提及的频率相同。研究者据此可进一步推断,新浪微博用户对于隐私权的实践存在较大争议。(17)
由图1的案例可知,在语义网络图中,任意两个词语间的联系代表着一个命题。而命题反映的是文本生产者头脑中事物的联系,以及他试图向读者呈现的事实。命题告诉我们一种事态,在本质上它必定与事态有关联,即“命题是事态的逻辑图像”(18)。如果同样的词语发生联系的方式不一样,那么它就建立了一个新的命题,表达了关于某个事实的新的意义。从本质上说,语义网络是一个受文本生产者认知制约的逻辑图谱。
因此,每一个文本(集)都是文本生产者做的一次命题试验:通过变换词语组合的逻辑来建构关于某个事实的意义。由于语境的丰富和随机切换,词语组合逻辑的多样性是客观存在的。新闻文本的语义网络呈现的是记者/编辑头脑中的事实逻辑,虽基于客观事实,却有着再造事实的无限可能。在符号本体论的理论预设下,研究者用语义网络分析方法还原文本生产者的意图,是对人类认知世界的视角进行再认识的“元认知”。“元认知”具有顶层设计的哲学意义,在语义网络分析方法中体现为针对词语连结展开的精确运算。
图1 新浪微博关于隐私的语义网络(局部)
2.方法论问题:作为科学决策的数字关系设计
语义网络连结建立在一系列关于词语共现的条件概率命题之上。认知心理学家特维斯基在其1977年发表的经典论文《相似性的特征(Feature of Similarity)》(19)中提到,两两事物之间的相似性是具有方向性的,因而是不对称的。这一特征在词语共现的关系中表现得尤为明显。例如,我们常常会使用比喻来描述事物,但是将A比作B的概率不等于将B比作A的概率。我们会说“我对你的爱像大海一样深”,却不会说“大海像我对你的爱一样深”,因为大海是深的典型。因此,语义网络中每两个词语发生联系的指数是一词的出现是另一词出现的充分必要条件的概率,也就是说,词A与词B联系的指数(概率)等于A与B同时出现的概率除以A出现的概率。用公式表达即为:
p(b|a)=p(b∩a)/p(a)
通过比较P值(词汇发生联系的方向和指数)的相异之处,研究者即可发现文本生产者建构的不同意义。仍以新闻文本为例,2010年英国石油公司(BP)位于美国墨西哥湾的钻井平台发生原油泄漏事故,对墨西哥湾的海洋生态环境产生了严重影响。就这一事件,英美两国媒体的新闻报道呈现出完全不同的语义网络(见图2)(20)。最显著的差别在于:美国媒体以事件(Problem Oil Spill)为核心生产新闻,英国媒体以后果(Consequence)为核心生产新闻。在评估这一事件产生的影响上,美国媒体认为原油泄露事件引发后果的严重性远不及环保抗议和法庭裁决[p(Consequence|Problem Oil Spill)=0.75,小于p(Consequence|Environment Protest Actors)=0.89,p(Consequence|Court)=0.84],从而减轻了对英国石油公司的责难。而英国媒体判断原油泄露事件本身的后果更严重(p(Consequence|Problem Oil Spill)=0.8),与环保抗议、法庭裁决等事件的严重性差不多[p(Consequence|Environment Protest Actors)=0.86,p(Consequence|Court)=0.83]。
可见,语义网络中词语的数字关系设计包含了数理审查,但创造力也发挥了重要作用。概率的形式传达了语义网络分析方法的合理性,包含了引导研究者处理特定文本的操作标准;同时,通过词语两两之间的共现概率来推断整个文本的数据特征是一种创造性的体现。前者以概率作为理性求证之解答,亦是训练语义网络分析的计算方程的过程,它的关键之处在于避免信息过载或者计算不充分;而后者则是将词语联系等同于文本命题逻辑的数字设计,这一设计是语义网络分析技术的理性水平的突破点,其关键之处在于是否穷尽了对文本中词语组合的多维向量的推理。一旦结束推理,不仅要评估语义网络分析方法达到既定研究目标的能力,还要考虑是否可以对语义网络分析方法做进一步的修改。遗憾的是,人文学者很少从这一方面反思研究的不足。
图2 美国媒体(上)与英国媒体(下)
报道原油泄漏事故的新闻文本的语义网络比较
3.形而上学问题
语义网络分析方法与21世纪以来计算机技术向人工智能转向的意图息息相关。作为一种指向信息处理的计算机程序,其主要应用方向是在识别和判断的基础上模拟人际关系中的对话反馈。而在传播学研究中,语义网络分析方法主要用于文本分析,常见的应用途径有:传统的内容分析,共享知觉(shared perception),以及词语联想(word association)。其中,词语联想结合了质化研究(关键词提取)与量化研究(词语联系的指数),通过指数清晰地表明词语间的联系,呈现文本显著的意义架构,目前在传播学研究中使用较多。(21)
然而,对于某一种方法路径的集中使用必然引发形而上学问题。文本分析有多种实现途径,语义网络分析方法并不是唯一。反之,语义网络分析方法对不同文本亦有微妙的适用差别。如果语义网络分析的路径仅仅取自现有的、经过案例证实的“菜谱”,就会导致研究者千篇一律,用同一种烹饪方法(语义网络分析方法)重复烹制不同的食材(文本),而不考虑文本的特殊性,或不依据文本特征设计新的研究任务,拓展语义网络分析方法的适用范畴。那么,语义网络分析方法即便在当下带来了研究便利,其理论适用度也只会越来越低,甚至达到瓶颈。
需进一步指出,尽管传播学科对技术手段的探讨本质上是现象学的(22),但传播学者在应用诸如语义网络分析的研究技术时,往往不会深究技术脚本是否影响了研究者对研究对象的看法。比如运用语义网络分析方法的研究者有意无意地忽视了对文本潜台词的关注,从而无法获得文本的全面概貌。因此,语义网络分析方法需要结合“道”——开发适宜传播学研究的定制“菜谱”。只是这样的技术开发需要金钱和效率的支持,也需要跨学科的长期合作。
四、术道相长:对语义网络分析方法的理论展望
如前所述,语义网络分析方法的技术特性是深度呈现特定文本,本质上是对文本创作者主观认知的客观再现。其首要目的是剖析文本中词语聚类与连结的关系,对文本的质量没有特殊要求。就理论建构而言,语义网络分析方法比传统文本分析方法具有明显优势。
首先,传统的文本分析方法依赖研究者的主观判断来对文本进行编码和分类,其信度与研究者的理论素养水平高度正相关,理论成果的可证伪性有限。而语义网络分析使用计算机程序对自然语言文本进行处理,这些计算机程序多数是开源代码(如:AmCAT,CATPAC)——意味着语义网络分析方法经过集体验证,具有较高的稳定性和兼容性。因此,研究者可以运用语义网络分析方法重复验证某一研究的信度与效度,从而提高理论成果化的效率。
其次,传统文本分析方法凭借研究者的释义能力(interpretability),以第三人的视角,由外至内解读文本。而语义网络分析方法则是从文本的自在状态出发,通过图形对语义结构进行静态呈现,同时展示了语义变化的动态过程,研究者只需解读语义结构与语义变化的逻辑。其结论受研究者主观因素的影响较小,因此解决了文本分析中的主体间性问题,避免文本分析产生系统性偏差,最终沦为“关于偏见的偏见”。
当前,语义网络分析方法对传播学的理论贡献主要有二:第一,语义网络分析能够处理碎片化程度高的大数据文本,明确广泛语义空间中的类属与边界。继哲学之后,传播学亦将发生“语言学的转向”。第二,语义网络分析的研究方法与理论框架互为所长,既从文本实践中发展语义逻辑的理论,也试图实现文本分析方法的突破。现阶段,语义网络分析不能否定或完全取代传统文本分析方法,其主要研究目标是更好地探索文本的多样性和(或)普遍性。不可否认,语义网络分析也潜伏着理论危机,部分语义网络分析的研究成果完全脱离了具体理论的指导,存在理论无关的困境。在语义网络分析被大量应用于商业项目的背景下,其科研价值的提升有待资本的大量投入。唯有如此,语义网络分析方法才能实现术与道,即工具与理论的相辅相成,其对于传播学研究的理论价值才可以在海量的文本训练中逐渐显现。
①鲍雨、潘绥铭:《定性研究中的求异法及其理论依据》,《社会学评论》,2015年第3期。
②黄旦:《由功能主义向建构主义转化》,《新闻大学》,2008年第2期。
③陈韬文:《数字化和全球化环境下传播学范式的转移?》,载谢耘耕、徐浩然主编:《传媒领袖大讲堂》(第3辑),社会科学文献出版社2013年版。
④喻国明:《媒介革命:互联网逻辑下传媒业发展的关键与进路》,人民日报出版社2015年版,第96页。
⑤Collins,A.M.,& Quillian,M.R Experiments on Semantic Nemory and Language Comprehension.1972.
⑥Barnett,G.A.,& Woelfel,J.(Eds.).Readings in the Galileo System:Theory,Methods and Applications.Kendall:Hunt.1988.
⑦Chung,C.J.,& Park,H.W.Textual Analysis of a Political Message:the Inaugural Addresses of Two Korean Presidents.Social Science Information,vol.49,no.2,2010.pp.215-239.
⑧Zywica,J.,& Danowski,J.The Faces of Facebookers:Investigating Social Enhancement and Social Compensation Hypotheses; Predicting Facebook? and Offline Popularity From Sociability and Self-esteem,and Mapping the Meanings of Popularity With Semantic Networks.Journal of Computer-Mediated Communication,vol.14,no.1,2008.pp.1-34.
⑨Petrick,J.A.Mapping Research Themes in Communication:Semantic Network Analysis of Papers from Annual Meetings of the International Communication Association.2005-2011,ProQuest Dissertations Publishing 2014.
⑩Kim,D.,Kim,S.Y.,& Choi,M.I..The Pivotal Role of AJC in the Growth of Communication Research in Asia:A Semantic Network Analysis.Asian Journal of Communication,vol.26,no.6,2016.pp.626-645.
(11)Barbagallo,D.,Bruni,L.,Francalanci,C..Giacomazzi,P.,Merlo,F.,& Poli,A.Semi-Automated Methods for the Annotation and Design of a Semantic Network Designed for Sentiment Analysis of Social Web Content.Paper presented at the 22nd International Workshop on Database and Expert Systems Applications,2011.pp.222-226.
(12)韩纲、朱丹、蔡承睿、王文:《社交媒体健康信息的语义分析:以推特上癌症相关推文为例》,《国际新闻界》,2017年第4期。
(13)Kang,G.,Ewing-Nelson,S.,Mackey,L.,Schlitt,J.,Marathe,A.,Abbas,K.,& Swarup,S..Semantic Network Analysis of Vaccine Sentiment in Online Social Media.Vaccine,vol.35,no.29,2017.pp.3621-3638.
(14)叶银娇、安然:《传播研究方法》,复旦大学出版社2011年版,第259-260页。
(15)黄冬:《新媒体语境下“中国梦”的语义网分析》,《重庆工商大学学报(社会科学版)》,2015年第1期。
(16)Chomsky,N.Essays on Form and Interpretation.Amsterdam:North Holland.1977.
(17)Yuan,E.J.,Feng,M.,& Danowski,J.A.,“Privacy” in Semantic Networks on Chinese Social Media.Journal of Communication,vol.63,no.6,2013.p.1011.
(18)[英]路德维希·维特根斯坦:《逻辑哲学论》(全新译本),王平复译,中国社会科学出版社2009年版,第63页。
(19)Tversky,A.Features of Similarity.Psychological review,1977,vol.84,no.4,p.327.
(20)Schultz,F.,Kleinnijenhuis,J.,Oegema,D.,Utz,S.,& Van Atteveldt,W.Strategic Framing in the BP Crisis:A Semantic Network Analysis of Associative Frames.Public Relations Review.vol.38,no.1,2012.pp.97-107.
(21)Doerfel,M.L.What Constitutes Semantic Network Analysis? A Comparison of Research and Methodologies.Connections,vol.21,no.2,1998.pp.16-26.
(22)Verbeek,P.P.Moralizing Technology:Understanding and Designing the Morality of Things.Chicago/London:The University of Chicago Press.2011.