张耀铭:人工智能驱动的人文社会科学研究转型

选择字号:   本文共阅读 3693 次 更新时间:2020-07-30 15:46

进入专题: 人工智能   人文社会科学研究  

张耀铭 (进入专栏)  

作者简介:张耀铭,《新华文摘》杂志社编审,主要从事社会科学理论研究(北京 100706)

原发信息:《济南大学学报:社会科学版》2019年第20194期 第20-28页

内容提要:由人工智能引领的新一轮科技革命和产业变革方兴未艾,未来必将驱动中国的经济转型、教育转型、社会转型、文化转型,当然人文社会科学也不例外。新技术的应用和新方法的普及,使人文社会科学研究出现了一些新的时代特征。一是智能学术引擎开启文献检索新视野,二是大数据重构人文社会科学研究新范式,三是“学科融合”引领人文社会科学研究新探索,四是“人机协作”创造人文社会科学研究新场景。凭借大数据获取和超级算法的模式正在颠覆“凭借经验和直觉”的模式,这将促使大部分人文社会科学走向具有自然科学的特征,“科学性”显著增强。当然,人工智能带来的机遇与挑战并存。面对未来,如果不想成为恐龙,我们必须变得极其开放,拥抱转型,接受变革,深度融合。

关键词:人工智能/大数据/人文社会科学/转型


根据中国人工智能学会与罗兰贝格联合发布的《中国人工智能创新应用白皮书》报告,人工智能的定义是利用计算机模拟人类智能行为的统称,它涵盖了训练计算机使其能够完成自主学习、判断、决策等人类行为的范畴。人工智能奔跑的天梯是由移动互联网和大数据等新技术搭建的。万物互联后的大数据信息流,“除了会改变知识的产生过程和成本,还会颠覆知识传输的速度。正因如此,人工智能的力量得以爆发。”①人工智能与大数据之间的关系非常紧密,它们似乎就是天生的一对搭档。大数据作为一种“新能源”,推动着人工智能不断扩展所向披靡,至今已涉及计算机视觉、自然语言处理、语音识别、图像识别、机器学习、智能机器人和无人驾驶汽车等领域。

人工智能不仅是一次技术层面的革命,未来必将驱动中国的经济转型、社会转型、教育转型和文化转型,当然人文社会科学也不例外。在社会科学研究领域,推动转型的重要因素是海量数据,这将促使“小数据辅助”研究传统向“大数据发现”研究范式转换,运用“数据发现逻辑”,分析和解构知识,“寻找隐藏在数据中的模式、趋势和相关性,揭示社会现象与社会发展规律。”②在人文科学研究领域,“人文计算的数据思维与计算方法为人文科学研究引入了新的思维模式,拓展了传统人文科学的研究样式,开阔了传统人文科学的研究视界与运用场景。”③显然,凭借大数据获取和超级算法的模式正在颠覆“凭借经验和直觉”的模式,这将促使“大部分人文社会科学走向具有自然科学的特征”,“科学性”显著增强④。

一、智能学术引擎开启文献搜索新视野

自2004年11月Google发布谷歌学术,科研工作者便站在了巨人的肩膀上,改变了以往的学术文献检索方式。学术搜索大体分为两类:一类是搜索引擎公司开发的,如谷歌学术、必应学术、百度学术、搜狗学术和360学术等;另一类是专业资源提供商开发的学术搜索,如中国知网、万方、读秀和百链搜索等。学术搜索具有“统一的检索平台;涵盖学术研究的各类型资源;一站式获取结果,提供全文或线索;结果按需排列或输出,能进行二次应用;能进行知识发现与分析”等特点。⑤但这些传统的学术搜索引擎,面对每年全球发表超过250万篇科学论文海量的数字化信息,不仅存在速度慢、信息过载、准确率低等缺陷,更无法像人类一样理解文献的内容。随着人工智能逐步应用于学术搜索,基于网络爬虫的智能化信息抓取、基于语义技术的用户意图自动识别,以及个性化搜索与信息推送,为人文社会科学带来了巨大的好处,尤其是它极大地拓展了我们获取文献资源与统计数据的渠道,也使得对海量文献的检索和利用大为便利。也正是在互联网平台上出现的文献资源与统计数据的共享性,为改变人文社会科学研究的方式和性质埋下了伏笔。李剑鸣教授认为,“过去一些机构和个人借助资料便利而取得的学术优势,可能遭到削弱,甚至颠覆。那些原来远离资料与信息中心的人,现在也能接触和利用同样的资料,于是就可能从原来的知识的接受者变成知识的生产者。”⑥

人工智能与学术引擎深度融合,在学科渗透性、内容多样性、搜索便捷性、结果准确性等方面大幅度提升了用户搜索体验。2015年11月,美国艾伦人工智能研究所发布人工智能学术搜索引擎(Semantic Scholar)。这款学术搜索引擎,利用“机器阅读”技术从文本中挑选出最重要的关键词和短语,可以判断论文所论述的主题;从论文中提取的图表,可以帮助用户快速理解论文的内容;从论文引用文献中的被引次数、每次被引时的位置及上下文背景等“高影响力引用次数”,评价引用的价值和论文的学术影响力。美国微软公司2016年5月发布的微软学术(Microsoft Academic),是一个支持访问超过1.6亿篇学术论文的智能搜索引擎,可以识别作者、论文、期刊或研究领域。“它通过递归算法(免费提供)来判断:根据论文被其他重要论文的引用频次来判断其重要性,据此得出每个分支学科中最具影响力的科学家和出版物的排行榜,并每日更新排行榜。微软学术在实体之间建立有意义的关联,并自动生成可视化的知识图谱,引导学者阅读。”⑦百度学术新推出了一项特色功能“开题分析”,用户只需要输入自己拟写的论文题目和关键词,就可以搜索到相关领域已有成果的统计分析。如以“发现系统”为关键词进行开题分析,就会显示研究走势、关联研究、学科渗透、相关学者和相关机构的情况。“并且还将已有文献做了‘经典论文’‘最新发表’‘综述论文’和‘学位论文’四种类型区分,满足不同的文献需求。”⑧

总之,智能学术引擎开启了人文社会科学文献搜索的新视野,可以更好地理解用户需求,给用户更直接的答案,并以一种更便捷、更专业、更友好的方式呈现;用户也可以随时随地获取数据、传递数据,了解和追踪人文社会科学研究中的新动向。

二、大数据重构人文社会科学研究新范式

2007年1月,美国计算机科学家、图灵奖获得者吉姆·格雷(Jim Gray)在加州山景城召开的学术会议上宣称:“科学世界发生了变化,对此毫无疑问。新的研究方式是通过仪器捕获数据或通过计算机模拟生成数据,然后用软件进行处理,并且将所得到的信息或知识存储在计算机中。科学家们只是在这个系列过程中的最后阶段才开始审视他们的数据。这种数据密集型科学的技术和方法是如此不同,因此值得将数据密集型科学与计算科学区分开来,作为科学探索的新的第四范式。”⑨吉姆·格雷认为人类科学研究经历了四种范式:第一范式为实验科学,以观察和实验描述自然规律;第二范式为理论科学,使用模型或归纳法进行研究;第三范式为计算科学,通过计算机对科学实验进行模拟仿真研究;第四范式为数据密集型科学,利用超级计算能力直接分析海量数据发现相关关系和新的知识。2009年10月微软公司出版The Fourth Paradigm,Data-Intensive Scientific Discovery论文集,吉姆·格雷的演讲《论eScience:科学方法的一次革命》作为开篇,并邀请国际著名科学家对“数据密集型科学”的理念、模式、应用和影响进行了深入研究。此后,关于“第四范式”的提法被广泛引用。不过,吉姆·格雷的四种研究范式主要是基于自然科学的发展历史而言的。在人文社会科学领域,研究范式的演化与吉姆·格雷总结的有所不同。国内有学者概括:第一研究范式,社会科学的定性分析;第二研究范式,社会科学的定量研究;第三研究范式,社会科学的计算实验的仿真研究;第四研究范式,基于数据科学的大数据研究。⑩

自21世纪以来,大数据和人工智能技术取得重大进展,成为一种新型认识工具和影响人类社会生活的有力手段。何为大数据?2015年国务院印发的《促进大数据发展行动纲要》指出:“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合。”大数据有多方面的来源:一是来自政府的总体数据,二是来自企业公司的销售交易数据,三是来自文献数据库的专业数据,四是来自互联网与新浪微博的社交数据。任何零散的数据一旦连接形成大数据,便会威力无穷。正如维克托·迈尔·舍恩伯格在《大数据时代》所说:“大数据绝不会叫嚣‘理论已死’,但它毫无疑问会从根本上改变我们理解世界的方式。很多旧有的习惯将被颠覆,很多旧有的制度将面临挑战。”(11)大数据驱动的人文社会科学研究对象,是“全样本”的海量数据。与传统研究通过问卷调查采集到的“个别样本”不同,现在的研究者可以借助大数据与人工智能等新技术获得长时间的、连续的、大量人群的各种行为记录甚至情感偏好。这些数据包括属性数据、行为数据和时空数据,不仅为人文社会科学研究提供了更加坚实的基础,而且正在推动研究范式的转变。

第一,由“样本→总体”进化到“样本=总体”。

传统的社会科学研究,尤其是在统计学研究中,有个非常著名的准则是使用样本来推断总体。这是在不可收集和分析全部数据的情况下捷径选择,随机采样的最大优点是根据样本推论总体时,可用概率的方式客观地测量推论值的可靠程度,从而使这种推论建立在比较科学的基础上。正因为如此,随机抽样在社会调查和社会科学研究中采用比较广泛,甚至应用于公共部门和商业领域。但是随机采集样本也存在许多固有的缺陷,首先采集到的永远是个别样本信息,即使最大比例的样本也不可能穷尽对象,因此所有的结论都带有推论性质。其次对于复杂的总体,样本的代表性难以保证。再次采样的随机性一旦存在任何偏见,分析结果就会相去甚远。

大数据的出现,使“样本→总体”进化到“样本=总体”。采集“全样本”,提供全数据,不仅解决了随机采样带来的样本代表性问题和因数据缺失造成的变量遗漏,而且为社会科学研究提供了“全景式”的新视野和新方法。在政治研究领域,大数据和人工智能技术已经被应用到美国的国会政治和总统大选。华盛顿K街的游说集团通过大数据,可以仔细分析各个议员的投票历史、政治捐款行业分布、所有选举数据,基本能预测议员的投票情况。大数据技术的兴起,为美国总统大选提供了大量的宝贵信息,比如网络媒体中民众政治意见的表达、政治信息的传播与获取、社会动员与社会网络联络,选举动员、竞选宣传、选民投票、社会运动与群体行为的产生和发展,以及政府与民众的互动、公共政策的制定等(12)。2016年11月,英国政治数据分析公司——剑桥分析公司以不正当方式获取了5000万脸书用户的个人信息,通过对选民心理进行大规模的分析评估以及大规模的行为干预,成功助选特朗普当选美国总统。大数据因其“全数据”“大背景”和时空跨度等优势,使得社会科学研究者得以重新审视和研究经典理论和宏大叙事成为可能。大数据正在宏观经济数据挖掘、宏观经济预测、宏观经济分析技术、宏观经济政策等领域大显身手。面对这样的场景,国内已有学者提出了“大数据经济学”概念(13)。

第二,由“模型驱动”到“数据驱动”。

传统社会科学研究,特别强调模型驱动。首先,选定模型的组成变量并提出基本假设;其次,设置模型的模拟与求解;再次,收集数据实证检验并得出分析结论。模型驱动的优点是直观、简洁,具有理论吸引力。但其缺点是在有限的范围内,通过有限的参数、有限的变量,在做“小概率”的实证分析。“现实中很多这样的实证分析纯粹是为了凑合假设。而一旦模型假设本身不科学、不符合实际,模型的分析结论也就失去了意义,甚至可能会扭曲事实真相。”(14)

数据驱动是通过移动互联网或者其他的相关软件为手段,对海量数据收集、整理、提炼并总结出一套规律。这是一种自下而上的知识发现过程,是在没有理论假设的前提下去预知社会和洞察学术趋势。其中,“精细的概率模型、统计推理、数据挖掘与机器学习相结合,成为大数据中提取知识的有力途径。”(15)以社会学为例,大数据为研究范式转换创设了基础条件:“它以‘总体’数据提供了认知宏观社会的数据基础;它为社会现象的‘异质性假设’检验提供了较为全面的数据;它以实时记录的特点排除了获取数据时的人为干扰;它也为恩格斯的‘结果稳定假设’提供了检验所用的充分的经验材料;它超越抽样调查的小数据,将小数据中被视为极端值并且往往被删节的个案或变量重新纳入统计分析。”(16)大数据能够捕捉并挖掘人际传播路径与传播过程,由此打破了传统媒体自上而下的传播方式,并直接影响新闻传播领域的生态结构与运作方式。近年来数据新闻已成为新闻报道的核心,通过对大量数据的挖掘、分析和发现,可以将故事以可视化的形式呈现给观众,这无疑改变了原有新闻传播学的实践图景。

第三,由重视因果关系到更加重视相关关系。

因果关系是西方哲学史上最具魅力的问题之一,从18世纪休谟至今研究者名家辈出影响深远。爱因斯坦就曾说过:“在近代,西方科学的发展是以两个伟大的成就为基础的,那就是希腊哲学家发明的形式逻辑体系以及通过系统的实验有可能找出因果关系。”(17)尽管因果关系是现代科学建立的基石,但大数据时代用于因果关系的传统的设立假设、实验验证反复尝试的方法就变得异常笨拙和落伍。

随着人工智能科学的发展,社会科学研究由重视因果关系转化为更加重视相关关系。1998年《哈佛商业评论》发表沃尔玛“啤酒与尿布”典型案例,据此美国学者提出通过分析购物篮中的商品结合,从而找出商品之间相关关系的相关算法,并根据商品之间的关系,找出购买行为模式并发现商机。2009年谷歌公司从相关关系入手,通过每天来自全球超过30亿条诸如“哪些药物治疗发热和咳嗽效果好”的搜索记录,成功预测出了冬季流感的传播源头、爆发时间、传播路径等,其预测结果与官方公布数据的一致性高达97%(18)。受这一研究的启发,英国沃里克大学在《美国国家科学院院刊》发表报告指出:2004-2012年间,美国网民在谷歌搜索上输入关键词的变化与“标准普尔500指数”的波动呈相关关系,美国网民搜索商业类和政治类关键词的频率同时上升,“标准普尔500指数”往往会下跌。如果根据大数据研究来制定投资策略,则收益率可高达297%,而同期采取简单的买入持有策略只能获得3%的收益(19)。由此可见,大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。

第四,由传统文献资料分析到“数字人文”研究。

传统文献的载体主要是甲骨、青铜、缣帛、简牍、纸张,电子文献是以数字代码形式存在的通过计算机技术存取的文献。随着大数据技术的飞速发展,“数字人文”研究在人文学科领域中的地位突显。如哈佛大学包弼德教授带领的“中国历代人物传记数据库”(CBDB)项目组通过扫描等光学输入方式将传统纸质文献的文字转化为图像信息,再利用文字识别技术将图像信息转化为文本,共收录427000人的传记资料,大大提升了研究者挖掘史料信息的能力。CBDB数据库不仅能导出数据绘制社会关系网络,而且可以通过可视化技术绘制历史人物地理分布图等功能。香港科技大学人文与社会科学院李中清教授与康文林教授研究团队,依靠以档案登记为主的史料,围绕中国近代以来的土地财产、大学生、职业技术人员和官员群体建立四个个人层面的历史数据库,数据跨度超越200年(1800-2000),包含超过200万人次的个人生命历程。“这四个主题数据库,可以进一步帮助学界从多维度和长时间两方面推进代际遗传问题研究;从过去以追求财富遗传为主扩张到理解教育和职业的代际传递;从过去强调血缘、宗族对后代的影响,到更直接地探讨官职(职位)的代际传递。”(20)大数据、“数字人文”等新技术,确实为传统的历史学研究带来极大便利。在概念史研究中,过去往往偏重引述传统文献资料进行语义分析与考辨,关注的问题既包括哪些体验与实情被带入到概念中,又包括这些体验或实情是如何被概念化的。现在则借助“数字人文”方法,通过词频分析研究概念的作者鉴定、概念的风格特点,通过用法和语境分析研究概念含义的形成和流变。有学者认为,“数字人文”方法发挥了验证、修正与创新的三重功能:一是透过数字技术,从巨量数据中,借由计算与分析,量化地验证过去史学研究者曾提出过的研究结论;二是透过巨量资料的计算分析,对过去史学研究结论进行补充修正工作;三是从巨观与复杂计算视野出发,数字史学工作者得以尝试提问与解答过去难以研究的巨观历史问题(21)。

2010年以来,在国家和省部级重大科研项目中,“专题数据库”建设成为重点支持的方向,如“汉译文学编年考录及数据库建设(1896-1949)”“中国新诗传播接受文献集成、研究及数据库建设(1917-1949)”“抗战大后方文学史料数据库建设”“延安时期未刊文献资料收集、整理与数据库建设”“中国文学史著作整理、研究及数据库建设”“中国近现代文学期刊全文数据库建设与研究(1872-1949)”等等。大数据方法和“数字人文”大大拓展了文学研究的领域,比如利用数据库、互联网从事现代文学版本与图像史料的研究、作家生平传记研究、文学社团思潮流派的谱系研究、文学思想史观念史研究、文学文本的风格学语言学研究等等。上海博物馆根据明代著名书画家董其昌“年谱、著述等文本资料和他遗留的作品,逐步梳理出对他的书画生涯产生影响的鉴藏、交游、教育、传承等多个人文脉络,从而首次以可视化的形态为董其昌的研究设计了一个‘主体—表达—时代’的综合维度,进而可以进一步探索董其昌的各种身份和相关表达,以及这些身份和表达与时代问题之间是如何彼此展开、相互作用的等等。”(22)这是利用“数字人文”技术做的一次积极探索。为纪念莎士比亚逝世400周年,有学者从数字人文的视角出发,运用文献计量与信息可视化的方法,对莎士比亚学术传播的时空分布、时间演化、内容热点和区域特色进行了分析研究,提供了新的视角和参考价值(23)。

在中国,大数据方法、“数字人文”虽然得到人文社会科学领域的快速响应,已经有了不少成熟的研究案例。但大数据存在着的若干悖论,也不得不引起我们重视:一是总体与样本的悖论:大数据的采集与测量中,“一切皆可量化”的理想与数据获取现实之间存在较大差距;二是混杂与精确的悖论:大数据追求质量,但数据的混杂性与精确性却不可调和;三是相关与因果的悖论:大数据的分析与研究范式,相关性的探索不能替代推断的价值(24)。尤其重要的是,采用大数据方法研究还没有产生震动学界的成果。即使目前热门的“数字人文”,许多研究也仅止步于“可视化”,以展示信息“图表”“网络”和“图示”为成果。“这样的展示,对于大众普及类的知识传播而言无疑是十分高效、简明的方式,但对于学术研究,却削弱甚至消解了研究者的主体性。”(25)

三、“学科融合”引领人文社会科学研究新探索

人文社会科学是研究人的精神、文化、价值和各种社会现象及其发展规律的科学,由于分支和派别的日益庞大,“在社会科学的发展过程中导致了其内外部的对立:社会科学与自然科学、人文学科的对立,社会科学内部各分支的对立,实证研究、诠释研究和批判研究范式的对立,方法论个体主义和整体主义的对立,定性研究和定量研究的对立。”(26)但是从20世纪后半叶开始,又出现了学科融合的趋势:一是自然科学与社会科学的互相融合,产生了一些新兴学科。如数学、电子计算机应用于经济领域,出现了技术经济学、计量经济学等。二是数字技术与人文学科的有机结合,推动了多种意义上的对话。包括跨越既有学科界限的对话,跨越纯理论与应用、定性与定量及理论与实际界限的对话等。对于传统人文学术而言,数字人文“借助新媒介所拥有的多样性和可扩展性,通过设计、计算、分析、可视化等手段重塑和改造人文知识,为学者提供更多差异化、规律性、宏观性、趋势性研究的可能和线索,从而扩展学术疆域和潜力,使学术领域实现‘轮廓重绘’。”(27)比如大数据正从内外两个维度对新闻传播学科范式进行着重构,内部学科的定位正从人文学科路径转向社会科学,实证研究逐渐占据上风,并朝向更加精确化的方向发展;外部与其他学科的融合程度更高,使对话和交流变得频繁,学科边界变得模糊(28)。大数据方法改变了传统心理学研究通常采用的观察法、访谈法、问卷法等手段,而将实验室移植到互联网来获取多样化、多维化的海量信息,包括网络文本、音频、视频、生理数据等,以研究用户接受不同信息时的情绪反应,进而探索心理学研究。“大数据的产生、发展与研究还催生了心理学相关研究领域的拓展,如心理健康系统的建立、网络心理学、认知诊断评估系统的建立、消费者心理预测、交通心理学、环境心理学、通过社交网络分析人格等。”(29)

人工智能的兴起和近年的普遍性运用潮流为科研人员的跨学科研究开启了新的机遇和空间。很多自然科学家开始关注人文社会科学中的问题,很多人文社会科学家更加注重不同研究取向和方式的结合,如数据驱动与模型驱动相结合、演绎逻辑与归纳逻辑相结合、相关分析与因果分析相结合、空间分布与时间序列分析相结合、部分探索与整体研究相结合、人工分析与工具应用相结合。(30)即使传统的人文学科,学者们也不再只是“看热闹”,大数据研究魅力已初试啼声。金观涛、刘青峰在香港中文大学做研究,从观念史的视角整合思想史,借助“中国近现代思想史全文检索数据库(1.2亿字)”和福柯的知识考古方法,追寻20世纪中国政治思想史的关键词涵义、词频统计、语义分析等,解构传统历史观的统一性,力图寻求历史的真实性、复杂性与观念史变化之原因。他们认为,“一种以关键词为核心分析对象的数据库研究方法正在形成,在思想史研究中将占据越来越重要的位置。”(31)他们构建的跨越100年(1830-1930)的中国近现代思想史全文检索数据库,确实在解决近代观念史研究的诸多重大问题上展现了强大功能。历史研究也正经历与大数据应用结合的转型,出现了不少研究新成果,如詹荃亦《“主义”的数字人文研究》、夏明方《大数据与生态史:中国灾害史料整理与数据库建设》、陈志武等《清初至二十世纪前期中国利率史初探——基于中国利率史数据库(1660-2000)的考察》、金观涛等《统计偏离值分析于人文研究上的应用——以〈新青年〉为例》、龚为纲等《大数据分析下主要社会思潮的总体态势:以民粹主义为例》等。在古代文学研究领域,有人通过大数据,研究唐代诗人之间的社交网络与关系图谱;有人用名人出生地和死亡地的大数据,研究文化艺术中心的历史迁移问题;有人运用计算机人工智能中的支持向量机技术、以44个文言虚字频率为特征向量,对《红楼梦》120回进行了分类研究。结果证明,从第81回开始的后40回和前80回在写作风格上存在明显差别,从技术的角度确认了《红楼梦》前80回和后40回为两人所作,运用信息技术手段有效地证明了红学界多年来的推断(32)。语言学科的跨学科研究被越来越多的研究者所关注,心理学、认知科学、生物学、计算机科学社会学及人类学等与语言学之间的关系日益密切。语言学的跨学科研究“拓宽了语言学的研究视野,充实了语言学的研究内容,为语言学的理论建构提供了心理—生理上的佐证,同时也提供了新的研究思路和方法。”(33)近年来,通过艺术学、人类学、民俗学、文化学、自然科学视角的音乐图像研究取得了一定成果,能够做到图文互证、图与音乐实践互证,言之有据,以提高研究结论的科学性。“开展跨学科的音乐图像研究学术意义重大,它能够开阔音乐图像学研究视野,为中国音乐史论研究提供具体的、更有说服力的音乐图像史料,对于我们从整体上、深层次把握音乐事物、音乐现象具有重要作用。”(34)

四、“人机协作”创造人文社会科学研究新场景

法国哲学家帕斯卡尔说:“人只不过是一根芦苇,是自然界最脆弱的东西;但他是一根会思想的芦苇。”人类因为思考变得无比强大,因为文字而传承文明。随着人工智能技术的飞速发展,人的思考能力这个最后堡垒正不断被侵扰。早在20世纪60年代,美国贝尔实验室就已尝试机器人写稿。进入新世纪,随着人工智能从运算阶段、感知阶段过渡到认知阶段,这一雄心勃勃的探索在美国已成燎原之势。华尔街邮报、纽约时报、美联社、洛杉矶时报都开发了自己的写稿机器人,内容多为财经和体育方面资讯。2005年,麻省理工学院的计算机科学与人工智能实验室的三位研究生杰里米·斯特里布林、马克斯·克伦和达纳·阿瓜约联合编写了一个叫做SCIgen的计算机程序,能够自动生成英文科技“论文”,包含摘要、引言、文献综述、实验结果、结论、图片和参考文献等。此后几年用这个神器生成的论文,堂而皇之地出现在世界各地的科技学术会议,有的甚至通过了同行评审,被CSSE杂志录用。2010年,法国约瑟夫·傅立叶大学的计算机科学家西里尔·拉贝出于好玩或恶作剧,虚拟了一个叫做IkeAntkare的机器人作者,制造了102篇机器生成论文来测试“谷歌学术”是否收录。结果这位机器人成功了,甚至IkeAntkare还成为世界上第21位被引用次数最高的“科学家”。

近年来,中国的机器人写稿实践发展迅猛。2015年9月,腾讯财经发表机器人Dreamwriter写的《8月CPI同比上涨2.0%创12个月新高》文章,由此拉开了国内机器人写稿的序幕。此后,阿里巴巴联合第一财经推出“DT稿王”、今日头条推出“Xiaomingbot”。尤其是IBM中国研究院专家基于深度学习技术,开发的写诗机器人“偶得”一夜爆红。读者只要输入四个字,它就能生成一首符合平仄、对仗及韵律的七言藏头诗。如宋代秦观有诗:西津江口月初弦,水气昏昏上接天。清渚白沙茫不辨,只应灯火是渔船。“偶得”迅速生成:西窗楼角听潮声,水上征帆一点轻。清秋暮时烟雨远,只身醉梦白云生。这令许多专业人士也一时难辨真假。继商业媒体尤其是互联网公司率先发力之后,传统主流媒体也加大技术投入寻求突破,因此各种写稿机器人纷纷涌现。新华社的“快笔小新”、人民日报的“小融”、南方报业的“小南”等等,以“DT稿王”为例,目前能写出三大逻辑类别稿件:第一类是基于数字进行事实陈述,并进行简单逻辑分析的文章,比如二级市场的监控、体育赛事的简讯;第二类是对信息源进行针对性的信息提取,把非结构化的文本转为结构化及半结构化的数据,再根据不同的规则把信息要点组合写成单点内容;第三类是单点内容的关联生成,及时关联专家对基本数据的解读及评论,生成更有深度、更立体、更综合的稿件(35)。机器人写稿背后的核心技术是自然语言处理(简称NLP),同时涉及搜索引擎、数据挖掘、机器学习、知识图谱、内容聚合等多项人工智能技术。现有的机器人写稿主要有两种技术方式,一种是模板式,一种是摘录式。模板式是“人工模板”+“自动化数据”填充的套路,去组合生成原创的稿件。“具体的实现过程包括:基于输入的知识点与模板库进行候选模板检索;利用优化算法进行智能模板筛选,确定最终真正使用的模板;基于筛选得到的模板进行新闻文本生成。”(36)摘录式是采用自动摘要技术,从已有的海量数据(文本)中摘录核心内容与关键词,通过计算分析方法进行二次创作,改写或重组为新的稿件。

2018年6月30日,中国智能写作产业联盟在北京成立。中国声谷、科大讯飞和金山软件等17家人工智能领域产业基地及企业成为首批理事单位,其目标是抢占计算机自然语言处理发展的制高点,推动构建智能写作产业生态体系,加速助推智能写作科技成果转化落地。未来机器人写稿或将成为常态,人文社会科学研究也将面临人工智能的野蛮敲门。一是通过语音识别输入法等技术完成语音和文字的转换,实现低效率和手工化的方式向高效率与机器化的方式转变。腾讯写稿机器人Dreamwriter推出的中文纠错算法,已能识别多种类型,包括同音字、近义字、易错字及上下文语境搭配错误,准确率达90%以上。二是通过智能学术引擎高效完成海量阅读,通过评估论文内容的相关度来实现搜索结果的快速排序,通过输入字段或论文摘要提取包含语义背景的关键概念,并以此来找到相关度较高的话题及其他论文资料。如借助Iris.AI的技术,用户在输入论文链接后,便能够在短时间内获取Iris.AI所构建的知识图谱。所以综述性、归纳性和程式化的论文写作,将大量由机器人所替代。三是目前用于机器人写稿的开发仍然处在初级阶段,还无法提供事实背后的真相,无法提供针对现实的深度解释,更无法提供高度创造性研究。因此,“人机协作”将成为未来人文社会科学研究的新趋势。人机协作就是由人给定写稿的题目、关键词、架构、段落等要素,充分利用机器收集和处理大数据的能力,根据模板嵌入不同数据、聚合内容和扩充文字。在此基础上,发挥人的思维模式和价值观,剔除模式化、同质化弊病,挖掘数据背后深层的思想,进行创意性加工。四是“机器人写稿”带来的黑洞。当下自媒体、通俗文学的写手,已经半机器化了。数据库里的细节、情节、台词、角色、环境描写等各种“零部件”是由人预先输入储备的,机器不过是根据指令自动完成筛选、组合、推演、语法检测、随机润色一类事务。这些作品,“其作者可能是人,也可能是机器,也可能是配比不同的人(HI)机(AI)组合——其中低俗版的组合,如淘宝网十五元一个的‘写作软件’,差不多就是最廉价的抄袭助手,已成为时下某些网络作家的另一半甚至另大一半”,这被批评为“一种基于数据库和样本量的寄生性繁殖”(37)。2008-2013年,有120多篇由计算机自动生成的“论文”被提交给国际学术会议并得以出版。法国计算机科学家拉贝在德国学术出版机构施普林格的数据库中检测发现,尽管这些论文格式规范、图文并茂,但只不过是词汇和句子无意义组合的虚假论文。更打脸的是,这些论文的署名作者大多来自中国大陆(38)。由此看来,“机器人论文”现象在中国早已存在,“代写代发论文”的买卖也已不是什么新闻,只不过学术不端行为的触角已然伸至国外,中介活动如此猖獗,还是令人有些吃惊。

五、结束语:面对未来接受变革

总之,由人工智能引领的新一轮科技革命和产业变革方兴未艾。人工智能技术正在快速进入人文社会科学领域,对传统人文社会科学研究构成了挑战。但这一切都还刚刚开始,人工智能杀手的本质还远远没有展现。在不久的未来,或许它能突破人类的“阿喀琉斯之踵”?也未可知。人工智能充满了张力,机遇与风险并存。“中国作为人工智能大国,既要积极布局抢占产业发展制高点,又要未雨绸缪及早做出人工智能发展的社会治理预案。”(39)面对未来,如果不想成为恐龙,我们必须变得极其开放,拥抱转型,接受变革,深度融合。但愿我们能像村上春树在《海边的卡夫卡》结尾所言:“不久,你睡了。一觉醒来时,你将成为新世界的一部分”(40)。

注释:

①车品觉:《数据的本质》,北京:北京联合出版公司,2017年版,第63页。

②沈浩,黄晓兰:《大数据助力社会科学研究:挑战与创新》,《现代传播》,2013年第8期。

③黄水清:《人文计算与数字人文:概念、问题、范式及关键环节》,《图书馆建设》,2019年第2期。

④G.King,“Restructuring the Social Sciences:Reflections from Harvard’s Institute for Quantitative Social Science”,in PS:Political Science & Politics,No.1,Vol.47(2014),p.165.

⑤胡玮:《中文学术搜索引擎比较研究》,《情报探索》,2018年第1期。

⑥李剑鸣:《“网络史学”的神话与实际》,《史学理论与研究》,2011年第4期。

⑦刘银娣:《学术出版领域的人工智能应用:现状、挑战与应对》,《科技与出版》,2019年第1期。

⑧王新才,谢宇君:《知识发现系统与通用学术搜索引擎文献资源比较研究》,《福建论坛》,2018年第4期。

⑨董春雨,薛永红:《数据密集型、大数据与“第四范式”》,《自然辩证法研究》,2017年第5期。

⑩米加宁,章昌平等:《第四研究范式:大数据驱动的社会科学研究转型》,《学海》,2018年第2期。

(11)[英]维克托·迈尔-舍恩伯格,肯尼斯·库克耶:《大数据时代》,盛杨燕、周涛译,杭州:浙江人民出版社,2013年版,第94页。

(12)唐文方:《大数据与小数据:社会科学研究方法的探讨》,《中山大学学报》,2015年第6期。

(13)俞立平:《大数据经济学的概念、框架与学科定位研究》,《统计与信息论坛》,2015年第6期。

(14)崔俊富,邹一南等:《大数据时代的经济学研究:数据驱动范式》,《广东财经大学学报》,2016年第1期。

(15)刘涛雄,尹德才:《大数据时代与社会科学研究范式变革》,《理论探索》,2017年第6期。

(16)刘林平,蒋和超等:《规律与因果:大数据对社会科学研究冲击之反思——以社会学为例》,《社会科学》,2016年第9期。

(17)爱因斯坦:《爱因斯坦文集》(第1卷),许良英、范岱年译,北京:商务印书馆,1976年版,第574页。

(18)雷丽娟,李润珍:《大数据背景下的因果关系与相关关系》,《河南理工大学学报》,2017年第1期。

(19)陈云松,吴青熹等:《大数据何以重构社会科学》,《***师范大学学报》,2015年第3期。

(20)梁晨:《用大规模量化历史数据库检验中国的长期代际遗传》,《南京大学学报》,2019年第2期。

(21)邱伟云:《验证、修正、创新:数字史学方法的三重功能》,《南京大学学报》,2019年第2期。

(22)童莹,张彬:《董其昌数字人文项目的探索与实践》,《中国博物馆》,2018年第4期。

(23)冉从敬,赵洋等:《数字人文视角下的莎士比亚学术传播研究》,《图书馆杂志》,2018年第3期。

(24)倪万,唐锡光:《大数据应用于社会科学研究的价值与悖论》,《东南学术》,2017年第4期。

(25)严程:《现代文学研究的“数字人文”方法刍议》,《现代中文学刊》,2019年第1期。

(26)米加宁,章昌平等:《第四研究范式:大数据驱动的社会科学研究转型》,《学海》,2018年第2期。

(27)冯惠玲:《〈数字人文:改变知识创新与分享的游戏规则〉序》,北京:中国人民大学出版社,2018年版。

(28)吴小坤:《大数据时代新闻传播学研究的重构与进路》,《南京社会科学》,2016年第11期。

(29)李雨秦:《大数据为心理学研究带来机遇和挑战》,《中国社会科学报》,2017年6月16日。

(30)马费成:《推进大数据、人工智能等信息技术与人文社会科学研究深度融合》,《评价与管理》,2018年第2期。

(31)金观涛,刘青峰:《中国近现代观念起源研究和数据库方法》,《史学月刊》,2005年第5期。

(32)施建军:《基于支持向量机技术的〈红楼梦〉作者研究》,《红楼梦学刊》,2011年第5期。

(33)李姝雯,李曼丽:《语言学跨学科研究的新范型——基于2000-2016年PNAS研究进展评述》,《语言教学与研究》,2019年第1期。

(34)高兴:《跨学科的音乐图像研究》,《艺术探索》,2019年第1期。

(35)宿思,樊成琼:《写稿机器人与媒体智能时代》,《贵阳日报》,2016年9月19日。

(36)申屠晓明,甘恬:《机器人写稿的技术原理及实现方法》,《传媒评论》,2017年第9期。

(37)韩少功:《当机器人成立作家协会》,《读书》,2016年第7期。

(38)《科学家检出120多篇机器人论文几乎全来自中国》,http://news.sohu.com/20140410/n398017521.shtml.

(39)张耀铭,张路曦:《人工智能:人类命运的天使抑或魔鬼——兼论新技术与青年发展》,《中国青年社会科学》,2019年第1期。

(40)[日]村上春树:《海边的卡夫卡》,林少华译,上海:上海译文出版社,2003年版,第514页。



进入 张耀铭 的专栏     进入专题: 人工智能   人文社会科学研究  

本文责编:陈冬冬
发信站:爱思想(https://www.aisixiang.com)
栏目: 爱思想综合 > 学术活动信息
本文链接:https://www.aisixiang.com/data/122307.html

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2024 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统