韩军徽李正风：计算社会科学：涵义、特点与前景

内容提要：计算社会科学作为一个新兴的跨学科研究领域，目前社会科学界对其涵义、特点和前景的认识尚不充分且有较大分歧。本文就计算社会科学的一些基本问题对美国多位有重要影响的计算社会科学学者进行了访谈，包括计算社会科学的概念、与传统社会科学的关系、所生产知识的可靠性、面临的挑战以及发展前景等。访谈的目的是希望有助于深化国内学术界对计算社会科学的认识，进而推进相关研究工作。

关键词：计算社会科学特点挑战前景访谈 computational social science characteristics challenges prospect interviews

致谢：感谢邓肯·沃茨、大卫·拉泽尔、迈克尔·梅西、加里·金、詹姆斯·埃文斯、克劳迪奥·齐奥菲-雷维利亚、艾伯特-拉斯洛·巴拉巴西、亚历山德罗·维斯皮那尼、丹尼尔·麦克法兰和詹姆斯·穆迪等教授于百忙之中抽出时间接受本文作者的访谈。特别感谢詹姆斯·埃文斯教授将本文作者引荐给前述多位著名学者进行访谈。

修回日期：2018-03-01

计算社会科学作为一个新兴的跨学科研究领域，已经在社会学、经济学、政治学、管理学、心理学等社会科学学科中产生了广泛影响。然而，由于其兴起时间较短，涉及的理论和方法问题比较复杂，目前学术界对计算社会科学的认识仍不充分且有较大分歧。

为进一步了解国外学者对计算社会科学的看法及其差异，笔者就关于计算社会科学的一些基本问题设计了访谈提纲，并于2017年7月至9月之间先后访谈了美国多位计算社会科学领域的重要学者。这些学者包括：

(1)康奈尔大学教授、微软研究院纽约实验室创始人之一及计算社会科学研究组首席研究员(Principal Investigator，PI)邓肯·沃茨(Duncan Watts)；

(2)美国东北大学政治学系及计算机与信息科学学院教授、拉泽尔实验室(Lazer Lab)主任大卫·拉泽尔(David Lazer)；

(3)康奈尔大学社会学系及信息科学系教授、社会动力学实验室(Social Dynamics Lab)主任迈克尔·梅西(Michael Macy)；

(4)哈佛大学教授、量化社会科学研究所(Institute for Quantitative Social Science，IQSS)主任加里·金(Gary King)；

(5)芝加哥大学社会学系教授、计算社会科学研究生项目发起人、知识实验室(Knowledge Lab)主任詹姆斯·埃文斯(James Evans)；

(6)乔治·梅森大学计算社会科学教授、社会复杂性研究中心(Center for Social Complexity)创始主任克劳迪奥·齐奥菲-雷维利亚(Claudio Cioffi-Revilla)；

(7)美国东北大学教授、复杂网络研究中心(Center for Complex Network Research，CCNR)主任艾伯特-拉斯洛·巴拉巴西(Albert-Laszlo Barabasi)；

(8)美国东北大学教授、生物与社会技术系统建模实验室(Laboratory for the Modeling of Biological+ Socio-technical Systems，MOBS Lab)主任亚历山德罗·维斯皮那尼(Alessandro Vespignani)；

(9)斯坦福大学教授、斯坦福计算社会科学研究中心(Stanford Center for Computational Social Science)前主任丹尼尔·麦克法兰(Daniel McFarland)；

(10)杜克大学社会学系教授、杜克网络分析研究中心(Duke Network Analysis Center，DNAC)主任詹姆斯·穆迪(James Moody)。

这些学者都是美国计算社会科学研究领域中的重要学者。其中，邓肯·沃茨、大卫·拉泽尔、迈克尔·梅西和加里·金被公认为是该领域的领军学者。大卫·拉泽尔是2009年发表于《科学》(Science)期刊、被视为计算社会科学研究领域的纲领性文章的题为“计算社会科学”(computational social science)的论文①的第一作者。

在访谈过程中，我们就一些相同的重要问题对他们进行了访谈，以便发现他们对计算社会科学相关基本问题认识上的共同点和差异之处。这些问题包括计算社会科学的概念、与传统社会科学的关系、所生产知识的可靠性、面临的挑战以及发展前景等。

1 计算社会科学是什么?

问：由于计算社会科学出现的时间较短，人们尚未对其内涵达成共识，而且在研究的过程中，不同学者也有不同的进路和侧重。就您看来，计算社会科学是什么?您如何理解计算社会科学的内涵?

拉泽尔：在我的定义里，我会说是将算法的和计算的工具应用于复杂数据。对于复杂，我的意思是比那种典型的按照个案对变量进行排列［的数据表格]更为复杂。但是你知道，我认为有不同的定义，所以很难说这是一个不容更改的(sacred)定义，但这是我实用主义的(pragmatic)定义。

梅西：利用高性能计算来解决问题，并找到我们之前没有高性能计算所无法获得的答案。而且我想在高性能计算之外补充云计算和社交媒体。所以，云计算和社交媒体的组合开启了新的研究机会，而计算社会科学就是追逐这些机会的领域。

齐奥菲-雷维利亚：它是通过建模和计算的媒介——数学模型和计算机模拟模型——对社会现象进行的多种尺度的研究，包括时间的、空间的和组织的尺度。

巴拉巴西：显然，这是一个新的领域，我们的理解也在发展。我宁愿不给出一个定义，而是说说我对它的观点是什么。它产生于我们认识到由于我们携带记录设备——移动手机和其他设备，也由于我们每天所做的大部分活动都在一些数据库中留下了某些印记，我们能够越来越多地、高精度地测量社会过程。因此，通过收集大量的数据，你可以重建一个人的活动模式。在我的脑海里，计算社会科学对应着这些。部分地，它试图用这些新数据来回答社会科学的传统问题。但我认为这是一个非常小的部分，因为很多社会科学的传统问题是根据头脑中的工具和数据提出的。这些新的数据集正在开启之前所不能提出的新的问题和新的机会。所以，大部分的计算社会科学研究对应着数据的可获取性，就不同的社会过程是如何工作的提出问题：我们能够怎样量化［社会过程]，哪些是重要的哪些不是，它意味着什么，它们是否可预测，里面有多少因果性等等。简言之，它是一种从数据视角观察社会和理解社会过程的能力。

2 计算社会科学与传统社会科学的关系如何?

问：计算社会科学在传统社会科学的各学科均已产生广泛影响，两者之间的关系也因此引发了很多学者的讨论。计算社会科学与传统社会科学之间究竟有何区别与联系?前者是后者方法、工具箱的扩展，还是前者将取代后者成为社会科学的主流范式?抑或计算社会科学将发展成为一个新的、独立的社会科学研究领域?

穆迪：我不认为两者之间有非常大的区别。我认为计算社会科学背后的主要推力与任何社会科学都是一样的。研究问题是相同的，所用的方法是不同的，因为我们有了一个新的方法工具箱。

齐奥菲-雷维利亚：这是一种非常强的关系。因为计算社会科学在其研究中会利用传统社会科学的理论。例如，关于［社会]运动的理论、关于国际关系的理论、关于小群体行为的理论、关于人类决策的理论，所有这些都来自传统社会科学。有很多社会科学家进入计算社会科学领域，因为在某种程度上，他们理解这是进行研究的一种有价值的方式和一种新的方式。所以，[它们之间]有一种非常紧密的关系。虽然在一些地方它们没有任何关系，因为人们对此不感兴趣，他们有自己的工作要做。

金：社会科学中的量化，我想也就是你称为计算的，是一个根本性的重要发展。我将它看作是叠加于传统或定性的方法之上，而非将其取代。但是它的影响已经改变了一切。是的，所生产的知识更加可靠了——肯定并非在每篇论文中都是如此，或者任何接近的意思，但是作为一个领域这种进展是不可否认的。它已经改变了社会科学的几乎所有分支，另外还创造了全新的产业，重构了大部分财富500强(Fortune 500)企业，说服全世界的政府让我们评估他们的公共政策——之前这往往是没有对照组的大型试验——以及发展使这一切成为可能的新的方法和理论。

梅西：我认为传统社会科学，尤其是经济学、政治学和心理学，以及在一种较轻程度上的社会学，所有这些学科都主要是理论驱动的，专注于假设检验。在另一方面，计算社会科学有些更侧重于测量而非解释，更侧重于检测数据中的模式而非检验假设。我认为这在计算社会科学和主流的社会科学之间造成了一些张力，因为主流社会科学家会对在假设检验的语境之外对模式进行测量的有用性提出质疑。

维斯皮那尼：首先，社会科学，像很多其他的科学，它们总的来说还不习惯利用计算，利用数据流。计算和计算建模更多地是在计算机科学和物理学的世界中发展起来的，而非社会科学。这是一种新的走近[社会]系统的方式。另一个问题是计算社会科学中所用的数据通常是非结构化数据。它们往往是通过一种被动的方式收集的，比如说，通过截取收集Twitter数据。这些数据，在某种意义上，其获取是不可控的，它们并非在一种可控的环境中。我们不能控制设定，我认为这是另一个主要问题。我们的数据经常是杂乱的、不完整的、并非总是百分之百可靠的，包含很大的、不能总是按照我们想要的进行分层的偏差。这可能与社会科学通常的工作方式完全不同，但是现在在计算社会科学中你不能期望分析数以千万计的推特，还要避免偏差的问题。这显然是你走近[社会]系统的一种不同的方式。

麦克法兰：我的感觉是现在更多的是一个工程的时代。因此，你看到更多的是计算机科学和工程对社会学或者社会科学的殖民。因为我们给了很多能够用新颖的方式处理和收集大数据或者进行分析的学者做一些传统的社会科学标准所不能接受的研究的许可证。我们还不知道应该如何评价这些研究。一旦我们知道，我们就会开始看到各种缺陷，以及很多这种研究在样本数据、测量方式等方面的低质量。我的感觉是，目前在这种计算研究中社会科学居于次要地位。挑战是看如何将社会科学与将它们的想法应用于社会科学问题、社会问题的计算机科学置于同等地位，甚至更高的地位。我认为如何将两者平等对待是现在一个真正的挑战，这可能与社会科学研究者较工程或科学[研究者]的数学理解能力较差或者感觉地位较低的事实有关。我不知道，但我认为这最终会发生。这可能与社会科学有大量难懂的理论，而计算科学家和计算社会科学家好像较少关注理论的事实有关。他们好像更关注一些简单而杂乱的经验问题，这些问题可以很聪明，很有意思，而且能够发表。另外，这些领域完全不同的文化也会导致问题。计算机科学和社会科学混合在一起，它们是完全不同的科学文化。一个是喝着红牛完成的，通过两天的写作就能写出一篇会议论文，而另一个得用三年的时间来完成一篇60页的论文，还要通过对论文的评审。一个是团队科学，另一个是修道院式的[独立研究]，所以，这是非常不同的文化。你会发现将两者置于同等地位来融合或者结合，或者多学科的努力或者跨学科的努力，这并不容易。

埃文斯：有很多不同的传统社会科学，在社会学中也有很多做传统科学的方式。我来概述两个。一个是经典的定量社会学，在那里人们运行各种模型。甚至这种研究也有两个版本。有人利用标准的统计推断模型，有人利用网络模型来进行依赖性的测量。然后，还有人在案例研究或民族志研究中做定性的工作，这也非常有趣。我想说这是三种传统的社会学。也有不同的计算社会科学，有[社会]模拟研究，有大数据探索，有在大数据中对特别具体的问题进行的推断。我认为作为计算社会科学工具箱一部分的机器学习方法，在某些意义上更像社会科学中探索性、定性的一面，而非经典的定量方法。我认为虚拟实验之类的研究，它们更像是定量的传统社会科学。但是我想说这些机器学习的方法更像定性的传统社会科学。它们与做定性的传统社会科学的人所提出的问题更相关，像在特定的时间、特定的设定里，哪些配置是有意义的?这就是这些非监督的和监督的或者半监督的方法所提供给你的。

沃茨：实际上，我和我的一些同事也有这方面的争论，计算社会科学是否应该成为自己的领域?我们是否应该创造一个新的计算社会科学领域，还是我们应该只是让社会科学更加计算化?在一个理想的世界里，我认为我们应该做后者。但是可能需要做前者来达到后者，因为社会科学相互之间并不对话。不仅仅是要社会科学家与计算机科学家对话，也要使他们相互之间对话。可能做这件事的一个方式是创造一个社群，在里面人们在社会科学之内跨越学科的界限进行对话，也在社会科学和计算机科学之间进行对话。这有一个双重的使命，既要打破内部的阻碍，也要破除外部的阻碍。我将之看作一种非常友善和建设性的关系。我不认为去告诉每个人停下他们正在做的，唯一重要的事是计算有任何帮助。我想有些时候人们担心这些，他们想这些人会来削弱社会科学的所有其他形式。我不相信这些，我认为一切都是必要的。我愿意将计算社会科学看作一些来自社会科学之外的好的、有用的想法来帮助社会科学将其正在做的事情做得更好，也使社会科学成为一个更为统一的领域。我们是社会科学，我们都很相似。然而，我们经常表现得像完全独立的群体。越了解其他领域的人，我越认为他们以现在的方式做事是有原因的，但也有局限。我认为我们真的应该试着去取不同领域的人们所知道的东西之中最好的，并将其用于具体问题。在最好的情况下，计算社会科学可以在社会科学内部以及计算机科学与社会科学之间有这种统一的作用。这是我想看到和做到的。

3 计算社会科学是否能够生产可靠的社会知识?

问：一些学者表示了对计算社会科学所生产的知识的可靠性的担忧，特别是认为其所利用的数据的代表性很难保证，而样本的代表性是社会科学研究的重要基础。另外，从数据中获取的模式可能并不稳定，也因此难以获得可推广的知识。您认为计算社会科学所生产的知识是否可靠?

巴拉巴西：这总是取决于结果的特性。科学工作就像一个金字塔，少数是可重现的、非常坚实的结果，它们是以这个领域中很多较小的贡献为基础的。它们非常有影响，因为它们是可重现的。除非人们能够在不同的情境中一遍一遍看到你在论文中提出的行为，否则你的论文不会有影响。这些少数的高度有影响的和可重现的结果与大量的有较小影响的结果共存，因为后者无法简单地重现或者不是令人特别兴奋或者由于其他原因，它们没有取得新的突破。没人能够想出如何建立一个每个成员都同样重要的科学社群。我们实验室有一个更大的关于科学空间的项目，科学是如何工作的，所以我们对此看得非常清楚。总体而言，科学和科学的生产是异质性很强的。少数人产出很多，而大部分人产出很少，但是他们做了很多工作，社会科学的产出也是如此。回到你的问题，[计算社会科学]会有很多产出，其中有些是可靠的，非常有用，其他的只是这个领域中渐进的进步。

梅西：交叉验证是关键。我们现在与大规模数据和机器学习一起所用的方法极易受到过拟合的影响。使我们免受过拟合影响的办法就是交叉验证，这是一种样本内验证。我认为如果我们要更加保守，那就需要样本外验证，这超出了交叉验证。比如，那将会是在一个不同的平台上重复在某个平台上所得到的结果。所以，如果你从Twitter获取数据，你能用Facebook的数据重复结果吗?这是样本外验证。但是肯定没有理由不利用K-折(K-Fold)交叉验证的标准方法进行样本内验证。交叉验证极少以分离样本设计(split sample design)的形式在主流社会科学中使用，但是[主流社会科学]也没有其他防止过拟合的努力。[主流社会科学]给出的不做交叉验证的辩护是很低，因为很低没有太多过拟合的危险，因此没有必要进行交叉验证。但是这个论证里有一个缺陷，就是他们没有在其研究之前登记(register)他们的假设，也没有登记他们的模型。现在如果期刊要求除非结果已经提前登记，否则将不予发表，这会解决这个问题。但是只要这还没有发生，就没有什么能够防止“钓鱼式刺探”(fishing expeditions)。也就是我们有一个多元模型，然后将很多测量放入这个模型，对这个模型尝试不同的描述，直到识别出一个我们喜欢的。然后我们补写结果，就好像我们开始就有一个模型和一个假设，然后测试了它。所以如果我们不提前登记模型和假设，而是通过搜索找到一个模型，我们就冒了过拟合的风险。因此，我们需要用K-折交叉验证来验证模型，至少在样本内。我们需要样本内验证来表明我们在做的不只是预测过去，当你过拟合时那就是你在做的。你在预测过去，但却表现得好像你在预测未来。

金：我认为你在处理可以应用于任何种类的科学的两个原则。它们可能在计算社会科学中比在传统社会科学中用得更多或者相反，但这是取决于文化的差异或者数据的可获取性。然而，这些原则都应该是相同的。这两个原则是：

首先，在观察数据分析中，我们利用我们所能找到的数据。这以特定的方式限制了作为结果的理论和经验结果的范围和条件，但是在一些特定时间或地点学到一些东西要好过面对宇宙里的一切却什么都学不到。所以我们研究我们所能得到的，然后试着把这些拼图放在一起。所以，私营公司的算法肯定会影响我们所得到的数据，但我们可能还是希望利用这些数据。因为如果没有它们，我们可能无数据可用。这些算法肯定是非常重要的——它们使一些事情成为可能，使另外一些事情非常困难。但在一百年前当研究者决定只访谈那些同意与他们谈话的立法者，或者很多其他类似的情况时，就已经如此了——完全没有计算的任何东西。

其次，任何科学探索方法的特质都是使自身是可以证伪的。当然，我们不希望实际上是错的。但是，通过使我们自己可以被证伪，如果我们错了，我们也在学习。如果你不能被证伪，那从你的结论中学不到任何东西。这在传统社会科学、计算社会科学和任何其他的生产科学知识的方法中都是如此。

我意识到在某种意义上我在否认你提问中的分类，但是这种分类远远不及这些原则重要。

拉泽尔：我认为关于从调查中获得的非常好的可推广(generalizable)数据集有一个柏拉图式的想法，即认为有一个百分之百的[关于总体的]承诺和一个可以从中进行完美概括的漂亮的随机样本。那个世界已经不存在了，在某些意义上，从未存在过。我想在某些情况下是有一种通过调查建立普遍性的努力，努力试着提高[问卷的]回复率、调整权值，以及更多的努力。但我认为有几件事。一个是这样的世界并不存在，而且从未真正存在过。第二个是，只因为你有一个完美的锤子不意味着你不再需要一个不完美的螺丝刀。这种似乎是完美的调查工具非常好，但它并不回答所有的问题。第三个是，我认为在某种程度上，获取公众舆论的典型方法对建立社会理论来说是破坏性的，因为它强调观察的独立性。这是一个统计假设，但是它也变得嵌入了社会理论之中。另外，相比于随情境而异的东西，它更强调总体上可推广的东西。我越来越确信一种我称为基于床单(quilt-based)的建立可推广的知识的方法。床单就是将很多方块缝制在一起做成的毯子。我们需要建立更多的特定情境中的社会科学，在这些情境中，我们知道事情是如何运转的。这些情境因素以及测量这些情境的方法允许我们在其他的情境中做类似的研究，以一种传统的调查研究所忽略的方式理解情境与个人之间的相互作用，虽然利用调查也可以做这些。调查没有什么固有的缺陷，只是看起来很强大的全国性调查实际上最后将你所研究的收缩到了一个人类现象的非常小的子集之上，结果忽略了很多我们应该研究的。

典型的科学研究努力提出一些可推广的结论，人们想做可以在不同的地方重复的研究。有些平台已经足够有趣，在那里你可以说，我知道Facebook在2016年是如何影响人们的投票行为的。如果这是你做的全部，现在这实际上并非无关紧要，因为Facebook已经非常大而且很有影响力，但这在科学上并没有那么令人兴奋。不幸的是，社会科学还没有对[研究结果的]确认、重复和复制给予足够的重视。显然，考虑重复的多种方式，可能将你的数据放在那里让其他人重复你的发现直到小数点，等等。所有这些都应该成为这个领域的实践，以此提高我们的可推广的知识的可靠性，这就是我们希望得到的。

沃茨：我认为我们可能有很多与在心理学中出现的相同的问题，可能有很多误报(false positives)。关于重复研究结果、预登记(pre-register)假设、区分探索性(exploratory)研究和验证性(confirmatory)研究，我们应该更认真，要澄清我们的声称。这被证明是真正困难的，需要非常多的努力。大概从去年开始，我们在这里试着将之付诸行动。说实话，非常痛苦。每件事情都是两倍的工作，而且可能无法重复，这发生在了我们身上。我们在一个特别复杂的项目上花了两年时间，在这个项目里我们将机器学习方法用于大量的Email数据，尝试预测员工的满意度。第一年，在我们的数据上运行了所有模型，得到了一些非常有趣的结果并且就要发表。然后，我们想应该认真对待这些，修正这些模型。最后，新数据来了，是一个完全的失败。模型的表现崩溃了，它变得与噪音无异。我们不完全知道为什么，但可能是因为人们改变了他们使用Email的方式。现在我们将要怎么做?我们不能发表它。人们谈论重复的重要性，但是他们不会发表一些什么都没有发现的东西。我们认为我们发现了一些东西，然后结果是我们并没有，结束。没有人会发表这些!这真的是不好的激励。我们实际上做了诚实的事情，我们认为这是要做的正确的事情，这是应该做的事情，这是好的科学。但结果是我们至少做了两倍的工作，却没有得到结果。我想人们还没有真的领会到让人们做对的事情有多难，因为你不得不因此而奖励他们，然而整个系统被设计得只发表积极的发现。即使人们说这非常好，他们想要[结果的]可重复性成为研究的首要标准，但我们只想要结果能够被重复。我认为这将是一个比人们现在所理解的大得多的挑战。有太多不同的作弊的方式，而且大部分人甚至都没有意识到他们在作弊，我肯定没有。在几年之前，我甚至从没有真的想过重复[研究结果]，没有人问过你这件事。当你为期刊评审文章，他们从来不说，可重复性甚至都不在你应该考虑的事情的列表上。这在人们的认识之外，这不是任何人的训练的一部分，也不是任何奖励方案的一部分。所以，我认为这会非常、非常困难，但我认为如果有任何地方我们可以这样做，我们可以在计算社会科学中做，它更接近这些事情是如何完成的。

4 计算社会科学所面临的主要挑战是什么?

问：作为一个新兴的跨学科研究领域，计算社会科学在数据获取、合作方式、研究体制等方面均面临诸多挑战。厘清这些挑战，将有利于计算社会科学更快、更好地发展。您认为计算社会科学面临的主要挑战是什么?

穆迪：计算社会学的主要挑战在于我们的合作者往往是计算机科学家，而计算机科学有与社会学家非常不同的发表模式。计算机科学在会议上发表，而且是以摘要的形式发表，这些对他们的晋升很重要。但在大多数社会科学学科中并非如此，这在合作者之间如何进行工作的方式上造成了张力。试着去连接[这两种工作方式]是最困难的事，我认为找到这样做的方法是一个真正的挑战。

梅西：我认为有时候有一个词汇上的不匹配，我们用不同的术语来指同一个事物。不同的术语之间也有差异，因为我们对不同的事物感兴趣。所以，当我们从一个学科跨越到另一个学科的时候，有词汇差异的问题，词汇所指的实体同样有差异，所使用的技能也有所不同。所有这三个互动的障碍都很容易克服，只需要一点点努力。你不得不坐下来学习其他人所用的术语，你得学习其他人正在用而你也需要用的技能。我认为学习词汇除了让沟通变得更简单没有太多其他用处，但学习技能肯定是有用的。它使你能够做你可能做不了的事情，或者至少不能如此高效率地做。跨越学科界限的工作是扩大一个人的能力箱和工具箱、拓展一个人的词汇的机会。

巴拉巴西：这取决于你的工具箱。我可以主要说说我自己[所面临的]，在我看来，主要来自数据方面。其中的一个显然是以一种创造性的方式获取大规模和更为综合的数据集。到目前为止计算社会科学，和我所来自的网络科学，专注于获取某一层面的数据并从中挖掘大量的信息。但是人类常常是复杂的，并不是只有一维[因素]影响你的行为，而是有多维[因素]影响你的行为。大多数人类行为并不是简单的网络行为，而是一个网络行为的网络。我们应该开始学习收集决定人们决策的多种因素以及我们身在其中的多重网络的信息，从而超越单一网络的方法，以形成一种多层的方法，这是问题的一个方面。[另一方面是]，获取正确类型的数据，获取动态变化的数据。不只是谁与谁连接，而是这种信息是如何被使用的。这通常被称为时序网络故事，但也是一个动态故事——事情是如何随时间变化的。然后，当然是发展理论来捕捉这种动态性。

齐奥菲-雷维利亚：主要的挑战在于，计算社会科学不仅是多学科的，而且是跨学科的。也就是说，除了将不同的学科引入对我们所研究的问题的建模过程，除了将不同学科的知识一起引入同一个项目或同一个模型，当所有这些都放在一起的时候你可以获益更多。将多学科知识结合为跨学科知识是一个非常大的挑战，这并非易事。它需要的不只是对另一个领域的知识有些熟悉，你不得不深入到更多的细节，而且要对不同的领域中理论是如何工作的有更深的理解。计算模型在推进这些上面非常好，因为计算模型不在乎有些东西是经济学的、政治学的、心理学的、社会学的抑或是地理学的，它只是数据和代码。另一个挑战是，因为这个领域正在以非常快地速度爆炸——发展得非常、非常快，追踪最新近的工作是一个真正的挑战。当然，像往常一样，阅读主要的期刊非常重要，但是也要去参加会议，因为一切都是在那里发生的，最新近的想法在那里展示。这是一个非常大的挑战。

拉泽尔：我认为马基雅维利有一句非常好的名言，大意是没有什么比事物的一种潜在的新秩序更具威胁性或挑战性。研究机构和学术界都非常保守，而且这是有原因的。因为有人在某种做事情的特定方式上已经花费了数十年，所以你不会对那些已经50岁，现在管理着这个领域的社会科学家说“是的，你知道吗?我们应该开始编程。我们不应该主要看电子表格上的数据，我们需要用自动化的方法获取文本，你应该关注手机[上的数据]。”像我这样年纪的人是在[基于]电子表格的社会科学中被训练的，这类研究仍然会存在下去。但是，现在它不应该占定量社会科学的90％，它应该占20％。这对现在管理着这个领域的人来说是一个问题。所以我认为挑战来自如何引导资源和优先性，如何面对学术界中对这些方法的质疑，以及如何训练博士生。我们是在训练社会科学家如何编程吗?答案是，从我还是研究生的时候[到现在]，我们已经取得了很大的进展。因为我们现在有R语言等等，但即使是这种工具也并非非常适合[现在]这种规模和复杂性。而且我们真的没有在训练太多的研究生，我们没有严格的课程体系。我的意思是，我们应该思考为社会科学家设置一整套的编程课程，因为你作为一个社会科学家需要做的与作为一个计算机科学家需要作的有些不同。有很多计算机科学家在做社会科学，他们做这些并非有人应该做，而仅仅是因为他们在技术上是能胜任的。他们不是社会科学家，他们处理关于人类行为的数据的事实并不使他们成为社会科学家，这种工作将计算机科学家和社会学家联系起来。我们有具备计算能力但没有社会科学洞察力的人，反之亦然。所以，连接这种分隔和制度障碍，将这些放在一些单个的人身上，那是一个非常大的阻碍。

沃茨：我认为第一个挑战是，跨学科的工作在学术世界里一直非常难做。大学系统非常、非常深地根植于学科化的院系之上，任何人要脱离这个系统都非常困难。因为大学、期刊、资助机构，它们都是基于学科的，而且它们都保持彼此锁定在这种平衡之中。如果你在一个大学的经济学系里是一个助理教授，那么你获取终身教职的途径就是在特定的期刊上发表文章。这些期刊对于什么属于它有非常具体的观点。你所申请的资助机构，那里也会有一群试着在同样的期刊上发表文章的其他经济学家，他们对什么[申请基金]有价值也有非常具体的想法。如果你决定离开这块保留地去做一些不同的事情，那你的文章将不会在这些期刊上发表，你不会从这些资助机构中得到基金支持，你也无法获得终身教职。如果你的院系说，你不必做任何这种事情，那么他们应该怎么评价你?那是他们知道的唯一方式。我认为这是这种研究如此难以扎根的一大原因。

另一个大的挑战是现在变得更难获取数据了，而且这种事情的发生有着非常有意思的原因。人们对隐私的关注大大提高了，有一些丑闻成为媒体头条，其中包括几年前的Facebook丑闻②。这些公司的律师和公共关系人员看到这些事情就会想，“为什么我们会冒这种风险?我们从中一无所获，我们所关注的一切都可以在内部进行。把数据分享给学术界对我们的好处非常少，或许我们能得到一点温暖、模糊的‘我们在帮助科学’的感觉，但这仅仅是在一切都没有出错的情况下。当任何事情一旦出错，那就是一个灾难。”我认为，比起10年之前，我们看到学术界和公司之间的合作甚至更少了。这很糟糕。10年之前，关于数据最大的担忧是不具有代表性。10年之前，有人用Email数据研究社会网络，人们说Email是个奇怪的东西，只有特定的人才有。现在每个人都有Email，所以这个问题就自己消失了。但是其他问题并没有，有些还变得更糟了。有一个变得更糟的问题是，现在很多这种公司开始优化他们向用户呈现内容的方式。这非常合理，因为你试图提高你的用户的参与度，所以你想向他们呈现你认为他们会最感兴趣的东西。但如果你是一个社会科学家的话，那种算法的干预混淆了你所要研究的问题。可能大量的这类数据对我们所感兴趣的问题已经没用了。我们不得不重新思考我们将如何得到我们所需要的数据，因为市场没有解决这个问题。要么我们找到更好的建立学术-产业合作关系的方式，或者学术界不得不建立它自己的数据设施。可能我们需要做一些两者的结合，但是它们都非常困难、非常昂贵，而且现在社会科学并没有资助这类事情的经费预算。

可能第二个问题也就是我们如何获得数据的解决方案是将其塑造为人们所关心的问题的解决方法。如果我们开始解决人们所关心的问题，我们可能也会开始得到解决问题的资源。这最后一点将前面两点联系在了一起，因为如果你真的试着去解决一个问题，你将需要所有人、所有学科、所有方法一起工作。你将需要计算机科学家和社会学家、经济学家和心理学家以及其他人，因为他们都有拼图的不同零片。如果你要解决一个问题，你将需要正确的数据，你将需要建立数据生成平台以帮助你理解事情、提出解决方案。你将需要做预测，并且需要测试它们，你将需要验证你的理论。现在很多关于科学的可重复性和可靠性的问题都可以通过强迫你的解释做预测和解决问题来减轻。这些中没有一个是计算社会科学所特有的，我们可以在50年前讨论这些问题。但是我认为，计算社会科学是一个自然地得到所有这些事情的向量，因为它它是经验性的、跨学科的，而且是新的。它没有像有些其他传统学科一样被几十年的传统和惯性拖住。我们可以做想对它做的，所以我们可能也让它变得有用。我想说这是三个主要的挑战。

5 计算社会科学的发展前景如何?

问：对于新兴的研究领域，其发展前景始终是人们关注的重点。对计算社会科学发展的前景，您有什么看法?

埃文斯：我想我的观点和马修·萨尔甘尼克(Matthew Salganik)③是相同的，也就是在将来我们仍会有各个学科，并非所有人都会聚集在一起去做一件事。计算社会科学依然会是一个活跃的社群，但是好的计算社会科学也会就是好的社会科学。这些方法中的一些每个人都会开始用，我们会教给从我们系获得学位的所有人。在某些方面，我认为好的计算社会科学将会成为我们学科中特定种类的工作的标准。而且它也不会再被称为计算社会科学，因为每个人都在做。

巴拉巴西：我认为计算社会科学作为一个研究领域会非常成功，因为它在解决一个真正的问题。它要解决的问题存在，而且数据是可以获取的，解决问题的工具也是可以获取的，这些是一个领域所需要的特质。计算社会科学作为一个领域会有多成功，不仅取决于这些因素，还取决关键的研究者以及他们怎样推进他们的游戏。这是一个社会游戏，与科学无关。这实际上是要看这些领导者们能把这个故事经营得多好，以及他们能怎样构建他们的社群。目前为止，一些迹象表明他们正在正确的方向上前进。我认为随着时间的推移，我们将会有越来越多的数据和更多的问题进入社会世界，而解决这些问题的唯一方式是利用计算。因此，我没有看到这个领域会因为没有有趣的问题要问而消亡的可能性。由于我们沟通的方式随技术发展，会有新的问题出现。社会机器人将开始沟通，之后会围绕它们怎样做以及会怎样影响我们提出大量的新问题。我们不在场而只有计算机在沟通，关于那是怎样发生的会是一个有趣的问题。从这个角度看，计算社会科学具有长期的潜力，因为它要解决的议题是真实的，而且它所用的方法也是不可避免的。没有计算工具，你将无法解决大的社会问题。所以，那就是计算社会科学。

沃茨：计算社会科学现在看起来已经非常好了!它以如此快的速度从一种边缘的活动成为每个人都想要的东西，令我非常吃惊。每个人都想要他们的计算社会科学的东西。这与数据科学一起发生，而且在某种程度上，计算社会科学是骑在数据科学的背上。在某些方面，它甚至发生得更快。那篇文章④在8年前发表，那时还没人真的听说过。现在，有从博士项目毕业的人说他们在计算社会科学中完成他们的博士研究。这发生得很快!我们现在已经连续三年举办一个非常好的国际会议⑤，第四届已经在筹办。在学术领域渴望的成功的传统标志方面，计算社会科学现在做得非常好。更有趣的问题是，它可以比这更好吗?几十年来，人们都在发表行动倡议号召社会科学改革自身，还有各种要求研究可重复性的倡议，这周刚好有一篇号召促进产业界与学术界之间合作研究的可重复性的论文⑥发表出来，我也是作者之一。有很多这样的行动倡议，人们对此非常热情。可能这次会有所不同，可能现在有足够的热情使事情真的改变。学术世界有着巨大的惯性，非常、非常抗拒改变，因为这很困难。每个人做他们正在做的事都做得非常好，你让他们改变，但是他们能从中得到什么并不清楚。这不仅仅是一个动机问题，你已被你所被训练的方式训练，你知道你所知道的。我想即使人们真诚地想要改变，他们也不知道应如何改变，他们只知道以他们所知道的方式做事。要改变真的非常困难。比起我能想起的任何其他时候，现在确实看起来对于改变有更为热情和广泛的支持。我满怀希望我们把所有的能量都投入实际的改变中。我不知道，我在乐观和消极之间摇摆。我会想“这将会非常好，我们将会改变世界!”，然后我又会想“啊，可能不会。”以前人们想过这些，而每个人还是在做他们正在做的。再一次，回答你的问题，计算社会科学可能会很好，我们做得非常好，会有工作，会有期刊和资助项目，所有这些都会发生。但是它会比这更好吗?我们会使事情有所不同吗?这会很难。对我来说，这是目标，我对其他事情不那么感兴趣。

注释：

①即Lazer D,Pentland A,Adamic L,et al.Computational social science[J].Science,2009,323(5915):721-723.

②指2012年1月，亚当·克莱默(Adam D.Kramer)等人在没有征得同意的情况下对约70万Facebook用户进行的情绪传染实验。该实验通过隐藏一小部分带有正面或负面情绪的内容，来研究Facebook上的内容对用户情绪的影响。研究结果发表于PNAS:Kramer A D,Guillory J E,Hancock J T.Experimental evidence of massive-scale emotional contagion through social networks[J].Proceedings of the National Academy of Sciences of the United States of America,2014,111(24):8788-8790.

③计算社会科学领域的重要研究者，普林斯顿大学社会学系教授，其所著的计算社会科学介绍性专著Bit by Bit：Social Research in the Digital Age被芝加哥大学、普林斯顿大学等多所知名高校的计算社会科学相关课程或研究生项目作为教科书。

④指前述拉泽尔等人于2009年发表于《科学》期刊上的论文。

⑤指“计算社会科学国际会议”(International Conference on Computational Social Science，IC2S2)，第三届于2017年7月10日-13日在德国科隆举行。

⑥即Jasny B R,Wigginton N,Mcnutt M,et al.Fostering reproducibility in industry-academia research[J].Science,2017,357(6353):759-761.

韩军徽李正风：计算社会科学：涵义、特点与前景

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏

韩军徽 李正风：计算社会科学：涵义、特点与前景

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏

韩军徽李正风：计算社会科学：涵义、特点与前景