2019年3月31日,第二届清华大学–复旦大学“大数据、机器学习在社会科学中的应用”联合工作坊(The 2nd THU-FDU Joint Workshop: How Applications of AI and Big Data Drive Social Science Research )在清华大学双清大厦4号楼4层报告厅成功举办。工作坊旨在介绍大数据和人工智能在社科研究中应用的新进展,促进各校研究者的跨学科合作。会议由复旦大学经济系陈硕教授和清华大学政治学系孟天广副教授倡议组织,上一届于2018年4月在复旦大学召开。本次第二届工作坊邀请了来自复旦大学、清华大学、北京大学、中央财经大学、中国社会科学院及业界的学者参加,现场听众云集,讨论热烈。

会议开始后,首先由清华政治学系的孟天广教授代表组织方致辞,欢迎大家来到清华分享研究,并对工作坊进行了简要介绍。

上午的会议仍由清华大学孟天广教授主持,会议的第一个报告由复旦大学全球公共政策研究院的钱浩祺带来,他的论文 “Measuring Nonemployment Rate Using Mobile Phone Data”聚焦于通过手机数据测量失业率。钱浩祺老师与商业电信公司合作,利用电信电话数据信息构建访问频率模型,随后使用无监督机器学习识别和聚类,在此基础上构建失业率的测量指标。研究巧妙地利用个人行为数据对经济社会指标实现了替代性测量,未来还计划在时间与空间上进一步扩展应用。
接着,北京大学社会研究中心的周羿报告了他与BBD的首席经济学家陈沁的合作研究,论文“Whose Trade Follows the Flag? Institutional Constraints and Economic Responses to Bilateral Relations”关注贸易行为对国家双边关系回应的多样性及其逻辑。研究综合使用了IDEA数据库的稀有事件数据、UN Comtrade数据和UDS评分数据,发现贸易选择的确受到双边关系的影响,而贸易选择的差异部分来源于决策者受到的内部和外部制度约束。独裁国家的贸易更加遵循政治的旗帜,而民主国家的进口更加独立。此外,世贸组织成员国可以逐步限制民主国家干预进口,但对独裁国家影响不大。
此后,复旦大学大数据学院的魏忠钰老师分享了“对话式论辩性文本分析方法及其应用研究”,聚焦论辩式文本信息挖掘的方法创新。考虑到论辩式文本在论述方式与讨论内容上的多角度与语境关联特征,魏老师提出了结合话题的离散论辩性文本表示方法,并以论辩性交互文本分析和质量评估的验证为基础证明了模型的有效性。
然后,中央财经大学李兵老师报告了题为“媒体报道倾向的供给与需求:基于中国地方报纸文本的大数据分析”的研究,论文从供给方与需求方两个方面着手分析了媒体报道倾向的生成原因。研究认为,从倾向产生的供给方面考虑,党管媒体促使报纸报道倾向反映领导人偏好,当地媒体会更多报道领导人的家乡,而从需求方考虑,市场化的盈利动力促使报纸关注流动人口,更多报道流入本地流动人口的家乡,同时两种倾向之间存在替代性。因此政治宣传目标与市场化目标如何同时实现需要政策制定者斟酌考量。

随后,由清华政治学系的博士后赵金旭博士作报告。他和金炜玲博士对中国裁判文书网36614份涉性犯罪案件判决文书进行编码,从年龄、性别、教育水平,作案人数和出身世代等个体微观层面,以及经济发展、城市化与城乡差距、性别和婚姻状况等社会层面进行描述性统计分析,得出个体变量对不同类型有不同影响,经济发展影响涉及卖淫罪的结论。
上午的最后一个报告,由中华女子学院周旅军老师报告了他和中国社会科学院吕鹏老师合作的“代码的代价:对搜索引擎中性别歧视信息再现的比较研究”。他们通过招募参与者进行实验,搜索引擎本身是否有自我偏见等一系列问题,考察检索结果排序、广告组件性质和负面报道比例等计算指标是否存在性别偏见。作者希望在未来能够建立标注性别偏见语料库,促进文本审核中新增性别偏见选项,以减少民众接触到偏见信息。
下午的工作坊会议由BBD的首席经济学家陈沁老师主持。第一场报告是由北京大学董浩老师带来的“历史人口行政大数据与家庭行为研究”。首先,董浩老师讲述了历史人口微观数据的供给与重要性的在世界范围内扩大,接下来介绍了五个新的东亚人口数据库,并以日本为例介绍了数据库建设的新进发展,演示了从数据中发掘人口学信息的具体路径。

随后,清华大学政治学系孟天广老师与其博士生杨泽森汇报了题为“Internet-Driven Accountability: Variety of Responsive Institutions and Quality of Responsiveness in China”的研究,其关注中国省级党政机构的网络留言回应制度对回应质量的影响。他们使用有监督的机器学习技术识别回复质量,并提出了回应制度的分析框架。研究发现,具有更高政治权威、更直接责任性的回应机构对回应质量具有积极的影响,同时制度化程度影响回复速度,领导人的示范行为则影响回复质量。
此后,复旦大学国际关系与公共事务学院李辉与复旦大学公共卫生学院杨肖光两位老师分享了“谁贪污,谁受贿?基于起诉书文本数据的实证分析”。李辉老师将腐败进一步细化为自体腐败和交易型腐败,交易型腐败以行贿受贿为主,以金钱追逐权力;自体腐败以贪污和挪用公款为主,以权力追逐金钱。通过分析最高人民检察院信息公开网的1547525份起诉文书,认为在个体层面上,女性更容易卷入自体腐败,男性更多涉足交易型腐败;农村基层政权更容易发生自体腐败,城市中更多发生交易型腐败。在地区层面上,市场化程度高和经济发展水平比较高的地区更容易发生交易型腐败;政府规模比较大的地区更容易发生自体腐败。
然后,清华大学公共管理学院博士后陈思丞紧接着分享了与合作者的研究“Treading on thin ice: Explaining the Length of Ministerial Tenure in China”。他们以部长级别作为切入视角,分析毛泽东时代影响部长级别任期长短的影响因素,尤其是把领导人批示纳入分析;研究发现,在毛时代,担任部长时长与受到批示的次数显著相关,派系原因在任期当中没有起到显著影响,其可能原因是毛泽东时期党更看重干部的能力,并且在这阶段对于派系进行了打击。
过后,BBD首席经济学家陈沁介绍其使用大数据对中美贸易摩擦的最新研究。他综合使用美国进出口商品数据、中国海关进出口数据、招聘市场数据、以及工业企业和上市公司数据,基于准实验研究设计评估中美贸易摩擦对两国造成的影响,研究结果精确估计了两国就业市场的受波及程度。
最后,北京大学社会研究中心、北京大学政府管理学院的陆风鸣老师带来“Who Wins Approval from Medium-level Elites? A Survey Experiment on Elite Selection in China”。论文聚焦中层政治精英对选拔人才的偏好。论文使用调查实验的方法,以在大学接受短期培训的300余位干部为实验对象。基于随机生成干部简历,通过询问实验对象有关政治选择的问题。发现中层精英更加偏好提拔有能力的精英。这对于理解党内民主与干部选拔具有重要意义。

最后一场报告是清华大学政治学系助理教授胡悦博士的课题“Strategic Communication: Why the Chinese Government Engages in Discourse about Democracy and why it Matters”。这项研究以无监督机器学习方法探索人民日报语料库中对民主的陈述特征,希望探究有关政府陈述民主话语的策略和动力,并对民主这个词如何推广的实现动态理解。
工作坊在热烈的讨论声中结束,高强度的学术交流与交锋受到与会者的好评。
(王烨整理)