动态新闻

通知公告 更多…
我系副教授胡悦受邀出席傅璇琮学术讲座并做主题发言:计算机辅助文本分析概论

2021-07-26

2021年7月24日下午,“傅璇琮学术讲座”第二十四讲在清华大学蒙民伟人文楼124室举行。应清华大学中文系邀请,清华大学政治学系副教授胡悦作了题为“计算机辅助文本分析概论”的主题讲座。此次讲座由清华大学中文系副教授李飞跃主持,北京邮电大学人文学院武永老师及数十名校内外师生出席。

李飞跃老师首先对胡悦老师的到来表示欢迎,并简要介绍了胡老师在政治学研究与R开源软件研发方面取得的成就。李老师指出,新世纪以来,人文社科研究的计量转向愈发明显,“计算机+”已成为新兴和交叉学科的主流。希望通过此次讲座,同学们能进一步了解计算机辅助处理文本的原理与方法,实现技术方法与研究对象、问题需求的对接。胡悦老师首先介绍了自己从事计算机辅助文本分析的经历,鉴于多数同学因不能理解技术原理而发生误解和误用,因而此讲主要帮助同学们了解计算机辅助文本分析的基本理论和方法。

讲座前半部分,胡悦老师介绍了文本分析方法的沿革与适用范围,并结合典型案例展示了文本分析从数据获取到成果展示的过程及近年的技术进步。胡老师以“见字如数”为题,解释了文本是怎样转化成数的。计算机辅助文本的分析对象不是文字本身,而是文字承载的语言,其与文字学的关系远不如与语言学的关系紧密。因此,理解文本分析目的在于寻找文本自身的规律,而非文本的潜层规律。胡老师指出,计算机辅助分析技术面对的最大挑战是如何明确研究者的主体地位,即“我可以用电脑做什么,而电脑不能代替我做什么”。随后,胡老师通过几项分析方法实例,展示了使用文本分析技术可以探讨什么类型的问题、介绍了社会科学领域常用的文本分析方法。

图片

讲座的后半部分,胡老师以“化字为数”为题,针对文本使用者讨论操作原则和技巧,诸如从哪里获取数据、如何获取数据、文本数据分析的统计学原理和基础技巧等。胡老师着重强调了文本分析的基本原则:一,所有现存的关于语言的定量模型都是有偏误的,但不乏能提供有用的信息、有帮助的结果,计算机无法理解人类语言,但其总结的规律一定程度上可以帮助人更好理解文本;二,文本的定量模型旨在增强人(作为主体)的辨识范围与能力,研究要以人为核心,计算结果对结论的影响远没有研究者调参等初始决定赋值的影响大;三,不存在通行的文本分析最优模型,只存在针对不同研究问题的不同模型的最优选择;四,研究者需对计算机给出结果根据理论和常识进行反复确认。

最后,胡老师指出,前沿文本分析技术从打散文本到重新聚合,包括document之内与跨document的分析,并大致可分为文字分析(词频分析、信息提取、情感标记、语义网络等)与文本分析(文本分类、主体分析、语义联系等)两类,在人文研究领域大有可为、未来可期。

图片

李飞跃老师对本场讲座做了总结,感谢胡老师运用精彩生动的语言和案例系统介绍了计算机辅助文本分析的技术原理和基本方法,给我们的人文研究提供了新的路径,打开了新的界面。计算机辅助文本分析技术不仅给我们以技术方法的帮助,还启发我们要有数据思维,将习惯的定性方法进行抽样分析与用量化方法进行整体分析结合起来。正如“所有模型都是错的,但有些是有用的”一样,学术研究是通过不断证伪来推进的,我们都在从各自角度来改进算法和优化认知模型。计算机技术与方法为我们带来了透视文本的多维视角,这与基于经验感悟的传统方法正可相互校验、相互发明。“纸上得来终觉浅,绝知此事要躬行”,希望大家带着问题与需求,将研究对象与技术方法相铆合,学会协作,在实操中更加深入地理解、掌握计算机辅助文本分析的基本原理和技术方法。讲座结束后,胡悦老师又与在座师生就相关问题作了热烈交流。

文/清华大学中文系2021级硕士生韩娅非


联系我们

电话:010-62780582

邮箱:skxy@tsinghua.edu.cn

地址:北京海淀区清华园1号

邮编:100084

Copyright© 2002 - 2020 清华大学社会科学学院