题 目:正则表达在语言数据处理中的应用
时 间:2025年12月25日(星期四)9:00
主讲人:吴锋文
地 点:文献所336教室
主办单位:汉语言文献研究所
主讲人简介:吴锋文,语言学博士,四川外国语大学中国语言文化学院教授。研究兴趣涉及汉语语法、中文信息处理、词汇语义学及数字人文。
讲座简介:
本报告聚焦正则表达式在语言数据处理的应用,旨在为语言学研究者提供高效处理语言(含古代汉语)文本数据的实用方法与技巧。首先从正则表达式的基础概念入手,阐明其在海量语言数据中实现精准定位、批量操作的核心优势,可大幅提升数据处理效率与准确性;深入解析正则表达式的灵魂——元字符(匹配符、量化符、定位符)的核心功能与组合逻辑,为实操应用筑牢基础;并结合文本检索与数据清洗两大核心实操场景,具象化应用方法;最后通过汉语语法(如提取“把”“被”字句、关联标记)、古代汉语(如统计古籍虚词频次)的典型案例,完整呈现其在语言学研究中的高效应用路径,助力语言研究者快速掌握这一提升科研与教学效率的关键工具。
1.初识正则表达式;
2.正则表达式的灵魂:元字符;
3.文本检索与数据清洗;
4.场景典型案例评析。