学术看板
学术看板

正则表达在语言数据处理中的应用


来源:汉语言文献研究所   |  文字:孟蓬生
编辑: 刘晓琪   |  审核:田丽

题 目:正则表达在语言数据处理中的应用

时 间:2025年12月25日(星期四)9:00

主讲人:吴锋文

地 点:文献所336教室

主办单位:汉语言文献研究所

主讲人简介:吴锋文,语言学博士,四川外国语大学中国语言文化学院教授。研究兴趣涉及汉语语法、中文信息处理、词汇语义学及数字人文。

讲座简介:

本报告聚焦正则表达式在语言数据处理的应用,旨在为语言学研究者提供高效处理语言(含古代汉语)文本数据的实用方法与技巧。首先从正则表达式的基础概念入手,阐明其在海量语言数据中实现精准定位、批量操作的核心优势,可大幅提升数据处理效率与准确性;深入解析正则表达式的灵魂——元字符(匹配符、量化符、定位符)的核心功能与组合逻辑,为实操应用筑牢基础;并结合文本检索与数据清洗两大核心实操场景,具象化应用方法;最后通过汉语语法(如提取“把”“被”字句、关联标记)、古代汉语(如统计古籍虚词频次)的典型案例,完整呈现其在语言学研究中的高效应用路径,助力语言研究者快速掌握这一提升科研与教学效率的关键工具。
1.初识正则表达式;
2.正则表达式的灵魂:元字符;
3.文本检索与数据清洗;
4.场景典型案例评析。

书记校长信箱