本教材立足于当下大数据与人工智能时代,图书情报学发展的新方向和新趋势,以数字人文为导向,围绕中文信息处理的特点,从汉字处理、自动分词、词性标注、实体识别、浅层句法分析、知识图谱构建、语义标注、知识检索、机器翻译、预训练模型为主要章节内容,重点围绕人工智能与自然语言处理中的前沿深度学习技术,进行相关内容的重新编写。本教材一方面充分讲解了深度学习在中文信息处理中的具体应用,另一方面围绕每一章,针对每一个知识点,以代码实战的形式,呈现和讲解知识的细节和应用的技巧,使前沿深度学习技术能够落到实处,真正帮助专业学生掌握必备的技术能力。较之已出版的相关教材,本教材最大的创新之处在于,除全面梳理和呈现数字人文与中文信息处理所需技术之外,对每一个知识点相关的应用技术都以具体代码的形式进行了呈现和讲解,使得学生所学所有内容都能够落到实处。另一方面,本教材所关注技术以中文为对象,包含了目前深度学习和自然语言处理的相关教材所不具备的内容,如汉字处理、自动分词内容等。
南京农业大学教授,博导。主持完成和在研国家自然科学基金面上、国家自然科学基金青年、国家社科基金重大项目子课题、江苏省社科基金项目等共计11项。发表SSCI、CSSCI检索论文84篇。以第一作者出版专著三部。江苏高校“青蓝工程”中青年学术带头人,江苏省“333高层次人才培养工程”第三层次培养对象。研究方向为:知识管理与知识发现、Python程序设计与R语言等。
第一章数字人文下的汉字处理
1.1汉字基本知识
1.2汉字编码
1.3汉字处理程序
1.4篆体字自动识别
课后习题
第二章数字人文下的汉语分词
2.1汉语分词基本知识
2.2非物质文化遗产自动分词系统
课后习题
第三章数字人文下的词性自动标注
3.1词性自动标注的基本知识
3.2古文词性自动标注的程序
课后习题
第四章数字人文下的实体识别
4.1命名实体识别概念与基本原理
4.2古文实体识别流程
课后习题
第五章数字人文下的模型预训练
5.1预训练技术的基本知识
5.2预训练方法与评价指标
5.3模型预训练程序
课后习题
第六章数字人文下的知识图谱构建及应用
6.1知识图谱构建的基本知识
6.2基于领域知识图谱的自动问答研究
课后习题
第七章数字人文下的语义标注
7.1语义标注的基本知识
7.2古文语义相似度计算程序
课后习题
第八章数字人文下的文本分类
8.1文本分类基本知识
8.2非物质文化遗产的文本分类程序
课后习题
第九章数字人文下的文本聚类?
9.1文本聚类基本知识
9.2非物质文化遗产的自动聚类
课后习题
第十章数字人文下的机器翻译
10.1机器翻译的基本知识
10.2典籍的汉英和汉白机器翻译程序
课后习题