本书面向政务服务精准化,以政策内容挖掘与价值作用发挥的研究脉络为主线,基于深度学习和自然语言理解等技术,从政策文本结构化解析、自动摘要生成以及政策文本精准推送三个层面,系统研究了其中的理论基础、技术方案和实证优化策略。本书研究探索了从“政策文本信息处理”到“政策主旨内涵把握”的理论框架和技术方案,拓展了政策文本挖掘与理解研究的深度和范畴,创新了政策文本研究的理论与方法体系。
更多科学出版社服务,请扫码获取。
200309-200706 武汉大学 电子商务 本科、学士
200709-201206 武汉大学 信息资源管理(硕博连读) 研究生、博士201206-201408 武汉大学 师资博士后
201211-201602 武汉大学 讲师
201508-201608 美国肯特州立大学 访问学者
201602-202111 武汉大学 副教授
202111-至今 武汉大学 教授
202303-至今 国家自然科学基金委员会 流动项目主任信息资源管理1. 作为通讯作者、第一作者发表论文99篇,其中SCI检索10篇、SSCI检索18篇、EI检索1篇,CSSCI检索61篇、其他核心期刊检索4篇。
2. 代表性论文
Hu Jiming, Yang Zexian, Wang JiaMin, et al. Examining the Structure of MPs in the UK-China Relationship using Speech-Word Pair Bipartite Networks[J]. Aslib Journal of Information Management, 2024.3(SCI/SSCI ,IF:2.5,JCR2区)
Yang Jinqing, Lu Wei, Hu Jiming*, et al. A novel emerging topic detection method: A knowledge ecology perspectives[J]. Information Processing & Management, 2022,59(2):102843.(SCI/SSCI,IF:7.3,JCR1区)
Lu Wei,
目录
第1章 政策文本研究进展与挖掘方案设计 1
1.1 政策文本研究的脉络梳理 1
1.2 政策文本深度挖掘与应用研究方案 12
1.3 政策文本深度挖掘与应用研究的价值 15
第2章 面向主题挖掘的政策文本结构化解析 16
2.1 跨学科支撑下的政策文本结构化分析 16
2.2 政策文本结构化解析的研究方案 33
2.3 政策文本结构化解析框架与技术路线 36
2.4 政策文本结构化解析的技术应用 46
2.5 总结与展望 60
第3章 基于多维特征融合的政策文本语义增强表示 63
3.1 融合多维特征的政策文本表示方案 63
3.2 政策主题挖掘与文本向量生成 65
3.3 政策文本中的实体特征提取 68
3.4 基于预训练语言模型的政策文本增强表示 77
3.5 总结与展望 83
第4章 政策文本生成式摘要模型构建与技术实现 86
4.1 面向深层次挖掘的政策文本摘要生成研究 86
4.2 政策文本摘要生成的研究方案 97
4.3 面向摘要生成的政策文本关键语句抽取 105
4.4 基于依存句法的政策文本摘要生成模型 112
4.5 融合PGN 的政策文本摘要生成优化 122
4.6 领域政策文本摘要生成实证研究 128
4.7 总结与展望 141
第5章 政策文本精准推送模型构建与技术实现 145
5.1 政府文本精准推送研究的背景与价值 145
5.2 政策文本推送研究的发展趋势 149
5.3 政策文本精准推送的研究方案 157
5.4 基于多维特征的政策用户画像生成 162
5.5 基于特征聚类的政策推送关系标注 167
5.6 基于特征注意力的政策文本精准推送模型 171
5.7 政策精准推送实证研究 173
5.8 总结与展望 194
图目录
图1-1 研究内容设计 12
图2-1 政策文本结构化解析研究方案 33
图2-2 基于框架语义的结构化语义框架 40
图2-3 结构化解析框架搭建思路 41
图2-4 LDA2Vec主题抽取模型 44
图2-5 LDA主题模型 45
图2-6 政策发文机构统计 55
图2-7 政策主题统计 56
图2-8 典型案例政策引用关系图 57
图3-1 融合多维特征的政策文本向量表示方案 64
图3-2 政策主题挖掘与文本向量生成框架 65
图3-3 基于LDA模型的政策文本主题挖掘结构 66
图3-4 基于主题分布的文本向量生成 68
图3-5 BiLSTM-CRF政策实体识别模型 72
图3-6 LSTM单元结构 72
图3-7 LSTM链式结构 74
图3-8 BiLSTM网络结构 74
图3-9 CRF模型 74
图3-10 BERT模型结构图 78
图3-11 无监督的SimCSE模型 81
图3-12 PV-DM 结构 82
图4-1 政策文本摘要生成研究内容 100
图4-2 政策文本摘要生成研究策略 103
图4-3 基于深度学习的政策文本摘要生成研究框架 104
图4-4 基于句向量改进的政策文本关键句子抽取策略 106
图4-5 基于句子重要性分数计算的政策文本关键句子抽取流程 106
图4-6 基于依存句法的生成式政策文本自动摘要模型 113
图4-7 政策文本依存句法树示例 115
图4-8 依存句法树对应的邻接矩阵 116
图4-9 图卷积操作示例 118
图4-10 基于Seq2Seq的政策文本自动摘要模型 121
图4-11 融合PGN的政策文本自动摘要模型 124
图4-12 政策文本摘要评分模型 126
图4-13 政策文本采集结果示例 130
图4-14 政策文本摘要数据集平均字数分布情况 133
图4-15 不同政策文本摘要生成模型ROUGE 指标分数柱状图 137
图5-1 政策文本精准推送研究框架 161
图5-2 政策用户画像的指标体系结构图 165
图5-3 政策用户特征交集 169
图5-4 政策及用户推送关系标注 170
图5-5 基于深度神经网络的政策推送模型 172
图5-6 YEDDA标注示例 178
图5-7 助残政策词向量 184
图5-8 助残政策用户画像指标体系结构图 186
图5-9 基于残疾人特征的用户聚类 189
表目录
表2-1 政策文本通用特征 42
表2-2 政策主题-词分布 46
表2-3 政策文本结构化解析通用框架 46
表2-4 “互联网+”政策外部属性特征表 49
表2-5 LDA主题抽取词组表 50
表2-6 Doc2Vec模型参数设置 50
表2-7 “互联网+”政策文本结构化解析框架 51
表2-8 案例文本主题-文档距离值表 52
表2-9 《国务院办公厅关于促进“互联网+医疗健康”发展的意见》结构化解析框架 52
表2-10 被引用政策数量统计(部分) 58
表3-1 政策实体类别 71
表3-2 实体标签概率分布 75
表4-1 政策文本线索词表 110
表4-2 LTP 句法依存关系类型 115
表4-3 政策文本数据采集信息 129
表4-4 不同的政策文本关键句子抽取方法结果对比 131
表4-5 政策文本摘要数据集单条数据示例 132
表4-6 本地机器与Mist 服务器环境配置 135
表4-7 摘要生成模型参数设置 135
表4-8 不同政策文本摘要生成模型结果对比 136
表4-9 不同政策文本摘要生成模型结果呈现 139
表5-1 残疾人政策来源(1952 年至2021 年) 175
表5-2 残疾人数据字段及描述说明 177
表5-3 助残政策中五类实体统计 179
表5-4 命名实体识别模型参数设置 179
表5-5 不同类型实体识别评价结果 180
表5-6 不同模型识别结果对比 181
表5-7 助残政策实体信息表(节选) 181
表5-8 助残政策主题 182
表5-9 助残政策文本基础向量 183
表5-10 残疾人用户向量化示例 187
表5-11 助残政策推送关系表 190
表5-12 助残政策推送模型推送准确率 192
表5-13 助残政策推送结果(政策-用户向) 193
表5-14 助残政策推送结果(用户-政策向) 193