随着人工智能技术的崛起,在化学研究领域,传统的基于实验和物理模型的方式正在逐渐与基于数据的机器学习范式相融合,加速了化学机制的研究和化学物质的发现。本书对人工智能在化学学科中应用的最新技术发展前沿动态进行较全面的综合性介绍。首先介绍人工智能和机器学习中的一些核心概念以及医药学中使用最广泛的人工智能方法;随后全面深层次地介绍了人工智能技术在药物设计、材料性能预测、功能材料分子设计和有机合成路线设计、自组装化学、天体化学等诸多方面的应用。并讨论了人工智能在科学领域中应用的复杂性与困难以及在科学研究中使用人工智能技术时所面临的挑战以及解决方案。
本书可供化学领域的科研人员、高等院校师生阅读参考,也可作为从事环境、医药、临床诊断等专业技术人员的参考资料。
第1章 计算机科学家 001
1.1 什么是计算科学? 001
1.2 什么是人工智能? 003
1.3 什么是机器学习? 006
参考文献 010
第2章 机器如何学习? 011
2.1 提出问题 011
2.2 收集数据 012
2.3 设置算法 014
2.4 训练流程 016
2.5 克服缺陷 018
2.6 部署算法 021
参考文献 023
第3章 药物化学信息学:药物发现中的机器学习导论 024
3.1 引言 024
3.1.1 人工智能与机器学习024
3.1.2 有监督与无监督学习025
3.2 凡事预则立 026
3.2.1 数据集收集和管理026
3.2.2 模型构建026
3.2.3 主成分分析026
3.2.4 三维空间中的机器学习,“对齐”就是一切027
3.2.5 QSAR 建模的活性范围和分布027
3.2.6 异常值028
3.3 深度学习和神经网络 029
3.4 数学基础 029
3.4.1 “可观测值”和“特征”029
3.4.2 根据描述符比较分子031
3.4.3 模型质量和统计分析033
3.4.4 过度训练和良好描述符的特征034
3.5 机器学习方法 034
3.5.1 k - 最近邻035
3.5.2 线性回归036
3.5.3 决策树和随机森林039
3.5.4 支持向量机044
3.6 总结 048
参考文献 048
第4章 非绝热分子动力学中的机器学习 052
4.1 引言 052
4.2 方法 054
4.2.1 机器学习(ML) 模型054
4.2.2 训练集生成058
4.2.3 波函数相位061
4.2.4 相位校正算法062
4.2.5 表面跳跃动力学063
4.3 示例:亚甲基铵阳离子 064
4.3.1 ML 表面跳跃动力学064
4.3.2 能量守恒065
4.3.3 ML 模型的其他工具066
4.4 结论与展望 070
参考文献 071
第5章 机器学习在科学中的作用——机械同感? 076
5.1 引言 076
5.1.1 历史点滴076
5.1.2 挑战077
5.2 问题和解决 078
5.2.1 需要多少样本来训练AI ?078
5.2.2 正在合并数据库,存在什么困难呢?079
5.2.3 使用化学反应数据库来预测合成路线,但进展甚微。可能出了什么问题?080
5.2.4 数据库太大,训练模型需要花费很长时间。我们又能做些什么呢?081
5.2.5 如何设置参数082
5.2.6 AI 如何学会一些不存在的东西?083
5.2.7 我训练的AI 测试非常漂亮,但现在正在制造垃圾084
5.2.8 AI 解决了方框5.4 中的挑战,它是如何做到的?085
5.2.9 AI 认为篮球运动员导致了全球变暖086
5.2.10 AI 结果显示我的数据只包含噪声,但我认为可能存在某些真实的东西。如何告知我的AI?088
5.2.11 AI 很好,直到我找到了一些额外的数据;为什么数据让情况变得更糟,而不是更好?088
5.2.12 虽然有大量数据,但我的AI 仍然学习得很艰难089
5.2.13 问题:我的AI 很奇怪090
5.2.14 一切都变糟糕了。我该怎么办?090
5.3 结论 092
参考文献 093
第6章 未来状况预测:AI 推动的国防应用化学创新 095
6.1 引言 095
6.2 合成搜索引擎:自动化合成规划 096
6.2.1 优化已知路线096
6.2.2 预测反应结果097
6.2.3 执行逆合成099
6.2.4 评估101
6.2.5 采纳101
6.3 化学统计学习中的数据挑战 102
6.3.1 数据偏向于成功的实验102
6.3.2 现有数据不可靠且不规范103
6.3.3 数据只与一个狭窄的任务集合相关104
6.3.4 机器学习模型中化学数据没有标准的表征形式105
6.4 数据挑战的现实解决方案 107
6.4.1 实验数据收集的自动化和标准化107
6.4.2 跨实验室共享数据108
6.4.3 利用科学文献中描述的实验数据109
6.4.4 通过模拟生成数据109
6.4.5 数据生成和预测模型的闭环集成 110
6.5 自驱动实验室的初步演示 110
6.5.1 自主研究的启示 111
6.6 结论 112
参考文献 113
第7章 化学合成中的机器学习 118
7.1 引言 118
7.2 化学数据的性质 119
7.2.1 数据源 119
7.2.2 分子描述符121
7.3 机器学习方法 121
7.4 合成路线设计 124
7.4.1 逆合成127
7.4.2 反应预测129
7.4.3 优化反应条件130
7.5 实际应用 131
7.6 结论 131
参考文献 132
第8章 天体化学中的约束化学网络 136
8.1 引言 136
8.2 化学反应数据库的完整性和可靠性 137
8.2.1 气相网络137
8.2.2 颗粒表面网络138
8.3 贝叶斯方法 138
8.4 复杂网络的机器学习技术 141
8.5 结论 142
参考文献 142
第9章 (纳米) 材料- 生物界面中的机器学习 144
9.1 机器学习概述、挑战和机遇 144
9.2 复杂材料中特殊问题的尺度与重要性 145
9.3 材料中的机器学习示例 146
9.4 纳米材料中的机器学习示例 147
9.5 生物材料和再生医学中的机器学习示例 151
9.6 细胞疗法、生物反应器和可植入细胞的材料 154
9.7 机器学习与进化方法 154
9.8 展望 155
参考文献 156
第10章 应用于复杂聚合过程的机器学习技术 159
10.1 化学过程建模的难点 159
10.2 自由基聚合过程的唯象学模型 160
10.3 人工神经网络在聚合过程中的应用 163
10.3.1 神经网络在聚合反应工程中的应用类型163
10.3.2 应用于聚合过程建模中的不同类型神经网络模型164
10.4 软计算混杂配置在聚合过程的应用 167
10.5 机器学习技术在甲基丙烯酸甲酯自由基聚合中的应用 168
参考文献 172
第11章 分子药物发现中的机器学习和打分函数(SFs):预测和表征可成药药物和靶标 174
11.1 引言 174
11.2 数据与方法 179
11.2.1 分子和疾病靶标的数据和可成药性打分179
11.2.2 打分函数对分子参数(MPs) 和靶标的描述179
11.2.3 统计和编程方法182
11.3 结果 182
11.3.1 主成分分析(PCA) 结果182
11.3.2 机器学习分类结果185
11.4 总结与讨论 187
参考文献 190
第12章 AI 在有机材料预测中的应用 194
12.1 引言 194
12.2 从文献中提取数据 196
12.3 构建合成切块数据库 197
12.4 性质预测 198
12.4.1 训练数据198
12.4.2 描述符199
12.4.3 加速性质预测201
12.5 结构预测 201
12.6 相空间探索 203
12.7 材料合成砌块的从头分子设计 204
12.8 预测可合成材料 205
12.9 研究案例 206
12.9.1 有机电子材料206
12.9.2 多孔有机材料的性质预测和相空间探索207
12.9.3 其他功能有机材料208
12.10 结论 209
参考文献 209
第13章 数据科学驱动的无机材料发现新时代 216
13.1 引言 216
13.2 通过机器学习方法的材料发现工作流程 218
13.2.1 数据采集218
13.2.2 数据表征219
13.2.3 数据预处理220
13.2.4 模型构建222
13.2.5 模型评估224
13.3 机器学习在无机材料中的应用 225
13.3.1 合成优化中的机器学习225
13.3.2 结构预测中的机器学习225
13.3.3 材料性质预测中的机器学习227
13.4 机遇与挑战 228
13.4.1 从小数据集中学习229
13.4.2 生成有效的数据表征229
13.4.3 增强模型的可解释性229
13.4.4 增加模型的可访问性230
13.5 结论 230
参考文献 231
第14章 机器学习在化学工程中的应用 235
14.1 引言 235
14.2 建模与模拟 236
14.2.1 AI 在分离装置建模与模拟中的应用236
14.2.2 AI 在反应器建模与模拟中的应用238
14.2.3 AI 在整体工厂建模与模拟中的应用238
14.2.4 AI 在能源管理建模与模拟中的应用239
14.3 控制和操作 240
14.3.1 过程控制的基本原则240
14.3.2 机器学习用于控制化学过程240
14.3.3 机器学习集成的传统控制器242
14.4 预估和预测 243
14.4.1 化学工程预估器的可用AI 算法243
14.4.2 基于AI 的预估器的选择与应用246
14.5 未来趋势和展望 248
参考文献 249
第15章 化学中的表征学习 257
15.1 引言 257
15.2 非学习型分子表征 258
15.2.1 分子指纹259
15.2.2 可计算的性质260
15.3 学习表征的必要性 260
15.4 学习型分子表征 262
15.4.1 图模型263
15.4.2 网格模型265
15.4.3 序列模型266
15.4.4 以物理学为灵感的架构267
15.5 数据方面的考虑 269
15.6 挑战和展望 270
15.7 结论 270
参考文献 271
第16章 揭开人工神经网络作为新化学知识产生者的神秘面纱:以抗疟药物发现研究为例 274
16.1 引言 274
16.2 材料和方法 275
16.2.1 数据集和分子描述符275
16.2.2 构建Ms-QSBER_EL 模型277
16.3 结果与讨论 279
16.3.1 Ms-QSBER-EL 模型279
16.3.2 适用域280
16.3.3 从分子描述符中收集物理化学和结构信息281
16.3.4 实际有效和安全的抗疟化学品的计算设计284
16.3.5 类药性289
16.4 结论 290
参考文献 290
第17章 堆芯损耗谱的机器学习 293
17.1 引言 293
17.2 方法学 294
17.2.1 谱图数据库的构建294
17.2.2 谱图数据的聚类294
17.2.3 材料信息的决策树295
17.2.4 前馈神经网络295
17.3 结果与讨论 295
17.3.1 数据驱动的预测和解释方法概述295
17.3.2 单金属氧化物的O-K 边的表征297
17.3.3 无定形SiO2 的O-K 边的解释和预测300
17.3.4 从ELNES/XANES 中使用机器学习方法定量结构和性质304
17.3.5 从噪声谱中定量结构和性质306
17.4 结论 308
参考文献 309
第18章 自主科学:大数据工具为化学中的小数据问题服务 313
18.1 引言 313
18.2 实验的自主设计 315
18.2.1 稀疏采样策略对“小数据” 的挑战315
18.2.2 自主实验设计的单纯形方法317
18.2.3 动态采样的插值算法318
18.2.4 一种有监督学习的动态采样方法318
18.2.5 用于拉曼高光谱成像和X 射线衍射成像的SLADS319
18.2.6 实验自主设计的非迭代动态采样321
18.2.7 主动机器学习322
18.2.8 材料合成的动态采样323
18.2.9 自主实验设计的模块化架构324
18.3 有限数据训练的生成式对抗方法 325
18.3.1 图像识别中的生成式对抗网络326
18.3.2 对抗性攻击的线性示例:对抗性光谱328
18.3.3 数据生成示例:生成式对抗线性分析331
18.4 结论 333
参考文献 333
第19章 多相催化中的机器学习:从构建到应用的全局神经网络势 338
19.1 引言 338
19.2 方法 339
19.2.1 高维神经网络架构339
19.2.2 结构描述符341
19.2.3 神经网络训练342
19.2.4 数据集生成和SSW 全局优化342
19.2.5 自学习过程345
19.3 应用 346
19.3.1 PES 探索346
19.3.2 负载在CeO2 上的超微量金347
19.3.3 无定形TiOxHy 上的析氢反应348
19.3.4 在ZnCrO 催化剂上的合成气转化351
19.4 展望 353
参考文献 354
第20章 机器学习在化学和材料中实际应用的指导性原则 357
20.1 引言 357
20.2 应用机器学习的指导性原则 359
20.3 结论与警示 367
参考文献 369
中英文对照 371