本书第1章是关于数据及初等的描述,这是初识真实数据所必需的。第2章介绍概率论的基本知识, 这是描述随机世界的数学工具, 对这部分熟悉的读者可以仅仅作为参考。第3章介绍了传统统计的基本思维方式, 这部分虽然和后续内容关系不大, 但由于是历史, 应该保留, 但可以仅作为参考或讨论。第4章介绍有监督机器学习基础, 包括建模、模型解释、模型预测、基于交叉验证的模型比较等内容, 系统深入地介绍回归及分类方法的概念及方法。作为监督学习载体的具体模型, 不但介绍了传统统计中最常用的最小二乘线性回归, 还从基本原理到编程全方位介绍了作为机器学习中最重要的基本学习器之一的决策树, 为后面要引进的更精确的组合方法奠定了基础.。第5章介绍了组合方法及若干重要的组合方法模型: bagging、随机森林、梯度增强法和 AdaBoost。 第6章详细地介绍了人工神经网络的基本概念, 人工神经网络是深度学习的基础, 理解神经网络对今后学习深度学习有很大的益处。
吴喜之 北京大学数学力学系本科毕业,北卡罗来纳大学统计系博士。中国人民大学统计学院教授,博士生导师。曾在南开大学、北京大学、加利福尼亚大学、北卡罗来纳大学等多所著名学府执教。
张敏,重庆工商大学青年教师。
第1章 体现真实世界的数据
1.1 数据: 对真实世界的记录
1.2 变量的逐个描述
1.3 变量关系的描述
1.4 数据的简单描述可能很肤浅甚至误导
1.5 习题
1.6 附录: 正文中没有的 R 代码
1.7 附录: 本章的Python代码
第2章 传统统计: 参数推断简介
2.1 关于总体均值 μ 的推断
2.2 关于伯努利试验概率的推断
2.3 习 题
2.4 附录: 本章的 Python 代码
第3章 有监督学习基础
3.1 引 言
3.2 简单回归模型初识
3.3 最小二乘线性回归模型
3.4 决策树回归
3.5 通过例子总结两种回归方法
3.6 简单分类模型初识
3.7 Logistic回归的数学背景
3.8 决策树分类的更多说明
3.9 通过例子对两种分类方法进行总结
3.10 多分类问题
3.11 习题
3.12 附录: 正文中没有的 R 代码
3.13 附录: 本章的 Python代码
第4章 机器学习组合算法
4.1 什么是组合算法
4.2 bagging
4.3 随机森林
4.4 梯度下降法及极端梯度增强回归
4.5 AdaBoost 分类
4.6 组合算法对两个数据的交叉验证
4.7 习题
4.8 附录: 正文中没有的R代码
4.9 附录: 本章的Python代码
第5章 神经网络
5.1 基本概念
5.2 通过基础编程了解神经网络的细节
5.3 习题
5.4 附录: 本章的Python代码