为了适应社会科学学科学生以及企业从事商业数据分析的人员需求,本书会精选部分精炼的Python语法进行讲解,以最简单直白的语言将Python用于商业数据分析的要义讲明白。本书重点将围绕商业数据分析这一核心问题介绍三部分内容:一、以目前进行商业数据分析最主要的编程语言Python为主,介绍Python编程语法;二、介绍进行商业数据分析的主要算法和模型,包括统计方法、数据挖掘方法、机器学习方法以及深度学习方法;三、以商业管理中常见的应用问题为例,介绍4-5个商业数据分析案例,包括市场营销方面的消费者细分、在线社区中虚假评论的识别、房地产经济分析、金融投资领域中的行业研究报告分析等。
张瑾,中国人民大学商学院副教授,博士生导师,管理科学与工程系副主任、商业分析云智实验室副主任,中国信息经济学会理事。获中国信息经济学理论贡献奖,教育部博士研究生学术新人奖。目前在商业大数据分析领域国内外重要学术期刊与国际会议上发表学术论文30余篇,主持和参与多项国家自然科学基金委项目和重大项目。主要教学与研究领域包括大数据管理与分析、商务智能、电子商务、人工智能等。
目录 
第1章引言 / 1    
基础篇    
第2章 Python简介 / 7     
2.1 发展历程 / 7    
2.2 特点 / 7     
2.2.1 开源与可移植性 / 8    
2.2.2 面向对象 / 8    
2.2.3 其他特点 / 8     
2.3 语言标准 / 9    
2.4  Python 3的安装与运行 / 9     
2.4.1 Windows / 9    
2.4.2 Linux/Unix / 11    
2.4.3 Mac OS / 11     
2.5 思考练习题 / 12    
第3章 数据类型 / 13     
3.1 概述 / 13     
3.1.1 变量 / 13  
3.1.2 数据类型框架 / 15     
3.2 数字类型 / 16     
3.2.1 分类 / 16    
3.2.2 相关函数 / 17     
3.3 列表与元组 / 18     
3.3.1 序列通用操作 / 18    
3.3.2 列表 / 21    
3.3.3 元组 / 27     
3.4 字符串 / 28     
3.4.1 概述 / 28    
3.4.2 字符串格式化 / 31    
3.4.3 方法 / 32     
3.5 字典 / 33     
3.5.1 概述 / 33    
3.5.2 格式化字符串 / 34    
3.5.3 方法 / 35     
3.6 集合 / 37     
3.6.1 概述 / 37    
3.6.2 方法 / 39     
3.7 基本运算符 / 39     
3.7.1 算术运算符 / 40    
3.7.2 比较运算符 / 40    
3.7.3 赋值运算符 / 40    
3.7.4 其他运算符 / 41    
3.7.5 运算符优先级表 / 41     
3.8 思考练习题 / 42    
第4章 条件与循环 / 43     
4.1 条件 / 43     
4.1.1 布尔变量 / 43    
4.1.2 条件语句 / 43     
4.2 循环 / 46     
4.2.1 循环语句 / 46  
4.2.2 迭代方式 / 50    
4.2.3 排序 / 52     
4.3 列表推导式与其他语句 / 53     
4.3.1 列表推导式 / 53    
4.3.2 其他语句 / 54     
4.4 思考练习题 / 55    
第5章 函数与类 / 56     
5.1 函数 / 56     
5.1.1 创建 / 56    
5.1.2 参数 / 59    
5.1.3 作用域 / 62    
5.1.4 递归 / 63     
5.2 类 / 65     
5.2.1 对象 / 65    
5.2.2 类的创建 / 66    
5.2.3 私有化与类的命名空间 / 67    
5.2.4 子类与超类 / 70    
5.2.5 特殊方法 / 72    
5.2.6 迭代器 / 75     
5.3 思考练习题 / 78    
第6章 标准库、异常与文件流 / 79     
6.1 标准库 / 79     
6.1.1 概念区分:模块、库与标准库 / 79    
6.1.2 安装第三方模块 / 81    
6.1.3 使用import语句导入模块 / 81    
6.1.4 查看模块信息:help() / 82    
6.1.5 常用标准库之一:os / 82    
6.1.6 常用标准库之二:sys / 83    
6.1.7 常用标准库之三:time / 86    
6.1.8 常用标准库之四:random / 88  
6.1.9 常用标准库之五:re / 89     
6.2 异常 / 94     
6.2.1 捕捉异常:try/except语句 / 95    
6.2.2 捕捉异常:try/except…else语句 / 96    
6.2.3 捕捉异常:try/finally语句 / 97    
6.2.4 抛出异常:raise语句 / 98     
6.3 文件与流 / 98     
6.3.1 打开和关闭文件 / 99    
6.3.2 读取文件内容 / 100    
6.3.3 写入文件内容 / 101     
6.4 思考练习题 / 102    
第7章  Python常用模块 / 103    
7.1  Numpy / 103     
7.1.1 ndarray的创建 / 103    
7.1.2 ndarray的常用属性 / 105    
7.1.3 ndarray的形状改变 / 105    
7.1.4 ndarray的索引与切片 / 106    
7.1.5 ndarray的拷贝 / 107    
7.1.6 ndarray的拼接 / 108    
7.1.7 ndarray的运算 / 109     
7.2  Pandas / 110     
7.2.1 Series的创建 / 111    
7.2.2 Series的索引及切片 / 112    
7.2.3 DataFrame的创建 / 113    
7.2.4 DataFrame的写入与读取 / 114    
7.2.5 DataFrame的索引 / 115    
7.2.6 DataFrame的增、删、改、查 / 117    
7.2.7 DataFrame的数据统计方法 / 121    
7.2.8 缺失数据处理 / 124    
7.2.9 数据离散化 / 125   
7.3  NLTK / 126 
7.3.1 分句与分词 / 126    
7.3.2 词性标注 / 127    
7.3.3 符号和停用词处理 / 127    
7.3.4 词干提取与词形还原 / 128    
7.3.5 词相似度计算 / 129     
7.4 思考练习题 / 130    
第8章 数据可视化 / 131     
8.1  Matplotlib / 131     
8.1.1 图形的创建 / 131    
8.1.2 绘制多函数图像 / 132    
8.1.3 添加图形信息 / 135    
8.1.4 不同类型的图形 / 138     
8.2  Seaborn / 141     
8.2.1 直方图 / 141    
8.2.2 条形图 / 142    
8.2.3 箱线图 / 143    
8.2.4 散点图 / 143    
8.2.5 结构化多图网格 / 145    
8.2.6 回归图 / 145     
8.3  PyEcharts / 146     
8.3.1 绘制地图 / 147    
8.3.2 空间流动图 / 148     
8.4 思考练习题 / 149    
方法篇    
第9章关联规则 / 153     
9.1 关联规则基本概念 / 153    
9.2 关联规则挖掘方法 / 154    
9.3 关联规则兴趣性的评价指标 / 157     
9.3.1 提升度 / 158  
9.3.2 杠杆度 / 158    
9.3.3 影响度 / 158     
9.4 思考练习题 / 159    
第10章 分类分析 / 160     
10.1 分类分析基本概念 / 160    
10.2 分类方法介绍 / 161     
10.2.1 决策树分类 / 161    
10.2.2 贝叶斯分类 / 169    
10.2.3 支持向量机分类 / 171     
10.3 分类准确率的测量方法 / 175     
10.3.1 经典的分类准确率的测量方法 / 175    
10.3.2 混淆矩阵 / 176     
10.4 分类准确率的提升方法 / 178     
10.4.1 Bagging / 179    
10.4.2 Boostinig / 180     
10.5 思考练习题 / 181    
第11章 聚类分析 / 182     
11.1 相似度测量方法 / 182     
11.1.1 数值数据的相似度 / 182    
11.1.2 类别数据的相似度 / 183    
11.1.3 文本数据的相似度 / 183    
11.1.4 类的相似度 / 184     
11.2 聚类方法介绍 / 185    
11.2.1 划分方法 / 185    
11.2.2 层次方法 / 188    
11.2.3 基于密度的方法 / 193     
11.3 类别数量的确定方法 / 197     
11.3.1 手肘法 / 197    
11.3.2 轮廓系数 / 199    
11.3.3 Calinski-Harabasz准则 / 200     
11.4 思考练习题 / 201    
第12章 社会网络分析 / 203     
12.1 社会网络的基本概念 / 203     
12.1.1 度 / 204 12.1.2 最短路径长度 / 204    
12.1.3 网络密度 / 204    
12.1.4 聚集系数 / 204     
12.2 社会网络的中心性 / 208     
12.2.1 度中心性 / 208    
12.2.2 贴近中心性 / 208    
12.2.3 中介中心性 / 209     
12.3 社会网络的链接分析 / 210     
12.3.1 PageRank算法 / 211    
12.3.2 HITS算法 / 213     
12.4 社会网络的社区发现 / 215     
12.4.1 图分割算法 / 215    
12.4.2 模块度优化算法 / 217    
12.4.3 标签传播算法 / 219     
12.5 思考练习题 / 221    
第13章 神经网络 / 222     
13.1 感知机 / 222     
13.1.1 简单逻辑电路 / 223    
13.1.2 线性不可分的局限 / 224    
13.1.3 多层感知机 / 224     
13.2 神经网络基本概念 / 226     
13.2.1 神经网络的结构 / 226    
13.2.2 激活函数 / 227    
13.2.3 损失函数 / 229     
13.3 训练技巧 / 229     
13.3.1 批处理 / 230    
13.3.2 优化算法 / 230    
13.3.3 参数初始化 / 231    
13.3.4 偏差与方差 / 232    
13.3.5 超参数的设置 / 233     
13.4 全连接神经网络 / 233  
13.5 卷积神经网络 / 237 
13.5.1 基本结构 / 238    
13.5.2 代表性结构 / 239     
13.6 循环神经网络 / 243     
13.6.1 基本结构 / 243    
13.6.2 代表性结构 / 243     
13.7 思考练习题 / 248    
第14章 表征学习 / 249     
14.1 文本表征学习 / 249     
14.1.1 词袋模型 / 249    
14.1.2 TF-IDF模型 / 251    
14.1.3 文档主题模型 / 253    
14.1.4 Word2Vec模型 / 259    
14.1.5 Doc2Vec模型 / 260     
14.2 网络表征学习 / 263     
14.2.1 DeepWalk算法 / 263    
14.2.2 Node2Vec算法 / 266    
14.2.3 Metapath2Vec算法 / 269     
14.3 思考练习题 / 270    
应用篇    
第15章网络数据抓取 / 275     
15.1 基础知识 / 276     
15.1.1 数据抓取的基本思想 / 276    
15.1.2 网页基础知识和浏览器原理 / 276    
15.1.3 HTML语言简介 / 277     
15.2 用Python实现数据爬取 / 282    
 15.2.1 获得网页HTML源代码 / 283    
15.2.2 通过HTML标签定位数据 / 286    
15.2.3 处理“翻页”数据 / 291   
15.3 数据抓取技巧 / 294    
15.4 思考练习题 / 295    
第16章 顾客市场细分 / 297     
16.1 背景与问题 / 297    
16.2 数据介绍 / 298    
16.3 分析方法与结论 / 301     
16.3.1 分析方法 / 301    
16.3.2 分析结论 / 305     
16.4 思考练习题 / 306    
第17章 房地产服务平台用户需求分析 / 307     
17.1 背景与问题 / 307    
17.2 数据介绍 / 307    
17.3 分析方法与结论 / 309     
17.3.1 分析方法 / 309    
17.3.2 分析结论 / 315     
17.4 思考练习题 / 315    
第18章 电子商务中消费者评论意见提取 / 316     
18.1 背景与问题 / 316    
18.2 数据介绍 / 317     
18.2.1 数据获取 / 317    
18.2.2 商品属性识别 / 319    
18.2.3 属性情感分析 / 324    
18.2.4 数据转换 / 325     
18.3 分析方法与结论 / 325     
18.3.1 分析方法 / 325    
18.3.2 分析结论 / 329     
18.4 思考练习题 / 331    
第19章 知识付费中顾客满意度分析 / 332    
 19.1 背景与问题 / 332    
19.2 数据介绍 / 334   
19.2.1 变量介绍 / 335    
19.2.2 数据获取 / 337     
19.3 分析方法与结论 / 346     
19.3.1 分析方法 / 346    
19.3.2 分析结论 / 348     
19.4 思考练习题 / 351