本书以数据分析流程为主线,借助实际案例,引导读者建立数据分析思维,内容涵盖数据分析基本理论、数据分析工具选择、数据获取方法、数据分析及可视化方法。本书案例紧贴业务场景,读者可以学完即用,避免因迷失在众多理论和技术中而难以入手。本书案例探索和分析真实世界中的数据,帮助读者深入理解社会经济、科技发展等方面的问题,以分析结果引导读者积极思考社会责任和价值观问题。本书各章内容相对独立,旨在解决数据分析某一环节的问题,读者可以根据自己的需求选择性地学习。每章内容分为学习目标、案例知识点讲解、本章小结、思考与练习四部分,目标明确、内容完整。本书适合作为高等学校文科类专业计算机相关课程的教材。
前言
在数字经济蓬勃发展的浪潮中,数据正成为继劳动力、土地、资本、技术之后的第五大生产要素。数据通过决策分析与优化,直接产生或通过作用于其他生产要素,间接地产生社会和经济价值。有效利用数据资源,将成为现代个人和社会发展不可或缺的关键能力。
对于文科生而言,他们往往更专注于人文社会科学领域,相对缺乏技术背景和数据处理能力,面对大量数据,往往感到无从下手或难以进行有效的分析。本书旨在帮助文科生克服对数据分析的畏难情绪,以浅显易懂的方式引导读者掌握数据分析的知识和技能。
本书首先从数据分析的意义出发,帮助读者认识数据分析的重要性。然后通过数据分析的底层认知、数据收集、数据分析、分析结果展现等内容深入浅出地介绍数据分析的各个环节。书中案例紧密结合文科生在日常研究和工作中的实际需求,采用场景化教学的方法,详细阐述数据分析的流程和相关技术。
本书主要内容如下:
第1章介绍数据分析的意义和基本流程,以及常用的数据分析工具。
第2章介绍Python环境的搭建、利用 AI工具辅助生成代码。
第3~6章介绍如何用Python语言实现问题求解逻辑,主要讲授Python程序设计的基本内容,包括基本语法、运算符、表达式、程序控制结构、函数与模块等。
第7章介绍常用的数据采集工具、爬虫原理以及基本爬虫程序。
第8章介绍自然语言处理的基本技术,分词、关键词提取、主题分析等。
第9章介绍利用pandas进行数据读写、处理、排序、统计分析等方法,以及基本统计分析、分类汇总、数据透视表等。
第10章介绍利用matplotlib实现静态可视化,以及利用pyecharts实现动态可视化的方法。
编者
2025年5月
张伟娜,硕士、讲教。2016-2017年美国迈阿密大学计算机系访学。获北京高教协会计算机基础教育研究会2010年度计算机基础教学精彩教学片交流一等奖。科研成果:主持2项校级项目,参与12项项目。编著教材2部,发表论文11篇,其中EI检索2篇。
目录
配套资源
第1章我们可以用数据做什么1
学习目标1
1.1数据分析的意义1
1.2数据分析的基本流程1
1.3常用的数据分析工具3
本章小结3
思考与练习4第2章工欲善其事,必先利其器5
学习目标5
2.1程序设计语言5
2.1.1程序设计语言发展史5
2.1.2“翻译”高级程序设计语言6
2.2Python简介7
2.3搭建Python环境8
2.4安装Python 解释器8
2.4.1下载Python安装文件8
2.4.2安装Python11
2.4.3检验安装是否成功13
2.4.4配置环境变量14
2.4.5Python IDLE的使用14
2.5集成开发环境VS Code17
2.5.1安装VS Code17
2.5.2安装插件17
2.5.3配置Python解释器20
2.5.4在VS Code中编辑和运行Python程序20
2.6集成开发环境PyCharm22
2.6.1PyCharm安装22
2.6.2PyCharm配置24
2.6.3PyCharm中编辑和运行Python文件26
2.7集成开发环境Anaconda27
2.7.1Anaconda安装27
2.7.2使用Jupyter新建交互脚本30
2.8人工智能辅助编码31
2.8.1大模型API辅助编程31
2.8.2AI编程插件31
本章小结33
思考与练习34第3章与计算机沟通的规则——Python基本语法35
学习目标35
3.1程序的格式框架36
3.2注释36
3.3标识符37
3.4赋值语句 38
3.5输入语句39
3.6输出语句39
本章小结41
思考与练习41第4章用计算机语言表达想法——数值类型、运算符与表达式、内置
函数与库42
学习目标42
4.1数值类型42
4.1.1整数类型42
4.1.2浮点数类型43
4.1.3复数类型44
4.1.4布尔类型44
4.2运算符与表达式45
4.2.1运算符45
4.2.2表达式46
4.3内置函数与库47
4.3.1内置函数47
4.3.2库48
4.3.3math库的使用52
4.3.4random库的使用53
4.3.5turtle绘图55
思考与练习60第5章复杂逻辑实现——程序控制结构61
学习目标61
5.1顺序结构61
5.2分支结构62
5.2.1单分支结构62
5.2.2双分支结构63
5.2.3多分支结构63
5.3循环结构67
5.3.1遍历循环67
5.3.2条件循环69
5.4break语句和continue语句70
5.5循环嵌套72
5.6循环的else子句73
本章小结74
思考与练习74第6章代码复用——函数与模块75
学习目标75
6.1函数的基本使用75
6.1.1函数基本概念75
6.1.2函数返回值77
6.1.3函数的形参与实参77
6.1.4变量的作用域80
6.2递归函数82
6.3常用内置函数83
6.3.1lambda()函数83
6.3.2map()函数84
6.3.3zip()函数85
本章小结86
思考与练习86第7章数据采集88
学习目标88
7.1爬虫的原理88
7.2网页基础89
7.2.1网页基本结构89
7.2.2网页访问原理94
7.3获取网页信息——requests库97
7.4页面内容提取100
7.4.1BeautifulSoup页面解析100
7.4.2Xpath页面解析104
7.4.3正则表达式106
7.5Selenium111
7.5.1Selenium网页爬取112
7.5.2元素定位与交互112
本章小结116
思考与练习116第8章文本分析117
学习目标117
8.1中文分词jieba库117
8.1.1jieba分词117
8.1.2词性标注119
8.1.3关键词提取120
8.2wordcloud 词云制作122
8.2.1wordcloud概述122
8.2.2wordcloud库解析123
8.3LDA主题模型127
8.3.1LDA主题模型简介127
8.3.2LDA模型实现及可视化128
本章小结132
思考与练习133第9章数据分析134
学习目标134
9.1Pandas数据结构134
9.1.1Series对象134
9.1.2DataFrame对象136
9.2文件读写 137
9.2.1读文件138
9.2.2写文件140
9.3数据审查与校验142
9.4数据清洗144
9.5数据抽取145
9.6数据增、删、改148
9.6.1增加数据148
9.6.2删除数据148
9.6.3修改数据150
9.7数据统计150
9.8数据排序与排名151
9.8.1数据排序151
9.8.2排名153
9.9数据汇总154
9.9.1分类汇总154
9.9.2数据透视表156
9.10日期数据处理158
本章小结160
思考与练习160第10章数据可视化162
学习目标162
10.1图表及实现工具162
10.2matplotlib简介164
10.2.1matplotlib绘图方式164
10.2.2matplotlib中文显示167
10.3图表的常用设置169
10.4常用图表的绘制176
10.4.1绘制散点图176
10.4.2绘制柱形图177
10.4.3绘制饼图180
10.5综合案例182
10.6pyecharts交互式图表183
10.6.1pyecharts快速上手183
10.6.2pyecharts实现大屏可视化187
10.7大屏可视化综合案例188
思考与练习194