本书讲述的是R语言在数据分析与数据挖掘方面的应用,内容编排结构合理,由浅到深,循序渐进地引导读者快速入门,并逐步提高使用R语言编程实现数据分析和文本数据挖掘的能力。本书的目标读者是从事数据分析与挖掘领域的学生、老师、科研工作者,从事不同行业的数据分析师、数据挖掘工程师等。本书最大的优点在于其简单明了,通俗易懂,适合新手快速入门,每一个例题都有现成的数据和源代码。旨在引导读者学会怎么从具体问题入手开始分析,使用R语言编写可以编译实现的代码,感受R语言的魅力,让数据产生价值。这种学习和实践相结合的方式非常适合????
本书基于学习成果导向(outcome□-□ased education)的思想进行编写,使读者不仅可以理解整个例题,还可以直接编译本书提供的所有源代码,确保读者达到编程想要实现的预期效果,并且设计了适当的练习来评估读者是否达到了预期学习目标。
R是为数据操作及统计计算提供语言及环境的软件包,还可以用来实现数据的可视化分析。本书内容从R的基础知识开始介绍,涵盖了数据分析和数据挖掘的常用模型,包括参数估计、假设检验、文本挖掘、分类、聚类等,还包括数据的可视化分析、自然语言处理等相关内容。本书内容比较全面,做到了易读、易用、易理解、易实现、易上手,是非常适合新手学□□一本R语言入门书籍。
本书内容主要分为以下7章。
□□章:R基础知识简介,内容包括R软件和RStudio软件的下载和安装,R的工作原理介绍,R启动项的文件配置,R的工作空间以及数据的导人与保存,R数据包的安装与加载,R语言编程过程中的常见错误及其解决办法等内容。
第□章:数据分析和挖掘的初步认识:R的数据结构。首先介绍R语言的对象和属性,创建和访问R语言中数据对象的方法,查看和管理R语言数据对象结构的方法,如何用R语言的向量组织数据,向量包含的元素可以是数值型、字符串型或逻辑型,对应的向量依次称为数值型向量、字符串型向量或逻辑型向量;其次从存储角度和结构角度对R语言的对象进行分类;然后分别介绍R语言的基本数据类型,包括数值型、字符型、逻辑型;□后介绍向量、矩阵、数组、数据框、因子、列表、时间序列对象的创建和使用技巧。
第3章:参数估计。首先介绍参数估计的原理,总体方差、总体比例的区间估计,统计量的分布,包括X□分布、t分布和F分布;然后介绍如何运用参数估计的区间估计进行R语言编程计算,根据方差齐性假设的统计推断内容,以及Shapiro-Wilk检验的R语言编程。
第4章:假设检验。首先介绍假设检验的基本知识,原假设与备择假设、两类错误、假设检验的步骤;其次介绍关于区间估计与假设检验的内容,以及如何利用P值进行决策;然后介绍一个总体参数的假设检验和两个总体参数的假设检验,分别从总体均值、总体比例和总体方差3方面进行解释;□后介绍W检验、Epps-Pulley检验的R语言编程实现。
第1章 R基础知识简介
1.1 为什么要学习R语言
1.2 如何下载、安装R和RStudio软件
1.3 R软件使用入门
1.4 R的工作原理
1.5 R启动项文件的配置
1.5.1 PATH环境变量
1.5.2 R的启动顺序
1.5.3.Rprofile文件配置
1.6 R语言的工作空间
1.6.1 数据的导人
1.6.2 数据的存储
1.6.3 R语言的批量读取和写入
1.6.4 R的内置数据集
1.6.5 批处理文件
1.6.6 R的在线帮助
1.7 R数据包的安装和加载
1.7.1 R数据分析与数据挖掘相关包
1.7.2 R文本挖掘wordcloud2包的使用
1.7.3 R语言中的机器学22
1.8 R语言编程过程中的常见错误
1.8.1 R包安装失败的原因分析
1.8.2 R语言调试查错
1.8.3 R程序的运行时间与效率
1.9 控制流
1.9.1 分支结构的流程控制
1.9.2 中止语句与空语句的流程控制
1.9.3 重复和循环语句的流程控制
1.10 R语言编程常用的函数
1.10.1 用户自定义函数
1.10.2 常用的数学函数
1.10.3 常用的基础统计函数
1.10.4 常用的数据挖掘函数
1.11 R的趣味应用
本章小结
思考与练2<2r>
第2章 数据分析和挖掘的初步认识:R的数据结构
2.1 R的对象与属性
2.2 向量对象
2.2.1 向量的索引方式
2.2.2 向量的排序和排名
2.2.3 向量的运算
2.3 数组与矩阵对象
2.3.1 矩阵的建立
2.3.2 矩阵元素值的修改
2.3.3 数组的建立
2.3.4 矩阵和数组的索引方式
2.4 数据框对象
2.5 因子对象
2.6 列表对象
2.7 时间序列对象
2.8 R语言中对象间的相互转换
本章小结
思考与练2<2r>……
第3章 参数估计
第4章 假设检验
第5章 R的基本数据分析与绘图
第6章 R的空间数据可视化
第7章 R语言的文本数据挖掘应用
参考文献