数据采集技术(新编21世纪高等职业教育精品教材·电子与信息类)
定 价:45 元
丛书名:新编21世纪高等职业教育精品教材·电子与信息类
- 作者:安敬鑫 但雨芳 贺宁 李爱菊
- 出版时间:2026/2/1
- ISBN:9787300347271
- 出 版 社:中国人民大学出版社
- 中图法分类:TP274
- 页码:
- 纸张:
- 版次:
- 开本:16开
-
商品库位:
本书遵循校企双元育人理念,系统构建知识体系,将数据安全法规、数据伦理意识与工匠精神深度融入案例设计,着力培养学生“依法采集、科学治理、安全应用”的职业素养。依托真实项目载体,内容紧密对接大数据工程技术人员、人工智能工程技术人员等国家职业标准,融入行业前沿技术规范及职业院校技能大赛竞赛标准,通过“项目导学—任务分解—实战解析—课后拓展”的四阶递进式教学模式,实现学生技能的螺旋式提升。
本书依托真实项目载体,共规划了5个项目。项目1旨在引领读者开启数据采集世界的大门,了解其基本概念、发展历程及应用场景。项目2至项目5则分别聚焦于不同类型网页数据的爬取技术,系统讲解相关库与工具的使用方法、技巧及其应用场景,项目难度和技术深度逐步提升,符合学习规律和职业能力成长路径,突出对现代化工具的使用和解决工程问题的能力。
本书适用于职业院校大数据相关专业教学,也可作为数据采集技术爱好者的自学参考书。
安敬鑫,副教授,中共党员,现任山东轻工职业学院信息工程系副主任,兼任计算机教研室党支部书记,世界职业院校技能大赛金奖指导教师。长期深耕职业教育一线,主讲《数据采集技术》《数据库管理与应用》等专业课程,主要研究领域为人工智能与大数据技术。个人获全国职业院校技能大赛一等奖、三等奖各1项,连续4年指导学生斩获山东省职业院校技能大赛一等奖,发表论文5篇,主持国家软件著作权1项、专利2项,主持或参与省级以上课题5项,主持或参与省级以上课程2门,主编或参编教材3部,其中国家规划教材1部,获评 “山东省新时代岗位建功劳动竞赛标兵”“市级优秀共产党员”“市级优秀教师”等荣誉称号。
但雨芳,浙江经贸职业技术学院,副教授,专业方向是大数据技术应用,主要讲授“大数据采集”“python基础与应用”“图像处理技术”等课程。宁波市“甬江拔尖人才”第三层次、宁波市高级人才、杭州市D类人才、大数据技术应用国赛一等奖指导教师、宁波市技术能手。主持浙江省教育厅高职教育“十四五”第二批教学改革项目、厅市级项目3项、省重点实验室项目4项目、省公益基金项目1项。公开发表专业相关论文约20篇,其中,sci论文10余篇、top期刊论文3篇,授权发明专利5项,实用新型专利20余项,参编《计算机视觉应用开发(1+X)初级》教材。
贺宁,中级讲师,常州信息职业技术学院,现任江苏省科技副总(2024年),是常州市第八批“龙城英才”和2019年、2020年“金凤凰人才”称号获得者。长期致力于大数据技术、生成式人工智能、区块链应用及职业教育创新领域的研究与实践,主持了多项省部级课题,包括江苏省自然科学基金面上项目、省职业技术教育学会研究课题、全国职业教育行指委/教指委立项课题,以及省教育科学规划课题,并深度参与市厅级科研项目。同时还担任江苏省工业和信息产业转型升级专项资金项目评审专家,深度参与全省制造业智能化升级项目的战略评估与资源分配;常州市工业和信息化局两化融合处评审专家,常州市智能化改造和数字化转型“十链突破”评审专家;常州市智能车间/智能工厂市级评审专家。
李爱菊,山东交通职业学院,博士,副教授,专业方向是大数据技术,主要讲授“商业智能与可视化”“数据采集与处理技术”“Hadoop大数据生态技术与应用”“数据仓库技术与应用”等课程。北京市青年英才教师、华北五省计算机应用大赛优秀指导教师。主持省部级课题2项,参与省部级课题2项,获批潍坊市重点实验室1项,拥有发明专利1项,实用新型5项,软件著作权4项,发表SCI论文2篇,核心期刊论文2篇。主编《项目管理》、《JavaScript+Vue.js Web开发项目教程》等教材。
项目1 初探网络爬虫应用 ? <br>任务1.1 初识网络爬虫 ? <br>任务1.2 合法性与robots协议 ? <br>任务1.3 初识反爬虫 ? <br>任务1.4 Python 爬虫环境 <br>任务1.5 数据安全 <br>任务1.6 项目实战——编写一个简单的爬虫程序 <br> <br>项目2 爬取静态网页数据 <br>任务2.1 获取静态网页源代码 <br>任务2.2 数据采集 <br>任务2.3 项目实战——爬取“人大芸窗数字教材”网站的静态数据 <br> <br>项目3 爬取动态网页数据 <br>任务3.1 安装Selenium 与浏览器驱动程序 <br>任务3.2 使用Selenium 自动化操作浏览器 <br>任务3.3 使用Selenium 查找HTML 元素 <br>任务3.4 使用Selenium 编写高级数据采集程序 <br>任务3.5 项目实战——使用Selenium 进行动态网页页面操作 <br> <br>项目4 实施数据存储入库 <br>任务4.1 文件的基本操作 <br>任务4.2 文件的定位和管理 <br>任务4.3 CSV 文件的应用 <br>任务4.4 数据库的使用 <br>任务4.5 项目实战——采集网页中的教材信息存入文件和数据库 <br> <br>项目5 Scrapy 爬虫框架 <br>任务5.1 使用Scrapy 创建爬虫程序 <br>任务5.2 编写Spider 脚本任务 <br>任务5.3 制作爬虫及永久化存储数据 <br>任务5.4 修改Item Pipeline 与settings 脚本 <br>任务5.5 Scrapy 常用命令行工具 <br>任务5.6 Scrapy 的爬虫类和模板 <br>任务5.7 项目实战——基于Scrapy 爬取“人大芸窗数字教材”网站的 <br>平台功能特色 <br>参考文献