本书重点介绍了网络信息采集的主要技术方法、信息加工的主要技术以及信息应用具体实践等内容。其中的信息采集部分主要介绍了基于RSS订阅、网络爬虫、网站API、物联网传感器、问答大模型等信息采集方式,以及信源发现技术、主题采集技术、定点采集技术和常用采集工具等;信息加工部分主要介绍了时间信息识别与标准化技术、实体关系分类技术、文本摘要生成技术、事件抽取技术、文献聚类技术、技术脉络分析技术等;信息应用部分主要介绍了信息推荐技术、信息采集平台的构建以及知识管理平台的构建等。
第一部分信息采集技术
1互联网信息资源的值
2网络信息采集的主要方式
2.1基于RSS 订阅的信息采集
2.2基于网络爬虫的信息采集
2.3基于网站API的信息采集
2.4基于物联网传感器的信息采集
2.5基于问答大模型的信息采集
3网络信息采集的主要技术
3.1定点采集技术
3.2主题采集技术
3.3采集技术
3.4实时流数据采集技术
4网络信息采集的主要工具
4.1 Scrapy
4.2BeautifulSoup
4.3Selenium
4.4PySpider
4.pache Nutch
4.6Goutte
4.7Crawlera
4.8Apify
4.9Octoparse
4.10Import. io
4.11Content Grabber
4.12ParseHub
4.13WebHarvy
5基于网站特征分析的信源发现技术
5.1问题的提出及相关研究
5.2网站特征分析及数据处理
5.3基于网站特征分析的相关度计算
5.4信源发现技术系统设计与实现
5.5研究结论
延伸阅读
……
第二部分信息加工技术
第三部分信息应用技术