会员
Spark 3.0大数据分析与挖掘:基于机器学习
王晓华 罗凯靖编著更新时间:2023-09-21 10:31:02
最新章节:13.6 小结开会员,本书免费读 >
Spark作为新兴的、应用范围广泛的大数据处理开源框架,吸引了大量的大数据分析与挖掘从业人员进行相关内容的学习与开发,其中ML是Spark3.0机器学习框架使用的核心。本书用于Spark3.0ML大数据分析与挖掘入门,配套示例源码、PPT课件、数据集、思维导图、开发环境和作者答疑服务。本书共分13章,从Spark3.0大数据分析概述、基础安装和配置开始,依次介绍ML的DataFrame、ML的基本概念,以及协同过滤、线性回归、分类、决策树与随机森林、聚类、关联规则、数据降维、特征提取和转换等数据处理方法;最后通过经典的鸢尾花分析实例,回顾前面的学习内容,实现了一个完整的数据分析与挖掘过程。本书采取实例和理论相结合的方式,讲解细致直观,示例丰富,适合Spark3.0机器学习初学者、大数据分析和挖掘人员,也适合高等院校和培训机构人工智能与大数据相关专业的师生教学参考。
品牌:清华大学
上架时间:2022-03-01 00:00:00
出版社:清华大学出版社
本书数字版权由清华大学提供,并由其授权上海阅文信息技术有限公司制作发行
Spark 3.0大数据分析与挖掘:基于机器学习最新章节
查看全部- 13.6 小结
- 13.5.2 决定数据集归类的方法之二——随机森林
- 13.5.1 决定数据集归类的方法之一——决策树
- 13.5 最终的判定——决策树测试
- 13.4.2 使用分类分析对数据集进行分类处理
- 13.4.1 使用聚类分析对数据集进行聚类处理
- 13.4 使用分类和聚类对鸢尾花数据集进行处理
- 13.3.2 使用逻辑回归分析长与宽之间的关系
- 13.3.1 使用线性回归分析长与宽之间的关系
- 13.3 长与宽之间的关系——数据集的回归分析
王晓华 罗凯靖编著
主页
同类热门书
最新上架
- 会员
PySpark大数据分析与应用
本书以Python作为开发语言,系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的相关知识。本书条理清晰、重点突出,理论叙述循序渐进、由浅入深。本书共7章,第1?5章包括PySpark大数据分析概述、PySpark安装配置、基于PySpark的DataFrame操作、基于PySpark的流式数据处理、基于PySpark的机器学习库,内容介绍注重理论与实践相结合,通过典型示例计算机10.4万字 - 会员
MySQL 8.0从入门到实战
MySQL数据库是目前全球流行的数据库之一。《MySQL8.0从入门到实战》从入门到实战,系统全面、由浅入深地介绍MySQL数据库应用的各个方面。全书分为8个部分,共18章。第1部分(第1~3章)介绍MySQL的基础知识,包括初识MySQL、数据库设计和数据类型;第2部分(第4~6章)介绍MySQL的基本操作,包括SQL基础操作、MySQL连接查询和数据复制、MySQL基础函数;第3部分(第7、8计算机9.7万字 - 会员
数据科学技术:文本分析和知识图谱
数据科学的关键技术包括数据存储计算、数据治理、结构化数据分析、语音分析、视觉分析、文本分析和知识图谱等方面。本书的重点是详细介绍文本分析和知识图谱方面的技术。文本分析技术主要包括文本预训练模型、多语种文本分析、文本情感分析、文本机器翻译、文本智能纠错、NL2SQL问答以及ChatGPT大语言模型等。知识图谱技术主要包括知识图谱构建和知识图谱问答等。本书将理论介绍和实践相结合,详细阐述各个技术主题的计算机21.6万字 - 会员
数据要素化时代的数据治理
随着数字化的发展,数据逐渐融入生产、分配、流通、消费和社会服务管理等环节,为数据的拥有者或使用者带来经济效益,成为一种新型的生产要素,给生产方式、生活方式和社会治理方式带来了深刻的变革。本书主要介绍数据要素化时代的数据治理。本书分为5篇。第一篇“数据治理新趋势”介绍DataOps的发展及实践,产业级数据治理新趋势,数据治理的场景化、工程化和智能化,以及数据资产的安全运营。第二篇“新理论、新方法和新计算机12.1万字 - 会员
数据质量实践手册:4步构建高质量数据体系
高质量的数据关乎企业运营、合规、决策和业绩的关键,哈佛商业评论的一项研究发现,企业中只有3%的数据符合质量标准,绝大多数公司都在寻求切实可行的指导来提高数据质量。本书作者基于多年在数据、数据分析和人工智能方面的实践经验,阐述了4步构建高质量数据体系。他提出了高质量数据的四阶段DARS方法(定义、评估、实现、持续)和10个数据质量最佳实践案例,以此来提高业务中的数据质量水平,为业务提供数据价值,保证计算机11.7万字 - 会员
数据分析实践:专业知识和职场技巧
《数据分析实践:专业知识和职场技巧》从初学者的角度出发,讲解了进阶为高级数据分析师所需的知识和技能,其中既包括数据分析岗位的介绍、发展现状及未来趋势,也包括实际工作中各环节的方法策略、实战案例,还包括职场中的困惑解答及面试指导。阅读本书,并基于本书进一步拓展所需要的知识能,可以帮助读者形成一套成系统、可实战的数据分析方法论。计算机19.6万字 - 会员
分布式数据库基础与应用
本书是一本介绍分布式数据库基础内容与应用的大数据专业类图书,力求培养读者对分布式数据库的应用技能。本书共11章,采用原理+代码实例+综合案例的编写形式,清晰明了地介绍分布式数据库的原理、基础应用、进阶应用及主流工具的使用方法、应用场景,以理实结合为编写要求,让读者能够轻松学习和掌握分布式数据库的内容。本书可以作为高等院校计算机、网络技术等相关专业的教材,也可以作为数据库相关工作的从业人员的参考用书计算机14万字 Access 2016数据库教程(微课版·第2版)
全书以学生成绩管理数据库案例为主线,从建立空数据库开始,逐步讲解数据库中的表、查询、窗体、报表、宏、模块、VBA程序设计与数据库编程等Access2016的主要功能;以图书馆借还书管理数据库项目实训为辅线,结合每章知识设计项目实训内容,帮助读者巩固和加深对所学知识的理解和掌握;以商品销售管理数据库实战演练为扩展训练,帮助读者提高应用数据库技术分析和处理数据的操作技能。本书符合最新版《全国计算机等计算机13.8万字- 会员
算力芯片:高性能CPU/GPU/NPU微架构分析
本书介绍了超级计算机算力和AI算力的异同,从CPU流水线开始,描述主要的众核处理器架构和功能部件设计。在GPU和NPU等加速器部分,介绍了GPU为何能从单纯的图形任务处理器变成通用处理器。GPU在设计逻辑、存储体系、线程管理,以及面向AI的张量处理器方面成为最近几年全世界科技行业最瞩目的明星。本书对华为等厂商推出的NPU芯片设计也做了架构描述,回顾了近20年来主流的CPU、GPU芯片架构的特点,介计算机29.3万字