随着教育部公布2017年度普通高等学校本科专业备案和审批结果的通知,目前申请获批数据科学与大数据技术专业(专业代码:080910t)的高校已增至278所。在获批高校越来越多的同时,如何在专业建设过程中选择适用教材,却逐渐成为了各大高校面临的一大难题。
而早在2016年,清华大学博士、南京大数据研究院院长刘鹏教授就联合国内多所高校从事一线教学科研任务的专业师资,开始编写大数据系列教材。目前,《云计算》、《大数据》、《大数据库》、《数据挖掘》、《深度学习》、《大数据可视化》、《虚拟化与容器》、《大数据实验手册》等本科系列教材陆续出版,可为大数据教学提供系统的教材支撑。
今天为大家重点推荐介绍《大数据》,以后还会陆续推荐其他教材,欢迎持续关注(与《大数据》配套的教学ppt可通过免费下载):
购买链接:?itemid=2040524
《大数据》概述
本书是国内众多高校采用的知名教材《云计算》(1~3版)的姊妹篇(《云计算》名列中国计算机类图书被引用量第一名),通过《大数据》可掌握大数据相关技术、算法、语言与应用,适合作为相关专业教材,也可作为大数据开发人员和爱好者的学习和参考资料。
《大数据》主要内容
本书系统地介绍了大数据的理论知识和实战应用,包括大数据采集与预处理、数据挖掘算法与工具、深度学习以及大数据可视化等,并深度剖析了大数据在互联网、商业和典型行业的应用。本书实验可以在大数据实验平台(https://bd.cstor)上远程开展,也可在高校部署的bdrack大数据实验一体机上本地开展。
《大数据》大纲
第一章——大数据概念与应用
本章主要介绍了大数据的概念、意义、来源、应用场景以及处理方法等,帮助读者了解大数据如何改变我们生活以及理解世界的方式。
第二章—— 数据采集与预处理
本章主要介绍了大数据采集架构(包括常用大数据采集工具、apache kafka数据采集等)、数据预处理原理(数据清洗、数据集成、数据变换)、数据仓库与etl工具等架构与技术。
第三章——数据挖掘算法
本章主要介绍了数据挖掘概述(数据挖掘概念、常用算法、应用场景以及数据挖掘工具)、分类(分类步骤、k最近邻、决策树、贝叶斯分类、支持向量机以及在广告推荐中的分类案例)、聚类(非监督机器学习方法与聚类、常用聚类算法以及海量视频检索中的聚类案例)、关联规则(关联规则的概念、频繁项集的产生及其经典算法以及车辆保险客户风险分析的案例)、预测模型(预测模型、时间序列预测以及地震预警案例)、数据挖掘综合案例——精确营销等内容。
第四章——大数据挖掘工具
本章主要介绍了mahout(安装mahout、聚类算法、分类算法、协同过滤算法以及中文新闻分类案例)、spark mllib(聚类算法、回归算法、分类算法、协同过滤算法以及影片推荐案例)、其他数据挖掘工具。
第五章—— r语言
本章首先介绍r语言的发展历程、基本功能和应用领域,然后介绍r在数据挖掘中的应用,最后介绍r语言在分布式并行实时计算环境spark中的应用sparkr。
第六章——深度学习
本章首先介绍深度学习的发展过程,结合人脑的工作原理,了解深度学习的相关概念和工作机制。接着,分别介绍深度学习在软硬件上的实现,在此基础上,分析基于caffe框架的mnist手写体数字识别实例。最后介绍深度学习在各领域的实际应用。
第七章——大数据可视化
本章主要介绍数据可视化基础(可视化的基本特征、可视化的目标和作用以及数据可视化流程)、大数据可视化方法(文本可视化、网络可视化、时空数据可视化、多维数据可视化)、大数据可视化软件与工具(excel、processing、nodexl、echarts)等内容。
第八章——互联网大数据处理
本章将分别介绍互联网信息抓取(概述、nutch爬虫以及招聘网站信息抓取、舆情信息汇聚的案例)、文本分词(概述、mmseg分词工具、斯坦福nltk分词工具)、倒排索引(倒排索引原理与实现)、网页排序算法(概述、td-idf算法、bm25算法、pagerank算法)、历史信息检索(系统架构、数据抓取与整合、查询引擎、运行效果)等内容。
第九章——大数据商业应用
本章主要介绍了用户画像与精准营销(用户画像概述、用户画像的价值、用户画像构建流程、用户标签体系)、广告推荐(推荐系统、广告点击率及其预估、基于位置的服务与广告推荐)、互联网金融(概述、大数据在互联网金融的应用方向、客户风险控制以及个人贷款风险评估案例)等大数据商业应用。
第十章——行业大数据
本章将以地震大数据、交通大数据、环境大数据和警务大数据为例,解读行业大数据的应用。