spark大型项目实战打造智能客户系统大数据视频教程
spark大型项目实战打造智能客户系统项目介绍
1、从今天开始我们学习本套spark打造智能客户系统大型项目实战课程,本课程总共分为三大板块,我们的课程主要涉及的范围是基于大数据spark的机器学习部分。
2、本套spark大型项目实战的功能介绍主要有:通过爬虫技术向互联网爬取大量的数据,导入到Hbase中进行清洗,最后将数据存储到Mongodb中,接下来通过IK分词器进行数据切分放入到hadoop中的HDFS。
3、spark读取HDFS中的数据做模型计算,使用spark streaming加载HDFS模型将数据进行分类做数据分析。
4、本spark大型项目实战课程依次讲解以上部分提到的所有技术核心点,将以上技术连接到整个项目中,教大家灵活运用。
scala技术课程介绍
1、本门课程主要使用java和scala两种语言重点操作spark,除了掌握掌握java操作部分之外,还需要掌握scala的部分。
2、本章节会分别通过windows和linux两个系统讲解scala ide的安装和使用,教会大家熟练掌握这两个系统操作。
3、关于scala语言的课程讲解内容主要有:scala基础部分的环境变量配置、开发工具ide的安装、scala入门知识的基础语法汇总讲解、scala的数据类型概括、scala的变量的声明定义、scala访问修饰符和函数方法的书写、scala中的容器数组和集合的语法、类和对象的声明。
zookeeper技术课程介绍
1、本章节讲解什么是zookeeper,它用来做什么,以及集群的安装使用,我不希望大家只懂的安装和使用,希望大家对zk的作用、如何性能调优都能够深入理解,面试的时候能够侃侃而谈,不要一脸茫然,能够明白zk其中的原理所在。
2、zk是一个开放源码的基于分布式的协调服务,它能能够提供配置服务,比如我们有200台服务器的集群,现在我们需要每台服务器的配置文件,这个时候zk的作用就是配置存储器,所有配置由zk管理,zk会监控所有配置文件,一旦发生改变会同步到所有服务器。
3、zk还提供了完整的命名服务,能产生唯一的名称便于记住和识别,zk还提供分布式锁,分布式程序分布在不同主机上的进程对互斥资源进行访问的时候进行枷锁,以及分布式集群的管理等等。
kafka技术课程介绍
1、接下来的课程讲解kafka的分布式消息处理机制,本章节主要讲解kafka是什么、kafka能做什么、kafka如何做集群安装、java如何操作kafka以及kafaka架构的全面课程讲解。
2、kafka的底层使用scala语言编写,可以做到水平扩展和高吞吐率的技术水平,经过多年的发展,已经被很多大数据应用的公司广泛使用。
3、kafka是基于发布/订阅的消息系统,即使对TB级别及以上的数据都能够保证常数时间复杂的访问性能,它的高吞吐量即使在廉价的机器上都能够保证。
spark大型项目实战打造智能客户系统项目课程目录
第01节项目介绍以及在本课程中能学到什么东西、如何应用到实际项目中 |
第02节scala和IDE的安装以及使用以及maven插件的安装 |
第03节Centos环境准备(java环境、hosts配置、防火墙关闭) |
第04节scala基础知识讲解-1 |
第05节scala基础知识讲解-函数和闭包-2 |
第06节scala基础知识讲解-数组和集合-3.1 |
第07节scala基础知识讲解-数组和集合-3.2 |
第08节scala基础知识讲解-类和对象-4 |
第09节scala基础知识讲解-特征和模式匹配-5 |
第10节scala基础知识讲解-正则表达式和异常处理-6 |
第11节scala基础知识讲解-知识回顾 |
第12节nosql数据库mongodb安装 |
第13节spring data for mongodb-简单连接mongodb |
第14节spring data for mongodb-spring配置+CRUD操作(不实现repo,默认操作) |
第15节spring data for mongodb-实现repo接口+mongoTemplate+CRUD操作 |
第16节spring data for mongodb-分页查询 |
第17节zookeeper集群安装 |
第18节zookeeper基本介绍-1 |
第19节zookeeper工作原理-选举流程(basic paxos算法)-2 |
第20节zookeeper工作原理-选举流程(fast paxos算法)-3 |
第21节kafka-背景及架构介绍 |
第22节kafka集群安装以及测试 |
第23节kafka数据发送与接收实现-java |
第24节hdfs单机安装部署 |
第25节连接hdfs查询存储-java |
第26节机器学习基本线性代数介绍 |
第27节IKAnalyzer中文分词工具介绍 |
第28节IKAnalyzer中文分词工具结合java应用 |
第29节Spark以及生态圈介绍 |
第30节Spark运行架构介绍及原理之job,stage,task |
第31节Spark编程模型RDD设计以及运行原理 |
第32节纯手写第一个Spark应用程序:WordCount |
第33节RDD常用函数介绍 |
第34节Spark Sql介绍、DataFrame创建以及使用、RDD DataFrame DataSet相互转化 |
第35节Spark Streaming介绍 |
第36节Spark Streaming+Kafka集成操作 |
第37节avro结合maven使用,实现序列化和反序列化 |
第38节Spark ML(机器学习)介绍(监督学习、半监督学习、无监督学习) |
第39节特征抽取:TF-IDF原理介绍 |
第40节特征提取:TF-IDF代码实现计算 |
第41节聚类算法:KMEANS原理介绍 |
第42节聚类算法:KMEANS代码实现计算 |
第43节其它Spark ML算法简单介绍 |
第44节Spark连接Mongodb代码实现 |
第45节Mesos总体架构介绍 |
第46节Mesos安装部署 |
第47节Spark on Mesos安装部署 |
第48节系统整体架构再次介绍+技术串联介绍(将学习的技术全部整合到项目中) |
第49节父类工程,管理各个jar的版本 |
第50节avro序列化jar,用于客户端和机器学学习实现序列化和反序列化 |
第51节kafka发送数据jar,给app调用并实现切词并发送数据到kafka |
第52节工具类jar,实现操作hdfs、切词以及操作mongodb |
第53节操作类jar,调用工具类具体进行切词以及数据清洗并且存储到Hdfs |
第54节机器学习集合jar,主要用来存放record |
第55节机器学习算法jar,主要进行tf-idf以及kmeans计算,主要实现企业上下游、供求上下游模型计算 |
第56节流式计算jar,主要是接受客户端发送到kafka的数据加载模型进行计算 |
第57节测试模拟jar,主要模拟实现用户加载avro序列化jar写数据到kafka |
第58节Spark on Mesos部署提交参数介绍 |
第59节Spark代码提交到Mesos运行(Spark-submit) |
第60节项目整体流程跑通,结果展示 |
第61节Spark调优介绍 |
第62节基于Spark的机器学习项目-智能客户系统实战课程总结 |
第63节实际工作及面试注意问题 |
相关文章 |