CDH 7.16组件原理及操作大全.zip
大小:39.33MB
价格:49积分
下载量:0
评分:
5.0
上传者:w7verse
更新日期:2025-09-22

CDH 7.16组件原理及操作大全.zip

资源文件列表(大概)

文件名
大小
Atlas学习记录与实际操作2.docx
8.92MB
Hbase学习记录与实际操作.docx
3.65MB
HDSF学习记录与实际操作.docx
1.64MB
Hive学习记录与实际操作.docx
4.68MB
Hue学习记录与实际操作.docx
3.91MB
Impala学习记录与实际操作.docx
1.47MB
Kafka学习记录与实际操作.docx
4.29MB
Ranger学习记录与实际操作.docx
3.33MB
Solr学习记录与实际操作.docx
4.97MB
Yran学习记录与实际操作.docx
3.53MB
Zookeeper学习记录与实际操作.docx
2.26MB
~$e学习记录与实际操作.docx
162B
~$lr学习记录与实际操作.docx
162B
~$pala学习记录与实际操作.docx
162B
~$ve学习记录与实际操作.docx
162B
大数据技术笔记.txt
4.69KB

资源内容介绍

大数据组件原理及其操作大全
linux系统概述1.iso文件:*.iso(镜像文件),相当文件备份。可以打包系统备份,只在c盘操作在其他盘保存。2.vmmare:装虚拟机的软件3.liunx系统一切皆命令一切皆文件4.centrs8就是liunx的镜像文件,也就是.ios文件5.liunx系统分root用户与普通用户,root用户有最高权限,mm:262737wqxWQX6./usr/local/java/jdk1.8.0_331java安装路径Hadoop系统1.最重要两个组件,hdfs、mapreduce(计算模型、编程模型)、Hadoop基于分布式系统2.hdfs对应谷歌gfs3.MR(mapreduce)分布式计算框架(离线式)、MR也称历史数据库4.storm(流式计算框架)、spark(内存式计算框架)期末考试1.文件操作,文件创建,文件删除/有代码有截图2.vi编辑器文本编辑,保存退出与执行3.shell编程、书上原题4.python执行(设计思路、python代码、Linux下执行python)python为杨辉三角))HADOOPhadoop-hdfs、mapreduced(分布式)测试命令:hdfs dfs -ls /批处理计算mapreduce(离线计算)、spark(内存计算)、strom(流式计算)数据库应用mysql(关联数据库)、hive(数据仓库)、hbass(分布式数据库:存小文件)、云计算iaas基础设施及服务paas平台设施及服务saas软件设施及服务大数据、云计算、物联网的关联*hadoop分布式文件系统(hdfs:使用java实现、分布式的、可横向拓展的文件系统)主节点master node从节点slave node名称节点 name node:负责管理文件系统的命名空间及客户端对文件访问(负责管理)数据节点 data node:负责处理文件系统客户端的读写请求(正在存储文件)namenode两个重要文件fsimafe:元数据镜像文件(保存文件系统的目录树)edits:元数据操作日志(针对目录树的修改操作)*使用Javaapi 操作hdfs*启动集群的四个命令1.cd***/zookeeper-3.4.5/bin/2.启动journlnodestardby namenode 待机状态下的namenode:高可用性/实时监控接管nanmenode工作,并随时在namenode接管下继承namenode工作3.启动hdfs4.启动yarm*zoookeeper/什么是zookeeperzookeeper对应谷歌的chubby(解决分布式系统一致性问题一个组件)的一个开源实现zookeeper对应机制--投票机制为什么使用zookeeper1.分布式应用需要主控,协调器,控制器来管理物理分布的子进程2.大部分应用需要开发私有的协调程序,缺乏通用机制3.协调程序的反复编写浪费,4.zookeeper:提供通用的分布式锁服务,用以协调分布式应用GAP:G;一致,A:可用,P:分区容忍性ACID:事物特征原子性,一致性,隔离性,持久性*YARN:yet another resource negotiator出现于Hadoop2.0版本/分布式系统资源管理者MR:离线计算框架storm:实时计算框架spark:内存计算rasource manager/负责集群资源管理和使用mysql密码:wqx262737分布式云计算系统megastore:分布式存储系统目标:尽可能达到高可用和高扩展性能数据模型:1.实体组集entity groups2.实体组entity group3.实体entitymeagastore索引1.局部索引2.全局索引Meagastore 事务周期读--应用逻辑---提交----生效----清除复制的日志1.每个副本都有存有更新的数据数据读取本地查询----发现位置---追赶---验证----查询数据数据写入接受leader---准备---接受---失效---生效协调者可用性在每个数据的中心,写操作中会涉及dapper大规模分布式系统的监控架构小规模库1.通用线程2.控制流3.rpc代码库二次抽样技术第一次抽样:对于抽取概率低于1024分之一就会监控dapper存储api1。id2.块3.索引dapper用户界面1.选择监控对象2.用户对这些执行模式进行并排并选择查看更多细节dremel产生背景1.mapreduce优点:便携 缺点:效率低2.弥补mapreuduce两方面的技术支持1.统一存储平台2.统一1存储方式弹性云计算EC2(包括)1.Amazon机器映像2.实例由ami启动可以像传统主机一样提供服务弹性块存储ebs:快照功能3.存储模块地理区域和可用区域关系数据库服务RDSr:关系d:数据库s:服务*关系数据库都是结构化的Hbase:主从式结构----集群方式实现mysql集群方式:share-nothing(不共享任何资源):mysql默认端口号3306微软云计算azure论文1.1研究背景1.2研究意义1.3国内外研究背景新mysql密码;262737wqx

用户评论 (0)

发表评论

captcha