1.map-reduce
map将输入数据打散,并对其做简单处理,输出。
在hadoop中先进行一个叫做shuffle的过程对中间数据排序,然后由reduce把中间数据合并起来,然后将结果输出。
map任务读入切分后的大规模数据、处理->shuffle对数据排序->reduce进行最后的数据处理。
mapReduce适用于超大规模数据(100TB数量级)且各数据之间相关性较低情况。
2.HDFS(hadoop file system)
hadoop是使用网络松散(单一机器故障不会对集群有影响)组合起来的,多个计算机需要一个统一的文件访问方式,因此hdfs应运而生,提供了较好的容错和扩展性。
3.节点和槽位
节点:hadoop集群由很多low cose的计算机组成,则这些计算机被称为节点。
hadopp的计算节点和存储节点是统一的,这样在计算中中产生的文件,可以直接放在本机的存储节点上,减少网络带宽占用和延迟。
槽位:指集群内每个计算的cpu并发数,CPU数*核心数*超线程数的总和。任务需要安排在一个槽位执行,安排不到的会等待。
相关推荐
Hadoop原理及部署,非常全面的讲解 大数据的理论和价值逐渐得到了社会各界的认可,各种各样的大数据应用系统应运而生,正在创造性地解决着不同使用场景下的问题。在大数据应用越来越多样化的同时,对提供支撑的基础...
hadoop原理介绍ppt.pdf
Hadoop概述 Hadoop介绍 Hadoop原理 Hadoop编程
hadoop原理介绍ppt.pptx
Hadoop原理和架构.pdf
Hadoop原理详细解析.doc
Hadoop原理详细解析.pdfHadoop原理详细解析.pdfHadoop原理详细解析.pdfHadoop原理详细解析.pdfHadoop原理详细解析.pdfHadoop原理详细解析.pdfHadoop原理详细解析.pdfHadoop原理详细解析.pdfHadoop原理详细解析.pdf
hadoop原理浅析及安装.doc
hadoop原理及银行电信行业方案
Hadoop原理介绍PPT学习教案.pptx
对hadoop的hdfs,mapreduce,yarn三大模块的内部运行原理进行总结和归纳,了解其内部的原理
HDFS概述,HDFS客户端操作,HDFS数据流,namenode工作机制,datanode工作机制,HDFS 高可用集群配置
(1)熟悉Hadoop开发包 (2)编写MepReduce程序 (3)调试和运行MepReduce程序 (4)完成上课老师演示的内容 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 二、实验内容 1.单词计数实验...
(1)输入start-all.sh启动hadoop相应进程和相关的端口号 (2)启动Spark分布式集群并查看信息 (3)网页端查看集群信息 (4)启动spark-shell控制台 1:local模式启动 2:登录master服务器,在集群模式下启动 (5)...
Hadoop运行原理分析pdf
Hadoop环境 Jdk1.8 三、实验内容 1:创建内部表 (1):start-all.sh,启动Hadoop所有进程 (2):初始化元数据库生成metastore (3):启动hive (4):把linus上面的rg.txt放到hdfs下 (5):show databases;显示...
本文详细分析了hadoop的架构,对其组成原理做了细致的分析。配合图解让读者可以很快理解hadoop原理。