博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
切片和maptask并行度决定机制
阅读量:3969 次
发布时间:2019-05-24

本文共 647 字,大约阅读时间需要 2 分钟。

maptask指的是在mapreduce运行过程中为每一个数据切片分配的数据运算实例任务。maptask的并行度也就指的是运算任务实例的数量,影响整个job的处理速度。

切片与maptask并行度的决定机制

**数据块:**Block是HDFS物理上把数据分成一块一块。

**数据切片:**数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。

对于一个要处理的文件数据map框架有默认的切片大小,一般默认为blocksize的大小,在分配maptask运算任务实例的时候对每一个数据切片分配一个maptask,这样的话若一个文件的大小没有达到blocksize的大小的时候(比如说文件大小只有1k),那当然就会为了减少资源浪费默认分配一个maptask。

  1. 一个job的map阶段有客户端在提交job时的切片数决定。
  2. 每一个数据切片,split切片分配一个maptask实例处理。
  3. 默认情况下切片大小默认为blocksize。(如果说不是blocksize的话,与datanode中存储的数据块大小不相符,那么在maptask阶段,就需要进行datanode之间的数据传输,大大增加了io操作耗费的时间。)
  4. 切片时不考虑数据集整体,而是逐个对每一个文件进行切片。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CKgHYqus-1603113650855)(https://s1.ax1x.com/2020/10/13/0fLXLD.png)]

转载地址:http://yicki.baihongyu.com/

你可能感兴趣的文章
2010年11月19日
查看>>
TC35i 单片机
查看>>
TC35i 单片机
查看>>
AT 命令详解
查看>>
AT 命令详解
查看>>
AT指令发送PDU中文短信——使用串口…
查看>>
AT指令发送PDU中文短信——使用串口…
查看>>
s3c2440 uart
查看>>
指针的使用注意事项(个人体…
查看>>
指针的使用注意事项(个人体…
查看>>
~c++中的指针使用注意事项
查看>>
~c++中的指针使用注意事项
查看>>
函数返回值、引用和指针的区别思考
查看>>
函数返回值、引用和指针的区别思考
查看>>
AT指令中文手册
查看>>
AT指令中文手册
查看>>
module_param&&MODULE_PARM_DESC
查看>>
struct inode 和 struct file
查看>>
mknod
查看>>
模板匹配函数cvMatchTemplate中的…
查看>>