本文共 647 字,大约阅读时间需要 2 分钟。
maptask指的是在mapreduce运行过程中为每一个数据切片分配的数据运算实例任务。maptask的并行度也就指的是运算任务实例的数量,影响整个job的处理速度。
**数据块:**Block是HDFS物理上把数据分成一块一块。
**数据切片:**数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。
对于一个要处理的文件数据map框架有默认的切片大小,一般默认为blocksize的大小,在分配maptask运算任务实例的时候对每一个数据切片分配一个maptask,这样的话若一个文件的大小没有达到blocksize的大小的时候(比如说文件大小只有1k),那当然就会为了减少资源浪费默认分配一个maptask。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CKgHYqus-1603113650855)(https://s1.ax1x.com/2020/10/13/0fLXLD.png)]
转载地址:http://yicki.baihongyu.com/