MapReduce工作流程

张开发

• 2026/5/18 17:45:04 • 15 分钟阅读

分享文章

总体流程输入数据(Input)→逻辑切片(Split)→Map映射→Shuffle阶段→Reduce阶段→输出数据(Output)输入阶段核心框架将HDFS上的文件切分为多个逻辑切片。分片规则默认和HDFS块大小一致为128MB。输入格式将每行的数据以行号行内容的键值对进行解析输入。Map阶段输入每个切片对应一个Map任务使用APITextInputFormat读取split的数据。其中k(偏移量) - v(行数据)。然后循环调用自定义的map()方法输出k-v调用k-v的分区计算。输出Map输出不是直接写入磁盘而是写入内存环形缓冲区(MapOutoutBuffer)。关键机制分区(Partitioning)默认是HashPartitioner根据key的哈希值hash(key) % numReduceTasks决定归属哪个Reduce任务。溢写(Spill)当缓冲区写入80%时就会触发溢写过程。读取k-v{分区号}对溢写范围内的数据进行一次快速排序。存放到本地磁盘文件中产生分区内的溢写文件。溢写完毕后会产生多个溢写文件。这时就会将多个溢写文件进行归并排序合并为一个有序文件。如果开启combiner那么当每个MapTask执行完毕之后本地磁盘每个分区内只有一个文件大幅减少磁盘 IO 和网络传输量。Shuffle阶段(Map端Reduce端)Map端的shuffle主要完成分区、排序、溢写、合并这些功能。Reduce端的shuff主要是进行copy、merge、sort功能。从各个MapTask节点下载拉取对应分区的结果文件然后将拉取的数据先存入内存缓冲区内存不足的话会写入磁盘再将内存和磁盘中的多个小文件进行归并排序合并成一个有序的大文件其中的排序分组是将相同key的所有value值聚合到一起形成key,Iterablevalue的结构作为Reduce函数的输入。Reduce 阶段将处理好的key,Iterablevalue执行用户自定义的reduce()方法遍历value列表进行聚合、统计等计算,生成最终的key,value。然后将结果写入HDFS的最终输出目录。输出数据框架调用OutputFormat将Reduce输出写入HDFS。输出的文件不可更改但是支持多种存储系统(HDFS、Hive、Hbase等)。以WordCount为例流程演示假设输入文件:hello li hello leisplit文件拆分为一个分片。Map输入0,hello li hello lei输出hello,1li,1hello,1lie,1Shuffle分区hello进入分区0li进入分区1lei进入分区0。排序合并分区0变为hello,(1,1)分区1变为li,(1)。Reduce输入hello,Iterable[1,1]li,Iterable[1]输出hello,2li,1输出数据写入HDFS结果为hello 2、li 1。

更多文章

前端开发 2026/5/14 2:47:33

IntelliJ IDEA项目实战：构建基于Pixel Dimension Fissioner的Java客户端SDK

IntelliJ IDEA项目实战：构建基于Pixel Dimension Fissioner的Java客户端SDK 1. 项目背景与目标在现代图像处理领域，Pixel Dimension Fissioner（像素维度分离器）技术因其高效的图像分割能力而广受欢迎。作为Java开发者&#xff…

张开发

前端开发 2026/5/18 17:44:01

League Director：让英雄联盟录像编辑变得简单高效

League Director：让英雄联盟录像编辑变得简单高效【免费下载链接】leaguedirector League Director is a tool for staging and recording videos from League of Legends replays 项目地址: https://gitcode.com/gh_mirrors/le/leaguedirector 3大核心功能…

张开发

前端开发 2026/5/14 2:47:35

3大核心价值：obs-multi-rtmp如何让多平台直播效率提升80%

3大核心价值：obs-multi-rtmp如何让多平台直播效率提升80% 【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 在直播行业蓬勃发展的今天，同时在多个平台进行直播已成…

张开发

前端开发 2026/5/14 2:47:35

OpenClaw多模态创作助手：千问3.5-35B-A3B-FP8生成技术文章与配图

OpenClaw多模态创作助手：千问3.5-35B-A3B-FP8生成技术文章与配图 1. 为什么需要自动化技术博客创作作为一个经常写技术博客的开发者，我发现自己总在重复同样的劳动：查资料、写初稿、找配图、调格式。每次想分享一个新技术的使用心得&#…

张开发

前端开发 2026/5/14 2:47:36

7步掌握N_m3u8DL-CLI-SimpleG：从M3U8下载到批量处理的实战指南

7步掌握N_m3u8DL-CLI-SimpleG：从M3U8下载到批量处理的实战指南【免费下载链接】N_m3u8DL-CLI-SimpleG N_m3u8DL-CLIs simple GUI 项目地址: https://gitcode.com/gh_mirrors/nm3/N_m3u8DL-CLI-SimpleG N_m3u8DL-CLI-SimpleG是一款功能强大的M3U8视频下载工具…

张开发

前端开发 2026/5/14 2:48:47

软考分析师90天冲刺｜DAY10·需求验证方法

核心知识点: 需求评审、原型验证、模型检查、测试用例设计精炼讲解: 需求评审流程与评审准则真题实战: 需求缺陷识别题实践应用: 组织需求评审会议并输出评审报告在软考系统分析师的备考路上，需求验证是一个绕不开的高频考点。据统计，近5年真题中，需求工程相关题目占比约…

张开发

前端开发 2026/5/14 2:47:38

用Viser给3D高斯泼溅（3DGS）模型做个网页版实时查看器：从相机状态获取到实时渲染的完整流程

构建3D高斯泼溅模型的Web交互式查看器：从Viser集成到实时渲染在3D计算机视觉领域，3D高斯泼溅（3DGS）技术因其高效的渲染质量和实时性能而备受关注。然而，大多数3DGS模型的查看和交互仍然局限于命令行或专用工具中&…

张开发

前端开发 2026/5/14 2:47:37

如何在5分钟内用MMD Tools插件打通Blender与MikuMikuDance创作壁垒

如何在5分钟内用MMD Tools插件打通Blender与MikuMikuDance创作壁垒【免费下载链接】blender_mmd_tools MMD Tools is a blender addon for importing/exporting Models and Motions of MikuMikuDance. 项目地址: https://gitcode.com/gh_mirrors/bl/blender_mmd_tools …

张开发

前端开发 2026/5/14 2:47:42

Windows本地实时语音转文字：5分钟搭建你的专属离线语音助手

Windows本地实时语音转文字：5分钟搭建你的专属离线语音助手【免费下载链接】TMSpeech 腾讯会议摸鱼工具项目地址: https://gitcode.com/gh_mirrors/tm/TMSpeech 还在为会议记录手忙脚乱？在线课程听得一知半解？视频会议总是错过关键信…

张开发

前端开发 2026/5/14 2:47:38

＜git＞＜1＞git版本管理的必知必会

作为一个嵌软工程师, GIT 是要必备的技能之一, 以下内容将带你熟悉 git 常用的基础的操作 0.规范 git提交规范 Git 分支命名规范(完) Git分支管理及命名规范 1.环境管理当你使用ssh链接时, 注意要生成自己的ssh公钥, 否则无法推送, 报错权限不够 # 生成ssh公钥方式 ssh-keygen…

张开发

前端开发 2026/5/14 2:47:37

Split APKs Installer完整指南：专业级拆分APK安装解决方案

Split APKs Installer完整指南：专业级拆分APK安装解决方案【免费下载链接】SAI Android split APKs installer 项目地址: https://gitcode.com/gh_mirrors/sa/SAI 拆分APK（Split APKs）安装是Android开发中的一项关键技术挑战&#xf…

张开发

前端开发 2026/5/14 2:47:39

InternLM2-Chat-1.8B模型对话风格调校展示：从严谨技术到轻松幽默

InternLM2-Chat-1.8B模型对话风格调校展示：从严谨技术到轻松幽默最近在折腾大语言模型，我发现一个挺有意思的事儿：同一个模型，稍微调教一下，就能展现出完全不同的“性格”。就拿InternLM2-Chat-1.8B这个轻量级模型来…

张开发

MapReduce工作流程

最新文章

Windows Cleaner：免费开源工具，高效解决C盘空间不足问题

WarcraftHelper终极指南：魔兽争霸3全版本兼容性修复与性能优化完整方案

除了RTKLIB，还有哪些轻量级工具能一键把坐标序列转KML？实测3种方案对比

第四篇：Vibe Coding 深度解析（四）：生产级落地的工程化体系与避坑指南

python passlib

5分钟快速上手：xrdp开源远程桌面服务器完整配置指南

推荐文章

相关文章

分享文章

更多文章

IntelliJ IDEA项目实战：构建基于Pixel Dimension Fissioner的Java客户端SDK

League Director：让英雄联盟录像编辑变得简单高效

3大核心价值：obs-multi-rtmp如何让多平台直播效率提升80%

OpenClaw多模态创作助手：千问3.5-35B-A3B-FP8生成技术文章与配图

7步掌握N_m3u8DL-CLI-SimpleG：从M3U8下载到批量处理的实战指南

软考分析师90天冲刺｜DAY10·需求验证方法

用Viser给3D高斯泼溅（3DGS）模型做个网页版实时查看器：从相机状态获取到实时渲染的完整流程

如何在5分钟内用MMD Tools插件打通Blender与MikuMikuDance创作壁垒

Windows本地实时语音转文字：5分钟搭建你的专属离线语音助手

＜git＞＜1＞git版本管理的必知必会

Split APKs Installer完整指南：专业级拆分APK安装解决方案

InternLM2-Chat-1.8B模型对话风格调校展示：从严谨技术到轻松幽默