导图社区 词频统计
词频统计思维导图,展示了如何使用Hadoop进行大规模文本数据的词频统计,包括数据上传、任务调用、结果下载和后续处理等步骤。
25考研习新时代特色社会主义,先背一级导图,再背二级,帮助考生理清思路,把握重点,为顺利通过考研打下坚实的基础。
个人思考,根据武忠祥高数基础篇书本加上自己理解整理的,本脑图提炼本书的重点内容,进行归纳整理,涵盖本书所有核心内容,非常方便大家学习。有需要的赶紧收藏下来吧!
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
词频统计
设计map和reduce函数处理
map函数:映射
将文本约三十万单词进行键值对 化
reduce 函数:规约
对相同单词的值相加,得到词频结果
管道化命令: cat Questions1.txt | python map.py | sort | python reduce.py >Questions2.txt
Hadoop自带wordcount词频统计
将文本放置上传至HDFS
hdfs dfs -put Questions1.txt /input
调用hadoop中jar wordcount函数, 结果放置新文件夹中。
hadoop jar /opt/hadoop/hadoop-3.3.1/share / hadoop /mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /input /output
将得到的结果下载至本地
hdfs dfs -get /output/part-r-00000
对词频文件重命名
mv part-r-00000 questions2.csv