导图社区 数据预处理
文本数据分割思维导图,包含了数据集成、数据清洗、可视化技术、XGBoost、数据处理、数据变换、数据归约等。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
数据预处理
数据集成
文本抽取插件
python插件安装
文本抽取插件使用
多源数据集成
PDF文本转txt
word文本转txt
文本抽取器封装
批量抽取文本信息
方法参数
遍历文件
批量编码
数据清洗
高效读取文件
yield生成器
文本遍历改进
正则表达式
常见正则表达式
正则提取中文
高校正则使用
清洗数据
网页数据清洗
子主题
中文简繁字体转化
批量清洗30w新闻数据
缺失值处理
噪音数据处理
异常数据等
数据处理
结巴分词精讲
全模式分词
搜索模式分词
自定义词典分词
关键词提取
词性标注
词语原文起止位置
HanLP精讲
标准分词
NLP分词
索引分词
N-最短路径分词
CRF分词
命名实体识别与词性标注
词典分词
自动摘要
短语提取
停用词处理
停用词表
词性解读
自定义停用词
NLTK使用
NLTK介绍
NLTK安装
词频处理
高频词
低频词
词性选择
特征数据提取
批量处理30w新闻数据
数据变换
词模型
词袋模型
词集模型
缺失值和数据均衡
语科库技术
TF-IDF
特征词比重
批量处理30w数据向量化
数据归约
主成分分析PCA
主题模型LDA
奇异值分解SVD
分层狄利克雷过程HDP
潜在语义索引LSI
生成随机映射RP
XGBoost
监督学习
文本分类
XGBoost原理
XGBoost算数实现
XGBoost参数调优
算法性能评估
XGBoost实现30w新闻数据文本分类
数据集
30w词典生成
30w文档生成ITIDF
30w文档生成LSI
XGBoost训练分类器模型
算法调优(数据集与训练集比例、抽样调优、特征维度选择)
分类器的实现与商业应用
可视化技术
条形图
柱状图
散点图
饼图
热力图
matplotlib
Axes3D