- 详情
- 目录
- 评价2
简介:本课介绍数据预处理过程体系,包括数据类型与采集、文本转化与抽取、数据集成与规约、中文分词、数据清洗、特征提取与变换、特征向量化、特征降维、特征选择、可视化、词典模型、TF-IDF向量模型、主题模型等。
第1章清洗文本信息
- 30万条数据准备情况02分钟02秒
- yield生成器实现斐波那契数列15分钟19秒
- 递归遍历读取30万新闻数据10分钟30秒
- 高效读取30万新闻数据14分钟41秒
- 正则表达式介绍与常见使用场景(1)18分钟08秒
- 正则表达式清洗文本数据(2)09分钟35秒
- 清洗HTML网页数据12分钟29秒
- 简繁字体转换08分钟59秒
- 批量清洗30万新闻文本数据12分钟12秒
第2章文本特征提取
- jieba分词精讲50分钟22秒
- jieba分词精讲41分钟46秒
- HanLP分词精讲13分钟23秒
- 自定义去停用词17分钟47秒
- NLTK词频统计(1)17分钟38秒
- NLTK词频统计(2)03分钟33秒
- 自定义选择高低词频08分钟45秒
- 命名实体的提取06分钟32秒
- slearn计算多分类下的TFIDF14分钟03秒
- 实战案例:30万新闻文本特征提取11分钟06秒