课程 - Python清洗文本数据 - 真学云课堂

点播

Python清洗文本数据

课程时长 04小时48分钟

学习期限 12 个月退款期限 30 天

市场价格免费会员价格免费

难度级别中级学习人次 37926 综合评分 4.2

内容实用 4.1 分

简洁易懂 4.4 分

逻辑清晰 4.1 分

详情
目录
评价2

简介：本课介绍数据预处理过程体系，包括数据类型与采集、文本转化与抽取、数据集成与规约、中文分词、数据清洗、特征提取与变换、特征向量化、特征降维、特征选择、可视化、词典模型、TF-IDF向量模型、主题模型等。

第1章清洗文本信息

30万条数据准备情况

02分钟02秒
yield生成器实现斐波那契数列

15分钟19秒
递归遍历读取30万新闻数据

10分钟30秒
高效读取30万新闻数据

14分钟41秒
正则表达式介绍与常见使用场景（1）

18分钟08秒
正则表达式清洗文本数据（2）

09分钟35秒
清洗HTML网页数据

12分钟29秒
简繁字体转换

08分钟59秒
批量清洗30万新闻文本数据

12分钟12秒

第2章文本特征提取

jieba分词精讲

50分钟22秒
jieba分词精讲

41分钟46秒
HanLP分词精讲

13分钟23秒
自定义去停用词

17分钟47秒
NLTK词频统计（1）

17分钟38秒
NLTK词频统计（2）

03分钟33秒
自定义选择高低词频

08分钟45秒
命名实体的提取

06分钟32秒
slearn计算多分类下的TFIDF

14分钟03秒
实战案例：30万新闻文本特征提取

11分钟06秒