点播 Python清洗文本数据

课程时长 04小时48分钟

学习期限 12 个月 退款期限 30 天

市场价格 免费 会员价格 免费

难度级别 中级 学习人次 37926 综合评分 4.2

内容实用 4.1 分

简洁易懂 4.4 分

逻辑清晰 4.1 分

  • 详情
  • 目录
  • 评价2

简介:本课介绍数据预处理过程体系,包括数据类型与采集、文本转化与抽取、数据集成与规约、中文分词、数据清洗、特征提取与变换、特征向量化、特征降维、特征选择、可视化、词典模型、TF-IDF向量模型、主题模型等。

第1章清洗文本信息

  • 30万条数据准备情况
    02分钟02秒
  • yield生成器实现斐波那契数列
    15分钟19秒
  • 递归遍历读取30万新闻数据
    10分钟30秒
  • 高效读取30万新闻数据
    14分钟41秒
  • 正则表达式介绍与常见使用场景(1)
    18分钟08秒
  • 正则表达式清洗文本数据(2)
    09分钟35秒
  • 清洗HTML网页数据
    12分钟29秒
  • 简繁字体转换
    08分钟59秒
  • 批量清洗30万新闻文本数据
    12分钟12秒

第2章文本特征提取

  • jieba分词精讲
    50分钟22秒
  • jieba分词精讲
    41分钟46秒
  • HanLP分词精讲
    13分钟23秒
  • 自定义去停用词
    17分钟47秒
  • NLTK词频统计(1)
    17分钟38秒
  • NLTK词频统计(2)
    03分钟33秒
  • 自定义选择高低词频
    08分钟45秒
  • 命名实体的提取
    06分钟32秒
  • slearn计算多分类下的TFIDF
    14分钟03秒
  • 实战案例:30万新闻文本特征提取
    11分钟06秒
37926
2
0