图书介绍

面向大数据的高效能垃圾文本分类PDF|Epub|txt|kindle电子书版本网盘下载

面向大数据的高效能垃圾文本分类
  • 刘伍颖著 著
  • 出版社: 北京:国防工业出版社
  • ISBN:9787118097597
  • 出版时间:2014
  • 标注页数:160页
  • 文件大小:59MB
  • 文件页数:176页
  • 主题词:数据处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

面向大数据的高效能垃圾文本分类PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 大数据与垃圾信息1

1.1 大数据时代的垃圾信息1

1.1.1 大数据和垃圾信息爆发1

1.1.2 垃圾信息过滤研究项目3

1.1.3 垃圾信息过滤研究意义10

1.2 垃圾信息范畴12

1.2.1 垃圾电子邮件12

1.2.2 垃圾手机短信13

1.2.3 广义垃圾信息14

1.2.4 文本垃圾信息14

1.3 文本垃圾信息态势15

1.3.1 国际垃圾邮件态势15

1.3.2 我国垃圾邮件态势17

1.3.3 我国垃圾手机短信态势19

1.4 研究动机与内容21

1.4.1 科学问题与挑战21

1.4.2 研究内容与结构22

1.4.3 研究成果25

本章小结28

第2章 垃圾信息过滤方法概述29

2.1 基于协议的垃圾信息过滤29

2.1.1 基于SMTP的方法30

2.1.2 基于IP的方法31

2.2 基于内容的垃圾信息过滤33

2.2.1 基于规则的方法34

2.2.2 基于统计的方法35

2.2.3 神经网络方法38

2.2.4 集成学习方法39

2.3 垃圾信息过滤性能评价方法41

2.3.1 当前性能评价方法41

2.3.2 ROC曲线评价方法42

2.3.3 整体性能评价方法43

本章小结44

第3章 信息文档的文本统计特性45

3.1 信息文档的正文特性45

3.1.1 电子邮件和手机短信语料45

3.1.2 正文文本长度特性46

3.1.3 正文和Token重复特性49

3.2 信息文档的结构特性50

3.2.1 信息文档格式50

3.2.2 域间文本特征52

3.3 Token频率分布的幂律特性54

3.3.1 幂律54

3.3.2 邮件文档和邮件域文档55

3.3.3 短信文档和短信域文档60

本章小结64

第4章 面向垃圾信息过滤的多域学习文本分类66

4.1 问题描述与框架66

4.1.1 形式化描述66

4.1.2 多域学习框架70

4.2 分割策略72

4.2.1 自然域文档分割策略73

4.2.2 特定属性域文档分割策略74

4.3 组合策略76

4.3.1 均权组合策略76

4.3.2 支持向量模型权组合策略77

4.3.3 域分类器历史性能权组合策略80

4.3.4 域文档信息量权组合策略81

4.3.5 复合权组合策略81

4.4 实验结果82

4.4.1 TRECO7P上的bogo实验82

4.4.2 TRECO7P上的tftS3F实验85

4.4.3 CSMS-P上的bogo实验87

4.4.4 CSMS-P上的tftS3F实验89

本章小结91

第5章 面向垃圾信息过滤的时空高效文本分类92

5.1 基于Token频率索引的文本分类算法92

5.1.1 统计原理92

5.1.2 Token频率索引94

5.1.3 算法描述95

5.2 算法复杂度分析98

5.2.1 时间复杂度99

5.2.2 空间复杂度99

5.3 基于多类别Token频率索引的文本分类算法104

5.3.1 Token频率统计特性104

5.3.2 多类别Token频率索引107

5.3.3 算法描述108

5.4 实验结果111

5.4.1 TRECO7P上的tfibtc实验111

5.4.2 CSMS-P上的tfibtc实验116

5.4.3 TanCorp-12上的mtfibtc实验118

本章小结121

第6章 面向垃圾信息过滤的主动学习文本分类122

6.1 问题描述与框架122

6.1.1 形式化描述122

6.1.2 主动多域学习框架125

6.2 主动学习策略126

6.2.1 时序优先主动学习策略126

6.2.2 先验区间主动学习策略127

6.2.3 基于方差的非确定采样主动学习策略127

6.3 实验结果129

6.3.1 TRECO7P上的10000反馈tfibtc.cs5实验129

6.3.2 TRECO7P上的1000反馈tfibtc.cs5实验131

6.3.3 CSMS-P上的10000反馈tfibtc.cs5实验133

6.3.4 CSMS-P上的1000反馈tfibtc.cs5实验135

本章小结137

第7章 面向大数据的高效能垃圾文本过滤系统138

7.1 研究结论138

7.1.1 多域学习框架的有效性138

7.1.2 NFD和ASFD分割策略的有效性139

7.1.3 复合权组合策略的最优性140

7.1.4 基于TFI的文本分类算法的时空高效性140

7.1.5 基于方差的非确定采样主动学习策略的有效性141

7.2 高效能垃圾文本过滤系统设计141

7.2.1 多Cluster垃圾文本过滤系统141

7.2.2 多语种大数据深度舆情系统144

7.2.3 个性化垃圾邮件过滤系统147

本章小结149

参考文献151

热门推荐