阶段1--语料库和向量
* 建立语料库步骤
1.从字符串==>向量
2.去除停用词;去除出现次数=1的词;
3.(对英文)小写化处理;词干化处理
4.词袋化处理
5.将vector进行Id化处理
至此,语料库已经建立,可以存储起来(实际也是,建立语料库是一个长期而独立的过程,不会和后续的使用结合在一起)
* 语料流的处理优化
- 实际的语料库数据量不小
- 一次只读取一个文件中的vector,
* 语料的格式
* 语料库格式兼容Numpy和Scipy
阶段2--topic处理
使用语料库进行文章的处理
阶段3--相似性查询
阶段4-处理来自wiki的数据
阶段5--分布式模式
* 基于gensim的分布式,对系统交互要求不高,对延迟的容忍性较好
* Numpy中的linear lagebra对时间消耗很大
- 替换的方式:用更快速的 BLAS(Basic Linear Lagebra) 实现,如
Intel的MKL, AMD的ACML, OS X的vecLib,Sun的Sunpref
或者开源的 GotoBLAS,ALTAS
- 检查所用的BLAS库的方法:
python -c 'import scipy; scipy.show_config()'
* gensim基于Pyro(Python Remote Objects,版本>=4.8)通讯
easy install Pyro4