博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
gensim-5个学习阶段
阅读量:5820 次
发布时间:2019-06-18

本文共 647 字,大约阅读时间需要 2 分钟。

hot3.png

阶段1--语料库和向量

* 建立语料库步骤

     1.从字符串==>向量

     2.去除停用词;去除出现次数=1的词;

     3.(对英文)小写化处理;词干化处理

     4.词袋化处理

     5.将vector进行Id化处理

     至此,语料库已经建立,可以存储起来(实际也是,建立语料库是一个长期而独立的过程,不会和后续的使用结合在一起)

* 语料流的处理优化

     - 实际的语料库数据量不小

     - 一次只读取一个文件中的vector,

* 语料的格式

* 语料库格式兼容Numpy和Scipy

阶段2--topic处理

     使用语料库进行文章的处理

阶段3--相似性查询

阶段4-处理来自wiki的数据

 阶段5--分布式模式

* 基于gensim的分布式,对系统交互要求不高,对延迟的容忍性较好

* Numpy中的linear lagebra对时间消耗很大

     - 替换的方式:用更快速的 BLAS(Basic Linear Lagebra) 实现,如

          Intel的MKL, AMD的ACML, OS X的vecLib,Sun的Sunpref

          或者开源的 GotoBLAS,ALTAS

     - 检查所用的BLAS库的方法:

          python -c 'import scipy; scipy.show_config()'

* gensim基于Pyro(Python Remote Objects,版本>=4.8)通讯

          easy install Pyro4

转载于:https://my.oschina.net/kakablue/blog/315471

你可能感兴趣的文章
windows下Python 3.x图形图像处理库PIL的安装
查看>>
【IL】IL生成exe的方法
查看>>
SettingsNotePad++
查看>>
没有JS的前端:体积更小、速度更快!
查看>>
数据指标/表现度量系统(Performance Measurement System)综述
查看>>
GitHub宣布推出Electron 1.0和Devtron,并将提供无限制的私有代码库
查看>>
论模式在领域驱动设计中的重要性
查看>>
有关GitHub仓库分支的几个问题
查看>>
云原生的浪潮下,为什么运维人员适合学习Go语言?
查看>>
EAServer 6.1 .NET Client Support
查看>>
锐捷交换机密码恢复(1)
查看>>
Method Swizzling对Method的要求
查看>>
佛祖保佑,永不宕机
查看>>
四、配置开机自动启动Nginx + PHP【LNMP安装 】
查看>>
Linux 目录结构及内容详解
查看>>
OCP读书笔记(24) - 题库(ExamD)
查看>>
解决Unable to load R3 module ...VBoxDD.dll (VBoxDD):GetLastError=1790
查看>>
.net excel利用NPOI导入oracle
查看>>
$_SERVER['SCRIPT_FLENAME']与__FILE__
查看>>
My97DatePicker 日历插件
查看>>