相关动态
word2vec词向量中文语料处理(python gensim word2vec总结)
2024-11-10 18:58

目录

word2vec词向量中文语料处理(python gensim word2vec总结)

中文语料处理

法一:语料处理为列表

法二:语料是文件(处理为迭代器

对一个目录下的所有文件生效(法1

 对一个目录下的所有文件生效(法2

class : gensim.models.word2vec.PathLineSentences

对于单个文件语料,使用LineSentence

语料库获取语料

word2vec中文语料处理及模型训练实践


python gensim训练 word2vec的中文语料格式是什么样的呢?很多经验贴或是忽略了这个地方,或是没有详细说明,此博文详细说明及实践语料的处理方式,并汇总数种语料加载方式。

从文章word2vec词向量训练使用(python gensim)对word2vec的介绍,我们了解到Word2Vec第一个参数sentences要求是是预处理后的训练语料库,需要输入一个可迭代的列表,但是对于较大的语料库,可以考虑直接从磁盘/网络传输句子的迭代。

如果是句子,需要进行分词

如果是文件,需要将文件处理为每一行对应一个句子(已经分词,以空格隔开,实例处理过程见文末。

把Python内置列表当作输入很方便,但当输入量很大的时候,大会占用大量内存。

Gensim需要输入一个可迭代的列表,可以是迭代器,没有必要把一切东西都保存在内存中,提供一个语句,加载处理它,忘记它,加载另一个语句。

一般我们的语料是在文件中存放的,首先,需要保证语料文件内部每一行对应一个句子(已经分词,以空格隔开,方法见上。

对一个目录下的所有文件生效(法1

这些文件已经被分词好了,如果还需要进一步预处理文件中的单词,如移除数字,提取命名实体… 所有的这些都可以在MySentences 迭代器内进行,保证给work2vec的是处理好的迭代器。

 对一个目录下的所有文件生效(法2

class : gensim.models.word2vec.PathLineSentences

对于单个文件语料,使用LineSentence

class: gensim.models.word2vec.LineSentence

每一行对应一个句子(已经分词,以空格隔开,我们可以直接用LineSentence把txt文件转为所需要的格式。

LineSentence功能解释:Iterate over a file that contains sentences: one line = one sentence. Words must be already preprocessed and separated by whitespace(对包含句子的文件进行迭代:一行=一句话。单词必须经过预处理,并由空格分隔) 

gensim.models.word2vec.LineSentence(source, max_sentence_length=10000, limit=None) 预处理类,限制句子最大长度,文档最大行数 拿到了分词后的文件,在一般的NLP处理中,会需要去停用词。由于word2vec的算法依赖于上下文,而上下文有可能就是停词。因此对于word2vec,我们可以不用去停词。

语料库获取语料

class gensim.models.word2vec.Text8Corpus

(实践部分代码改编自链接)原始小说语料下载《人民的名义》

    以上就是本篇文章【word2vec词向量中文语料处理(python gensim word2vec总结)】的全部内容了,欢迎阅览 ! 文章地址:http://yejunbin01.xhstdz.com/news/6797.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://yejunbin01.xhstdz.com/mobile/ , 查看更多   
最新文章
3个AI续写文章作文网站
第1个:搭画快写搭画快写是国内专业的AI原创内容写作平台,基于强大的4.0-6.0自然语言模型,从写作、批量写作、一键发布、批量发
ai人工智能写作在线使用
随着科技的不断发展,人工智能已经逐渐渗透到我们生活的方方面面。其中,AI人工智能写作在线作为一款高效、便捷的写作工具,受到
2021年刷爆你朋友圈的十大营销现象
● 作者 | 杨阳 来源 | 顶尖广告这一年,过得实在太快,不知不觉间就要步入2022年了。回顾今年的300多天,疫情反复、大瓜频出、
AI+医疗
今天看剧《我们的翻译官》里面有一集是说语译AI功能可以诊断疾病和给出意见,于是看看上市公司里是否有这些股。下面初步统计了一
3D点云车道线自动识别标注模型
随着自动驾驶技术发展驶入快车道,3D传感器的使用正在变得越来越普遍。常见的3D传感器包括激光雷达、毫米波雷达、深度相机
Docker学习笔记
【狂神说Java】Docker最新超详细版教程通俗易懂 https://www.bilibili.com/video/BV1og4y1q7M4/ 【狂神说Java】Docker进阶篇超详
11个帮助站长提升网站搜索引擎自然流量的SEO技巧
怎样提高你的百度搜索引擎提升专业技能?能够小范畴的试着一下这一明细里边的SEO专业技能,她们全是行得通并便于了解的百度搜索
1-移动端测试 - appium usage
返回测试目录返回随笔目录appium的操作跟selenium操作差不多,这里简要聊聊。我们通过Python代码打开APP(此时appium是启动并监
ai智能写作助手美化语言是什么软件:AI智能写作软件
随着科技的飞速发展,人工智能逐渐渗透到咱们生活的方方面面。在写作领域,智能写作助手的出现,不仅增进了写作效率,还能美化语
相关文章