相关动态
2.NLTK之文本语料库
2024-11-10 18:12

就职演说语料库 该语料库是 55 个文本的集合,每个文本都是一个总统的演说。这 个集合的一个有趣特性是它的时间维度

2.NLTK之文本语料库

结果如下: [‘1789-Washington.txt’, ‘1793-Washington.txt’, ‘1797-Adams.txt’, ‘1801-Jefferson.txt’, ‘1805-Jefferson.txt’, ‘1809-Madison.txt’, ‘1813-Madison.txt’, ‘1817-Monroe.txt’, ‘1821-Monroe.txt’, ‘1825-Adams.txt’, ‘1829-Jackson.txt’, ‘1833-Jackson.txt’, ‘1837-VanBuren.txt’, ‘1841-Harrison.txt’, ‘1845-Polk.txt’, ‘1849-Taylor.txt’, ‘1853-Pierce.txt’, ‘1857-Buchanan.txt’, ‘1861-Lincoln.txt’, ‘1865-Lincoln.txt’, ‘1869-Grant.txt’, ‘1873-Grant.txt’, ‘1877-Hayes.txt’, ‘1881-Garfield.txt’, ‘1885-Cleveland.txt’, ‘1889-Harrison.txt’, ‘1893-Cleveland.txt’, ‘1897-McKinley.txt’, ‘1901-McKinley.txt’, ‘1905-Roosevelt.txt’, ‘1909-Taft.txt’, ‘1913-Wilson.txt’, ‘1917-Wilson.txt’, ‘1921-Harding.txt’, ‘1925-Coolidge.txt’, ‘1929-Hoover.txt’, ‘1933-Roosevelt.txt’, ‘1937-Roosevelt.txt’, ‘1941-Roosevelt.txt’, ‘1945-Roosevelt.txt’, ‘1949-Truman.txt’, ‘1953-Eisenhower.txt’, ‘1957-Eisenhower.txt’, ‘1961-Kennedy.txt’, ‘1965-Johnson.txt’, ‘1969-Nixon.txt’, ‘1973-Nixon.txt’, ‘1977-Carter.txt’, ‘1981-Reagan.txt’, ‘1985-Reagan.txt’, ‘1989-Bush.txt’, ‘1993-Clinton.txt’, ‘1997-Clinton.txt’, ‘2001-Bush.txt’, ‘2005-Bush.txt’, ‘2009-Obama.txt’]

让我们来看看词汇 america 和 citizen 随时间推移的使用情况。下面的代码使用 w.lower()将就职演说语料库中的词汇转换成小写。然后用 startswith()检查它们是否以“目标”词汇 america 或 citizen 开始。因此,它会计算如 American’s 和 Citizens 等词。

plot

NLTK中定义的基本语料库函数

示例描述fileids()语料库中的文件fileids([categories])这些分类对应的语料库中的文件categories()语料库中的分类categories([fileids])这些文件对应的语料库中的分类raw()语料库的原始内容raw(fileids=[f1,f2,f3])指定文件的原始内容raw(categories=[c1,c2])指定分类的原始内容words()整个语料库中的词汇words(fileids=[f1,f2,f3])指定文件中的词汇words(categories=[c1,c2])指定分类中的词汇sents()指定分类中的句子sents(fileids=[f1,f2,f3])指定文件中的句子sents(categories=[c1,c2])指定分类中的句子abspath(fileid)指定文件在磁盘上的位置encoding(fileid)文件的编码(如果知道的话)open(fileid)打开指定语料库文件的文件流root()到本地安装的语料库根目录的路径

NLTK 中的条件频率分布

示例描述cfdist= ConditionalFreqDist(pairs)从配对链表中创建条件频率分布cfdist.conditions()将条件按字母排序cfdist[condition]此条件下的频率分布cfdist[condition][sample]此条件下给定样本的频率cfdist.tabulate()为条件频率分布制表cfdist.tabulate(samples, conditions)指定样本和条件限制下制表cfdist.plot()为条件频率分布绘图cfdist.plot(samples, conditions)指定样本和条件限制下绘图cfdist1 < cfdist2测试样本在 cfdist1 中出现次数是否小于在 cfdist2 中出现次数

以字母 a 结尾的名字几乎都是女性。我们可以在下图中看到这一 点以及一些其它的模式

plot

WordNet WordNet是面向语义的英语词典,类似于传统字典。它是NLTK语料库的一部分,可以被这样调用

查看一个单词的同义词集用synsets(); 它有一个参数pos,可以指定查找的词性。这里得到的同义词集是同义词集的集合

Note: - 一个synset(同义词集:指意义相同的词条的集合)被一个三元组描述(单词.词性.序号)。这里的’fuck.n.01’指:fuck的第一个名词意思;’sleep_together.v.01’指:sleep_together的第一个动词意思. - pos可为:NOUN、VERB、ADJ、ADV…

fuck被定义为fuck.n.01的第一个名词意义。与fuck.n.01意义相同的词的集合如下

同义词集也有一些一般的定义和例句

同义词 WordNet 使在概念之间漫游变的容易。例如:一个如 fuck 这样的概念,我们可以看到它的更加具体(直接)的概念—— 下位词

我们也可以通过访问上位词来浏览层次结构。

synset1.path_similarity(synset2): 是基于上位词层次结构中相互连接的概念之间的最短路径在0-1范围的打分(两者之间没有路径就返回-1)。同义词集与自身比较将返回1

中文语料库

下载安装sinica_treebank就能使用了。

来看一下NLTK中文语法树。

    以上就是本篇文章【2.NLTK之文本语料库】的全部内容了,欢迎阅览 ! 文章地址:http://yejunbin01.xhstdz.com/quote/63962.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://yejunbin01.xhstdz.com/mobile/ , 查看更多   
发表评论
0评