2.NLTK之文本语料库 - 物流园资讯移动站

2.NLTK之文本语料库

2024-11-10 18:12

就职演说语料库 该语料库是 55 个文本的集合，每个文本都是一个总统的演说。这个集合的一个有趣特性是它的时间维度：

2.NLTK之文本语料库

结果如下： [‘1789-Washington.txt’, ‘1793-Washington.txt’, ‘1797-Adams.txt’, ‘1801-Jefferson.txt’, ‘1805-Jefferson.txt’, ‘1809-Madison.txt’, ‘1813-Madison.txt’, ‘1817-Monroe.txt’, ‘1821-Monroe.txt’, ‘1825-Adams.txt’, ‘1829-Jackson.txt’, ‘1833-Jackson.txt’, ‘1837-VanBuren.txt’, ‘1841-Harrison.txt’, ‘1845-Polk.txt’, ‘1849-Taylor.txt’, ‘1853-Pierce.txt’, ‘1857-Buchanan.txt’, ‘1861-Lincoln.txt’, ‘1865-Lincoln.txt’, ‘1869-Grant.txt’, ‘1873-Grant.txt’, ‘1877-Hayes.txt’, ‘1881-Garfield.txt’, ‘1885-Cleveland.txt’, ‘1889-Harrison.txt’, ‘1893-Cleveland.txt’, ‘1897-McKinley.txt’, ‘1901-McKinley.txt’, ‘1905-Roosevelt.txt’, ‘1909-Taft.txt’, ‘1913-Wilson.txt’, ‘1917-Wilson.txt’, ‘1921-Harding.txt’, ‘1925-Coolidge.txt’, ‘1929-Hoover.txt’, ‘1933-Roosevelt.txt’, ‘1937-Roosevelt.txt’, ‘1941-Roosevelt.txt’, ‘1945-Roosevelt.txt’, ‘1949-Truman.txt’, ‘1953-Eisenhower.txt’, ‘1957-Eisenhower.txt’, ‘1961-Kennedy.txt’, ‘1965-Johnson.txt’, ‘1969-Nixon.txt’, ‘1973-Nixon.txt’, ‘1977-Carter.txt’, ‘1981-Reagan.txt’, ‘1985-Reagan.txt’, ‘1989-Bush.txt’, ‘1993-Clinton.txt’, ‘1997-Clinton.txt’, ‘2001-Bush.txt’, ‘2005-Bush.txt’, ‘2009-Obama.txt’]

让我们来看看词汇 america 和 citizen 随时间推移的使用情况。下面的代码使用 w.lower()将就职演说语料库中的词汇转换成小写。然后用 startswith()检查它们是否以“目标”词汇 america 或 citizen 开始。因此，它会计算如 American’s 和 Citizens 等词。

plot

NLTK中定义的基本语料库函数：

示例描述fileids()语料库中的文件fileids([categories])这些分类对应的语料库中的文件categories()语料库中的分类categories([fileids])这些文件对应的语料库中的分类raw()语料库的原始内容raw(fileids=[f1,f2,f3])指定文件的原始内容raw(categories=[c1,c2])指定分类的原始内容words()整个语料库中的词汇words(fileids=[f1,f2,f3])指定文件中的词汇words(categories=[c1,c2])指定分类中的词汇sents()指定分类中的句子sents(fileids=[f1,f2,f3])指定文件中的句子sents(categories=[c1,c2])指定分类中的句子abspath(fileid)指定文件在磁盘上的位置encoding(fileid)文件的编码（如果知道的话）open(fileid)打开指定语料库文件的文件流root()到本地安装的语料库根目录的路径

NLTK 中的条件频率分布

示例描述cfdist= ConditionalFreqDist(pairs)从配对链表中创建条件频率分布cfdist.conditions()将条件按字母排序cfdist[condition]此条件下的频率分布cfdist[condition][sample]此条件下给定样本的频率cfdist.tabulate()为条件频率分布制表cfdist.tabulate(samples, conditions)指定样本和条件限制下制表cfdist.plot()为条件频率分布绘图cfdist.plot(samples, conditions)指定样本和条件限制下绘图cfdist1 < cfdist2测试样本在 cfdist1 中出现次数是否小于在 cfdist2 中出现次数

以字母 a 结尾的名字几乎都是女性。我们可以在下图中看到这一点以及一些其它的模式：

plot

WordNet WordNet是面向语义的英语词典，类似于传统字典。它是NLTK语料库的一部分,可以被这样调用：

查看一个单词的同义词集用synsets(); 它有一个参数pos，可以指定查找的词性。这里得到的同义词集是同义词集的集合：

Note： - 一个synset(同义词集：指意义相同的词条的集合)被一个三元组描述：（单词.词性.序号）。这里的’fuck.n.01’指：fuck的第一个名词意思;’sleep_together.v.01’指：sleep_together的第一个动词意思. - pos可为：NOUN、VERB、ADJ、ADV…

fuck被定义为fuck.n.01的第一个名词意义。与fuck.n.01意义相同的词的集合如下：

同义词集也有一些一般的定义和例句：

同义词 WordNet 使在概念之间漫游变的容易。例如：一个如 fuck 这样的概念，我们可以看到它的更加具体（直接）的概念—— 下位词

我们也可以通过访问上位词来浏览层次结构。

synset1.path_similarity(synset2): 是基于上位词层次结构中相互连接的概念之间的最短路径在0-1范围的打分（两者之间没有路径就返回-1）。同义词集与自身比较将返回1：

中文语料库

下载安装sinica_treebank就能使用了。

来看一下NLTK中文语法树。

以上就是本篇文章【2.NLTK之文本语料库】的全部内容了，欢迎阅览！文章地址：http://yejunbin01.xhstdz.com/quote/63962.html
栏目首页相关文章动态同类文章热门文章网站地图返回首页物流园资讯移动站 http://yejunbin01.xhstdz.com/mobile/ , 查看更多