Ngram,通常也称为N-gram,是对要查找的文本或语音内容的统计分析 ñ (一些)文本中的某种项目。
搜索项可以是各种各样的东西,如音素,前缀,短语或字母。虽然N-gram在研究界之外有些模糊,但它被用于各种领域,它对编写理解和回应自然语言的计算机程序的开发人员有很多影响。
对于Google Books Ngram Viewer,要分析的文本来自Google从公共图书馆扫描的大量图书,以填充他们的Google图书搜索引擎。对于Google Books Ngram Viewer,他们会将您要搜索的文本称为 文集 。 Ngram Viewer按语言汇总,但您可以单独分析英国和美国英语或将它们混为一谈。
Ngram如何运作
-
在books.google.com/ngrams上转到Google图书Ngram查看器。
-
输入您要分析的任何短语或短语。用逗号分隔每个短语。谷歌建议,“阿尔伯特爱因斯坦,夏洛克福尔摩斯,弗兰肯斯坦”让你开始。与Google网络搜索不同,商品区分大小写。
-
输入日期范围。默认值为1800到2000。
-
选择语料库。您可以搜索外语文本或英语,除标准选项外,您可能会在底部注意到“英语(2009)或美国英语(2009)”之类的内容。这些是谷歌已更新的旧语料库,但您可能有理由对旧数据集进行比较。大多数用户可以忽略它们并专注于最新的语料库。
-
设置平滑级别。平滑指的是图形在最后的平滑程度。最准确的表示将是平滑级别0,但该设置可能难以阅读。默认设置为3.在大多数情况下,您无需进行调整。
-
按下 搜索很多书 按钮。
Google允许您使用Ngram Viewer深入挖掘。如果你想搜索动词而不是钓鱼名词,你可以使用标签来实现。在这种情况下,您将搜索“fish_VERB”
Google提供了您可以使用的命令的完整列表以及其网站上的其他高级文档。
Ngram显示什么?
Google Books Ngram Viewer将输出一个图表,表示随着时间的推移在书籍中使用特定短语。如果您输入了多个单词或短语,则会看到颜色编码的行以对比不同的搜索词。这与Google趋势非常相似,只是搜索覆盖的时间更长。
案例分析
考虑一下醋馅饼的案例研究。他们在Laura Ingalls Wilder中被提到过 大草原上的小房子 系列。通过Google的网络搜索来了解更多关于醋馅饼的信息,可以看出它们被认为是美国南部美食的一部分,而且真的是用醋制成的。他们回想起一年中任何时候都不是每个人都能获得新鲜农产品的时代。但那是整个故事吗?
搜索Google Ngram Viewer 醋馅饼 在19世纪40年代早期和晚期,你会遇到一些关于馅饼的提及,在20世纪40年代有很多提及,并且近来提到了越来越多的提及。然而,平滑水平为3,你会看到在19世纪提到的高原。因为在那段时间里没有出版很多书,并且因为我们的数据设置得很平滑,所以它会扭曲图片。可能有一本书提到醋馅饼,它只是平均以避免穗。通过将平滑设置为0,我们可以看到情况确实如此。穗状花序以1869年为中心,1897年和1900年又出现了穗状花序。
在其余的时间里,没有人会谈论醋馅饼:可能有食谱漂浮在整个地方,但人们只是没有 写 关于他们的书籍,这是这些Ngram搜索的一个重要限制。