99re热视频这里只精品,久久久天堂国产精品女人,国产av一区二区三区,久久久精品成人免费看片,99久久精品免费看国产一区二区三区

AI智能 標(biāo)記化,詞干化和詞形化的概念

2020-09-23 17:43 更新

在本節(jié)中,我們將了解什么是標(biāo)記化,詞干化和詞形化。

1. 標(biāo)記化

它可以被定義為將給定文本即字符序列分成稱為令牌的較小單元的過程。令牌可以是單詞,數(shù)字或標(biāo)點(diǎn)符號(hào)。 它也被稱為分詞。 以下是標(biāo)記化的一個(gè)簡(jiǎn)單示例 -

輸入 - 芒果,香蕉,菠蘿和蘋果都是水果。

輸出 -

img

打斷給定文本的過程可以通過查找單詞邊界來完成。 單詞的結(jié)尾和新單詞的開頭稱為單詞邊界。 文字的書寫體系和印刷結(jié)構(gòu)會(huì)影響邊界。

在 Python NLTK 模塊中,有與標(biāo)記化有關(guān)的不同包,可以根據(jù)需要將文本劃分為標(biāo)記。 一些軟件包如下所示 -

sent_tokenize 包

顧名思義,這個(gè)軟件包會(huì)將輸入文本分成幾個(gè)句子。 可以使用下面的 Python 代碼導(dǎo)入這個(gè)包 -

from nltk.tokenize import sent_tokenize

word_tokenize 包

這個(gè)包將輸入文本分成單詞??梢允褂孟旅娴?Python代碼來導(dǎo)入這個(gè)包 -

from nltk.tokenize import word_tokenize

WordPuncttokenizer 包

這個(gè)包將輸入文本分成單詞和標(biāo)點(diǎn)符號(hào)??梢允褂孟旅娴?Python 代碼來導(dǎo)入這個(gè)包 -

from nltk.tokenize import WordPuncttokenizer

2. 詞干

在處理文字時(shí),由于語法原因,我們遇到了很多變化。 這里的變化的概念意味著必須處理像:democracy, democraticdemocratization 等不同形式的相同詞匯。機(jī)器非常需要理解這些不同的單詞具有相同的基本形式。 通過這種方式,在分析文本的同時(shí)提取單詞的基本形式將會(huì)很有用。

我們可以通過阻止來實(shí)現(xiàn)這一點(diǎn)。 通過這種方式,可以說干擾是通過切斷單詞的結(jié)尾來提取單詞基本形式的啟發(fā)式過程。

在Python NLTK模塊中,有一些與 stemming 相關(guān)的其它包。 這些包可以用來獲取單詞的基本形式。 這些軟件包使用算法。 一些軟件包如下所示 -

PorterStemmer包

這個(gè) Python 包使用 Porter 算法來提取基礎(chǔ)表單??梢允褂孟旅娴?Python 代碼來這個(gè)包 -

from nltk.stem.porter import PorterStemmer

例如,如果將 writing 這個(gè)詞作為這個(gè)詞干的輸入,它們就會(huì)在詞干之后得到 write 這個(gè)詞。

LancasterStemmer 包

這個(gè) Python 包將使用 Lancaster 的算法來提取基本形式。 可以使用下面的 Python 代碼來導(dǎo)入這個(gè)包 -

from nltk.stem.lancaster import LancasterStemmer

例如,如果將 writing 這個(gè)詞作為這個(gè)詞干的輸入,它們就會(huì)在詞干之后得到 write 這個(gè)詞。

SnowballStemmer 包

這個(gè) Python 包將使用雪球算法來提取基本形式。 可以使用下面的 Python 代碼來導(dǎo)入這個(gè)包 -

from nltk.stem.snowball import SnowballStemmer

例如,如果將 writing 這個(gè)詞作為這個(gè)詞干的輸入,它們就會(huì)在詞干之后得到 write 這個(gè)詞。

所有這些算法都有不同程度的嚴(yán)格性。 如果比較這三個(gè)詞干的話,那么波特詞干是最不嚴(yán)格的,蘭卡斯特詞干是最嚴(yán)格的。 雪球詞干在速度和嚴(yán)格性方面都很好用。

詞形還原

也可以通過詞形化來提取單詞的基本形式。 它基本上通過使用詞匯的詞匯和形態(tài)分析來完成這項(xiàng)任務(wù),通常旨在僅刪除變?cè)Y(jié)尾。 任何單詞的這種基本形式都稱為引理。

詞干化和詞性化的主要區(qū)別在于詞匯的使用和形態(tài)分析。 另一個(gè)區(qū)別是,詞干最常見的是崩潰派生相關(guān)的詞匯,而詞素化通常只會(huì)折攏引理的不同的折點(diǎn)形式。 例如,如果提供單詞 saw 作為輸入詞,那么詞干可能會(huì)返回單詞 's',但詞形化會(huì)嘗試返回單詞,看看或看到取決于使用該單詞是動(dòng)詞還是名詞。

在 Python NLTK 模塊中,有以下與詞形化過程有關(guān)的包,可以使用它來獲取詞的基本形式 -

WordNetLemmatizer 包

這個(gè)Python包將提取單詞的基本形式,取決于它是用作名詞還是動(dòng)詞。 可以使用下面的 Python 代碼的來導(dǎo)入這個(gè)包 -

from nltk.stem import WordNetLemmatizer
以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)