451、基於統計的分詞方法爲( )

A、正向量最大匹配法

B、逆向量最大匹配法

C、最少切分

D、條件隨機場

正確答案:D

解析:

中文分詞的基本方法可以分爲基於語法規則的方法、基於詞典的方法和基於統計的方法。

基於語法規則的分詞法基本思想是在分詞的同時進行句法、語義分析, 利用句法信息和語義信息來進行詞性標註, 以解決分詞歧義現象。因爲現有的語法知識、句法規則十分籠統、複雜, 基於語法和規則的分詞法所能達到的精確度遠遠還不能令人滿意, 目前這種分詞系統應用較少。

在基於詞典的方法中,可以進一步分爲最大匹配法,最大概率法,最短路徑法等。最大匹配法指的是按照一定順序選取字符串中的若干個字當做一個詞,去詞典中查找。根據掃描方式可細分爲:正向最大匹配,反向最大匹配,雙向最大匹配,最小切分。最大概率法指的是一個待切分的漢字串可能包含多種分詞結果,將其中概率最大的那個作爲該字串的分詞結果。最短路徑法指的是在詞圖上選擇一條詞數最少的路徑。

基於統計的分詞法的基本原理是根據字符串在語料庫中出現的統計頻率來決定其是否構成詞。詞是字的組合,相鄰的字同時出現的次數越多, 就越有可能構成一個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映它們成爲詞的可信度。常用的方法有HMM(隱馬爾科夫模型),MAXENT(最大熵模型),MEMM(最大熵隱馬爾科夫模型),CRF(條件隨機場)。

本題中,基於統計的方法爲條件隨機場。ABC三個選項爲基於詞典的方法。

452、下列哪個不屬於CRF模型對於HMM和MEMM模型的優勢( )

A、特徵靈活

B、速度快

C、可容納較多上下文信息

D、全局最優

正確答案:B

解析:

HMM模型是對轉移概率和表現概率直接建模,統計共現概率。而MEMM模型是對轉移概率和表現概率建立聯合概率,統計時統計的是條件概率。CRF是在給定需要標記的觀察序列的條件下,計算整個標記序列的聯合概率分佈,而不是在給定當前狀態條件下,定義下一個狀態的狀態分佈。MEMM容易陷入局部最優,是因爲MEMM只在局部做歸一化。CRF模型中,統計了全局概率,在做歸一化時,考慮了數據在全局的分佈,而不是僅僅在局部歸一化,這樣就解決了MEMM中的標記偏置的問題。

CRF沒有HMM那樣嚴格的獨立性假設條件,因而可以容納任意的上下文信息,特徵設計靈活。CRF需要訓練的參數更多,與MEMM和HMM相比,它存在訓練代價大、複雜度高的缺點。

453、 隱馬爾可夫模型(HMM),設其觀察值

空間爲

狀態空間爲

如果用維特比算法(Viterbi algorithm)進行解碼,時間複雜度爲( )

A、O(NK)

B、O(NK^2)

C、O(N^2K)

D、以上都不是

正確答案是:D

解析:

454、在二分類問題中,當測試集的正例和負例數量不均衡時,以下評價方案哪個是相對不合理的( )(假設precision=TP/(TP+FP),recall=TP/(TP+FN)。)

A、Accuracy:(TP+TN)/all

B、F-value:2*recall*precision/(recall+precision)

C、G-mean:sqrt(precision*recall)

D、AUC:ROC曲線下面積

正確答案是:A

解析:

對於分類器,主要的評價指標有precision,recall,F-score,以及ROC曲線等。

在二分類問題中,我們主要關注的是測試集的正樣本能否正確分類。當樣本不均衡時,比如樣本中負樣本數量遠遠多於正樣本,此時如果負樣本能夠全部正確分類,而正樣本只能部分正確分類,那麼(TP+TN)可以得到很高的值,也就是Accuracy是個較大的值,但是正樣本並沒有取得良好的分類效果。因此A選項是不合理的。在樣本不均衡時,可以採用BCD選項方法來評價。

455、下面關於ID3算法中說法錯誤的是( )

A、ID3算法要求特徵必須離散化

B、信息增益可以用熵,而不是GINI係數來計算

C、選取信息增益最大的特徵,作爲樹的根節點

D、ID3算法是一個二叉樹模型

正確答案是:D

解析:

ID3算法(IterativeDichotomiser3迭代二叉樹3代)是一個由RossQuinlan發明的用於決策樹的算法。可以歸納爲以下幾點:

使用所有沒有使用的屬性並計算與之相關的樣本熵值

選取其中熵值最小的屬性

生成包含該屬性的節點

D3算法對數據的要求:

1)所有屬性必須爲離散量;

2)所有的訓練例的所有屬性必須有一個明確的值;

3)相同的因素必須得到相同的結論且訓練例必須唯一。

點擊下方“瞭解更多”,獲取更多機器學習相關知識~

查看原文 >>
相關文章