BAT机器学习面试1000题(451~455题)
451、基于统计的分词方法为( )
A、正向量最大匹配法
B、逆向量最大匹配法
C、最少切分
D、条件随机场
正确答案:D
解析:
中文分词的基本方法可以分为基于语法规则的方法、基于词典的方法和基于统计的方法。
基于语法规则的分词法基本思想是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来进行词性标注, 以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂, 基于语法和规则的分词法所能达到的精确度远远还不能令人满意, 目前这种分词系统应用较少。
在基于词典的方法中,可以进一步分为最大匹配法,最大概率法,最短路径法等。最大匹配法指的是按照一定顺序选取字符串中的若干个字当做一个词,去词典中查找。根据扫描方式可细分为:正向最大匹配,反向最大匹配,双向最大匹配,最小切分。最大概率法指的是一个待切分的汉字串可能包含多种分词结果,将其中概率最大的那个作为该字串的分词结果。最短路径法指的是在词图上选择一条词数最少的路径。
基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。常用的方法有HMM(隐马尔科夫模型),MAXENT(最大熵模型),MEMM(最大熵隐马尔科夫模型),CRF(条件随机场)。
本题中,基于统计的方法为条件随机场。ABC三个选项为基于词典的方法。
452、下列哪个不属于CRF模型对于HMM和MEMM模型的优势( )
A、特征灵活
B、速度快
C、可容纳较多上下文信息
D、全局最优
正确答案:B
解析:
HMM模型是对转移概率和表现概率直接建模,统计共现概率。而MEMM模型是对转移概率和表现概率建立联合概率,统计时统计的是条件概率。CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。MEMM容易陷入局部最优,是因为MEMM只在局部做归一化。CRF模型中,统计了全局概率,在做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM中的标记偏置的问题。
CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息,特征设计灵活。CRF需要训练的参数更多,与MEMM和HMM相比,它存在训练代价大、复杂度高的缺点。
453、 隐马尔可夫模型(HMM),设其观察值
空间为
状态空间为
如果用维特比算法(Viterbi algorithm)进行解码,时间复杂度为( )
A、O(NK)
B、O(NK^2)
C、O(N^2K)
D、以上都不是
正确答案是:D
解析:
454、在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的( )(假设precision=TP/(TP+FP),recall=TP/(TP+FN)。)
A、Accuracy:(TP+TN)/all
B、F-value:2*recall*precision/(recall+precision)
C、G-mean:sqrt(precision*recall)
D、AUC:ROC曲线下面积
正确答案是:A
解析:
对于分类器,主要的评价指标有precision,recall,F-score,以及ROC曲线等。
在二分类问题中,我们主要关注的是测试集的正样本能否正确分类。当样本不均衡时,比如样本中负样本数量远远多于正样本,此时如果负样本能够全部正确分类,而正样本只能部分正确分类,那么(TP+TN)可以得到很高的值,也就是Accuracy是个较大的值,但是正样本并没有取得良好的分类效果。因此A选项是不合理的。在样本不均衡时,可以采用BCD选项方法来评价。
455、下面关于ID3算法中说法错误的是( )
A、ID3算法要求特征必须离散化
B、信息增益可以用熵,而不是GINI系数来计算
C、选取信息增益最大的特征,作为树的根节点
D、ID3算法是一个二叉树模型
正确答案是:D
解析:
ID3算法(IterativeDichotomiser3迭代二叉树3代)是一个由RossQuinlan发明的用于决策树的算法。可以归纳为以下几点:
使用所有没有使用的属性并计算与之相关的样本熵值
选取其中熵值最小的属性
生成包含该属性的节点
D3算法对数据的要求:
1)所有属性必须为离散量;
2)所有的训练例的所有属性必须有一个明确的值;
3)相同的因素必须得到相同的结论且训练例必须唯一。
点击下方“了解更多”,获取更多机器学习相关知识~
查看原文 >>