关键词命名:
1. 命令词中相邻汉字的声母区分度越大越好,比如“消息”、“小心”,这样的不容易识别,因为相邻汉字的声母都是x,最好是不同的声母。
2. 命令词中的字最好不要有语气词,如“啊”、“呢”等。
3. 命令词尽量是四个字,可以有少量的三个字的。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
识别率和误识别率:
计算识别率,用关键词音频组成的正向识别集。
识别率=(注入某关键词音频只识别出某关键词的次数)➗ 注入音频总次数*100%
如果你们只做纯命令词测试,只统计识别率就可以。
如果一定要统计 A误报成B的情况,这个建议不要称为 误识别,可以称为 误分类,或者其他更达意的说法。
误识别率,通常理解的是正向识别集里,把注入A音频识别成了B,其实不对;
误识别率一般说的是半小时或者一小时误识别次数,一小时的任意录音(比如录一段相声,小品,新闻联播,或者开会的人声),看发生了多少次误报,然后给出 误报次数每小时的数据
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
误报率改善:
每一次的识别都会有得分,正报时分值小,误报时分值高。所以误报率可以通过降低阈值,把分值大的过滤掉,应用层代码可以对关键词逐个设置阈值;
但是降低阈值,正向识别率就会下降,就是反应不那么灵敏,声音小或者声音不清晰都可能识别不出来,本质上是得分的区分度不明显。
可以看下正报最高和误报最低分,理想的情况是阈值正好在两个值之间,既不影响识别又可以抑制误报。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
如有错误请指正修改~