在该方面的取值为 在该方面的取值为6 4和4在方面4上的方面相似度记为3111 ( ,?)。不同的方面类型具有不同的测度特征,因此知识方面相似度的测度方法因不同的方面类型而有差异。下面就不同方面特征,分别讨论之。
①政务知识方面为简单数值型。当所要测度的方面七为简单数值型(如税率)时,给定该方面的值域为…],则两个知识对象在方面七上的方面相似度计算如下:
51爪0‘(尺卜 -~
叫;)&!' 1 0抑『
当知识方面为日期型时,其方面相似度也可按上式计算。此时,知识方面的值域[ , 表征了最大可能时间跨度〈通常以“天”计〉,&和尺2在
该方面的距离亦以“天”计。
②政务知识方面为字符型、布尔型或简单枚举型。当所要测度的知识方面七为简单字符型、布尔型或枚举型时,如部门名称、婚姻状况4 员工政治面貌〔群众、共青团员、共产党员、其他党派人士〉,不同知识在该方面上的可能值之间不存在实际意义上的比较关系,只能采用较为粗糖的相似度计算方法,即
‘1。, I 外
③政务知识方面为次序枚举型。与简单枚举型方面不同,次序枚举型方面各可能值之间具有一定的比较关系,表现为可测但模糊的语义距离〔如不同的员工知识贡献等级之间的差异度〉。不过,通常次序枚举型方面的实际取值为模糊值,如员工工作业绩的可能取值为“优、良、中、可、差”,通常将发展速度定性描述为“不动、非常慢、很慢、较慢、慢、快、较快、很快、非常侠”等。对次序枚举型方面相似度,陈鸿给出了如下算法:
31'认,仏)二1--0 (0-
其中,表示值6在值域集合中的序数, (七)为测度方面的基数。
需要补充地是,某些简单枚举型方面的可能取值表面上无明显次序关系,但仔细分析仍可以在不同取值之间发现能够细分的语义距离。比如,“颜色”方面的值域为(白,红,橙,黄,绿,蓝,靛,紫,黑〉,表面上看,各值之间无明显次序关系,但仔细推敲,发现彼此间还是呈现出可细分的语义距离的一显然,绿色和蓝色要比白色和蓝色更接近;在前面提到的简单枚举型方面“员工政治面貌”的值域中,“共青团员”与“共产党员”之间的语义距离显然也要比
(未完待续) 声明:部分资料来自合作媒体及网络,不代表本站观点。关键字:枚举,值域,测度,知识,次序