搜索: - 青梅
安装后在WORD里有创建PDF的按钮
IT江湖青梅2006-06-12 10:40:56
统一字典算法的新意
IT江湖青梅2006-06-11 11:41:44
词频统计生成字典文件,只有频率达到设定数以上的词才进入字典,字典字符串长度可以比较长,比如2到10,每个词对应一位,当被索引文件里有某个词时,相应位被标1,否则为0,也就是说,对于被索引文件来说,只管有没有字典文件里的词,而不管其他信息,这个由0和1组成的索引文件很小的。在检索的时候,查询语句被分拆对应到字典文件转换成索引文件格式,再进行比对,效率比目前方式会高很多。(不用考虑分词位置对不对啊什么的,还可以把精力集中到什么行业什么领域的文本词的分布情况是怎样的)...
以前某人说这不是
IT江湖青梅2006-06-10 06:01:23
横横
IT江湖青梅2006-06-09 19:34:42
关键是,有人老纠缠歧义啊什么的,不需要非把整句按正确意思切开,多匹配一些字串就可以了。 反正搜索引擎排的时候要按关键字被命中情况,歧义词在用户多次选择后自动就被排后面去了,不影响搜索结果的。
分词有必要吗?
IT江湖青梅2006-06-09 15:54:43
中文处理的瓶颈到底在哪儿? 今天有人发巨古老的段子过来,我回了句“好老”,那边不服,说“切!总说我老,我从来没说过你老!”我回复“春丽你的肚脐眼子真好看”(出处见某美女的博客)。机器不在同一个知识圈里,能知道这是什么意思吗? 分词还在纠缠歧义,其实,不考虑分词又如何?象“研究生命的起源”这样的长字串完全可以在“研究”、“研究生”、“生命”、“命”、“起源”的索引里都包含,但是在根据全文所包含关键字及频率进行领域、行业匹配后,和研究生相关的系数可能就被降权到可以忽略的地步。 某人说没听出我的办法有...