搜索: - 青梅
新一代搜索引擎算法
IT江湖青梅2006-06-04 23:50:03
由于索引信息保存在被索引网站服务器,所以,被索引网站服务器运算量的增加以及被索引网站服务器和搜索引擎网站服务器的数据传输量对索引开销的影响很大。 通过这样的办法来减小开销: 1.收集大量语料进行词频统计,生成字典,并按词频分段,并分发字典到被索引网站服务器; 2.被索引网站可在后台选择词频,并提交专有名词增加进字典。选择词频的目的在于是否索引到低频词还是只就高频词索引,以调整服务器运算开销; 3.网页索引时只用标识是否有字典里某个词,生成的索引信息会非常小; 4.网站网址对应到序列号,只有被搜索引擎命中...
谁还用固定的代理啊,都是临时用百度搜的
IT江湖青梅2006-06-02 18:37:35
你能删除那个泡网群博八卦吗?
IT江湖青梅2006-06-01 09:34:32
网站的结构和形式和这个网站差不多
IT江湖少东家2006-05-31 19:14:55
www.netzhai.com 谢谢青梅,节日快乐!但是有一点不理解。 数据采集器采集的时候是不是把人家一整个站或者整个频道、整个专栏一起采集下来了呢?那这样的话编辑的挑选工作也会变得很繁杂
流程弄反了
IT江湖青梅2006-05-31 15:55:01
一般做法是,主动去爬数据,针对不同来源网站转化到本网站格式,再使用本网站原有的发布系统选择文章发布(或者直接发布),发布过程中可以根据本网站的要求进行编辑。 一个数据采集器,第一个网站可能半天,加一个网站一小时吧(甚至一小时都不要,几大门户网站的页面格式差不多)。 .net吧。用c#做页面格式分析比较容易一些,直接录制过程然后改程序就行了。
呼叫梦小露
IT江湖青梅2006-05-29 21:32:56
转就转完整,把底下这些也转过去吧: 一些讨论: 我的数据是通过日志分析得来,数值大约为:google爬虫下载的页面数/通过google到访的用户数=4,由于有的网站搜索引擎到访量特别大(尤其是用户站点和托管站点联系松散的博客、黄页类站点),就导致google占带宽特别大。 sitemap问题在于: 1.本质上还是通过日志(即通过用户访问)获取入口网址,不能改变版本比较的困难(很多最终内容页的页面都是会变化的,不仅是广告,相关链接也会变化,只有站长能清楚知道哪些网页是不需要或几乎不需要进行版本更新的); 2.虽然对带宽占...
天啊,我写的东西竟然流传这么广么?
IT江湖青梅2006-05-29 21:19:28