如果从搜索引擎蜘蛛的角度来看一个网站,在爬行、索引、排名等方面会遇到什么问题?解决这些问题的网站设计是搜索引擎友好的。
1.搜索引擎蜘蛛能找到网页吗
为了让搜索引擎找到网站的主页,需要有指向主页的外部链接。蜘蛛在找到主页后,会沿着内部链接找到更深层次的内容页面,所以要求网站要有良好的结构和逻辑,所有页面都可以通过普通的可以抓取的HTML链接到达。搜索引擎蜘蛛,比如Javascript链接、Flash链接,一般是无法跟踪抓取的,会造成包含的问题。
网站的所有页面都不要离首页太远,最好在四五次点击之内。要被搜索引擎收录,所有的页面都需要有最基本的权重,一个好的网站链接结构可以适当的转移权重,让尽可能多的页面达到收录门槛。
2.找到页面后能否抓取页面内容
找到的网址必须是可爬网的。参数太多的URL,Session ID,整页都是Flash,框架结构,可疑转折,大量复制内容等。可能会让搜索引擎敬而远之。
一些文件所有者可能不想被包括在内。除了不链接到这些文件,使用机器人文件或元机器人标签来禁止包含更安全。
3.抓取页面后如何提取有用信息
关键词在页面重要位置的合理分布,重要标签的编写,HTML代码的简化,最小兼容性,可以帮助搜索引擎理解页面内容,提取有用信息。
只有当搜索引擎能够成功找到所有的页面,抓取这些页面,提取出真正相关的内容,网站才算搜索引擎友好。关于网站结构的优化,有一句话非常精辟:“引用好,结构好,导航好”。
如有需要,请拨打010-57466733联系我们,或者扫描下面的二维码,添加我们的项目经理微信,你会获得更多这方面的知识。