必应如何查找和索引您的网站?(第一部分)
SEO admin 发布时间:2024-03-09 11:26:40 浏览: 次
帮助必应找到你网站的所有页面
Sitemap: Sitemaps是Bing发现您网站所有页面和内容的重要方式。它是一个文件,提供了关于网站上的URL、其他文件和内容(如图片和视频)的信息。Sitemap通知爬虫您认为在网站中重要的页面和文件。它还提供了额外的信息,比如页面上次更新的时间。我们强烈建议使用XML Sitemap文件来帮助Bing发现网站中所有相关的URL和内容。请尽可能保持您的sitemap文件最新;实时刷新或至少每天刷新一次。这将使得旧的URL和失效链接可以及时被移除。
通过以下方式让Bing获取您的Sitemap:
使用Bing网站管理员工具的Sitemap工具提交它给Bing
将以下行插入到robots.txt文件中,并指定您的sitemap路径:
Sitemap: http://example.com/sitemap_location.xml
一旦Bing知道您的Sitemap,Bing将定期对其进行抓取。除非网站发生重大变化,否则无需再次提交。
一般Sitemap指南:
Bing支持多种Sitemap格式,包括XML、RSS、MRSS、Atom 1.0和文本文件。
使用一致的URL。Bing只会精确抓取URL。
请在您的Sitemap中只列出规范的URL。
如果您的网站有多个版本(HTTP vs HTTPS,或移动版 vs 桌面版),我们建议在Sitemap中只指向一个版本。如果您决定为移动版和桌面版提供独特的URL体验,请使用rel="alternate"属性进行标注。
如果您的网站有多种语言或地区的多个页面,请在Sitemap或HTML标签中使用hreflang标记来标识备用的URL。
使用<lastmod>属性指示内容上次修改的日期和时间。
Sitemap的最大大小为50,000个URL/50MB(未压缩)。如果您的网站很大,可以考虑将大型Sitemap拆分成较小的Sitemap,并使用Sitemap索引文件列出所有单独的Sitemap。
在robots.txt中引用您的Sitemap。
如果自从Bing抓取Sitemap以来您没有对其进行更改,则无需再次提交也不会有益处。
使用Sitemap并不保证Sitemap中的所有项目都会被抓取和索引;然而,在大多数情况下,拥有Sitemap会带来好处,因为它为爬虫提供了推荐和指导。
使用IndexNow API或Bing URL或内容提交API立即反映网站变化。如果您无法采用这些API,我们建议通过Bing网站管理员工具直接提交更新的URL,或者将它们包含在您的Sitemap中。
链接:传统上,链接被视为确定网站受欢迎程度的信号。让其他网站链接到您的网站的最佳方法是创建独特和高质量的内容。Bing的爬虫(Bingbot)会遵循您网站内部的链接(内部链接)或从其他网站(外部链接)获取链接,从而帮助Bing发现新内容和新页面。
Bing建议将网站上的所有页面链接至至少一个其他可发现和可抓取的页面。
可抓取的链接是带有href属性的<a>标签。引用链接应包含与页面相关的文本或图像alt属性。
每个页面上的链接数量应合理,不超过几千个链接。
合理努力确保网站上的任何付费或广告链接使用rel="nofollow"或rel="sponsored"或rel="ugc"属性,以防止爬虫跟踪这些链接,并避免对搜索排名产生潜在影响。
Bing奖励自然增长的链接;即随着时间逐渐增加的链接,这些链接是来自其他受信任、相关的网站的内容创作者向您网站的真实用户传送的。计划以有机的方式构建内部和外部链接。
滥用策略,旨在夸大入站链接的数量和性质,如购买链接、参与链接方案(链接农场、链接垃圾邮件和过度链接操纵)可能导致您的网站被惩罚并从Bing索引中删除。
限制网页数量:限制网站上的页面数量为合理数量。避免在网站内部生成重复内容;通过以下方式帮助我们消除重复内容:
通过使用规范标签避免输出相同内容的不同URL。
配置您的网站和URL参数,以提高爬取效率,并帮助减少指向相同内容的多个URL的多个变体。
避免使用专门的移动URL。尝试为桌面用户和移动用户使用相同的URL。
恰当使用重定向:如果您将网站上的内容移动到另一个位置,请至少使用HTTP 301永久重定向三个月。如果移动是临时的,即少于一天,请使用302临时重定向。在网站内容从一个位置移动到另一个位置时,避免使用rel=canonical标签来取代适当的重定向。
让Bing抓取更多内容:网站管理员工具的爬取控制功能允许您管理Bingbot对您的内容的爬取,包括何时以及以何种速度。我们鼓励网站管理员启用Bingbot快速而深入地爬取网站,以确保尽可能多地发现和索引内容。
JavaScript:Bing可以处理JavaScript,但在最小化HTTP请求的同时处理大规模的JavaScript存在一定限制。Bing建议使用动态渲染在特定用户代理(例如Bingbot)之间切换客户端渲染和预渲染内容,特别是对于大型网站。
通过返回404“未找到”HTTP代码来删除内容。通过使用Bing内容移除和页面移除工具加快内容删除。内容删除请求最长持续90天,您需要更新它,否则内容可能会重新出现在搜索结果中。
robots.txt:robots.txt文件通知Bingbot等搜索引擎爬虫可以或不可以访问您网站上的哪些页面和文件。robots.txt主要用于指导和管理爬虫流量,例如您可以告诉Bingbot不要爬取诸如搜索结果页面或登录页面之类的不那么有用的内容。
将robots.txt放置在您网站的根目录(最顶级的目录)中。不要将其放置在子目录中。
阻止Bing爬取某个页面可能会将该页面从索引中移除。然而,使用Disallow并不能保证页面不会出现在索引或搜索结果中。如果您想要阻止某个特定页面被爬取或索引,您应该使用noindex的robots meta标签,而不是在robots.txt中禁止它。
经常审查您的robots.txt以确保其是最新的。在Bing网站管理员工具中审查被robots.txt禁止的URL,以确保其保持准确。
通过阅读如何创建robots.txt文本文件来了解更多信息。
节省资源:使用HTTP压缩和条件获取以减少爬虫和您的客户使用的带宽,同时提高页面加载速度。