Blogger 提供新的网站地图(sitemap)格式一劳永逸的提交方法



过去 Blogger 要提交网站地图到「Google / Bing 网站管理员」时,其实有点小小的麻烦,因为 Blogger 提供的两种格式 Atom/Rss,无法储存太多数据,一个 sitemap 网址最多能存放 500 篇文章,超过时只能手动分开提交。

现在 Blogger 提供了一劳永逸的方法,无论部落格有多少文章,就算有数千、甚至上万篇,都只需要提交一次网站地图就好,不必再为这件事操心,无论是否自定义网域都适用。


一、Blogger 旧版网站地图

1. Sitemap 格式

有提交过网站地图的站长,应该都知道 Blogger 提交的格式长的类似像这样:

RSShttp://www.wfublog.com/rss.xml
ATOM
http://www.wfublog.com/atom.xml?redirect=false&start-index=1&max-results=500

将以上 www.wfublog.com 置换成自己的网址即可看到内容。分别说明一下以上格式──



·    RSS根据以上网址格式,只能储存最新的 25 篇文章
·    ATOM根据以上的网址格式,会储存最新的 500 篇文章;当文章超过此数目时,必须提交另一个网址,例如将参数改为 start-index=501&max-results=500,代表第 501 ~ 1000 篇的文章,其余以此类推。

2. 索引更新原理

Sitemap 网址之中,每篇文章的数据之中包含一个标记,注记该篇文章的更新日期、时间。例如 RSS 的标记为 <pubDate>ATOM 的标记为 <updated>

只要有文章更新过内容,Sitemap 之中该篇文章就会更新这个标记,记录最后的更新时间。搜索引擎蜘蛛定期爬 Sitemap 发现这件事后,就会去重新索引该篇文章,让搜寻结果保有最新的资料。

3. 无法更新的文章

了解以上原理后,我们可以知道:

RSS根据前面的网址格式,只有最新的 25 篇文章,当文章内容修改过时,搜索引擎才会知道、并过来更新。每当网站有新的文章,从第 26 篇起,搜索引擎就比较难发现文章的更新状态。

ATOM依上述网址格式,最新的 500 篇文章会持续更新。不过只要勤劳一点,分批将所有文章都提交出去,搜索引擎就能知道所有文章的更新状态。

补充说明一下,RSS sitemap 网址后面,加上跟 ATOM 一样的参数 (?redirect=false&start-index=1&max-results=500),就可有一样的效果。

二、Blogger 新版网站地图

1. 一般网站

根据这篇「XML Sitemap for Blogger」,Blogger 2013 中提供了新的网站地图格式:

http://wayne-fu.blogspot.com/sitemap.xml

在网址后面加上 "sitemap.xml" 就是可以提交的新格式。这个网址格式的特点如下:

·    包含网站的所有文章更新状况,无论多少篇都能处理。
·    提交网站地图时只需一次即可,每超过 500 篇也不再需要分批提交,是一劳永逸的方法。
·    实际上 sitemap.xml 一次最多只能存放 1000 篇文章,但超过 1000 篇后,内容会自动化处理,sitemap.xml 自动成为索引文件。


来看一下实例,这是 Google 官方网站的 sitemap 网址:

http://googleblog.blogspot.tw/sitemap.xml

实际上 Google 官网有数千篇文章,但 sitemap 的内容却不多:

<?xml version='1.0' encoding='UTF-8'?><sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=1</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=2</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=3</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=4</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=5</loc></sitemap></sitemapindex>

原来这个索引网页记录了 sitemap 的分页信息,如此搜索引擎就可从这个 sitemap 网址的索引数据,继续爬第 1 页到 5 页的内容。这个机制很聪明,不必再像 ATOM 一样,得手动另外提交超过 500 篇的页面。

2. 自定义网域

这么棒的 sitemap 格式,其实一开始只适用 blogspot.com 网域的 Blogger,也就是说「自定义网域」的 Blogger 不支持。不过原文提到,最近 2014 年底,这个功能已经悄悄支持所有 Blogger 了,例如本站就能提交以下的网址:

http://www.wfublog.com/sitemap.xml

因此,如果你使用 Blogger 自定义网域的话,现在可以开始提交 sitemap.xml 这个格式了。

三、不同网站地图格式的特点

1. 官方建议

然而提交 sitemap 之前,需要了解一下 Google 官方说明「Best practices for XML sitemaps & RSS/Atom feeds」:

1.sitemap.xml」的内容比较多(全部);「ATOM/RSS」较少,只列出最近更新的文章

2. sitemap.xml」更新频率比较慢;「ATOM/RSS」更新的速度比较快

因此官方建议提交网站地图时,两种都一起提交,才能确保「网站所有文章都被索引」,以及「让搜索引擎以最快速度索引」。

2. 最方便的搭配

根据以上的结论,WFU 认为提交网站地图时,这是较佳的组合:

http://www.wfublog.com/sitemap.xml

http://www.wfublog.com/atom.xml?redirect=false&start-index=1&max-results=500

以上 www.wfublog.com 置换成自己的网址即可。

提交两组网站地图的意思是:

·    提交 sitemap.xml 可确保所有文章都被收录
·    提交 ATOM 1~500 篇文章,可确保最新的文章能以最快速度被收录,第 1~500 篇文章 有更新时能被搜索引擎快速知道。
·    ATOM 501 篇之后的文章可不必提交,因为 sitemap.xml 已经有这些数据,只是更新频率稍微慢一些而已。
·    可省去以后操作的麻烦,也就是说网站地图只需提交这么一次即可。

3. 补充说明

以上官方文章提到一件事 "submitting sitemaps or feeds does not guarantee the indexing of those URLs." 不保证提交的文章都会被搜索引擎索引。

这是因为 Google 会另外审核文章,如果是重复、不当、垃圾、版权内容等等,可能就不会被收录了。

四、提交网站地图

最后是提交的步骤,如果不熟悉的话,可参考这篇「Blogger 部落格提交网站地图」,分别向两大搜索引擎「Google 网站管理员」以及「Bing 网站管理员」提交即可。如果需要向别的地区提交、来增加文章的能见度,也可参考该篇文章进行。


一键分享 Share

评论

换原始留言系统