过去 Blogger 要提交网站地图到「Google / Bing 网站管理员」时,其实有点小小的麻烦,因为 Blogger 提供的两种格式 Atom/Rss,无法储存太多数据,一个 sitemap 网址最多能存放 500 篇文章,超过时只能手动分开提交。
一、Blogger 旧版网站地图
1. Sitemap 格式
有提交过网站地图的站长,应该都知道 Blogger 提交的格式长的类似像这样:
RSS:http://www.wfublog.com/rss.xml
ATOM:http://www.wfublog.com/atom.xml?redirect=false&start-index=1&max-results=500
ATOM:http://www.wfublog.com/atom.xml?redirect=false&start-index=1&max-results=500
将以上 www.wfublog.com 置换成自己的网址即可看到内容。分别说明一下以上格式──
·
RSS:根据以上网址格式,只能储存最新的 25 篇文章
·
ATOM:根据以上的网址格式,会储存最新的 500 篇文章;当文章超过此数目时,必须提交另一个网址,例如将参数改为 start-index=501&max-results=500,代表第 501 ~ 1000 篇的文章,其余以此类推。
2. 索引更新原理
Sitemap 网址之中,每篇文章的数据之中包含一个标记,注记该篇文章的更新日期、时间。例如 RSS 的标记为 <pubDate>,ATOM 的标记为 <updated>。
只要有文章更新过内容,Sitemap 之中该篇文章就会更新这个标记,记录最后的更新时间。搜索引擎蜘蛛定期爬 Sitemap 发现这件事后,就会去重新索引该篇文章,让搜寻结果保有最新的资料。
3. 无法更新的文章
了解以上原理后,我们可以知道:
RSS:根据前面的网址格式,只有最新的 25 篇文章,当文章内容修改过时,搜索引擎才会知道、并过来更新。每当网站有新的文章,从第 26 篇起,搜索引擎就比较难发现文章的更新状态。
ATOM:依上述网址格式,最新的 500 篇文章会持续更新。不过只要勤劳一点,分批将所有文章都提交出去,搜索引擎就能知道所有文章的更新状态。
补充说明一下,RSS 的 sitemap 网址后面,加上跟 ATOM 一样的参数 (?redirect=false&start-index=1&max-results=500),就可有一样的效果。
二、Blogger 新版网站地图
1. 一般网站
根据这篇「XML Sitemap for
Blogger」,Blogger 在 2013 中提供了新的网站地图格式:
http://wayne-fu.blogspot.com/sitemap.xml
在网址后面加上 "sitemap.xml" 就是可以提交的新格式。这个网址格式的特点如下:
·
包含网站的所有文章更新状况,无论多少篇都能处理。
·
提交网站地图时只需一次即可,每超过 500 篇也不再需要分批提交,是一劳永逸的方法。
·
实际上 sitemap.xml 一次最多只能存放 1000 篇文章,但超过 1000 篇后,内容会自动化处理,sitemap.xml 自动成为索引文件。
来看一下实例,这是 Google 官方网站的 sitemap 网址:
http://googleblog.blogspot.tw/sitemap.xml
实际上 Google 官网有数千篇文章,但 sitemap 的内容却不多:
<?xml version='1.0'
encoding='UTF-8'?><sitemapindex
xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=1</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=2</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=3</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=4</loc></sitemap><sitemap><loc>http://googleblog.blogspot.com/sitemap.xml?page=5</loc></sitemap></sitemapindex>
原来这个索引网页记录了 sitemap 的分页信息,如此搜索引擎就可从这个 sitemap 网址的索引数据,继续爬第 1 页到 第 5 页的内容。这个机制很聪明,不必再像 ATOM 一样,得手动另外提交超过 500 篇的页面。
2. 自定义网域
这么棒的 sitemap 格式,其实一开始只适用 blogspot.com 网域的 Blogger,也就是说「自定义网域」的
Blogger 不支持。不过原文提到,最近 2014 年底,这个功能已经悄悄支持所有 Blogger 了,例如本站就能提交以下的网址:
http://www.wfublog.com/sitemap.xml
因此,如果你使用 Blogger 自定义网域的话,现在可以开始提交 sitemap.xml 这个格式了。
三、不同网站地图格式的特点
1. 官方建议
然而提交 sitemap 之前,需要了解一下 Google 官方说明「Best practices
for XML sitemaps & RSS/Atom feeds」:
1.「sitemap.xml」的内容比较多(全部);「ATOM/RSS」较少,只列出最近更新的文章
2. 「sitemap.xml」更新频率比较慢;「ATOM/RSS」更新的速度比较快
因此官方建议提交网站地图时,两种都一起提交,才能确保「网站所有文章都被索引」,以及「让搜索引擎以最快速度索引」。
2. 最方便的搭配
根据以上的结论,WFU 认为提交网站地图时,这是较佳的组合:
http://www.wfublog.com/sitemap.xml
http://www.wfublog.com/atom.xml?redirect=false&start-index=1&max-results=500
以上 www.wfublog.com 置换成自己的网址即可。
提交两组网站地图的意思是:
·
提交 sitemap.xml 可确保所有文章都被收录
·
提交 ATOM 的 1~500 篇文章,可确保最新的文章能以最快速度被收录,第 1~500 篇文章 有更新时能被搜索引擎快速知道。
·
ATOM 从 501 篇之后的文章可不必提交,因为 sitemap.xml 已经有这些数据,只是更新频率稍微慢一些而已。
·
可省去以后操作的麻烦,也就是说网站地图只需提交这么一次即可。
3. 补充说明
以上官方文章提到一件事 "submitting sitemaps or feeds does not guarantee the indexing of those
URLs." → 不保证提交的文章都会被搜索引擎索引。
这是因为 Google 会另外审核文章,如果是重复、不当、垃圾、版权内容等等,可能就不会被收录了。
四、提交网站地图
最后是提交的步骤,如果不熟悉的话,可参考这篇「Blogger 部落格提交网站地图」,分别向两大搜索引擎「Google 网站管理员」以及「Bing 网站管理员」提交即可。如果需要向别的地区提交、来增加文章的能见度,也可参考该篇文章进行。