血統の森+はてな

旧はてなダイアリーの自動インポートによるアーカイブです。

サイトマップまわりを久々にいじくってみた

あなたのサイトをGoogleはどう見てる?--Googleサイトマップ日本語版が登場:ニュース - CNET Japan2005-11-17

Googleサイトマップなるものをはじめて丸3年、私はサービスが始まった頃に適当に触って以来放置していたのですが、気が向いたので少し突っ込んで触ってみたり。

サービス開始当初は、Googleによってサイトマップスキーマが提供されていましたが、いつの間にかsitemaps.orgが設立され、こちらがスキーマを提供している模様。Googleに限らず、Yahoo!やMSN(Bing)の主要検索エンジンも対応しているようで、おそらく対応するクローラーすべてに対して有効なのかな、と。

これらはすべてアカウントが必要なサービス。わざわざサイトマップだけのためにアカウントを取る必要もないと思いますが。

sitemaps.org - プロトコルによるとサンプルXMLは次の通り。詳しい説明はプロトコルでされているのでここでは省略。

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>
      <loc>http://www.example.com/</loc>
      <lastmod>2005-01-01</lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.8</priority>
   </url>
</urlset>

サイトのページも指を折るほどなら手動で作成できますが、全コンテンツを正確に数え上げるというのも面倒なもの。せめて半自動化できないことかと思い、適当にサイトマップ生成ソフトを当たってみたところ、パッとサイトマップ生成を発見。今回はこれで生成。…まあ最終的には手直ししないといけないわけですが。

検索エンジンに対して通知するには、検索エンジンに対して直接通知するのが真っ先に思い浮かびますが、robots.txtに次の行を追加することで、robots.txtを解釈できるクローラーサイトマップを読みに行けるような仕組みになっていると(初めて知った…)。

Sitemap: http://www.example.com/sitemap.xml

ざっくりこんな感じ、というかほとんど自分用メモですが。
むむ、クロールエラーだと…