血統の森+はてな

旧はてなダイアリーの自動インポートによるアーカイブです。

JRA-VANからの抽出を考える

オリジナルデータはJRA-VAN Data Lab. データ競馬 SDK(開発ツール・データ仕様)提供コーナーにあるJV-Data仕様書(Ver.2.1.3) (2005/9/29)。この中にあるJVData レコードフォーマットに用意されてるレコードは次の29。

  1. 特別登録馬
  2. レース詳細
  3. 馬毎レース情報
  4. 払戻
  5. 票数1
  6. 票数6(3連単
  7. オッズ1(単複枠)
  8. オッズ2(馬連
  9. オッズ3(ワイド)
  10. オッズ4(馬単
  11. オッズ5(3連複)
  12. オッズ6(3連単
  13. 競走馬マスタ
  14. 騎手マスタ
  15. 調教師マスタ
  16. 生産者マスタ
  17. 馬主マスタ
  18. 繁殖馬マスタ
  19. 産駒マスタ
  20. レコードマスタ
  21. 坂路調教
  22. 馬体重
  23. 天候馬場状態
  24. 出走取消・競走除外
  25. 騎手変更
  26. データマイニング予想
  27. 開催スケジュール
  28. 発走時刻変更
  29. コース変更

このうち、馬単位となるものは、馬毎レース情報、競走馬マスタと繁殖馬マスタ、産駒マスタといったところ。で、血統XMLを含む馬単位でのXMLの要は競走馬マスタということになりそう。

競走馬マスタXML化に関するメモ

  • あくまでJRA所属の競走馬が主な対象だと思うので、国際化を睨んだ(?)XMLに。
  • 日付yyyymmdd 形式(3,6-8)はISO 8601のサブセット(W3CDTF(ja)もしくはXSDTYPERFC3339(ja))に変更する
  • 4.血統登録番号がXML自身のidになりうるが、JRA-VAN仕様独自のものだろうから、別な機構でidを決定できた方が良いかと思われる
  • コード表を見ているデータ(4,12-15,17)についての是非。XMLなのだからそのまま文字を入れた方がわかりやすいかも。
  • 10.馬名半角カナは不要と思われる。
  • 16.3代血統情報を中ルート血統としてXMLで再構築
  • 本賞金・付加賞金・収得賞金(26-33)というデータの是非。とりあえず後回し。
  • 着回数の細かいもの(34-58)は中ルート着回数なりで隔離、後回し。
  • 59.脚質傾向は主観的なものだと思うので不要か。
  • 60.登録レース数はJRA-VAN独自の仕様だと思うので不要