JRA-VANからの抽出を考える
オリジナルデータはJRA-VAN Data Lab. データ競馬 SDK(開発ツール・データ仕様)提供コーナーにあるJV-Data仕様書(Ver.2.1.3) (2005/9/29)。この中にあるJVData レコードフォーマットに用意されてるレコードは次の29。
- 特別登録馬
- レース詳細
- 馬毎レース情報
- 払戻
- 票数1
- 票数6(3連単)
- オッズ1(単複枠)
- オッズ2(馬連)
- オッズ3(ワイド)
- オッズ4(馬単)
- オッズ5(3連複)
- オッズ6(3連単)
- 競走馬マスタ
- 騎手マスタ
- 調教師マスタ
- 生産者マスタ
- 馬主マスタ
- 繁殖馬マスタ
- 産駒マスタ
- レコードマスタ
- 坂路調教
- 馬体重
- 天候馬場状態
- 出走取消・競走除外
- 騎手変更
- データマイニング予想
- 開催スケジュール
- 発走時刻変更
- コース変更
このうち、馬単位となるものは、馬毎レース情報、競走馬マスタと繁殖馬マスタ、産駒マスタといったところ。で、血統XMLを含む馬単位でのXMLの要は競走馬マスタということになりそう。
競走馬マスタXML化に関するメモ
- あくまでJRA所属の競走馬が主な対象だと思うので、国際化を睨んだ(?)XMLに。
- 日付yyyymmdd 形式(3,6-8)はISO 8601のサブセット(W3CDTF(ja)もしくはXSDTYPE、RFC3339(ja))に変更する
- 4.血統登録番号がXML自身のidになりうるが、JRA-VAN仕様独自のものだろうから、別な機構でidを決定できた方が良いかと思われる
- コード表を見ているデータ(4,12-15,17)についての是非。XMLなのだからそのまま文字を入れた方がわかりやすいかも。
- 10.馬名半角カナは不要と思われる。
- 16.3代血統情報を中ルート血統としてXMLで再構築
- 本賞金・付加賞金・収得賞金(26-33)というデータの是非。とりあえず後回し。
- 着回数の細かいもの(34-58)は中ルート着回数なりで隔離、後回し。
- 59.脚質傾向は主観的なものだと思うので不要か。
- 60.登録レース数はJRA-VAN独自の仕様だと思うので不要