2024年6月9日現在、Mozc UT 辞書を生成するために merge-ut-dictionaries の make.sh を実行すると下記のエラーが出る。
--2024-06-09 13:34:40-- https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz
dumps.wikimedia.org (dumps.wikimedia.org) をDNSに問いあわせています... 208.80.154.71, 2620:0:861:3:208:80:154:71
dumps.wikimedia.org (dumps.wikimedia.org)|208.80.154.71|:443 に接続しています... 接続しました。HTTP による接続要求を送信しました、応答を待っています... 404 Not Found
2024-06-09 13:34:41 エラー 404: Not Found。
count_word_hits.rb:15:in `open': No such file or directory @ rb_sysopen - jawiki-latest-all-titles-in-ns0.gz (Errno::ENOENT)
from count_word_hits.rb:15:in `'
apply_word_hits.rb:21:in `initialize': No such file or directory @ rb_sysopen - jawiki-latest-all-titles-in-ns0.hits (Errno::ENOENT)
from apply_word_hits.rb:21:in `new'
from apply_word_hits.rb:21:in `'
これは make.sh 内で呼び出している count_word_hits.rb で wget している
https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz
がサーバー上に存在しないことが原因。(正確には数バイトのファイルが在るようだが、wget しようとすると 404 となる)
さらに、count_word_hits.rb で jawiki-latest-all-titles-in-ns0.gz が wget されていることが前提の apply_word_hits.rb でもエラーとなる。
幸いにもサーバー上には前月の
https://dumps.wikimedia.org/jawiki/20240501/jawiki-20240501-all-titles-in-ns0.gz
が存在するので、これを用いることで Mozc UT 辞書が生成できる。
sed -i 's/latest/20240501/g' count_word_hits.rb
sed -i 's/latest/20240501/g' apply_word_hits.rb
count_word_hits.rb と apply_word_hits.rb に上記の修正を加えた上で make.sh を実行すると無事にMozc UT 辞書を生成できた。本日、野良リポジトリに投入した mozc-ut パッケージもこの方法を用いてビルドしたもの。
(まぁ、恐らく何日か後には jawiki-latest-all-titles-in-ns0.gz が取得可能になって上記のような修正は不要になるとは思うが...)
【2024年6月12日 追記】
jawiki-latest-all-titles-in-ns0.gz が取得可能になった。