2024/06/09(日)Mozc UT 辞書が生成できない件 (2024年6月9日現在)

2024年6月9日現在、Mozc UT 辞書を生成するために merge-ut-dictionaries の make.sh を実行すると下記のエラーが出る。

--2024-06-09 13:34:40--  https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz
dumps.wikimedia.org (dumps.wikimedia.org) をDNSに問いあわせています... 208.80.154.71, 2620:0:861:3:208:80:154:71
dumps.wikimedia.org (dumps.wikimedia.org)|208.80.154.71|:443 に接続しています... 接続しました。HTTP による接続要求を送信しました、応答を待っています... 404 Not Found
2024-06-09 13:34:41 エラー 404: Not Found。
count_word_hits.rb:15:in `open': No such file or directory @ rb_sysopen - jawiki-latest-all-titles-in-ns0.gz (Errno::ENOENT)
        from count_word_hits.rb:15:in `
' apply_word_hits.rb:21:in `initialize': No such file or directory @ rb_sysopen - jawiki-latest-all-titles-in-ns0.hits (Errno::ENOENT) from apply_word_hits.rb:21:in `new' from apply_word_hits.rb:21:in `
'

これは make.sh 内で呼び出している count_word_hits.rb で wget している
https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz
がサーバー上に存在しないことが原因。(正確には数バイトのファイルが在るようだが、wget しようとすると 404 となる)

さらに、count_word_hits.rb で jawiki-latest-all-titles-in-ns0.gz が wget されていることが前提の apply_word_hits.rb でもエラーとなる。

幸いにもサーバー上には前月の
https://dumps.wikimedia.org/jawiki/20240501/jawiki-20240501-all-titles-in-ns0.gz
が存在するので、これを用いることで Mozc UT 辞書が生成できる。

sed -i 's/latest/20240501/g' count_word_hits.rb
sed -i 's/latest/20240501/g' apply_word_hits.rb

count_word_hits.rb と apply_word_hits.rb に上記の修正を加えた上で make.sh を実行すると無事にMozc UT 辞書を生成できた。本日、野良リポジトリに投入した mozc-ut パッケージもこの方法を用いてビルドしたもの。

(まぁ、恐らく何日か後には jawiki-latest-all-titles-in-ns0.gz が取得可能になって上記のような修正は不要になるとは思うが...)

【2024年6月12日 追記】

jawiki-latest-all-titles-in-ns0.gz が取得可能になった。

2023/01/12(木)Mozc UT Dictionary が公開を終了

http://linuxplayers.g1.xrea.com/mozc-ut.html

「ユーザーからの感謝がなければ、オープンソースプロジェクトは続かない」


Mozc UT Dictionary はオリジナルの Mozc の辞書を大幅に強化できるものだったので、私もずっと愛用していました。公開終了の理由がアレなだけに、本当に残念でなりません。今まで本当にありがとうございました。


拙作の野良リポジトリで公開していたパッケージでは、Mozc UT Dictionary を構成する複数の辞書の内、BSD-3-Clause ライセンスの mozc と、 Apache-2.0 ライセンスの neologd, utdic, sudachidict の3つの辞書、それに郵便番号データを元に生成される public domain ライセンスの chimei 辞書を有効にして Mozc UT Dictionary を再ビルドしたものを使用していました。
これであれば、パッケージとして配布する際のライセンス上の問題は無いと考えていました。

しかし、「ディストリビューション向けのパッケージを公開している人は、削除してください」との要請が出ているので、その意思を尊重して当方の野良リポジトリからパッケージを削除しました。

【2023年1月19日 追記】

「データごとにプロジェクトを分割して、単一のライセンスでUT辞書を配布できるようにした」形で GitHub 上で再公開されました。

https://github.com/utuhiro78?tab=repositories