2024/06/09(日)Mozc UT 辞書が生成できない件 (2024年6月9日現在)

2024年6月9日現在、Mozc UT 辞書を生成するために merge-ut-dictionaries の make.sh を実行すると下記のエラーが出る。

--2024-06-09 13:34:40--  https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz
dumps.wikimedia.org (dumps.wikimedia.org) をDNSに問いあわせています... 208.80.154.71, 2620:0:861:3:208:80:154:71
dumps.wikimedia.org (dumps.wikimedia.org)|208.80.154.71|:443 に接続しています... 接続しました。HTTP による接続要求を送信しました、応答を待っています... 404 Not Found
2024-06-09 13:34:41 エラー 404: Not Found。
count_word_hits.rb:15:in `open': No such file or directory @ rb_sysopen - jawiki-latest-all-titles-in-ns0.gz (Errno::ENOENT)
        from count_word_hits.rb:15:in `
' apply_word_hits.rb:21:in `initialize': No such file or directory @ rb_sysopen - jawiki-latest-all-titles-in-ns0.hits (Errno::ENOENT) from apply_word_hits.rb:21:in `new' from apply_word_hits.rb:21:in `
'

これは make.sh 内で呼び出している count_word_hits.rb で wget している
https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz
がサーバー上に存在しないことが原因。(正確には数バイトのファイルが在るようだが、wget しようとすると 404 となる)

さらに、count_word_hits.rb で jawiki-latest-all-titles-in-ns0.gz が wget されていることが前提の apply_word_hits.rb でもエラーとなる。

幸いにもサーバー上には前月の
https://dumps.wikimedia.org/jawiki/20240501/jawiki-20240501-all-titles-in-ns0.gz
が存在するので、これを用いることで Mozc UT 辞書が生成できる。

sed -i 's/latest/20240501/g' count_word_hits.rb
sed -i 's/latest/20240501/g' apply_word_hits.rb

count_word_hits.rb と apply_word_hits.rb に上記の修正を加えた上で make.sh を実行すると無事にMozc UT 辞書を生成できた。本日、野良リポジトリに投入した mozc-ut パッケージもこの方法を用いてビルドしたもの。

(まぁ、恐らく何日か後には jawiki-latest-all-titles-in-ns0.gz が取得可能になって上記のような修正は不要になるとは思うが...)

【2024年6月12日 追記】

jawiki-latest-all-titles-in-ns0.gz が取得可能になった。

2023/01/19(木)Mageia 8: 本日の野良リポジトリ (2023-01-19)

下記のパッケージを nora リポジトリに投入しました。

【ライセンスについて】

今回ビルドしたパッケージでは、公開されている UT Dictionaries の内、以下の4つの辞書を使用しています。

  • 'Apache License, Version 2.0' で公開されている NEologd から生成された辞書
  • 'Apache License, Version 2.0' で公開されている SudachiDict から生成された辞書
  • 'Apache License, Version 2.0' で公開されている personal-names 辞書
  • 'Public Domain' で公開されている郵便番号データから生成された place-names 辞書

(辞書の内容的には野良リポジトリで以前に提供していた mozc-ut-neologd パッケージとほぼ同等となります)

これら4つの辞書をパッケージのビルド時に merge-ut-dictionaries で提供されているツールを用いてマージし、生成されたデータを 'BSD 3-Clause License' で公開されている mozc の辞書に結合してパッケージ化を行っています。

上記のような内容のパッケージおよびそのパッケージを配布することは、ライセンス的には問題は無いものと私は考えています。

2023/01/12(木)Mozc UT Dictionary が公開を終了

http://linuxplayers.g1.xrea.com/mozc-ut.html

「ユーザーからの感謝がなければ、オープンソースプロジェクトは続かない」


Mozc UT Dictionary はオリジナルの Mozc の辞書を大幅に強化できるものだったので、私もずっと愛用していました。公開終了の理由がアレなだけに、本当に残念でなりません。今まで本当にありがとうございました。


拙作の野良リポジトリで公開していたパッケージでは、Mozc UT Dictionary を構成する複数の辞書の内、BSD-3-Clause ライセンスの mozc と、 Apache-2.0 ライセンスの neologd, utdic, sudachidict の3つの辞書、それに郵便番号データを元に生成される public domain ライセンスの chimei 辞書を有効にして Mozc UT Dictionary を再ビルドしたものを使用していました。
これであれば、パッケージとして配布する際のライセンス上の問題は無いと考えていました。

しかし、「ディストリビューション向けのパッケージを公開している人は、削除してください」との要請が出ているので、その意思を尊重して当方の野良リポジトリからパッケージを削除しました。

【2023年1月19日 追記】

「データごとにプロジェクトを分割して、単一のライセンスでUT辞書を配布できるようにした」形で GitHub 上で再公開されました。

https://github.com/utuhiro78?tab=repositories

2022/12/31(土)Mageia 8: 本日の野良リポジトリ (2022-12-31)

下記のパッケージを nora リポジトリに投入しました。

  • mozc-2.28.4960.102-2
    • Mozc を 2.28.4960.102 (rev.7ec82c9) へ更新しました。
    • Mageia 8 で提供されている Bazel のバージョン (ver.3.7.2) が旧すぎるのが原因と思われるビルドエラーが出るようになった為、Bazel のリポジトリで提供されている Linux 向けの汎用の実行形式のバイナリー (ver.6.0.0) を用いてビルドするように変更しました。
    • Mozc がインストールに必要な生成物を mozc.zip として出力するようになったので、パッケージの作成に際してこの zip ファイルを利用するように変更しました。
  • mozc-ut-neologd-2.28.4960.102-2.20221230
    • mozc パッケージと同様の変更を行っています。
    • Mozc UT NEologd 辞書を20221230版へ更新しました。

2022/10/23(日)Mageia 8: 本日の野良リポジトリ (2022-10-23)

下記のパッケージを nora リポジトリに投入しました。

  • mozc-2.28.4880.102-1
    • Mozc を 2.28.4880.102 へ更新しました。
  • mozc-ut-neologd-2.28.4880.102-1.20222033
    • Mozc を 2.28.4880.102 へ更新しました。
    • Mozc UT NEologd 辞書を20221022版へ更新しました。
      なお、前回のパッケージでは辞書の再ビルド時にエラーが出るために無効としていた SudachiDict ですが、今回の20221022版で辞書生成用のスクリプトが修正されてエラーが出なくなったので、再度 SudachiDict を有効にしています。