2024/06/09(日)Mozc UT 辞書が生成できない件 (2024年6月9日現在)

2024年6月9日現在、Mozc UT 辞書を生成するために merge-ut-dictionaries の make.sh を実行すると下記のエラーが出る。

--2024-06-09 13:34:40--  https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz
dumps.wikimedia.org (dumps.wikimedia.org) をDNSに問いあわせています... 208.80.154.71, 2620:0:861:3:208:80:154:71
dumps.wikimedia.org (dumps.wikimedia.org)|208.80.154.71|:443 に接続しています... 接続しました。HTTP による接続要求を送信しました、応答を待っています... 404 Not Found
2024-06-09 13:34:41 エラー 404: Not Found。
count_word_hits.rb:15:in `open': No such file or directory @ rb_sysopen - jawiki-latest-all-titles-in-ns0.gz (Errno::ENOENT)
        from count_word_hits.rb:15:in `
' apply_word_hits.rb:21:in `initialize': No such file or directory @ rb_sysopen - jawiki-latest-all-titles-in-ns0.hits (Errno::ENOENT) from apply_word_hits.rb:21:in `new' from apply_word_hits.rb:21:in `
'

これは make.sh 内で呼び出している count_word_hits.rb で wget している
https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz
がサーバー上に存在しないことが原因。(正確には数バイトのファイルが在るようだが、wget しようとすると 404 となる)

さらに、count_word_hits.rb で jawiki-latest-all-titles-in-ns0.gz が wget されていることが前提の apply_word_hits.rb でもエラーとなる。

幸いにもサーバー上には前月の
https://dumps.wikimedia.org/jawiki/20240501/jawiki-20240501-all-titles-in-ns0.gz
が存在するので、これを用いることで Mozc UT 辞書が生成できる。

sed -i 's/latest/20240501/g' count_word_hits.rb
sed -i 's/latest/20240501/g' apply_word_hits.rb

count_word_hits.rb と apply_word_hits.rb に上記の修正を加えた上で make.sh を実行すると無事にMozc UT 辞書を生成できた。本日、野良リポジトリに投入した mozc-ut パッケージもこの方法を用いてビルドしたもの。

(まぁ、恐らく何日か後には jawiki-latest-all-titles-in-ns0.gz が取得可能になって上記のような修正は不要になるとは思うが...)

【2024年6月12日 追記】

jawiki-latest-all-titles-in-ns0.gz が取得可能になった。

2023/01/19(木)Mageia 8: 本日の野良リポジトリ (2023-01-19)

下記のパッケージを nora リポジトリに投入しました。

【ライセンスについて】

今回ビルドしたパッケージでは、公開されている UT Dictionaries の内、以下の4つの辞書を使用しています。

  • 'Apache License, Version 2.0' で公開されている NEologd から生成された辞書
  • 'Apache License, Version 2.0' で公開されている SudachiDict から生成された辞書
  • 'Apache License, Version 2.0' で公開されている personal-names 辞書
  • 'Public Domain' で公開されている郵便番号データから生成された place-names 辞書

(辞書の内容的には野良リポジトリで以前に提供していた mozc-ut-neologd パッケージとほぼ同等となります)

これら4つの辞書をパッケージのビルド時に merge-ut-dictionaries で提供されているツールを用いてマージし、生成されたデータを 'BSD 3-Clause License' で公開されている mozc の辞書に結合してパッケージ化を行っています。

上記のような内容のパッケージおよびそのパッケージを配布することは、ライセンス的には問題は無いものと私は考えています。

2022/12/31(土)Mageia 8: 本日の野良リポジトリ (2022-12-31)

下記のパッケージを nora リポジトリに投入しました。

  • mozc-2.28.4960.102-2
    • Mozc を 2.28.4960.102 (rev.7ec82c9) へ更新しました。
    • Mageia 8 で提供されている Bazel のバージョン (ver.3.7.2) が旧すぎるのが原因と思われるビルドエラーが出るようになった為、Bazel のリポジトリで提供されている Linux 向けの汎用の実行形式のバイナリー (ver.6.0.0) を用いてビルドするように変更しました。
    • Mozc がインストールに必要な生成物を mozc.zip として出力するようになったので、パッケージの作成に際してこの zip ファイルを利用するように変更しました。
  • mozc-ut-neologd-2.28.4960.102-2.20221230
    • mozc パッケージと同様の変更を行っています。
    • Mozc UT NEologd 辞書を20221230版へ更新しました。

2022/10/23(日)Mageia 8: 本日の野良リポジトリ (2022-10-23)

下記のパッケージを nora リポジトリに投入しました。

  • mozc-2.28.4880.102-1
    • Mozc を 2.28.4880.102 へ更新しました。
  • mozc-ut-neologd-2.28.4880.102-1.20222033
    • Mozc を 2.28.4880.102 へ更新しました。
    • Mozc UT NEologd 辞書を20221022版へ更新しました。
      なお、前回のパッケージでは辞書の再ビルド時にエラーが出るために無効としていた SudachiDict ですが、今回の20221022版で辞書生成用のスクリプトが修正されてエラーが出なくなったので、再度 SudachiDict を有効にしています。

2022/09/05(月)Mageia 8: 最近の野良リポジトリ (2022-09-05)

下記のパッケージを nora リポジトリに投入しました。

  • mozc-2.28.4830.102-1
    • Mozc を 2.28.4830.102 へ更新しました。
  • mozc-ut-neologd-2.28.4830.102-1.20220904
    • Mozc を 2.28.4830.102 へ更新しました。
    • Mozc UT NEologd 辞書を20220904版へ更新しました。
      なお今回の Mozc UT NEologd 辞書は、SudachiDict を無効にしています。(Mozc UT 辞書を Mozc UT Neologd 辞書として再ビルドする際に、SudachiDict を有効にしているとビルドエラーが出るため)
  • ibus-1.5.27-1
  • fcitx5-5.0.19-1
  • uim-1.8.9-1
    • 上記の3つのパッケージは、ソースを最新のバージョンへ更新しました。