Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

音声合成前に英単語をカタカナに変換するオプションの追加(英単語のサポート) #739

Open
3 tasks done
WariHima opened this issue Jan 31, 2024 · 4 comments

Comments

@WariHima
Copy link

内容

英単語のカタカナ変換オプション
英単語をカタカナに変換し読み上げ可能にする

Pros 良くなる点

英単語を日本人発音で読み上げることができるようになる

Cons 悪くなる点

特にない

実現方法

英単語カタカナ変換辞典を使い英単語をカタカナに変換する
辞典は以下のpythonライブラリに組み込んである物を使用する

英単語カタカナ変換ライブラリ(python)
https://github.com/zomysan/alkana.py
辞典がdata.pyに直に書いてある

VOICEVOXのバージョン

N/A

OSの種類/ディストリ/バージョン

  • Windows
  • macOS
  • Linux

その他

ほかの外国語も日本語読みの辞書があれば日本人の発音でしゃべらせることができると思う
ひらがなに変換できるハングルなどが辞書を作りやすいと思われる

@Hiroshiba
Copy link
Member

Hiroshiba commented Feb 5, 2024

@WariHima 外国語の日本語辞書は面白そうだなと思いつつ、なかなか手がつけられていない現状があります!
容量がどれぐらいなのか、どうやって使える形にするかあたりをまとめたり決めたりすれば意外とすぐに進めそうな気がします。

辞典は以下のpythonライブラリに組み込んである物を使用する

こちらのデータはGPLv2なので難しそうです・・・!

@WariHima
Copy link
Author

WariHima commented Feb 5, 2024

一応作ってみたものがこちら↓
https://github.com/WariHima/KanaYomi-dict

作成方法

カタカナ語のみをデフォルトの辞書から抽出し対応する英単語と置き換えて作成できる。
(カタカナ語のアクセントを引き継ぐため)
デフォルトの辞書にカタカナ語として登録されていない辞書はmecabでの形態素解析に最低限必要な情報だけ入れる。
モーラ数とダミーのアクセントを付ければ動くことは確認している。

ライセンスの緩い辞書が見つかったら修正BSDライセンスの辞書を作成するつもりです。

@WariHima
Copy link
Author

WariHima commented Feb 6, 2024

結構調べましたがライセンスの緩いカタカナ英語変換辞書があまり見つかりませんでした。(唯一見つけたのが有料だった)
色々調べているうちに古い日本語入力用のユーザー辞書がopenjtalkで使えるように変換できること発見したのでとりあえず登録語句の強化はし続けます。

@WariHima
Copy link
Author

リポジトリの整理が代替終わりました。
https://github.com/WariHima/KanaYomi-dict/wiki/%E5%8F%8E%E9%8C%B2%E3%81%97%E3%81%A6%E3%81%84%E3%82%8B%E8%BE%9E%E6%9B%B8%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6
ユーザーが辞書を手動でダウンロードして使う形式を想定しています。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants