**あれくま** @arekuma@7144.party · Nov 13, 2024, 13:08

**あれくま** @arekuma@7144.party · Nov 13, 2024, 13:08

あれくま @arekuma@7144.party

あれくま @arekuma@7144.party

16K Posts

207 Following

159 Followers

Joined Apr 2017

207 Following 159 Followers

Posts Posts and replies Media

Show newer

Nov 13, 2024, 13:08

あれくま @arekuma@7144.party

体調も全然回復しないし明日また仕事なのいやだな
木曜金曜休みて～

**あれくま** @arekuma@7144.party · Nov 13, 2024, 13:07

**あれくま** @arekuma@7144.party · Nov 13, 2024, 13:07

Nov 13, 2024, 13:07

あれくま @arekuma@7144.party

疲れたのか少し頭痛くなったので日記でも書いて寝ますか
日記書くのに1時間くらいかかりそう

**あれくま** @arekuma@7144.party · Nov 13, 2024, 12:03

**あれくま** @arekuma@7144.party · Nov 13, 2024, 12:03

Nov 13, 2024, 12:03

あれくま @arekuma@7144.party

まあCPU実行で全然CPU食わないからDirectMLにする意味もないか
VRAM食われても逆に困るとかありそう

**あれくま** @arekuma@7144.party · Nov 13, 2024, 12:02

**あれくま** @arekuma@7144.party · Nov 13, 2024, 12:02

Nov 13, 2024, 12:02

あれくま @arekuma@7144.party

バイナリビルドされた時にDirectML対応がOFFに設定されてたっぽいね
WindowsならONでよさそうなのに

**あれくま** @arekuma@7144.party · Nov 13, 2024, 11:59

**あれくま** @arekuma@7144.party · Nov 13, 2024, 11:59

Nov 13, 2024, 11:59

あれくま @arekuma@7144.party

DirectMLは使えそうなので指定してみたがWindows only言われてしまった
Windows 11はWindowsではない……？

**あれくま** @arekuma@7144.party · Nov 13, 2024, 11:53

**あれくま** @arekuma@7144.party · Nov 13, 2024, 11:53

Nov 13, 2024, 11:53

あれくま @arekuma@7144.party

音量のノーマライズしてねえじゃん
単に受け入れられるフォーマットに変換してるだけだった
最初から決まったフォーマットで入力してるから関係ないわね

**あれくま** @arekuma@7144.party · Nov 13, 2024, 11:27

**あれくま** @arekuma@7144.party · Nov 13, 2024, 11:27

Nov 13, 2024, 11:27

あれくま @arekuma@7144.party

メモリは500MBとか食うけどCPU自体は全然食わないな
不思議～

**あれくま** @arekuma@7144.party · Nov 13, 2024, 10:50

**あれくま** @arekuma@7144.party · Nov 13, 2024, 10:50

Nov 13, 2024, 10:50

あれくま @arekuma@7144.party

バックエンドがONNX RuntimeてことなのでなんかGPU使ってよみたいな指定してら適当に使ってくれるのかと思ったけどそうでもなさそう？
なんかGPUは使えないのでCPUにフォールバックします的なっちゃった
まあCPUでもそんな重そうには見えないのでいいんだが

**あれくま** @arekuma@7144.party · Nov 13, 2024, 10:48

**あれくま** @arekuma@7144.party · Nov 13, 2024, 10:48

Nov 13, 2024, 10:48

あれくま @arekuma@7144.party

0.9秒の余白付けて渡したら上手くいった！
あとPythonのだと音量の(?)ノーマライズしてるっぽいけどこれはJavaScriptでちょちょっとやるには重そう

**あれくま** @arekuma@7144.party · Nov 13, 2024, 10:35

**あれくま** @arekuma@7144.party · Nov 13, 2024, 10:35

Nov 13, 2024, 10:35

あれくま @arekuma@7144.party

おっとReazonSpeechのPythonのライブラリを見たら頭に0.9秒の余白付け足してから認識させてんじゃん
これか～

**あれくま** @arekuma@7144.party · Nov 13, 2024, 10:06

**あれくま** @arekuma@7144.party · Nov 13, 2024, 10:06

Nov 13, 2024, 10:06

あれくま @arekuma@7144.party

発話の認識は上手くいってるっぽいな
音声認識の方がなぜか頭の方無視しがちのようだ
俺のしゃべりが問題な可能性も十分あるけども

**あれくま** @arekuma@7144.party · Nov 13, 2024, 09:36

**あれくま** @arekuma@7144.party · Nov 13, 2024, 09:36

Nov 13, 2024, 09:36

あれくま @arekuma@7144.party

ライブラリに渡すパラメータもほんとにこれであってるのかわからんのでソースを見たいんだが、ソースがどこにあるかわからない
GitHubのリポジトリのURLが貼られてるけどほんとにそこにある～？

**あれくま** @arekuma@7144.party · Nov 13, 2024, 09:25

**あれくま** @arekuma@7144.party · Nov 13, 2024, 09:25

Nov 13, 2024, 09:25

あれくま @arekuma@7144.party

VADの設定の意味が書いてなくてよくわからん

**あれくま** @arekuma@7144.party · Nov 13, 2024, 08:35

**あれくま** @arekuma@7144.party · Nov 13, 2024, 08:35

Nov 13, 2024, 08:35

あれくま @arekuma@7144.party

オーバーフローで終了するのは単に間に合ってないだけだと思われるので頭の方が切れるのだけなんとかしたい

**あれくま** @arekuma@7144.party · Nov 13, 2024, 08:34

**あれくま** @arekuma@7144.party · Nov 13, 2024, 08:34

Nov 13, 2024, 08:34

あれくま @arekuma@7144.party

うーん発話の頭の方が無視されちゃうのと長々としゃべるとオーバーフローとかで終了しちゃう問題があるものの、認識自体は精度よさそう

**あれくま** @arekuma@7144.party · Nov 13, 2024, 08:25

**あれくま** @arekuma@7144.party · Nov 13, 2024, 08:25

Nov 13, 2024, 08:25

あれくま @arekuma@7144.party

そこそこちゃんと動くけども最初の方が認識してくれないのとオーバーフローで落ちちゃう
なんかサンプルに不備ありそう？

**あれくま** @arekuma@7144.party · Nov 13, 2024, 08:23

**あれくま** @arekuma@7144.party · Nov 13, 2024, 08:23

Nov 13, 2024, 08:23

あれくま @arekuma@7144.party

サンプルを見てたら普通に発話認識して都度音声認識するやつあるじゃん
VADってのがしゃべってる区間認識するやつなんだな

**あれくま** @arekuma@7144.party · Nov 13, 2024, 08:13

**あれくま** @arekuma@7144.party · Nov 13, 2024, 08:13

Nov 13, 2024, 08:13

あれくま @arekuma@7144.party

いやオンラインじゃねえな普通にオフラインだった

**あれくま** @arekuma@7144.party · Nov 13, 2024, 08:12

**あれくま** @arekuma@7144.party · Nov 13, 2024, 08:12

Nov 13, 2024, 08:12

あれくま @arekuma@7144.party

ん？普通にsherpa-onnxが独自に変換したっぽいReazonSpeechのオンライン用モデルってのがあるな
これ試してみるか

**あれくま** @arekuma@7144.party · Nov 13, 2024, 08:06

**あれくま** @arekuma@7144.party · Nov 13, 2024, 08:06

Nov 13, 2024, 08:06

あれくま @arekuma@7144.party

音声の切り出し自体はそこまで大変ではないっぽい
でも実用するにはそんな単純にはいかねえんじゃねえのという感じあるね

Show older

Joined Apr 2017

あれくま @arekuma@7144.party

Resources

Developers

What is Mastodon?

7144.party

More…