Show newer

まあCPU実行で全然CPU食わないからDirectMLにする意味もないか
VRAM食われても逆に困るとかありそう

バイナリビルドされた時にDirectML対応がOFFに設定されてたっぽいね
WindowsならONでよさそうなのに

DirectMLは使えそうなので指定してみたがWindows only言われてしまった
Windows 11はWindowsではない……?

音量のノーマライズしてねえじゃん
単に受け入れられるフォーマットに変換してるだけだった
最初から決まったフォーマットで入力してるから関係ないわね

メモリは500MBとか食うけどCPU自体は全然食わないな
不思議~

バックエンドがONNX RuntimeてことなのでなんかGPU使ってよみたいな指定してら適当に使ってくれるのかと思ったけどそうでもなさそう?
なんかGPUは使えないのでCPUにフォールバックします的なっちゃった
まあCPUでもそんな重そうには見えないのでいいんだが

0.9秒の余白付けて渡したら上手くいった!
あとPythonのだと音量の(?)ノーマライズしてるっぽいけどこれはJavaScriptでちょちょっとやるには重そう

おっとReazonSpeechのPythonのライブラリを見たら頭に0.9秒の余白付け足してから認識させてんじゃん
これか~

発話の認識は上手くいってるっぽいな
音声認識の方がなぜか頭の方無視しがちのようだ
俺のしゃべりが問題な可能性も十分あるけども

ライブラリに渡すパラメータもほんとにこれであってるのかわからんのでソースを見たいんだが、ソースがどこにあるかわからない
GitHubのリポジトリのURLが貼られてるけどほんとにそこにある~?

VADの設定の意味が書いてなくてよくわからん

オーバーフローで終了するのは単に間に合ってないだけだと思われるので頭の方が切れるのだけなんとかしたい

うーん発話の頭の方が無視されちゃうのと長々としゃべるとオーバーフローとかで終了しちゃう問題があるものの、認識自体は精度よさそう

そこそこちゃんと動くけども最初の方が認識してくれないのとオーバーフローで落ちちゃう
なんかサンプルに不備ありそう?

サンプルを見てたら普通に発話認識して都度音声認識するやつあるじゃん
VADってのがしゃべってる区間認識するやつなんだな

いやオンラインじゃねえな普通にオフラインだった

ん?普通にsherpa-onnxが独自に変換したっぽいReazonSpeechのオンライン用モデルってのがあるな
これ試してみるか

音声の切り出し自体はそこまで大変ではないっぽい
でも実用するにはそんな単純にはいかねえんじゃねえのという感じあるね

なんとか頑張って発話の開始から終了を検出してそこだけ切り出して認識させればいいのか~
大変だ~

試してみたらなんかエラー出るので調べたら、ReazonSpeechのモデルはオフライン用なのでリアルタイム音声認識には使えないっぽい
残念

Show thread
Show older
7144.party

7144民向け