まあCPU実行で全然CPU食わないからDirectMLにする意味もないかVRAM食われても逆に困るとかありそう
バイナリビルドされた時にDirectML対応がOFFに設定されてたっぽいねWindowsならONでよさそうなのに
DirectMLは使えそうなので指定してみたがWindows only言われてしまったWindows 11はWindowsではない……?
音量のノーマライズしてねえじゃん単に受け入れられるフォーマットに変換してるだけだった最初から決まったフォーマットで入力してるから関係ないわね
メモリは500MBとか食うけどCPU自体は全然食わないな不思議~
バックエンドがONNX RuntimeてことなのでなんかGPU使ってよみたいな指定してら適当に使ってくれるのかと思ったけどそうでもなさそう?なんかGPUは使えないのでCPUにフォールバックします的なっちゃったまあCPUでもそんな重そうには見えないのでいいんだが
0.9秒の余白付けて渡したら上手くいった!あとPythonのだと音量の(?)ノーマライズしてるっぽいけどこれはJavaScriptでちょちょっとやるには重そう
おっとReazonSpeechのPythonのライブラリを見たら頭に0.9秒の余白付け足してから認識させてんじゃんこれか~
発話の認識は上手くいってるっぽいな音声認識の方がなぜか頭の方無視しがちのようだ俺のしゃべりが問題な可能性も十分あるけども
ライブラリに渡すパラメータもほんとにこれであってるのかわからんのでソースを見たいんだが、ソースがどこにあるかわからないGitHubのリポジトリのURLが貼られてるけどほんとにそこにある~?
VADの設定の意味が書いてなくてよくわからん
オーバーフローで終了するのは単に間に合ってないだけだと思われるので頭の方が切れるのだけなんとかしたい
うーん発話の頭の方が無視されちゃうのと長々としゃべるとオーバーフローとかで終了しちゃう問題があるものの、認識自体は精度よさそう
そこそこちゃんと動くけども最初の方が認識してくれないのとオーバーフローで落ちちゃうなんかサンプルに不備ありそう?
サンプルを見てたら普通に発話認識して都度音声認識するやつあるじゃんVADってのがしゃべってる区間認識するやつなんだな
いやオンラインじゃねえな普通にオフラインだった
ん?普通にsherpa-onnxが独自に変換したっぽいReazonSpeechのオンライン用モデルってのがあるなこれ試してみるか
音声の切り出し自体はそこまで大変ではないっぽいでも実用するにはそんな単純にはいかねえんじゃねえのという感じあるね
なんとか頑張って発話の開始から終了を検出してそこだけ切り出して認識させればいいのか~大変だ~
試してみたらなんかエラー出るので調べたら、ReazonSpeechのモデルはオフライン用なのでリアルタイム音声認識には使えないっぽい残念
7144民向け