考虑到微软/Azure认知服务的“语音服务”目前正在进行一个合理化的实践,从我的观察中可以看出
https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/rest-apis#speech-to-text
https://docs.microsoft.com/en-us/azure/cognitive-services/speech/home
只有 .wav 二进制文件是可以接受的,其他任何文件都会给出响应:
.wav
{"Message":"Unsupported audio format"}
有没有其他方法可以发现可接受的音频格式/编码等,还是这样?
[任意预处理提示加分/ .m4a python中的音频格式 pydub 所以他们遇到了酒吧-目前工作 .mp3 但不是为了 M4A ]
.m4a
pydub
.mp3
M4A
谢谢!
single-channel (mono) WAV / PCM with a sampling rate of 16 kHz