316科技

316科技

AI实时翻译现在已经达到一个什么样的水平了?

316科技 211

一、AI实时翻译现在已经达到一个什么样的水平了?

当前AI翻译模块是能够实时的,但是由于每个人说话的断句【停顿】以及语音的不标准以及重复冗余字符【比如额,嗯等等】等等各种因素,导致语音识别需要一定语音量缓冲和上下文环境理解,才能够识别字、词、短句正确,而语音翻译需要根据识别后的文字进行翻译,一旦文字识别错误,【特别是同音不同字也不同义的】进行翻译后,会错的很离谱,当然翻译本身也是非常复杂的。所以识别模型、文字处理模型、翻译模型都需要针对特定场景进行针对性训练但是模型本身的计算不会引入多少延迟的,而另外两个延迟的引入是在字、音、画同步以及二次编码上,同时为了兼容某些语速较快的人,确保字符能够显示一定的时长,需要加些延迟。

综上所述AI翻译处理在整条直播链路中额外会引入500ms~2s的延迟.

所以可以看看整个链路延迟来看,AI翻译直播的端到端理论延迟可以在 1s左右。而此次阿里速卖通的跨境直播上推出的就是一个实时直播的场景,延迟在5-10s, 属于实时直播范畴,其中AI翻译引入的额外延迟可忽略不计。

而且不仅仅是电商直播,包括游戏直播也可以加入实时字幕和翻译的,比如今年S10赛事,某就采用了阿里云的实时字幕功能进行了实时字幕大型游戏赛事直播的尝试。

二、有没有说出普通话,而经过语音识别后输出中文的软件啊?

这个是答案:百度语音为开发者提供优质的语音技术服务,包括语音识别、语义解析、语音合成,后续更有开放资源、多轮对话等技术服务。百度语音通过SDK、REST API及离线开发包等多种服务形式,为智能车载、智能家居、智能可穿戴、移动应用等垂类提供定制化智能语音解决方案。

三、创维Q5A的AI语音可以实现哪些功能?

能根据语音指令实现指定功能;可以智能思考指令背后的意思再加以实现;网络大数据支撑,智能检索,所有的问题都能回答。

四、人工智能语音在哪安装?

coloros3.2版本进入设置--语音助手,开启语音助手功能后长按虚拟键的圆形按钮(导航键为导航手势时通过控制中心的快捷入口)开启语音助手;

coloros3.0及3.1版本系统进入设置--语音助手,开启语音助手功能后,长按home键启动语音助手;

color os 2.1版本系统仅支持长按菜单键启动语音助手;

color os 2.0及以下版本可以参考以下方法:

1、在待机桌面时长按指纹键(菜单键)弹出语音助手(非锁屏界面);

2、在锁屏(非访客模式和图案密码、数字密码的锁屏页面时)界面说“语音助手”开始语音对话;

3、语音唤醒,在该应用主界面说“语音助手”开启语音对话;

4、拿起手机并放到耳边自动开启语音助手(语音助手的设置,打开手势启动开关)。

注意:第2、3、4三种方法需要先进入语音助手--设置--启动方式开启相关功能的开关才能实现。

上一个下一篇:AI变声器安装使用教程

下一个上一篇:返回栏目