昨天我发布了一个短视频,时间比较短,大约1分钟,这是我最近总结出来的,短视频不宜过长,毕竟大家用的都是碎片时间,没有几个人有耐心听长篇大论,因此,我认为今后应该将短视频尽量控制在1分钟左右为好。
经过这一段时间的实战,以及各位朋友的一些建议意见,至少没有先前拍摄短视频那般过于紧张,以及花费太多时间在那些其实无关紧要的细节上,对于短视频的拍摄,我现在总算是稍稍有点感觉了。
这次的短视频,我从一个点出发,题目就是:GPT-4o语音为什么这么厉害?
接下来我从三个点来阐述,解释这个问题。
之前的语音模式是三个独立模型来实现,其中,
第一模型负责将音频转录为文字,
第二个GPT模型接收文字,处理之后输出新的文字,
第三个模型将该文字转换回音频输出。
这样下来,会有结果问题。一是响应时间较久,二是最重要的,这种方法意味着GPT在模型转换过程中会丢失大量信息,
第三个,也是最大的问题,就是
三种独立的模型互相之间也无法直接观察声音的音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
因此,OpenAI跨文本、视觉和音频端到端地训练了一个新模型,以上所有的工作都交由一个神经网络来处理,不仅速度快,更重要的是,这过程中保存了数据的原貌。
这个新的模型被我们成为全能模型,也就是GPT-4O。
视频发布出去后,我忽然意识到一个问题,就是虽然我极力的将专业的内容简单化,但做的明显还不够通俗化。
果然,我在询问了一个朋友的意见后,她给出了我同样肯定的答复。
除此之外,这位朋友还给了我许多新的建议,我整理了下,完整的内容大致如下:
一个是内容要有料,有趣。
第二个就是观看的体验和舒适度。比如轻松不易,不易过疲劳(控制时长)
第三个就是开心啊,快乐啊,那种精神层面的满足(比如视频体现的形式)
总之一句话,内容和脚本是第1位的很重要,然后有了内容和脚本就是形式上的表现形式上的表现其实是可以通过不断的模拟和演练,然后呢进行改变的。
我仔细思考过,觉得她这三点意见都非常不错,可惜我一下子很难都做到。但无论如何,我对她都表示很感谢,同时也决定今后狠狠地往这方面努力。:)
广告:欢迎关注我的微信视频号【大伟说AI】
再次感谢你们!