我们非常重视您的个人隐私,当您访问我们的网站时,请同意使用的所有cookie。有关个人数据处理的更多信息可访问《使用条款》

解锁ChatGPT新姿势:集成文本转语音功能

2023.07.19 鲁邦通编辑部

阅读量:341

分享:

本文介绍了如何将文本转换为语音(TTSText-to-Speech)在ChatGPT中应用技术,以改善其用户体验。本文认为,用户在学习新主题或探索不熟悉的主题时,尤其是在学习新主题或探索不熟悉的主题时,可以通过听取ChatGPT的解释获得更多身临其境的有趣体验。本文还详细介绍了如何将Python和Google文本用于语音库(gTTS)将ChatGPT的输出转换为语音并大声播放。最后,作者提出了一个完全没有文本的工作流程的可能性,即通过语音到文本库给ChatGPT指令。

开篇

如果你点击这篇文章,我相信你已经使用过ChatGPT一段时间了。我也是 :) 在过去的几个月里,我一直专注于如何从ChatGPT中获得更好的输出——所谓的提示项目——或者通过构建大型语言模型(LLM)自定义应用程序。然而,最近我一直在思考如何提高ChatGPT的用户体验。

虽然ChatGPT提供的网络交互界面非常有用,但经过几次迭代,它的性能并不那么好。可以想象,如果我们能给ChatGPT一个进一步的声音,让ChatGPT像人工智能助手一样大声回应你,这是一种什么样的体验。

在本文中,我们将讨论如何在ChatGPT输出的基础上添加“文本到语音”(TTS)功能,从而提高ChatGPT的用户体验,使我们能够听到ChatGPT,而不仅仅是阅读它。

让我们给ChatGPT一个声音,让你的互动更有吸引力,更容易访问,更方便!

语音技术的文本转换

文本语音技术已经成为提高用户体验的工具。就像TTS一样(Text-to-Speech)字面意思是,该技术可以将任何输入文本转换为语音。如今,TTS技术在我们的日常生活中无处不在,其应用范围跨越各个领域。

例如,Siri等流行的虚拟助手、Alexa或Google Home使用TTS为用户查询提供口头响应。这些设备将基于文本的信息转换为合成语音,使用户能够通过语音命令与它们互动,并接收听觉反馈。

Google等流行的GPS导航系统 Maps也是一个例子。TTS技术将书面街道名称和方向转化为口头提示,而不仅仅是视觉指示,使驾驶员在接受指导时能够专注于道路安全。

无障碍和TTS

将TTS集成到我们日常生活中的一个显著优势是它们对无障碍的积极影响。

文本到语音技术为视力障碍者打开了一扇新世界的大门。TTS系统通过提供书面内容的听觉输出,使视力障碍者能够独立获取信息。

它使得没有物理交互或打字的人很容易说话,这对运动障碍者很有帮助。此外,TTS在对话自然性方面也表现出色,对音频学习者和阅读困难者更友好。

ChatGPT和TTS

""" prompt = f""" You will be provided with text delimited by triple quotes. Can you provide the summary of the text in 1500 words approximately? \"\"\"{user_text}\"\"\" """ # A simple call to ChatGPT response = get_completion(prompt)1.2.3.4.5.6.7.8.11.12.12.16.16.17.18.222.22.22.22.26.26.27.27.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.28.20.28.28.20.28.20.28.19.19.21.22.23.23.26.28.28.28.28..

get_completion()函数调用ChatGPT API并给出一个提示。如果提示包含额外的用户文本,则将三引号与代码的其他部分分开。

Gogle文本转语音语音(gTTS)库

为了大声播放ChatGPT的输出,我们将使用开源GTS库。

GTTS库是Google文本到语音API的免费Python包。它允许您将文本转换为语音并生成音频文件。图书馆的一些关键特征和功能包括:

1.文本到语音转换:它允许你使用谷歌文本到语音API的力量将文本转换为语音。

在我们的Jupyter笔记本中,任何ChatGPT调用都将如下所示:

总结

ChatGPT的回应可以通过听来增强用户的理解力。ChatGPT具有语音能力,将增强教育、无障碍技术、客户支持、语言学习等各个领域应用的可能性,增强用户体验。通过使用简单的API调用、GTS和IPython库,人们可以大声播放ChatGPT的输出,从而提升ChatGPT的用户体验。正如文章中提到的,无文本输入的工作流程也可以通过使用语音向文本库大声提供指令来实现。

原文标题:Unlocking a New Dimension of ChatGPT: Text-to-Speech Integration,作者:Andrea Valenzuela

免责声明:

鲁邦通只是为了传播更多的信息,所有出现在本网站上的信息都仅供参考。按照目前互联网开放的原则,我们将在不通知作者的情况下转载文章;如果原文明确规定“禁止转载”,我们将不会转载。如果我们转载的文章不符合作者的版权声明,或者作者不想让我们转载你的文章,请通知我们:support@cserver.com.cn

广州鲁邦通物联网科技股份有限公司成立于2010年,致力为行业客户提供软硬件结合的5G+工业互联网平台解决方案,通过设备物联、机器人乘梯、设备售后管理系统、电梯物联网等产品和服务,助力电梯及特种设备、医疗设备、机器人、环保设备、环卫设备、电力设备和水务设备等工业客户进行后市场服务的数字化转型,降本增效,开启利润增长的第二曲线。