IT之家 8 月 29 日音问,OpenAI 已将其“Realtime API”认真参加出产环境开云体育,将其移出测试阶段(Beta)。
据IT之家了解,这款 API 主要面向企业与开垦者群体,旨在助力他们开垦适用于骨子场景的语音助手,遮掩客户接济、教师、个东谈主效力普及等限制。其中枢组件“gpt-realtime”模子选拔端到端 Speech-to-Speech 架构,可平直生成并措置语音,省去了惯例的文本改动措施。据 OpenAI 先容,比较前代版块,该模子反映速率更快、语音更当然,对复杂指示的措置才调也更强。
OpenAI 暗示,现在 gpt-realtime 模子大要捕捉笑声等非话语信号,接济对话过程中半途切换话语,还可诊疗语音口吻 —— 举例兑现“带法国口音的友好语调”或“语速较快的专科语调”。此外,该模子新增了“Cedar”和“Marin”两种语音,并对现存的 8 种语音后果进行了优化。
在性能基准测试中,gpt-realtime 模子推崇权臣普及:在 Big Bench Audio 基准测试中准确率从 65.6% 升至 82.8%,在 MultiChallenge 基准测试中从 20.6% 升至 30.5%,在 ComplexFuncBench 基准测试中则从 49.7% 普及至 66.5%。
这次 API 升级优化了器用集成经由。OpenAI 称,该模子能更精确地弃取适用器用、在恰当时机触发器用,并正确确立器用参数,大幅普及了函数调用的可靠性。开垦者可通过会话运行公约(SIP)与费力媒体放手公约(MCP)办事器,连气儿外部器用与办事。同期,可复用的请示词功能接济保存不同使用场景下真实立与器用修复,进一步普及开垦效力。
该 API 现已接济图像输入功能。用户在对话过程中可发送截图或像片,模子能参考图像内容进行交互 —— 举例读取图像中的翰墨,或回话与图像内容关系的问题。开垦者可自主放手模子大要取得的图像规模。
此外,API 新增了两项实辛劳能:开垦者可修复 token 使用上限,并对多轮对话内容进行精简措置。这两项功能有助于在较长会话中更好地甩抄本钱。价钱方面,gpt-realtime 模子的使用本钱裁减 20%,刻下订价为:音频输入 token 每百万个 32 好意思元(IT之家注:现汇率约合 229 元东谈主民币),音频输出 token 每百万个 64 好意思元(现汇率约合 457.9 元东谈主民币),缓存输入 token 每百万个 0.40 好意思元(现汇率约合 2.9 元东谈主民币)。
OpenAI 暗示,该 API 具备检测问题内容的才调,若对话违背平台计策,可自动间隔会话。不外,从话语模子的安全发展历程来看,这不应是唯独的安全保险期间,开垦者仍需自行添加专属安全条件。
针对欧盟用户,该 API 提供了数据土产货化存储选项开云体育,并为企业用户制定了稀薄阴私章程,以适当欧盟地区的数据保护规范。