首页│
更多>
聚焦新闻
×
新闻 > 科技 > 科技

“王炸”AI模型来了!谷歌全面对标OpenAI

来源:潮新闻   作者:《每日财讯网》编辑  发布时间:2024-05-15

摘要:  新一轮的大模型之争开始了。  24小时以前,OpenAI抢先发布GPT-4o,通过实时的语音、视频和文本交互刷屏社交网络,震撼着全世界。仅仅过了一天,科技巨头谷歌顶着压力,全面反击OpenAI。&...

  新一轮的大模型之争开始了。

  24小时以前,OpenAI抢先发布GPT-4o,通过实时的语音、视频和文本交互刷屏社交网络,震撼着全世界。仅仅过了一天,科技巨头谷歌顶着压力,全面反击OpenAI。 

  5月15日凌晨,在一年一度的“科技界春晚”Google I/O 开发者大会上,谷歌展示了十来款新品和升级,其中就有由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo,以及在硬件方面发布的第六代Tensor处理器单元(TPU)Trillium芯片,还将搜索业务做了最彻底的AI改造。

  谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)介绍,谷歌所有的工作都围绕生成式AI模型Gemini来做。一年前,谷歌首次分享了原生多模态大模型 Gemini的计划,现在已经有超过150万开发者正在使用谷歌的人工智能Gemini,“今天,我们希望每个人都能从Gemini的技术中受益。”

  谷歌发布语音助手Astra,能力上全面对标GPT-4o

  这次大会,谷歌揭幕了一款名为Project Astra的通用人工智能系统,旨在与OpenAI的GPT-4o展开竞争。

  谷歌DeepMind首席执行官兼联合创始人Demis Hassabis亲自展示了Astra模型。这款模型通过智能手机的摄像头捕捉并分析周围环境,还能与用户进行实时对话。

  在演示中,用户手持手机,将摄像头对准办公室的不同角落,并通过语言与系统进行交互。例如,当用户发出指令“请告诉我智能眼镜在哪里”时,Astra能够迅速识别物体,并与用户进行实时的语音交流。同时,它能成功地识别出代码序列、为电路图提出改进建议、通过镜头“看到”伦敦国王十字区等等。

  大会上,谷歌官方演示了这款系统与AR眼镜的结合使用,预示着它在日常生活场景中的广泛应用潜力。目前该应用仍处于原型阶段,但谷歌表示,计划在今年晚些时候正式推出。

  据介绍,谷歌在Gemini的基础上开发了Astra的原型,可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中以实现更快地处理信息。通过语音模型,谷歌也强化了智能助手的说话能力,让其能够给出更快速地回应。

  不过,在演示视频中,谷歌AI助手的回应速度似乎还是会比GPT-4o稍慢一些,语音所表现出的感情色彩也平淡一些。

  前一天发布的GPT-4o多模态大模型,相较于GPT-4 Trubo速度更快、价格也更便宜。直播过程中,两位OpenAI的员工向大家展示了GPT-4o的更新细节,比如它能感知用户情绪、具备不同情绪的声音、实时视觉功能和更即时的语音交互。其中,ChatGPT-4o还能通过前置摄像头观察用户的面部表情,检测其情绪。

  有评论称,这个演示显示,GPT-4o让聊天机器人不再那么机械冷漠,而是更加接近真实人类,能够理解并表达情绪,还可以读取人类的情绪,但读取还有一点困难。

  有业内人士评价,从演示上看,Astra的视觉理解能力确实让人印象深刻,但在交互体验上要比GPT-4o实时演示的能力要差许多。无论是响应时长、语音的情感丰富度、可打断等方面,GPT-4o的交互体验似乎更自然。

  发布视频生成模型Veo反击Sora,视觉效果颇为惊艳

  在AI生成视频方面,谷歌宣布推出视频生成模型 Veo,能够生成分辨率最高达1080p的高质量视频,时长可以超过一分钟,涵盖多种电影和视觉风格。

  据谷歌介绍,Veo在理解视频内容、渲染高清图像、模拟物理原理等方面都有所突破,能精准捕捉“延时摄影”、“航拍风景”等电影术语,并将其转化为生动的视觉表达。并具有更高的连贯性和一致性,人物、动物和物体的动作也更加逼真,视觉效果颇为惊艳。

  Veo生成的视频

  本着“打不过就加入”原则,很多艺术家已在尝试这个项目。谷歌展示了与电影制片人唐纳德·格洛弗(Donald Glover)及其创意工作室吉尔加(Gilga)的一些合作,以及艺术家Wyclef Jean,Marc Rebillet和词曲作者Justin Tranter在音乐AI沙盒的帮助下发布的新演示录音。 

  早前OpenAI发布首个文生视频模型Sora,在网上迅速刷屏,不少网友跃跃欲试。Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频,呈现“具有多个角色、特定类型的动作,以及主题和背景的准确细节”的复杂场景。

  但OpenAI表示,Sora存在不成熟之处,可能难以理解因果关系。多位人工智能领域人士表示,该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题,但无法根治。想要真正突破最底层逻辑上的问题,因果关系是一条必经之路。 

  对于Veo用户,可以通过点击“扩展”按钮,持续增加视频的时长,最终达到了1分10秒,超过了Sora的时长。至于它有哪些不足之处,目前暂无定论,还有待用户体验。

  目前,Veo已经开始在谷歌官网开放试用。此外,谷歌还在积极探索更多功能,使Veo能够制作故事板和更长的场景,进一步拓展其应用场景和创作空间。

  在这次Google I/O开发者大会上,AI依旧是所有话题的中心,几乎每一个功能更新都与AI紧密相关。例如,谷歌升级搜索引擎,还更新升级了Gemini1.5Pro版本,同时推出Gemini1.5Flash轻量化小模型。

  根据发布会最后的官方统计,这场长达 110 分钟的主题演讲中,谷歌总共提到了121次AI。生成式AI的竞争,在此刻达到新的高潮。

  这场AI的大角逐到底谁能最后胜出?目前尚无定论。从本次发布会的展示来看,谷歌和OpenAI之间的差距似乎正在逐渐缩小。两家公司不仅在AI领域进行激烈的角逐,并且都在努力推动AI应用于更广泛的场景。 

  尽管我们从谷歌的搜索产品、模型产品上看到了谷歌的疲态和创新的缺失,外界评论称,和GPT-4o不到30分钟的发布会相比,谷歌“缺乏惊喜”。但从生态和用户积累上,谷歌依然具有先天优势。


责任编辑:《每日财讯网》编辑

上一篇:大模型价格战开启!字节跳动豆包大模型价格比同行低99.3%

下一篇:没有了!

分享到:

〖免责申明〗本文仅代表作者个人观点,其图片及内容版权仅归原所有者所有。如对该内容主张权益请来函或邮件告之,本网将迅速采取措施,否则与之相关的纠纷本网不承担任何责任。

相关文章

评论框

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
用户名: 密码:

 客服电话:010-57135130 传真:010-57135130 邮箱:mrcxnews@163.com

本站郑重声明:每日财讯网所发布的文章、数据仅供参考,本网不对信息的完整性、及时性负任何责任,投资有风险,选择需谨慎。

Copyright Up to 2022 mrcxnews.com All Rights Reserved. 《中华人民共和国增值电信业务经营许可证》编号:京B2-20171131号 【京ICP备16069224号  

关闭
关闭