“王炸”AI模型来了！谷歌全面对标OpenAI

首页│

更多>

聚焦新闻

1多地文旅"出新"又"走心...

2事关自动驾驶系统安全相...

3网络测评不能"给钱就夸"...

4新任国防部新闻发言人就近...

5端午假期全国口岸日均出入...

6“三夏”丰收正当时麦收...

7山姆就食品安全问题致歉 ...

8美联储新主席将迎首秀，传...

9存贷款利率新规有何变化，...

10G7峰会前夕特朗普威胁...

"区块链退烧！一周前上市公司争相“表白” 一周后纷纷实话实说"

热点新闻

海运费暴涨、“一舱难求”再...

桥水Q1疯狂扫货美股“六巨...

光伏企业竞相布局 0BB技...

A股突发减持潮来了！近20...

图片新闻

集成电路价格看...

集成电路价格看“涨”声起...

A股四大突发！...

A股四大突发！美国加征中...

新规威力显现！...

新规威力显现！8家IPO...

更加有效保护投...

更加有效保护投资者促进...

新闻 > 科技 > 科技

“王炸”AI模型来了！谷歌全面对标OpenAI

来源：潮新闻　　作者：《每日财讯网》编辑　　发布时间：2024-05-15

摘要：　　新一轮的大模型之争开始了。　　24小时以前，OpenAI抢先发布GPT-4o，通过实时的语音、视频和文本交互刷屏社交网络，震撼着全世界。仅仅过了一天，科技巨头谷歌顶着压力，全面反击OpenAI。&...

　　新一轮的大模型之争开始了。

　　24小时以前，OpenAI抢先发布GPT-4o，通过实时的语音、视频和文本交互刷屏社交网络，震撼着全世界。仅仅过了一天，科技巨头谷歌顶着压力，全面反击OpenAI。

　　5月15日凌晨，在一年一度的“科技界春晚”Google I/O 开发者大会上，谷歌展示了十来款新品和升级，其中就有由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo，以及在硬件方面发布的第六代Tensor处理器单元（TPU）Trillium芯片，还将搜索业务做了最彻底的AI改造。

　　谷歌首席执行官桑达尔·皮查伊（Sundar Pichai）介绍，谷歌所有的工作都围绕生成式AI模型Gemini来做。一年前，谷歌首次分享了原生多模态大模型 Gemini的计划，现在已经有超过150万开发者正在使用谷歌的人工智能Gemini，“今天，我们希望每个人都能从Gemini的技术中受益。”

　　谷歌发布语音助手Astra，能力上全面对标GPT-4o

　　这次大会，谷歌揭幕了一款名为Project Astra的通用人工智能系统，旨在与OpenAI的GPT-4o展开竞争。

　　谷歌DeepMind首席执行官兼联合创始人Demis Hassabis亲自展示了Astra模型。这款模型通过智能手机的摄像头捕捉并分析周围环境，还能与用户进行实时对话。

　　在演示中，用户手持手机，将摄像头对准办公室的不同角落，并通过语言与系统进行交互。例如，当用户发出指令“请告诉我智能眼镜在哪里”时，Astra能够迅速识别物体，并与用户进行实时的语音交流。同时，它能成功地识别出代码序列、为电路图提出改进建议、通过镜头“看到”伦敦国王十字区等等。

　　大会上，谷歌官方演示了这款系统与AR眼镜的结合使用，预示着它在日常生活场景中的广泛应用潜力。目前该应用仍处于原型阶段，但谷歌表示，计划在今年晚些时候正式推出。

　　据介绍，谷歌在Gemini的基础上开发了Astra的原型，可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中以实现更快地处理信息。通过语音模型，谷歌也强化了智能助手的说话能力，让其能够给出更快速地回应。

　　不过，在演示视频中，谷歌AI助手的回应速度似乎还是会比GPT-4o稍慢一些，语音所表现出的感情色彩也平淡一些。

　　前一天发布的GPT-4o多模态大模型，相较于GPT-4 Trubo速度更快、价格也更便宜。直播过程中，两位OpenAI的员工向大家展示了GPT-4o的更新细节，比如它能感知用户情绪、具备不同情绪的声音、实时视觉功能和更即时的语音交互。其中，ChatGPT-4o还能通过前置摄像头观察用户的面部表情，检测其情绪。

　　有评论称，这个演示显示，GPT-4o让聊天机器人不再那么机械冷漠，而是更加接近真实人类，能够理解并表达情绪，还可以读取人类的情绪，但读取还有一点困难。

　　有业内人士评价，从演示上看，Astra的视觉理解能力确实让人印象深刻，但在交互体验上要比GPT-4o实时演示的能力要差许多。无论是响应时长、语音的情感丰富度、可打断等方面，GPT-4o的交互体验似乎更自然。

　　发布视频生成模型Veo反击Sora，视觉效果颇为惊艳

　　在AI生成视频方面，谷歌宣布推出视频生成模型 Veo，能够生成分辨率最高达1080p的高质量视频，时长可以超过一分钟，涵盖多种电影和视觉风格。

　　据谷歌介绍，Veo在理解视频内容、渲染高清图像、模拟物理原理等方面都有所突破，能精准捕捉“延时摄影”、“航拍风景”等电影术语，并将其转化为生动的视觉表达。并具有更高的连贯性和一致性，人物、动物和物体的动作也更加逼真，视觉效果颇为惊艳。

　　Veo生成的视频

　　本着“打不过就加入”原则，很多艺术家已在尝试这个项目。谷歌展示了与电影制片人唐纳德·格洛弗（Donald Glover）及其创意工作室吉尔加（Gilga）的一些合作，以及艺术家Wyclef Jean，Marc Rebillet和词曲作者Justin Tranter在音乐AI沙盒的帮助下发布的新演示录音。

　　早前OpenAI发布首个文生视频模型Sora，在网上迅速刷屏，不少网友跃跃欲试。Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频，呈现“具有多个角色、特定类型的动作，以及主题和背景的准确细节”的复杂场景。

　　但OpenAI表示，Sora存在不成熟之处，可能难以理解因果关系。多位人工智能领域人士表示，该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题，但无法根治。想要真正突破最底层逻辑上的问题，因果关系是一条必经之路。

　　对于Veo用户，可以通过点击“扩展”按钮，持续增加视频的时长，最终达到了1分10秒，超过了Sora的时长。至于它有哪些不足之处，目前暂无定论，还有待用户体验。

　　目前，Veo已经开始在谷歌官网开放试用。此外，谷歌还在积极探索更多功能，使Veo能够制作故事板和更长的场景，进一步拓展其应用场景和创作空间。

　　在这次Google I/O开发者大会上，AI依旧是所有话题的中心，几乎每一个功能更新都与AI紧密相关。例如，谷歌升级搜索引擎，还更新升级了Gemini1.5Pro版本，同时推出Gemini1.5Flash轻量化小模型。

　　根据发布会最后的官方统计，这场长达 110 分钟的主题演讲中，谷歌总共提到了121次AI。生成式AI的竞争，在此刻达到新的高潮。

　　这场AI的大角逐到底谁能最后胜出？目前尚无定论。从本次发布会的展示来看，谷歌和OpenAI之间的差距似乎正在逐渐缩小。两家公司不仅在AI领域进行激烈的角逐，并且都在努力推动AI应用于更广泛的场景。

　　尽管我们从谷歌的搜索产品、模型产品上看到了谷歌的疲态和创新的缺失，外界评论称，和GPT-4o不到30分钟的发布会相比，谷歌“缺乏惊喜”。但从生态和用户积累上，谷歌依然具有先天优势。

责任编辑：《每日财讯网》编辑

上一篇：大模型价格战开启！字节跳动豆包大模型价格比同行低99.3％

下一篇：没有了！

分享到：

〖免责申明〗本文仅代表作者个人观点，其图片及内容版权仅归原所有者所有。如对该内容主张权益请来函或邮件告之，本网将迅速采取措施，否则与之相关的纠纷本网不承担任何责任。

·新华社北京6月16日电记者16日从工业和信息化部获悉，《智能网联汽车自动驾驶系统安全要...

·商品琳琅满目，质量却有好有坏，货比三家时，不妨听听其他用户怎么说。如今，网络测评早已成为大...

·新华社北京6月16日电（记者王春涛）新任国防部新闻发言人陈曦16日就近期涉军问题答记者问。...

·新华社北京6月16日电（记者孙鹏程）记者6月16日从国家移民管理局获悉，端午佳节将至，预计...

·岁岁麦浪皆滚烫。每年“三夏”，人们不免关心麦田里的动向，也总有暖心故事刷屏。5月28日，全...

网站声明

网站简介

征稿启事

诚聘英才

联系我们

客服电话：010-57135130 传真：010-57135130 邮箱：mrcxnews@163.com

本站郑重声明：每日财讯网所发布的文章、数据仅供参考，本网不对信息的完整性、及时性负任何责任，投资有风险，选择需谨慎。