实盘配资排行榜:股票股权登记怎么操作的-“AI，你帮我挑个木瓜？”实测豆包视频通话功能一场AI“视觉交互”争夺战已打响

来源：shengdayoupei 网站：恒正网配资日期：2025-05-28 14:07:51 查看：95

　　国内AI（人工智能）视频交互赛道再添重磅玩家。

　　近日，字节跳动旗下AI智能助手“豆包”的App上线视频通话功能，支持视频聊天问答。据官方介绍，本次升级基于视觉推理模型，支持联网搜索。

　　《每日经济新闻》记者实测发现，豆包的视频通话功能用处不少，包括识别水果成熟度这样的日常用途。此外，在识别物品时，豆包更展现出持续记忆和逻辑推理能力。

　　5月27日，一位大模型算法工程师接受《每日经济新闻》记者微信采访时表示，豆包在视频通话中展现出的视频理解与语音交互能力，在中文语境中处于第一梯队。

　　继文生视频大模型后，字节在AI多模态领域又迈出关键一步。

推荐阅读：

股票实战交流群:股票行情股票-赴港上市再添“新军” 背后有茅台、腾讯身影！

　　能打视频电话的豆包，效果如何？

　　“视觉是人类了解这个世界最重要的方式，对于大模型来说也是如此。”在去年12月举行的“2024火山引擎FORCE原动力大会·冬 ”上，火山引擎总裁谭待发布了豆包视觉理解模型，称该模型具备更出色的内容识别、理解、推理、视觉描述和创作等能力。

　　5个月后，这一新模型的能力让所有豆包用户“眼见为实”了。

　　近日，豆包App上线了实时视频通话功能，这一功能的实现正是基于豆包视觉理解模型的能力。

　　为了更直观地展示这一新功能的应用场景，豆包团队在其官方微信公众号上列举了公园内花草识别、博物馆内实时讲解、图书馆内书籍推荐查阅以及买菜时的食材搭配这四大生活场景。在去年12月的发布会上，豆包团队就曾在演示视频中呈现了该模型在识别地标、读懂代码、分析体检报告、为用户提供穿搭意见等日常任务中的完成能力。

　　和豆包打个视频电话，是否真的能解决上述这些生活问题呢？百闻不如一见，《每日经济新闻》记者近日以挑选水果、识别物品和推荐书籍这三项任务，对豆包的实时视频通话功能进行了实测。

　　首先，是较为基础的挑选水果任务，这也是用户在小红书等社交媒体上分享得最多的应用场景。“你来帮我挑选一个木瓜吧。”当开启视频通话后，豆包通过对果实表皮颜色、饱满程度等指标的观察，快速给出了挑选建议。有小红书用户在使用豆包挑选蔬菜后表示：“感觉突然身边多了个懂行的买菜老大爷。 ”

　　在识别物品和推荐书籍的环节，豆包展现出了良好的记忆能力和连贯的实时搜索、互动性能。例如，面对杂乱摆放着书籍、巧克力、耳机和电子时钟等物品的书桌，豆包可以轻松识别所有物品的详细信息并记忆它们在桌上的摆放位置。

　　这一记忆功能在记者浏览书架时得到了更为充分的展现。记者在书店随机挑选了一个书架，就书架一侧第一本书和豆包进行沟通，同时举起手机走向了书架的另一头，再突然提出“刚刚有一本蔡磊写的书，你看到了吗？”的问题，豆包迅速记起这本曾在镜头前一闪而过的书，并对该书进行了简单介绍。

　　“（记忆功能的实现）大概率是每隔几秒给模型拍摄一张图片。”一位大模型算法工程师在微信上接受《每日经济新闻》记者采访时表示，豆包在该功能中展现的视频理解和语音交互能力，在中文语境中处于第一梯队。

　　与豆包进行关于多本书籍的聊天时，豆包能够结合记忆能力与实时搜索，对书籍内容、作者生平、同类作品推荐等话题进行自然延伸，整个交互过程流畅且生动。

　　从“听见 ”到“看见”

　　在去年，AI的视频交互功能就已经在业界掀起波澜。

　　2024年8月，“智谱清言”App率先推出了国内首个面向C端（消费者端）开放的视频通话功能。一时间，网上涌现出大量对视频通话功能的测试。测试方式从最基础的物体识别到生活场景的沟通交流，甚至包括辅导小学生作业。

　　赶在OpenAI和谷歌之前，智谱清言先一步将AI视频交互在国内落地。在国际市场上，从“听见 ”到“看见”同样成为AI进化的下一步。

　　2024年5月，OpenAI公司的“GPT-4o”发布。现场，OpenAI的研究员演示了GPT-4o的实时视觉功能——它通过手机摄像头实时解了一个方程，甚至还能通过前置摄像头观察用户的面部表情，分析用户的情绪。同月，谷歌推出的“Project Astra ”同样具备实时语音、视频交互的能力。

　　今年4月，火山引擎总裁谭待也曾表示：“模型要有能力做好思考、计划和反思，并且一定要支持多模态，就像人类具备视觉和听觉一样，Agent（智能体）才能更好地处理复杂任务。”

　　视频通话功能的实现，就建立在其多模态能力之上。从最后呈现的使用形态来看，视频通话功能使得用户无需再通过语言组织传达眼前的信息，这无疑是对AI使用门槛的再一次降低。

　　技术能力的升级为AI打通了视觉和听觉的“任督二脉”，但也要看到，AI智能助手的快速扩张已经来到了瓶颈，新的交互范式可能是新阶段的关键。

　　据量子位智库数据，4月份Web端（网页端）AI智能助手的总访问量首次出现下降，说明以尝鲜驱动的扩张期或已结束。

　　随着豆包在今年3月接入抖音及其“打电话”功能在社交媒体上受到关注，豆包也在通过抖音生态快速触达用户。

　　27日，知名经济学者、工信部信息通信经济专家委员会委员盘和林在接受《每日经济新闻》记者微信采访时表示，豆包有着庞大的用户应用生态作为支撑，扩散应该比对手要快。

　　他认为，豆包在商业拓展时主要还是和“剪映 ”集成，可以和抖音的内容审核AI结合。比如可以通过AI发现违规的短视频内容。盘和林还表示，AI视频交互的使用前景非常光明，比如生成虚拟人进行直播，又比如通过AI识别来迅速对视频文件进行归纳总结。

　　另一方面，AI眼镜这一类符合视频通话应用场景的新硬件逐渐升温，也给AI视频交互带来了更多可能性。

　　盘和林认为：“AI视频交互可以和AI眼镜有限结合，但现阶段AI眼镜的算力和显示等方面还存在技术缺陷。所以，期待未来有新的融合。”

（文章来源：每日经济新闻）

你可能想看：

股票融资比例:股票10倍杠杆怎么操作-我国L2级辅助驾驶渗透率超50% AI驱动汽车行业新竞赛

新手炒股怎么选股票:股票的股权登记日要如何操作-史上首次！特斯拉Model Y自己上路、自动交付！雷军：了不起！

虚拟币杠杆交易怎么操作:买股票在哪儿开户好-进军服务器、AI处理器龙芯发布新一代自主研发处理器

股票配资怎么操作的:哪个股票软件最好用-恒指年内累涨约20%估值仍处低位机构如何看待下半年行情？

手机上怎么开户买股票呢:股票交易平台app排行榜-最高41%！特朗普最新签令上调一连串关税！美国对全世界至少收10%关税

股票最好的短线操作技巧:公司股票是怎么分红的-周治平出任中国兵器工业集团有限公司董事长

买股票的流程怎么操作:股票配资保证金-多地最低工资上调 2000元成“起步价”

在手机上买股票怎么操作:个人怎么买股票怎么开户-金价高位震荡黄金股业绩大幅预增

恒正网配资提示：文章来自网络，不代表本站观点。

相关文章

欣龙控股(000955.SZ)：欧阳宇辞去公司副总裁职务

欣龙控股(000955.SZ)：欧阳宇辞去公司副总裁职务

AI订单爆发，胜宏科技“戴维斯双击”还能持续吗？

AI订单爆发，胜宏科技“戴维斯双击”还能持续吗？

日本30年期国债收益率升至2006年以来最高水平

日本30年期国债收益率升至2006年以来最高水平

沪深京指数

话题标签

股票配资股票配资炒股配资配资平台股票配资平台配资门户网配资网配资之家配资门户在线配资平台配资开户配资炒股全部话题标签

关注恒正网配资

{jz:field.toptypename/}

滚动资讯

可以看全球股票的app:开股票账户流程-A股重大调整！6月16日起生效！六大指数更换样本

官方炒股软件05-31

...

直击厦门银行业绩会：预计今年经营业绩先下降后回升，将加快对公一般贷款上量

官方炒股软件05-07

界面新闻记者|杨志锦界面新闻编辑|王姝“我行正在构建‘2+3’五年发展战略规划，兼顾短中长期。从短期看，...

IPO雷达｜沪鸽口腔转战港股：产品议价能力弱，递表前突击分红|界面新闻 · 证券

1比10配资03-07

记者|沈溦兜兜转转近十年，A股IPO未果后，国内口腔材料企业沪鸽口腔最终决定转战港交所。招股...

财经:前十的证券公司-淳厚现代服务业A(011349)近一年回报超过同期股票型基金收益均值，淳厚基金调研卧龙电驱

1比10配资04-09

淳厚现代服务业A（基金代码：011349）是淳厚基金旗下的一只股票型基金，成立于2021年8月24日。现任基金经理薛莉丽...

热点:道琼指数鑫东财配资-激发增长新动能，中国发展高层论坛热议增收、科创、资本市场

1比10配资03-24

记者闫桂花激发增长新动能，哪些领域需要进一步深化改革？在3月23日举行的中国发展高层论坛2025年年会...

配资:各种期货保证金-美元指数跌破99关口，黄金价格再创新高

股票投资管理04-23

随着投资者对美国资产信心下降，美元传统的避险属性正面临挑战，美元走软为黄金带来支撑。4月21日，美元指数跌破99...

推荐资讯

新亚电子(605277.SH)：公司拟祥龙科技6.61%股权，持股比例增至9.87%|界面新闻

新亚电子(605277.SH)：公司拟祥龙科技6.61%股权，持股比例增至9.87%|界面新闻

又见传言强力杀伤，上海机场、白云机场被逼跌停，分析师被逼紧急撇清

又见传言强力杀伤，上海机场、白云机场被逼跌停，分析师被逼紧急撇清

猪肉价格连降四周，接下来走势如何？

猪肉价格连降四周，接下来走势如何？