# AI大爆发：从语音生成到世界创造，10秒钟改变一切

挑感兴趣的看看就行

1. 10秒创造一个世界！吴佳俊团队新作实时交互式3D世界生成

[量子位] 斯坦福大学和麻省理工学院的研究团队推出了WonderWorld，一个能在10秒内生成交互式3D世界的AI系统。它比现有方法快近100倍，使用了名为"FLAGS"的新方法，通过三层高斯曲面来表示场景。这一突破性技术为游戏开发、虚拟现实等领域带来了无限可能。

2. 无需训练即可创建数字人，字节PersonaTalk视频口型编辑超SOTA

[机器之心] 字节跳动开发的PersonaTalk技术让视频口型编辑变得简单高效。无需训练，就能根据音频修改视频中人物的唇部动作。它采用双阶段框架，结合了定制训练和零样本方法的优势，在唇同步、视觉质量和个性化特征保留方面都超越了现有技术。

3. MaskGCT：零样本文本到语音模型支持跨语言配音、语音转换、情感控制等

[ChatGPT / AI新闻聚合] MaskGCT是一种创新的零样本文本到语音（TTS）转换模型。它不仅能生成自然、高相似度的语音，还支持跨语言配音、语音转换和情感控制等高级功能。更令人惊喜的是，它还能在现有语音内容的基础上进行局部编辑，为音频创作带来了前所未有的灵活性。

4. 事件相机+AI视频生成，港大CUBE框架入选ICIP

[量子位] 香港大学的CUBE框架为AI视频生成带来了新思路。它利用事件相机捕捉动态边缘信息，结合文本描述生成视频。无需大量训练数据，就能创造出更具创意且符合特定需求的视频。实验结果显示，CUBE在视频质量、文本匹配度和时间连贯性方面都优于现有方法。

5. 控制电脑手机的智能体人人都能造，微软开源OmniParser

[机器之心] 微软开源的OmniParser工具让每个人都能创建控制计算机的AI智能体。它是一个基于大语言模型的屏幕解析工具，能将UI截图转换为结构化元素。OmniParser在分析和理解UI方面表现出色，甚至超越了GPT-4V。这一工具为人机交互开辟了新天地，让AI控制计算机成为可能。

6. 谷歌年底将预览接管个人电脑的人工智能

[ChatGPT / AI新闻聚合] 谷歌计划于今年12月发布其下一代旗舰Gemini大型语言模型，展示一项代号为"Project Jarvis"的AI技术。这项技术旨在接管网络浏览器，通过截取屏幕截图、解析内容并自动执行操作，帮助用户自动化日常网页任务。这一举措可能彻底改变我们与计算机交互的方式。