关注AI工具和资讯,跟踪大模型和AI产品发展。
🪐温馨提示:不是所有的都要看 ,挑感兴趣用得上的看,每个人的口味和需求不一样。
大模型动态
Meta发布Llama 3.2多模态AI模型
Meta AI发布Llama 3.2多模态AI模型,性能与GPT-4o-mini相当。包括90B和11B视觉大语言模型,以及3B和1B轻量文本模型,支持同时处理文本、图像和视频。11B视觉模型仅需22GB显存,可在4090显卡上运行。
OpenAI CTO Mira Murati宣布离职
OpenAI高层持续动荡,CTO Mira Murati宣布离职。Murati在OpenAI工作6年半,领导开发了ChatGPT、DALL-E等项目。此前,OpenAI总裁Greg Brockman和首席科学家Ilya Sutskever也相继离职。
Gemini-1.5更新:性能提升,价格减半
Google更新Gemini-1.5 AI模型,Pro版本价格减半,Flash和Pro版本速度和输出率翻倍。在数学、长文本上下文、视觉和代码处理性能方面均有改进。用户可在AI Studio平台直接使用Gemini-1.5模型。
https://aistudio.google.com/app/
AI产品
ChatGPT开放高级语音功能
OpenAI为Plus和Team用户推出ChatGPT高级语音功能,支持自定义指令、记忆功能、5种新语音以及改进的口音。用户可以指定ChatGPT的说话风格,使交互更自然engaging。
https://help.openai.com/en/articles/8400625-voice-mode-faq
字节跳动发布豆包视频生成模型
字节跳动发布两款视频生成模型:PixelDance和Seaweed,基于DiT架构,面向企业用户。目前不对公众开放,感兴趣的用户可通过字节跳动”机梦AI”微信公众号申请内测。
阿里发布MIMO:AI视频人物替换与动画生成
阿里发布MIMO,一款AI视频人物替换和动画生成工具。可替换视频中的人物并保持原有动作,实现与背景的无缝集成。目前尚未开源,但演示视频显示在二次元角色替换方面效果不错。
https://menyifang.github.io/projects/MIMO/index.html
多邻国推出AI视频通话功能
多邻国推出AI视频通话功能,应该是使用ChatGPT 4o的原生多模态模型。这种模型非常适合教育场景,有望提升语言学习体验。
https://www.youtube.com/watch?v=IdOO5G1vEYw
技术重点研究
Molmo:超越GPT-4的多模态视觉模型
Allen人工智能研究所(AI2)开发的Molmo多模态AI模型在学术基准测试中超越GPT-4、Gemini 1.5 Pro和Claude 3.5 Sonnet。基于Qwen2和OpenAI的CLIP训练,支持语音交互和图片理解。模型权重已开源。
https://huggingface.co/spaces/akhaliq/Molmo-7B-D-0924
how2draw:生成绘图过程的LoRA模型
how2draw是一个有趣的LoRA模型,可根据文字提示生成绘图过程视频,而不仅仅是最终结果。这一功能特别适合小红书等注重视觉内容的平台,可用于创作教程和演示视频。
https://glif.app/@Ampp/glifs/cm0zpqvq2000lqe5lyjkw4qe5
Meta发布Orion AR眼镜
Meta发布Orion AR眼镜,集成了能感知周围环境的AI功能。眼镜内置情境人工智能,可”感知和理解”佩戴者周围的世界,”预测并主动满足”佩戴者需求。Meta的目标是用这款眼镜替代智能手机。
https://x.com/imxiaohu/status/1839097451325829322
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...