AI日报：新王诞生！Runway重磅发布Gen-3Alpha；LumaAI发布E

TAG标签| 网站地图| 收藏本站

返回首页

AI日报：新王诞生！Runway重磅发布Gen-3Alpha；LumaAI发布E

最后编辑时间：2024-06-19 07:13:52 来源：未知作者：未知阅读量：未知

　　欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

　　这篇文章介绍了Runway最近推出的新一代视频生成模型Gen-3Alpha，该模型在保真度、一致性和动作表现方面有重大改进，为构建通用世界模型迈出了重要一步。Gen-3Alpha具备多项显着功能和特点，成为创意产业中的新星。

　　⭐️ Gen-3Alpha在保真度、一致性和动作表现方面有显着提升，能够生成表达丰富的、逼真的人类角色

　　Luma AI最近更新了Dream Machine视频模型，新增了Extend功能，可以将视频时长扩充到10秒以上，并保持原视频风格、人物对象一致。虽然Extend功能生成延长视频耗时较长，但风格一致性保持得很好。

　　✨ Dream Machine升级发布Extend功能，视频时长可达10秒以上，保持原视频风格与对象一致。

　　DeepSeek最近发布了开源模型DeepSeek-Coder-V2，该模型在代码和数学能力方面超越了GPT-4-Turbo，具有全球领先的性能。模型采用MoE架构，支持多语言和更长的上下文处理长度。用户可免费商用，无需申请。

　　Adobe即将推出一系列重磅AI升级，提升Acrobat的AI助手功能、图像生成能力，保证数据隐私保护。这次更新将极大提升办公效率，为处理大量文档和优化视觉内容带来便利。

　　苹果在Hugging Face平台发布了20个新的Core ML模型和4个数据集，展示了其在推动AI发展方面的重大进展。这次更新不仅包括着眼于文本和图像的令人振奋的新模型，还涵盖了广泛的应用，如图像分类、单目深度估计和语义分割。苹果强调了设备AI的重要性，通过在用户设备上运行优化的模型，提升了应用程序性能，同时保障用户数据安全和隐私。

　　🔒 苹果强调设备AI的重要性，优化的模型在用户设备上运行，提升应用程序性能并保障用户数据安全和隐私。

　　ElevenLabs是一家专注于音频生成技术的公司，最近宣布涉足视频生成领域，开源了一个项目可以自动为上传的视频配音，生成合适的音效。他们推出了新功能，用户可以通过输入文本生成各种逼真的音乐特效，为电影、游戏、短视频等行业带来巨大帮助。除音效生成外，还提供语音克隆和文本转语音等强大功能。

　　腾讯视频号近日宣布了对《视频号橱窗达人发布低质量内容实施细则》的修订，旨在加强内容质量监管，并拟禁止数字人直播带货。该修订于今年 6 月 7 日至 6 月 13 日公开征集意见。

　　Stability AI最新发布的重大模型SD3因许可问题引发争议，面临AI社区反对。CivitAI社区封禁与SD3相关内容，引发许可协议争议。公司推出面向消费者的创作者许可，限制开发者条件和图像生成数量。SD3存在无法生成特定人体姿势等问题，未来不确定。CEO离职裁员，公司需解释新许可协议影响。整个争议对AI社区和开源模型发展有潜在影响。

　　这篇文章介绍了YouTube频道创作者@Creative Mindstorms设计制造的Pixelbot3000乐高打印机，利用自定义代码和人工智能生成乐高马赛克。用户只需输入艺术作品名称，AI生成图像后Pixelbot3000自动组装马赛克。

　　🤖 利用自定义代码和人工智能，Pixelbot3000能够自动生成乐高马赛克，简化了打印过程。

　　🔧 Pixelbot3000通过分割AI生成的图像并采样每个方格中心像素的颜色，得到更好的马赛克图案。

　　这篇文章介绍了萨里大学和斯坦福大学研究团队开发的新方法，教会人工智能理解人类线描草图的重要性和成果。通过结合草图和文字描述，人工智能展现出接近人类水平的理解能力，对复杂场景中的对象进行准确识别和标记。这一研究为人机交互和设计工作流程带来了新的可能性。

　　人工智能（AI）在建筑设计领域带来革命性变革，但在伊斯兰建筑等文化敏感领域，AI生成的图像未能正确呈现历史元素。研究指出AI生成器存在历史知识不足，建议谨慎使用。作者认为AI可成为有价值工具，但需结合人类专业知识和文化敏感度。

　　11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

　　Gen-3Alpha是什么？Gen-3Alpha是Runway训练的一系列模型中的首个，它在新的基础设施上训练，专为大规模多模态训练建。AIbase拥有一个全面的国内外AI产品数据库，收录了超过7000个出色的人工智能网站和产品，覆盖了40多个不同的领域，如Ai绘画生成、Ai文案写作、Ai视频编辑、Ai智能营销等。

　　Gen-3Alpha简介Gen-3Alpha是一款专注于视频生成的产品，在新的基础设施上训练，专为大规模多模态训练建。它为创意专业人士、视频制作者和艺术家提供了一个能够将创意概念快速转化为视觉内容的工具。通过AIbase，您可以轻松发现最适合您需求的人工智能工具，解锁AI的力量。

　　探索Gen-3Alpha能为你带来哪些改变为什么选择Gen-3Alpha？Gen-3Alpha不仅仅是一款产品——它是一项革命性的技术，致力于在新的基础设施上进行大规模多模态训练，专为创意专业人士、视频制作者和艺术家打造。通过AIbase，您可以轻松发现最适合您需求的人工智能工具，解锁AI的力量。

　　在AI视频被一众新秀，比如Sora、Luma、可灵等等占据注意力的时候，已经有人忘了AI视频领域统治了N久的王者，他叫Runway。去年的11月份更新了一次Gen2模型模型，然后宣布他们要开始组团队开始进军世界模型之后。

　　欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：、LumaAI推重磅级文生视频模型DreamMachine炸裂程度堪比SoraLumaAI最新发布的文生视频模型DreamMachine免费开放使用，可生成高质量视频，具有与OpenAI的Sora相媲美的质量。公司推出2纳米�

　　6月13日，3D建模平台LumaAI推出了一款名为DreamMachine的新型文生视频模型，并向所有用户免费开放。DreamMachine不仅支持文本生成视频能利用图片作为引导来创造视频内容。DreamMachine的免费体验地址为:。

　　DeepSeek-Coder-V2是一个开源的Mixture-of-Experts代码语言模型，性能与GPT4-Turbo相当，在代码特定任务上表现卓越。它在DeepSeek-Coder-V2-Base的基础上，通过6万亿token的高质量多源语料库进一步预训练，显着增强了编码和数学推理能力，同时保持了在通用语言任务上的性能。AIbase拥有一个全面的国内外AI产品数据库，收录了超过7000个出色的人工智能网站和产品，覆盖了40多个不同的领域，如Ai绘画生成、Ai文案写作、Ai视频编辑、Ai智能营销等。

　　欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：、Luma官方发视频介绍DreamMachine模型特点我看了站长之家关于Luma官方发布的DreamMachine模型介绍视频，感觉这款AI视频生成工具非常强大。通过实验结果显示，Sketchpad显着提高了LM在�

　　知名的3D建模平台LumaAI推出了个相当惊艳的文生视频模型DreamMachine，不仅操作简单，其效果堪比Sora。只要输入关键词就能生成5秒高质量的视频，具有出色的动作连贯性和视觉效果。”这时候只要耐心等待结果即可，以下是测试图片生成的效果。

　　欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：、抖音：将打击使用AI技术P图侮辱他人等行为抖音发布公告表示严厉打击网络暴力行为，已处置162件网暴舆情，警示教育施暴者近70万个。豆包的AI大模型系列涵盖了多种功能模型�

　　Inbox Zero是一个致力于提高电子邮件管理效率的在线工具，通过AI技术帮助用户快速整理和清理邮箱，实现收件箱的零邮件状态。它通过智能识别和分类邮件，让用户能够快速删除垃圾邮件，保留重要邮件，从而提高工作效率。产品背景信息显示，用户已通过该工具删除超过800万封邮件，显示出其在电子邮件管理领域的广泛应用和高效性。

　　ElevenLabs Texts to Sounds Effects API是一个编程接口，允许开发者将文本转换为相应的声音效果，适用于视频编辑、游戏开发等多种场景。该API是开源的，可在GitHub上找到代码，便于开发者进行个性化定制和二次开发。

　　PlantIdentify是一款利用人工智能技术，通过用户上传的照片或使用手机相机拍摄来快速识别植物种类的应用程序。它适合园艺爱好者、自然爱好者以及对周围植物感兴趣的任何人。该应用主要优点包括即时植物识别、免费使用、多语言支持以及保存识别历史等功能。

　　VideoLLaMA2-7B-Base 是由 DAMO-NLP-SG 开发的大型视频语言模型，专注于视频内容的理解与生成。该模型在视觉问答和视频字幕生成方面展现出卓越的性能，通过先进的空间时间建模和音频理解能力，为用户提供了一种新的视频内容分析工具。它基于 Transformer 架构，能够处理多模态数据，结合文本和视觉信息，生成准确且富有洞察力的输出。

　　Drip是一款AI驱动的日记应用，致力于通过深度的自我反思和真实的交流来帮助用户找到清晰度，逐步支持他们的心理健康之旅。Drip提供个性化的提示和深入的内省，以支持用户的心理健康之旅，使心理健康对每个人都是可达和可实现的。

　　inncivio是一个利用人工智能技术，为企业提供个性化教育内容的平台，旨在增强团队成员的技能。平台通过AI创建基于公司知识库的个性化课程，同时融入游戏化元素，提高学习的乐趣和参与度，帮助企业解决团队培训难题，提升团队技能和业务绩效。

　　VideoLLaMA2-7B-16F-Base是由DAMO-NLP-SG团队开发的大型视频语言模型，专注于视频问答（Visual Question Answering）和视频字幕生成。该模型结合了先进的空间-时间建模和音频理解能力，为多模态视频内容分析提供了强大的支持。它在视觉问答和视频字幕生成任务上展现出卓越的性能，能够处理复杂的视频内容并生成准确的描述和答案。

　　HelpSteer2是由NVIDIA发布的一个开源数据集，旨在支持训练能够对齐模型以使其更加有帮助、事实正确和连贯，同时在响应的复杂性和冗余度方面具有可调节性。该数据集与Scale AI合作创建，当与Llama 3 70B基础模型一起使用时，在RewardBench上达到了88.8%的表现，是截至2024年6月12日最佳的奖励模型之一。

　　视频到音频(V2A)技术是DeepMind公司的一项创新，它结合了视频像素与自然语言文本提示，生成与屏幕上动作同步的丰富音景。这项技术可以与视频生成模型如Veo相结合，为视频生成戏剧性配乐、逼真的音效或与视频角色和基调相匹配的对话。它还能为传统素材生成音轨，包括档案材料、无声电影等，开拓了更广泛的创作机会。

　　Reddo 是一款 AI 搜索引擎，旨在帮助用户搜索全球团队，发现新机会，提供了快速连接和合作的平台。其主要优点包括智能搜索算法、全面的团队信息、便捷的合作方式等。

　　ElevenLabs的文本转音效API允许用户根据简短的文本描述生成高质量的音效，这些音效可以应用于游戏开发、音乐制作应用等多种场景。该API利用先进的音频合成技术，能够根据文本提示动态生成音效，为用户提供了一种创新的声音设计工具。

　　Nemotron-4-340B-Base是由NVIDIA开发的大型语言模型，拥有3400亿参数，支持4096个token的上下文长度，适用于生成合成数据，帮助研究人员和开发者构建自己的大型语言模型。模型经过9万亿token的预训练，涵盖50多种自然语言和40多种编程语言。NVIDIA开放模型许可允许商业使用和派生模型的创建与分发，不声明对使用模型或派生模型生成的任何输出拥有所有权。

　　MoA（Mixture of Agents）是一种新颖的方法，它利用多个大型语言模型（LLMs）的集体优势来提升性能，实现了最先进的结果。MoA采用分层架构，每层包含多个LLM代理，显着超越了GPT-4 Omni在AlpacaEval 2.0上的57.5%得分，达到了65.1%的得分，使用的是仅开源模型。

　　DeepSeek-Coder-V2是一个开源的Mixture-of-Experts (MoE) 代码语言模型，性能与GPT4-Turbo相当，在代码特定任务上表现卓越。它在DeepSeek-Coder-V2-Base的基础上，通过6万亿token的高质量多源语料库进一步预训练，显着增强了编码和数学推理能力，同时保持了在通用语言任务上的性能。支持的编程语言从86种扩展到338种，上下文长度从16K扩展到128K。

　　乌托邦是一个个性化角色创造平台，致力于打造新一代超拟人 AI 智能体。其主要优点包括更可控、拟人、安全。背景信息显示该产品注重用户参与创造，定位于提供高度个性化的角色模型。

　　Gen-3 Alpha 是 Runway 训练的一系列模型中的首个，它在新的基础设施上训练，专为大规模多模态训练而建。它在保真度、一致性和动作方面相较于 Gen-2 有重大改进，并朝着构建通用世界模型迈进了一步。该模型能够生成具有丰富动作、手势和情感的表达性人物角色，为叙事提供了新的机会。

　　React Flow是一个基于React的交互式流程图编辑器，它允许用户通过简洁的界面创建和编辑流程图。它支持节点和边的拖拽、选择、删除等操作，为用户提供了一种直观且灵活的方式来展示和处理流程。

　　Jovu是Amplication公司推出的AI驱动代码生成平台，旨在帮助开发者快速生成高质量的代码，提高开发效率。它通过AI技术理解用户需求，自动生成符合需求的代码，减少手动编码的时间和错误。

　　Nemotron-4-340B-Reward是由NVIDIA开发的多维奖励模型，用于合成数据生成管道，帮助研究人员和开发者构建自己的大型语言模型（LLMs）。该模型由Nemotron-4-340B-Base模型和一个线性层组成，能够将响应末尾的标记转换为五个标量值，对应于HelpSteer2属性。它支持最多4096个标记的上下文长度，并能够对每个助手轮次的五个属性进行评分。

　　Nemotron-4-340B-Instruct是由NVIDIA开发的大型语言模型(LLM)，专为英文单轮和多轮对线个token的上下文长度，经过监督式微调(SFT)、直接偏好优化(DPO)和奖励感知偏好优化(RPO)等额外的对齐步骤。模型在约20K人工标注数据的基础上，通过合成数据生成管道合成了超过98%的用于监督微调和偏好微调的数据。这使得模型在人类对话偏好、数学推理、编码和指令遵循方面表现良好，并且能够为多种用例生成高质量的合成数据。

(责任编辑：管理)

上一篇：国外媒体如何回顾疫情笼罩下的2020？｜读刊
下一篇：中国共产党党内监督条例（全文）

随机内容