全栈 AI 能力矩阵

魔霏科技AI 将能力分为「云端」与「本地」两大类：云端功能通过联网调用高质量 API，适合对画质与效果要求高的场景；本地功能在您电脑上运行，数据不出本机、可离线使用。以下按模块逐一说明功能说明、使用场景与注意事项。

☁️ 云端功能（需联网）

以下功能依赖云端 API，首次使用需保证网络畅通；部分服务可能产生算力或 API 消耗，具体以客户端内说明为准。任务提交后在「云端任务」中可查看进度与下载结果。

AI 聊天

适合做什么：在软件内与主流大模型对话，完成写文案、拆脚本、改话术、翻译摘要、排查报错思路、产品卖点头脑风暴等；适合作为直播/短视频创作前的「打字机」助手。

怎么用：在设置中配置兼容协议的 API 与模型后，打开「AI 聊天」新建会话即可多轮追问；上下文会随会话保留，可复制结果到「话术生成」「视频生成」等模块继续加工。

注意：计费与速率限制以您填写的服务商为准；不要提交他人隐私、未授权作品全文或违法内容。

视频生成（多模板）

在客户端「视频生成」中先选模板再填提示词与素材；切换火山方舟 Seedance与性价比线路（含 Vidu 等）时，可选模型列表会整体更换，请勿混用两线路的模型名。时长、比例多在 5/10/15 秒与 9:16、16:9、1:1 等组合。涉及参考视频/多路音视频上传、TOS 或高级参数的玩法请使用客户端。

文生视频（仅需文字）

文生视频-基础（结构化）

适合：宠物/人物小剧场、空镜氛围、概念广告等你希望「从零描述」的短片。

怎么写：按界面习惯拆成「主体、场景、运动、镜头、光影、风格」六段，可选加「声音」描述环境声或不要配乐；信息越具体，运动与镜头越可控。

注意：避免一次塞入互相矛盾的动作；人物若不要某类形象请在风格或约束里写明。

文生视频·侧移跟拍（浅景深）

适合：咖啡、美食、美妆、小物件等桌面级特写，需要「横移 + 虚化背景」的商业质感。

怎么写：在提示里固定「缓慢横移、浅景深、焦点落在主体」；补充台面材质、窗光/暖光与蒸汽、液体等细节。

注意：与通用结构化模板相比，本模板默认更偏「静物 + 微动」，大场面叙事可改用基础结构化。

文生视频-联网搜索

适合：需要引用近期公开信息的竖屏简报、资讯摘要类画面（如科技/财经要闻），减少凭空编造。

怎么用：提示词里写清检索主题、时间范围与条数；程序在支持联网的线路下会附加检索工具。生成内容仍应人工核对事实。

注意：必须当前线路与账号支持联网；不适合强隐私或内训材料。

文生视频·电商产品展示

适合：单品主图视频、详情页头图、投放素材，需要干净展台与稳定布光。

怎么写：写清品类与卖点（材质、Logo 区、转盘或慢推），强调「三点布光、色彩还原、少畸变」；需要无字画面可在提示中说明。

注意：复杂多 SKU 同框建议拆多条任务或改用多图模板。

图生视频与多图（以参考图为主）

图生视频-基础（1张图）

适合：已有定妆照、产品图或插画，希望「让图动起来」但保持光影一致。

素材：恰好 1 张参考图；文中「图片1」对应该图。

怎么写：说明希望的动作幅度（微动/行走/推近）、是否手持感、电影感或二次元风格；避免与参考图构图严重冲突的描述。

首尾帧-两图过渡（2张图）

适合：明确知道「第一帧长什么样、最后一帧长什么样」，中间过程交给模型补全。

素材：按列表顺序：图1 = 首帧，图2 = 尾帧；主体轮廓与色调宜接近，过渡更稳。

怎么写：可指定横移、推拉或渐变，强调「光影连续、比例一致」。

多图组合场景

适合：人物与场景分别设计好，希望合成到同一镜头（如角色走进你画的街景）。

素材：2 张图：通常图1 人物外观、图2 环境。

怎么写：描述人物在场景中的位置、走向与透视关系，必要时写明光照方向以便融合自然。

多图角色场景

适合：多角色同框、群像、短剧分镜，需要多张定妆或场景参考同时约束画面。

素材：1～9 张参考图，顺序要在正文用「图片1」「图片2」… 逐一点名职责（谁的脸、谁的服装、哪张是景）。

注意：AI 短剧在多角色镜次会走类似组包；张数越多越要写好每张分工，否则容易「粘脸」或主次不清。

智能多帧（关键帧链路）

适合：故事线已拆成多格关键画面，希望按时间顺序顺滑衔接（如分镜师已出 3～10 张关键帧）。

素材：2～10 张图，按播放顺序排列。图片越多，帧间差距越小越稳。

怎么写：描述整体叙事氛围，不需要为每一帧单独配文；可以指定「匀速播放」「头尾慢中间快」等时间曲线偏好。

数字人视频

适合：口播、知识科普、产品讲解、课程讲师特写、招聘宣传等需要「人脸 + 声音 + 文案」的统一视频。

素材：提供一张正面或半侧面人物照片，或从库中选数字人形象；右侧粘贴或上传文案（支持多段/分页）

怎么用：选形象/传照片→选配音音色和语速→贴文案→提交；生成后下载MP4。支持批量：一次传多段文案，分任务排队生成。

注意：照片建议正面、光线均匀、表情自然；复杂背景抠图效果可能下降。配音部分见下文「语音合成」。

图片生成（文生图 + 图生图）

适合：定妆图、场景概念、商品主图、封面图、分镜参考等。

怎么用：在「图片生成」输入正向/反向提示词，选模型、比例（1:1/9:16/16:9/4:3/3:4）与张数；支持上传参考图进行图生图（以图提款/风格约束/局部重绘/扩图等）。

注意：普通生图每次 4 张，可连续加单。图生图的参考图权重建议 0.4～0.8。

AI 换脸（云端）

适合：电商广告模特替换、影视二创、出海视频本地化、短剧角色换脸等。

怎么用：上传底图（视频或图片）→上传目标人脸照（正脸清晰，仅保留一张脸）→选择清晰度与合成强度→提交。图片换脸秒级，视频按帧数排队。

注意：目标人脸照需露全脸、无遮挡、光线均匀。侧脸换脸效果可能下降。

语音合成（TTS · 云端）

适合：配音、旁白、有声读物、广告旁白、数字人视频配音等。

怎么用：输入或粘贴文本→选择音色（按性别/年龄/风格/场景）→调节语速、音调与停顿→试听满意后提交生成。

注意：超长文本建议分段合成，便于后期局部替换；部分音色支持情感标签（[平静]、[开心]等）。

语音克隆（云端上传）

适合：需要固定某位特定人声的旁白系列（如短剧固定旁白、主播声音复刻）。

怎么用：准备 5～60 秒干净人声音频（无背景音乐），上传到客户端对应位置；系统提取声纹特征后，输入新文本即可用该音色合成。

注意：原音频越干净、发音越标准，克隆效果越好。克隆人声仅限本人或已获授权。

智能混剪（云端）

适合：短视频矩阵批量产出、素材二次利用、商品展示混剪等。

素材要求：建议准备 8 段以上原始视频素材（一般为 10～60 秒，可含截图），以及一张商品图或 Logo。

怎么用：按界面传入素材、选择或填写口播文本 / BGM（可选）、选择混剪模板与背景比例→提交后系统智能选取高光片段、自动加字幕/BGM/转场并多版本输出。

💻 本地功能（离线可用）

以下功能在您的电脑上运行（模型与处理均在本地），数据不出本机，无需网络。

AI 换脸（本地）

能力：图片换脸、视频换脸、摄像头实时换脸。支持单人/多人脸同时替换；实时换脸延迟控制在毫秒级。

怎么用：在「本地换脸」中导入素材与目标人脸，选择模式（图片/视频/实时），点击运行。实时模式可调节合成强度与人脸对齐参数。

建议显卡：RTX 3060 及以上；显存越大、帧率越高。

数字人（本地）

能力：数字人生成（照片→说话视频）、口型同步（音频驱动）、表情驱动（摄像头捕捉）、动作迁移（骨骼关键点）。

注意：数字人生成分辨率和生成速度受显卡显存影响；本地模型首次使用会自动下载（约 2~5 GB）。

语音克隆 / 语音合成（本地）

能力：本地语音克隆（上传音频→提取声纹）、语音合成（TTS）、声音转换（实时变声/离线转换）。

注意：本地语音克隆模型需下载，约 1~3 GB。

智能抠图

能力：一键去除背景，发丝级精度，支持人像、商品、动物等多种类别，可批量处理。

图片处理

能力：图片增强（超分辨率/去噪/修复）、风格转换（真人变动漫/油画等）、美颜修图、去水印、图片扩展。

视频处理

能力：视频增强（4K修复/补帧）、视频去水印、视频翻译（含配音）、视频倒放/变速、字幕生成。

🎭 AI 短剧完整流程说明

AI 短剧的多步链路目前在客户端内集中管理，推荐在 PC 上使用以获得完整体验，流程概览如下：

准备原文：准备小说章节或剧本（纯文本即可，字数不要超过模型上下文限制；过长的内容建议按章节或场次拆分）。
AI 拆分镜：在客户端「AI短剧」→「新建工程」中导入或粘贴原文，AI 自动提取角色、场景、道具，输出带镜号/动作/台词/提示词的结构化分镜表。支持手动微调。
资产准备：按分镜表中的角色与场景，用内置「图片生成」或上传参考图，建立角色定妆与场景资产。
逐镜视频生成：在分镜表中为每镜选择视频模型（Seedance / Vidu 等）、关联角色/场景参考图与提示词，逐镜或批量提交。
成片拼接：所有镜头生成完毕后，在时间轴中排列顺序、添加 BGM 与转场，导出为 9:16 竖屏 MP4。

更多细节与实操截图请参考客户端内的引导或使用教程。

⚠️ 通用注意事项

云端与本地功能均可免费使用；云端部分调用的第三方 API 服务可能按调用量计费，具体以客户端内显示为准。
数据安全：本地功能完全离线，数据不出本机；云端功能在传输与存储中采用加密处理，建议敏感素材优先使用本地能力。
显卡：NVIDIA 显卡 + CUDA 可获得最佳加速效果，推荐 RTX 3060 及以上、显存 6GB+。
硬盘：首次使用各功能时会按需下载对应的 AI 模型（全部下载约 50GB），建议预留充足空间。
模型版本：随着底层模型更新，各功能生成效果与参数可能微调，请以客户端实际界面为准。