提示词写作

AI 图像提示词拆解：一条高质量 Prompt 的五层结构

更新于 2026-06-19·8 分钟阅读

核心要点

一条强力的 AI 图像提示词不是一气呵成的长句，而是由多个明确层级构成的创作简报：主体描述、构图方式、光线设置、镜头参数、情绪基调、风格倾向和技术参数。每一层都能填补模型的"猜测空间"，让生成结果更贴近你的创意意图，且在多次生成中保持稳定。本文将逐层拆解每个模块，配合可直接复用的中文示范语句，并说明如何在 Floniks 的工作流编辑器 /editor 中将分层提示词固化为可复用模板。

AI 图像工作流编辑器 Studio

为什么分层结构比一句话描述更有效

多数效果差的提示词失败并非因为语言不够华丽，而是因为只描述了画面中的一个维度——通常只有主体——把其他所有细节交给模型随机决定。模型在随机填空时会给你不稳定的构图、莫名其妙的光线，以及每次生成都不同的美术风格。结构化写法彻底解决这个问题。当你将提示词拆解为明确层级时，相当于给模型提交了一份完整的创作简报，而不是一句模糊的指令。这就像委托一位摄影师拍照：你不会只说"拍一个女人"，而会指定场景、光源、镜头、情绪、服装。AI 模型对结构化信息的响应方式如出一辙。分层结构还让迭代变得极其轻松——你只需替换某一层（例如把"柔和黄金时刻光"换成"正午硬光"）而不必重写整条提示词，其他画面要素保持稳定。在 Floniks 中，结构化提示词尤为强大：你可以在 /editor 的工作流中将其保存为模板，在整个产品图册或内容系列中反复调用。

第一层——主体：不可妥协的核心

主体层回答的核心问题是：这张图讲的是谁或什么？对身份、姿态、表情、服装和道具要具体描述。模糊示例："咖啡厅里的女人"。强力示例："一位大约三十岁、留着自然卷短发的南亚裔女性，穿着宽松亚麻西装外套，坐在大理石咖啡桌旁，双手捧着一只陶瓷浓缩杯，目光微微向下，嘴角带着若有若无的私人微笑。"你补充的每个细节都是减少一处随机空白。对于商品图，直接命名具体物件："一只哑光黑色极简陶瓷马克杯，正面居中印有品牌 logo，手柄朝右。"对于需要多图保持一致的角色，可将主体描述作为固定节点输入存入 Floniks 工作流——这是角色一致性的基础。如果画面中有多个人物，给每位编号并分别描述，例如"主体一：……主体二：……"，避免模型将特征混合。

第二层——构图与取景

构图层告诉模型如何在画面中安排主体。如果不指定，你每次都会得到居中、保守、竖向人像的结果。实用的构图描述包括：景别（特写、中景、大全景）、拍摄角度（平视、低角度、俯瞰、倾斜镜头）以及构图法则（三分法、引导线、左侧留白）。完整的构图层示例："中景，相机略微低角度仰拍，主体位于画面右侧三分之一处，左侧留出大面积柔化背景的空间。"将景别与角度组合使用，视觉语汇的空间将大幅扩展——同一主体用低角度拍摄显得有力且英勇，换成高角度则显得脆弱渺小。/learn/cinematography 专栏深度讲解了景别与角度的用法，建议配合学习。核心原则：先确定构图，再描述光线，因为构图决定了光线在画面中如何落下。

第三层——光线：氛围的放大器

光线是改变图像情绪基调最显著的单一层级，而无需触碰主体本身。"柔和的窗口自然光"与"剧烈的伦勃朗单光源侧光"描述的可以是同一个咖啡厅里的同一个女人，但产出的图像会像来自截然不同的两种类型。光线描述至少需要指定：光源（窗光、阳光、LED 灯板、烛光、霓虹灯牌）、光质（柔和漫射或硬朗直射）、方向（正面光、侧光、逆光、轮廓光）和色温（暖金色、冷蓝白、中性）。具体示例："相机左侧放置一只大型柔光箱作为单侧主光，色温 4500K，柔和阴影落在脸部右侧，头发边缘有轻微轮廓光。"对于商品摄影，光线的重要性往往超过主体描述本身——"柔和均匀漫射光配渐变背景"与"刺眼顶光"拍出的同一个马克杯，质感差距天壤之别。本专栏的光线词汇专文提供了可直接复制到任何提示词的完整参考清单。

第四层——风格、媒介与视觉基调

风格层告诉模型从哪个视觉传统中汲取灵感。这里你需要指定：写实摄影、插画还是绘画感，并点名具体的美学流派或参考来源。示例："时尚大片摄影，中画幅胶片质感，Vogue 美学"；"电影数字静帧，饱和度偏低的大地色，A24 电影调色"；"平面矢量插画，柔和马卡龙色系，斯堪的纳维亚极简设计"。引用特定美术流派时尽量精确："印象派油画"比"艺术感"给模型的方向信息要强得多。你也可以指定相机和胶片型号来获得摄影质感："柯达 Portra 400 胶片，轻微颗粒感，阴影偏暖提亮"。在 Floniks /ai-video 生成 AI 视频时，等效的风格层是在描述动作之前先定义画面的视觉语言——电影感、纪录片风格还是动画风格。

第五层——技术参数与质量信号

技术参数传达期望的输出保真度和画面格式。常用信号包括：分辨率意图（"超高细节 8K"、"极致清晰"）、景深（"f/1.8 浅景深，主体锐利，背景奶油虚化"）、镜头特征（"85mm 人像定焦，轻微焦外压缩"）以及渲染质量（"超写实，照片级真实，光线追踪渲染"）。如果模型支持文字宽高比提示，也可以在正文中指定比例，但 Floniks 的生成面板本身有专门的宽高比控件，优先级更高。商品图可加："无水印，背景干净，棚拍品质，商业级"来明确输出定位。艺术图可加："可见笔触纹理，博物馆收藏级"来引导精细艺术渲染。技术参数放在提示词末尾，这样它们是在精炼而非覆盖核心的主体和构图描述。

整合演示：一条实战级提示词的组装过程

以下是五层结构如何合并成一条可直接投产的提示词：

主体层："三十岁日本女性，直发黑色，身着结构感米白色西装，佩戴极简金色首饰，手持一小束白色芍药，表情中性，直视镜头"

构图层："中等半身人像，平视，居中构图，头顶留有适当空间，背景干净"

光线层："正面美颜碟柔光主光，相机右侧补充暖色辅光，5000K 中性日光色温，双眼高光可见，无明显硬阴影"

风格层："高端时尚大片摄影，哈苏中画幅质感，简洁现代美学"

技术层："f/2.8 浅景深，眼部精准对焦，背景柔化，商业棚拍品质"

合并后完整提示词：三十岁日本女性，直发黑色，身着结构感米白色西装，佩戴极简金色首饰，手持一小束白色芍药，表情中性，直视镜头。中等半身人像，平视，居中构图。正面美颜碟柔光，相机右侧暖色辅光，5000K 日光色温，双眼高光可见。高端时尚大片，哈苏中画幅质感。f/2.8 浅景深，商业棚拍品质。

整条提示词约 90 个词——信息量充足又不失连贯。将其保存为 Floniks 工作流模板，只替换主体描述，即可批量生成整套产品图册。

分步教程

1
首先写好主体层
描述画面中的人物或物品，涵盖身份特征、姿态、表情、服装和道具，详细程度等同于给摄影师写的创作简报。
2
添加构图与取景信息
选择景别（特写、中景、全景）、拍摄角度，以及主体在画面中的位置安排（三分法、居中、留白方向）。
3
指定光线设置
点名光源、光质（柔和/硬朗）、方向（正面/侧面/逆光/轮廓光）和色温。这一层对图像情绪基调的改变效果超过其他任何层级。
4
确定视觉风格与媒介
引用具体的摄影或艺术传统：胶片型号、美术流派、相机品牌，或某种类型的视觉美学。
5
以技术参数收尾
在提示词末尾加入景深、镜头类型、分辨率意图和质量信号，让它们起到精炼作用而非覆盖核心描述层。

常见问题

AI 图像提示词应该写多长？+

长度以覆盖每一层各一次为准，通常在 200 到 500 个汉字之间（英文 60–120 词）。太短会给模型留下太多随机发挥的空间；太长则可能导致模型丢失前面的细节。如果场景极度复杂，可以将其拆解为 Floniks 多节点工作流，让每个节点各司其职处理一个元素。

每条提示词都需要用到所有层级吗？+

不需要——从主体、构图和光线三层开始即可，这三层能消除最多的随机变量。风格和技术参数是锦上添花的精炼层，等核心画面看起来对了再加。

层级的顺序重要吗？+

大体上重要。把最关键的信息放在最前面（先主体，再构图），因为模型对靠前的词元赋予更高权重。技术质量信号最适合放在末尾，作为最终修饰指令，而不是与核心描述竞争注意力。

在 Floniks 上动手做

图像、视频、数字人与可复用工作流，都在同一画布。注册即送起步积分，无需绑卡。

开始使用 Floniks

为什么分层结构比一句话描述更有效

第一层——主体：不可妥协的核心

第二层——构图与取景

第三层——光线：氛围的放大器

第四层——风格、媒介与视觉基调

第五层——技术参数与质量信号

整合演示：一条实战级提示词的组装过程

分步教程

首先写好主体层

添加构图与取景信息

指定光线设置

确定视觉风格与媒介

以技术参数收尾

常见问题

相关指南

在 Floniks 上动手做