为什么突然要讲这个?
因为最近一直在关注整个AI大市场的不同领域和机会,也看了和聊了一些非常有意思的机会: 如AI+传统(医疗/金融/)、AI + 手办玩具,AI Reddit,GEO优化等。
加上群里有很多 Buider 嘛,就给大家分享一下,给大家一些灵感。我其实觉得最有趣的是AI + 玩具手办这个赛道,但这个赛道不太适合大家伙玩,其次就是 GEO 赛道了。
正好 GEO 赛道其实在我看来还算是一个没有那么红的AI赛道,在这个阶段进入能获得一些不错的市场份额。
首先从宏观市场上来讲:整个市场的大小是完全取决于大模型厂商的规模。GEO 的市场天花板,取决于一个更上游的问题:每天有多少“答案”是由大模型生成的? GPT的用户规模是数亿级月活(MAU)。
而每日潜在 GEO 决策次数 ≈ 生成式搜索 / 问答的日调用次数,举个例子,生成式问答调用:10 亿次 / 天,每次回答平均引用 / 依赖,3–10 个“候选信息块”,那么每天有几十亿次「内容是否被采纳」的隐式决策在发生。
但其实不能这么算,主要还是要聊依赖人群和场景,KA(大客户)、SMB(小企业)、创作者。
* KA(大客户 / Key Accounts) :其实买的是“不能在 AI 答案里缺席”的确定性和风控,不是买流量,主要还是做品牌宣传。预算大、决策慢,但一旦签了粘性强、续费概率高。
* SMB(中小企业) :买的是“长尾场景被推荐/被提到”的机会,偏工具化、按月订阅。量大但更价格敏感,所以得把交付做成自动化产品。
* 创作者(Creators) :买的是“被引用/被当作来源”的声量和信用,更多是轻量工具或低价订阅。人群大、传播强,但 ARPU 低,适合做生态入口。
那么其实现在在我来看,这个大生态位下面,是有很多缺位的,随便举一些例子:
* GEO 可见性检测工具:自动测试一个站点/品牌在不同模型、不同问题下是否被提及、如何被引用。
* 模型引用监控与告警:类似 Search Console,但对象是 LLM 回答中的来源与推荐结果。
* GEO 内容结构分析器:分析页面结构、信息密度、表述方式,判断“被模型采纳的概率”。
* 长尾问题/Prompt 场景挖掘器:自动生成模型真实会遇到的决策型问题。
* 跨模型对比系统:同一问题在 GPT / Claude / Gemini 中的回答差异与引用偏好。
* GEO A/B 测试框架:内容不同版本,哪一版更容易被模型选中。
* 行业知识基准集(Benchmark) :为某个垂直领域构建“模型参考答案源”。
* GEO 自动化建议引擎:把监控结果转成可执行的内容/结构修改建议。
一些小东西开发也不需要多久,可能1、2天就能做一个。
引言
我很早就关注 GEO(Generative Engine Optimization)(不理解这个概念的同学GPT一下)。
最早的触发点来自 Cloudflare 的文档:他们在 Workers AI 相关说明中引入了 llms.txt、prompt.txt 之类的文件,看起来像是“给模型看的sitemap”。 但在当时调研了一下之后,很快就能发现一个问题:主流模型厂商(OpenAI、Google 等)并不按这些协议走。 于是很长一段时间里我的认知是这样的:模型选择答案主要来自在搜索引擎中的高排名,GEO可能是有用的,但是用处不大,主要还是需要依赖网页本身的SEO。
再加上因为这是一件很难验证、归因的事情,所以当时就放弃进一步的研究了。但在这几天因为一些机缘,对于GEO的理解又进了一步。
而新认知是:GEO 存在一个独立于传统 SEO 的、可工程化干预的空间,能使得内容在生成式引擎里被“使用”的概率上升。
注意关键词:使用(used) ,不是看到(seen)。
一、为什么大家会觉得 GEO 没用
因为绝大多数人的脑内模型是这样的:
排名高 → 更容易被检索 → 进入上下文 → 参与回答 → 被引用
这条链路在形式上是完全自洽的。
尤其是在启用实时搜索(Web Search / Bing / Google grounding)的产品中, “排名高 → 更容易进上下文”这件事确实成立。
于是自然会得到一个看似合理的结论:
GEO 不就是 SEO 的附属物吗? 入口都进不去,谈什么生成阶段?
这段推理的问题,其实是把局部成立的条件性命题,当成无条件的普遍规律。
二、推理成立的条件
上述推理之所以看起来成立,是因为它隐含了一组很强的前提:
* 用户问题是热门大词
* 候选内容规模巨大(上万甚至更多)
* 检索阶段必须强依赖“权威排序”来完成降维
换句话说,这套逻辑描述的,其实是搜索引擎时代的典型问题分布。
但问题在于:大模型问答中的问题分布,已经明显偏离了这一假设。
三、用户提问的分布变化
如果回顾真实的大模型使用场景,我们会发现大量问题更接近下面几类:
* 具体场景决策题
> 我现在是 A 情况,有 B 选择,长期看值不值?
* 边界条件排错题
> 为什么 X 在 Y 条件下会坏?是不是 Z 的问题?
* 增量价值评估题
> 我已经有 Y 了,再做 Z 是否存在重复建设?
这些问题有一些共同特征:具体、小、压缩。而一旦问题被具体化,候选内容的数量会迅速塌缩。
四、候选集合规模与排序信号变化
当候选内容从「成千上万」塌缩到「几十甚至个位数」时, 排序机制的主导信号会发生质变:
* 权威不再是决定性优势
* 域名权重不再是核心变量
* 历史排名不再是必要条件
此时模型真正关心的问题变成了:
哪一段内容,能直接覆盖当前问题的结构?
也就是说:
* 是否显式命中用户的约束条件
* 是否使用了相同或高度相似的问题语言
* 是否在答案形态上可以被直接复用
在这一阶段,语言本身开始决定胜负,不是“谁更大”,而是“谁更像答案”。
五、作用阶段与优化目标差异
这也是为什么 GEO 并不等价于 SEO 的附属物。
两者解决的是不同阶段的问题:
* SEO 解决的是:
> 如何在大规模候选中被检索系统选中
* GEO 解决的是:
> 如何在候选中被模型采样、拼接和引用、提高可见率
当候选集合高度稀疏时,后者的重要性会迅速超过前者。
从这个角度看:
* SEO 提升的是 进入候选池的概率
* GEO 提升的是 被生成系统实际使用的概率
两者并非替代关系,而是作用在不同层级。
六、信息来源的多通道性
另一个问题是:Web Search 并不是模型获取材料的唯一入口。
很多人默认的想象模型是:
模型 → 搜索 → 网页 → 回答
但在真实系统中,材料可能来自多条路径:
* 实时 Web Search
* 训练语料中的长尾记忆
* 高频问题的抽象总结
* 工具调用返回的结构化结果
* 用户上下文中隐含提供的约束条件
这意味着:
“没被搜索到”并不等价于“完全没有机会参与生成”。
尤其是在长尾、专业、结构化问题中,语言是否具备可复用性,往往比是否排名靠前更关键。
七、内容的条件概率
而一旦内容进入上下文,模型面对的不是:
* 站点权重
* URL 权威
* 排名信号
模型面对的是:
一段 token 序列,作为
P(next_token | context)的条件。
换句话说:生成阶段没有“引用网页”的动作,只有“沿着某条概率路径往下走”的动作。
这句话非常重要,因为它直接决定了 GEO 的“干预对象”是什么:
* 不是站点
* 不是链接
* 不是权威
* 而是 语言片段在当前生成路径上是否“省力 / 稳定 / 低风险”
八、生成式引擎如何“挑材料”?
我们可以把生成想成一件很朴素的事:
模型每一步都在问:我接下来怎么说,最不容易错?
这里的“不容易错”指的是概率意义上的稳定:
* 这个延续是否能和前文保持一致?
* 这个概念边界是否清晰,不会引出歧义?
* 这个表述是否可复用,不需要重新组织?
* 这个论证是否“闭合”,不会逼模型补大量未知细节?
GEO = 提高某些表达在生成路径中被选中的概率。
九、GEO 的可干预点
所以我们能做什么?
A. 概念边界的可切分性
模型最怕的是模糊概念,因为模糊概念会让后续路径爆炸。
我们要做的是:
* 先定义对象(这段话讨论的是什么、不是什麼)
* 再给边界(在哪些条件成立、哪些条件不成立)
* 最后给最小决策规则(一个可复述的判断)
其实这就是降低条件熵。
B. 结构化的“最短闭环解释”
模型偏好能快速闭合的结构:
* 现象 → 原因 → 验证方式 → 修复策略
* 条件 → 结论 → 例外 → 反例
为什么?因为这类结构能让模型输出时少做“补完”,风险更低。
C. 在分叉点提供“可直接抄走的决策句”
所谓引用率,很多时候不是模型在“尊重来源”,而是模型在:
找一句它可以直接拿来当结论的话。
我们提供的应该是那种:
* 可以直接作为答案的一句话
* 不需要额外解释就能成立
* 并且不太容易被反驳
D. 覆盖“不确定区间”,而不是覆盖“常识区”
最容易被“模型吞掉不引用”的内容,是常识。
真正能让模型依赖我们的是:
* 模型容易含糊其辞的灰区
* 常见但没被写清楚的 trade-off
* 看似简单但容易踩坑的边界条件
因此我们要写模型不知道怎么稳妥表达的那部分。
总结
这次之所以系统性地讲 GEO,并不是因为它是一个“新名词”,而是因为在生成式引擎成为主要答案入口之后,内容被使用的机制已经发生了结构性变化。
从市场层面看,GEO 的价值不在于调用次数有多大,而在于有多少人群在真实决策中依赖大模型: KA 关注的是“不能在 AI 答案里缺席”的品牌与风控,SMB 追求的是长尾场景中的被推荐机会,创作者则希望在生成式引擎中获得持续的引用与声量。这三类人群,决定了 GEO 是一个长期存在、且可分层收费的市场。
从生态层面看,对比成熟的 SEO 工具体系,GEO 仍处在明显的早期阶段: 无论是可见性检测、引用监控、内容结构分析,还是跨模型对比与 A/B 测试,都存在大量可以被开发者直接填补的空位,而且很多工具形态1–2 天就能做出原型。
而从技术本质看,GEO 并不是在和 SEO 抢同一个问题。 SEO 解决的是“如何进入候选池”, GEO 解决的是“进入候选池之后,如何在生成阶段被真正使用”。
当用户问题高度具体、候选集合迅速塌缩时,模型不再依赖域名权威或历史排名,而是更偏好那些语言结构稳定、边界清晰、可以直接复用的表达。 在生成阶段,模型面对的只有 token 的条件概率,而不是网页或链接本身。
因此,GEO 的可干预点也非常明确: 不是“写得像 SEO”,而是在模型最不确定、最容易出错的区间,提供低风险、可闭合、可复述的答案结构。
GEO 不是让我们被看到,而是让我们在生成路径中,成为模型更愿意走的那一条路。
这也是为什么我认为,在当前阶段,GEO 是一个仍然存在大量工程机会、且非常适合 Builder 进入的赛道。