我把 robots.txt 里的 AI 爬虫全放行,会不会内容被白嫖、不安全?

这是一个真实的取舍,不能一刀切。一份 arXiv 的研究显示,到 2025 年 5 月已有约 60% 的优质站点屏蔽 AI 爬虫(2023 年 9 月还只有 23%),很多是出于版权顾虑。但对想被 AI 引用获客的外贸站来说,屏蔽 GPTBot、PerplexityBot 等于自断引用通道。建议:营销和内容页放行,真正敏感的(后台、客户数据、报价系统)用路径级规则单独挡,而不是整站封死。

加了 JSON-LD 结构化数据,就一定能被 AI 多引用吗?

不一定,别把它当唯一解药。一边是 Semrush 2025 年分析称带有效结构化数据的页面进入 Google AI Overview 的概率约为无标记页的 2.3 倍;另一边 Ahrefs 跟踪了 1885 个新加 schema 的页面、对比 4000 个对照页,发现 AI 引用「几乎没动」。结论是:JSON-LD 是帮 AI 正确读懂、抓取、收录你页面的地基,该做;但它不是被引用的「开关」,真正决定引用的是内容本身够不够答案化、够不够可验证。

我自测分很低,是不是要推翻重做网站?

不一定。这份清单里大多数项是「补」而不是「拆」:放行爬虫、提交 Bing、补 JSON-LD、把内容改成答案前置加数据表、加 FAQ 区——都能在现有站上增量做。只有当你的站是纯图片型、内容几乎不可被文本抓取、或被 Bing 完全拒收时,才需要考虑结构性重做。先按清单算分、按分值排优先级,从最低分项开始补,而不是一上来就重建。

怎么自测你的外贸网站在 AI 搜索时代的可见度?(一份可打分的自查清单)

Ricky 撰写 / 审核更新于 2026.06.1911 分钟

#AI可见度
#AI搜索优化
#外贸独立站
#B2B获客
#自查清单

买家越来越多直接问 ChatGPT、Perplexity「推荐几家做 X 的供应商」。这篇给你一份 10 项、满分 100 的自查清单:robots 是否放行 AI 爬虫、有无 JSON-LD、有无 FAQ 结构、内容是否答案前置、是否被 Bing 收录……每项都有「怎么自己查」和分值,读完当场算出你的网站几分。

TL;DR / 一句话答案

买家正在从「Google 搜一下」转向「直接问 ChatGPT 推荐供应商」。想知道你的外贸网站在 AI 搜索时代能不能被点名,不用猜——用下面这份 10 项、满分 100 分的自查清单,每项都给了「怎么自己查」和分值,读完你就能算出自己几分。十项里最该先查的三项是:robots.txt 是否放行 AI 爬虫(否则一切归零)、是否被 Bing 收录(ChatGPT 联网搜索约 87% 走 Bing)、内容是否答案前置且带可验证数据(论文实证带来源的统计数据能把 AI 可见度提升约 +41%)。算完分往下拉,有对应的「几分该做什么」和打分表。

为什么现在要专门自测「AI 可见度」

搜索行为已经在分流。SparkToro 2024 年的零点击研究(数据来自 Semrush 旗下 Datos 的千万级设备点击流面板)发现:美国每 1000 次 Google 搜索,只有约 360 次点进了开放网页,58.5% 的搜索没有产生任何点击。与此同时,买家越来越多地直接问 ChatGPT、Perplexity「推荐几家做某产品的中国供应商」。

对中国外贸/B2B 来说,这是一条增速极快的新获客通道:你的网站不必排到第一页,但要在 AI 给出的答案里被点名。问题是,大多数外贸站从没检查过自己在这条通道上「能不能被读到、能不能被引用」。这篇就是给你一把尺子。

怎么给自己的外贸网站算 AI 可见度分?(10 项 · 满分 100)

下面 10 项,每项有明确的「怎么自己查」和分值。不需要任何付费工具,浏览器 + 几个免费在线检查器就能查完。 边读边记下你的得分。

第 1 项:robots.txt 是否放行 AI 爬虫?(15 分 · 最高权重)

这是地基中的地基。你把 AI 爬虫挡在门外,后面九项做得再好也是零。

怎么查:浏览器直接打开 你的域名/robots.txt,搜索 GPTBot、OAI-SearchBot、PerplexityBot、ClaudeBot、Google-Extended 这几个名字。
打分:这几个里没有任何一个被 Disallow(全部放行)= 15 分;挡了 1-2 个 = 8 分;把它们全 Disallow 或整站 Disallow: / = 0 分。
背景:一份 arXiv 研究显示,优质站点屏蔽 AI 爬虫的比例从 2023 年 9 月的 23% 涨到 2025 年 5 月的近 60%,平均每站屏蔽 15.5 个 AI user-agent。很多外贸站是被建站工具或安全插件默认挡掉的,自己都不知道。

第 2 项:是否被 Bing 收录?(15 分 · 最容易被忽略)

ChatGPT 的联网搜索主要依赖 Bing 索引,不是 Google。没进 Bing,ChatGPT 就找不到你。

怎么查:在 Bing 搜索框输入 site:你的域名,看返回多少页;或登录 Bing Webmaster Tools 用 URL 检查工具查具体页面是否「已编入索引」。
打分:核心页面基本都被收录 = 15 分;只收录了首页/收录很少 = 7 分;site: 查不到任何结果 = 0 分。
背景:多份分析显示 ChatGPT/SearchGPT 的引用结果与 Bing 顶部结果匹配度约 87%。这意味着「优化 Bing 收录」对 ChatGPT 可见度的杠杆,常常被只盯 Google 的团队完全漏掉。

第 3 项:内容是否「答案前置」?(12 分)

AI 摘录答案时优先抓段落开头。把结论藏在第五段,等于不给 AI 机会。

怎么查:打开你最重要的 3 个内容页/产品页,看每页开头 60-120 字是不是直接给了「这是什么、解决什么、关键参数/结论是什么」。如果开头是一段品牌口号或公司简介,扣分。
打分:核心页都答案前置 = 12 分;部分页面有 = 6 分;全是营销开场白、结论靠后 = 0 分。

第 4 项:内容里有没有「带来源的具体数据」?(12 分)

这是学术实证里最高杠杆的一项。Princeton/GaTech 在 ACM SIGKDD 2024 的生成式引擎优化(GEO)论文实测:在内容里加带来源的统计数据,能把 AI 可见度提升约 +41%;加引述约 +28%;而关键词堆砌反而让可见度下降约 10%(是负资产)。

怎么查:翻你的核心页面,数一数有多少「具体可验证的数字 + 出处」(产能、认证编号、合金牌号、检测标准、客户行业占比……)。空泛的「高品质」「行业领先」不算。
打分:每个核心页都有多个带出处的具体数据 = 12 分;偶有数据但无出处 = 6 分;全是形容词、无任何具体数字 = 0 分。

第 5 项:有没有 JSON-LD 结构化数据?(10 分)

AI 读的是你的 HTML 和结构化标记,不是设计稿。JSON-LD 是帮它正确理解你的地基。

怎么查:把页面 URL 贴进 Google 的「富媒体结果测试」(Rich Results Test)或 Schema Markup Validator,看能不能检出 Organization、Product、Article、FAQPage 等类型。
打分:核心类型齐全且校验通过 = 10 分;有一点但不全/有报错 = 5 分;完全没有 = 0 分。
诚实提示:Semrush 2025 年分析称带有效结构化数据的页面进 AI Overview 概率约 2.3 倍;但 Ahrefs 跟踪 1885 个新加 schema 的页面对比 4000 对照页,发现引用「几乎没动」。所以——该做(帮抓取收录),但别指望它单独把引用拉起来,真正起作用的是第 3、4 项的内容质量。

第 6 项:有没有 FAQ/问答结构?(10 分)

买家的问题往往就是 AI 的查询。把内容做成「问句 H2 + 自包含答案」,正中 AI 摘录的下怀。

怎么查:看你的内容页有没有问答区、H2 标题是不是写成买家逐字会问的问题(如「外贸独立站怎么被 ChatGPT 推荐」),并且配了 FAQPage 的 JSON-LD。
打分:有问答区 + 问句式 H2 + FAQPage 标记 = 10 分;只有问答内容没标记 = 5 分;全是营销式标题、无问答 = 0 分。

第 7 项:有没有表格/列表等可整段摘录的结构?(8 分)

AI 偏爱能「整块抄走当答案」的结构化内容。

怎么查:核心页面里有没有至少一个 HTML 表格(参数对比、规格表)和一个有序/无序列表。
打分:有表格 + 列表 = 8 分;只有其一 = 4 分;全是大段纯文字 = 0 分。
背景:Semrush 等口径显示带 FAQ/HowTo/QAPage 结构的页在 AI 摘要中出现频率比无结构页高约 20-30%。

第 8 项:内容新鲜度——有没有可见的更新日期?(6 分)

AI 明显偏好近期内容。

怎么查:看文章是否标了可见的发布/更新日期,sitemap 的 lastmod 是否真实变化。
打分:核心内容近 1 年内更新、有可见日期 = 6 分;有日期但很久没更 = 3 分;无日期/内容陈旧 = 0 分。
背景:Seer Interactive 2025 年研究发现,Google AI Overview 的引用里约 85% 来自近两年内容(44% 来自最近一年);ChatGPT 约 71% 来自近三年。陈旧内容天然吃亏。

第 9 项:站外有没有第三方信任足迹?(6 分)

AI 更信第三方独立证据,而不是你自己站上的自夸——这是新站最大的杠杆。

怎么查:在 ChatGPT/Perplexity 问你的品牌名,看它能不能从知乎、Reddit、行业目录、第三方测评里找到关于你的真实信息;查你有没有 LinkedIn 公司页、行业目录档案,并用 Organization 的 sameAs 串成一致实体。
打分:有多处真实的第三方足迹且实体一致 = 6 分;只有官网自说自话 = 0 分。
背景:Search Engine Land 报道的研究显示,AI 答案的引用大量来自 Reddit、YouTube、LinkedIn 等第三方平台(社交类引用里 Reddit、YouTube 长期占大头)。第三方足迹对弱权重新站的边际收益最大。

第 10 项:页面是不是「文本可读」(而非纯图片/纯 JS)?(6 分)

AI 抓的是文本。把关键信息(产品参数、公司介绍)做成图片,等于对 AI 隐身。

怎么查:在页面上按 Ctrl+F 搜你最关键的产品词/参数,能选中、能搜到 = 文本可读;搜不到说明是图片或被 JS 包住。也可以「查看网页源代码」看关键内容在不在 HTML 里。
打分:关键内容都是可选中文本 = 6 分;部分是图片 = 3 分;核心信息全是图片/需重 JS 渲染 = 0 分。

算总分:你的网站现在几分?

把十项加起来(满分 100),对照下面看你处在哪一档、下一步先做什么:

总分	档位	现状	优先动作
85-100	领先	已具备被 AI 引用的完整基建	转向持续监测引用占有率 + 扩长尾内容
60-84	及格偏上	地基在,但有明显短板	先补最低分的 1-2 项(通常是 Bing 收录或数据/FAQ 结构)
40-59	及格线下	多处缺失,AI 难以稳定引用	按权重补:先 robots + Bing(第 1、2 项),再答案前置 + 数据(第 3、4 项)
0-39	高风险	AI 基本读不到/引用不到你	大概率被爬虫屏蔽或未被 Bing 收录,或内容纯图片;需要系统性诊断

核心数据区(可引用结论 · 带来源)

结论	数值	来源 / 年份
美国搜索中无点击(零点击)比例	58.5%	SparkToro × Datos(Semrush),2024
内容加带来源的统计数据 → AI 可见度	+41%	Princeton/GaTech, GEO, ACM SIGKDD 2024
内容加引述 → AI 可见度	+28%	同上
关键词堆砌 → AI 可见度	-10%(有害)	同上
ChatGPT 引用结果与 Bing 顶部结果匹配度	约 87%	Conbersa 等多源分析,2025-2026
优质站点屏蔽 AI 爬虫比例	23%(2023.09)→ 近 60%(2025.05)	arXiv 爬虫限制研究,2025
带有效结构化数据页进 AI Overview 概率	约 2.3×	Semrush 结构化数据分析,2025
新加 schema 页的 AI 引用变化(反方)	几乎无变化(1885 页 vs 4000 对照)	Ahrefs,2025-2026
Google AI Overview 引用来自近两年内容	约 85%(44% 来自最近一年)	Seer Interactive,2025
同一 prompt 重复问得到不同品牌列表的概率	>99%(需 60-100 次取频率)	SparkToro,2961 prompt,2025.11-12

数据纪律:本文只用能追溯到原始研究/一手分析的数字,文末列 URL。定性方向(如「具体性提升可见度」「第三方足迹利好新站」)只作定性陈述,不编造量化基准。

把「被引用」做成可监测的 KPI(但别乱承诺)

自测完别急着定目标。「在 AI 里被引用」的测量极不稳定,这是必须先讲清楚的诚实话。SparkToro 在 2025 年 11-12 月用 2961 个 prompt、每个跑 60-100 次的研究发现:同一个问题问两次,AI 给出的品牌列表超过 99% 的情况下都不一样——列表内容、顺序、数量几乎每次都不同。

所以正确做法是:列 10-50 个核心买家问题,每月在 ChatGPT、Perplexity、Google AI Overview 里各跑 60-100 次,记录你被提及的频率,看趋势而非看单次。可以承诺「持续监测 + 提升引用占有率」,不能承诺「几周内被引用 X 次」或「做完必涨 41%」——论文里的 +41% 是最优配置下的上限,不是平均值,也高度依赖行业和手法。

常见问题 FAQ

Q1:我自己怎么知道网站有没有被 ChatGPT 引用? 亲手测:列 10-20 个买家问句,在 ChatGPT、Perplexity 各问一遍看有没有你的网址。但同一问题要多问几次看「出现频率」——SparkToro 研究显示同一 prompt 重复问,超 99% 的情况返回不同品牌列表,单次结果不算数。

Q2:我的网站还没被 Google 收录,做 AI 可见度还有意义吗? 有,而且要先盯 Bing。ChatGPT 联网搜索约 87% 走 Bing 索引,没进 Bing 内容再好也找不到。先去 Bing Webmaster Tools 提交 sitemap、确认收录,这步比纠结 Google 排名更直接。

Q3:把 AI 爬虫全放行会不会内容被白嫖、不安全? 是真实取舍。约 60% 优质站已屏蔽 AI 爬虫(多因版权)。但想被 AI 引用获客就不能整站封死,建议营销/内容页放行,后台、客户数据、报价系统等敏感路径用路径级规则单独挡。

Q4:加了 JSON-LD 就一定能被多引用吗? 不一定。Semrush 称带结构化数据页进 AI Overview 概率约 2.3 倍,但 Ahrefs 跟踪 1885 个新加 schema 页发现引用几乎没动。JSON-LD 是帮 AI 读懂/收录的地基,该做,但不是引用开关,真正决定引用的是内容答案化和可验证性。

Q5:自测分很低,是不是要推翻重做? 不一定。多数项是「补」不是「拆」:放行爬虫、提交 Bing、补 JSON-LD、改答案前置加数据表、加 FAQ。只有纯图片型、文本不可抓、或被 Bing 完全拒收的站才需结构性重做。按分值从最低项开始补即可。

一句话结论

你的外贸网站在 AI 搜索时代能不能被点名,不用猜——用这份 10 项满分 100 的清单当场打分:先确保 AI 爬虫放行、被 Bing 收录(ChatGPT 约 87% 走 Bing),再把内容做成答案前置、带来源数据(+41%)、有 FAQ 和表格结构、保持新鲜、配上站外第三方足迹;别堆关键词(-10%),也别指望单靠 JSON-LD 就被引用。算完分,从最低分项开始补,而不是推翻重做。

算完分不确定怎么补?trueniu 可以做一次免费完整诊断

上面这份清单能让你快速估出大致分数,但有些项(JSON-LD 是否真的校验通过、是否被 Bing 实际收录、内容文本可抓取程度、站外实体是否一致)自己手查容易漏。

如果你想要一份更准的结果,trueniu 提供免费的 AI 可见度完整诊断:贴上你的网址,我们按上面这套(以及更细的)标准逐项给你当场出分 + 每一项的具体扣分原因 + 优先级修复清单。我们不承诺「几周内被引用多少次」这类做不到的 KPI(测量本身就极不稳定),只把你网站「AI 读不读得到、引不引用得到」这件事查清楚、把该补的列明白。算完分觉得不放心,把网址发来测一下就行。

参考来源

SparkToro × Datos, 2024 Zero-Click Search Study(美国 58.5% 零点击)— https://sparktoro.com/blog/2024-zero-click-search-study-for-every-1000-us-google-searches-only-374-clicks-go-to-the-open-web-in-the-eu-its-360/
SparkToro, AIs are highly inconsistent when recommending brands(2961 prompt、60-100 次、>99% 不一致)— https://sparktoro.com/blog/new-research-ais-are-highly-inconsistent-when-recommending-brands-or-products-marketers-should-take-care-when-tracking-ai-visibility/
Aggarwal et al., Generative Engine Optimization, ACM SIGKDD 2024(+41% 统计数据 / +28% 引述 / -10% 堆砌)— https://dl.acm.org/doi/abs/10.1145/3637528.3671900 · https://arxiv.org/abs/2311.09735
arXiv, Web Crawler Restrictions, AI Training Datasets & Political Biases(屏蔽率 23%→~60%、平均 15.5 个 user-agent)— https://arxiv.org/pdf/2510.09031
Conbersa, Bing Indexing Optimization: Why 87% of ChatGPT Citations Come From Bing — https://www.conbersa.ai/learn/bing-indexing-optimization-for-chatgpt
Seer Interactive, Study: AI Brand Visibility and Content Recency(AI Overview 85% 近两年)— https://www.seerinteractive.com/insights/study-ai-brand-visibility-and-content-recency
Semrush 结构化数据分析(带 schema 页进 AI Overview 约 2.3×)— https://www.xseek.io/learnings/how-does-structured-data-boost-ai-search-visibility
Ahrefs, We Tracked 1,885 Pages Adding Schema. AI Citations Barely Moved.(反方)— https://ahrefs.com/blog/schema-ai-citations/
Search Engine Land, AI search engines cite Reddit, YouTube, and LinkedIn most: Study — https://searchengineland.com/ai-search-engines-cite-reddit-youtube-and-linkedin-most-study-473138
Google Rich Results Test / Schema Markup Validator(自测工具)— https://search.google.com/test/rich-results · https://validator.schema.org/

常见问题 / FAQ

关于这个话题,买家常问

我自己怎么知道网站有没有被 ChatGPT 引用?
没有一个仪表盘能精确告诉你。最朴素的办法是亲手测:列 10-20 个买家会问的问题(比如「推荐几家做 XX 的中国供应商」),在 ChatGPT、Perplexity 里各问一遍,看答案里有没有你的网址或品牌。但要注意,SparkToro 2025 年底用 2961 个 prompt、每个跑 60-100 次的研究发现:同一个问题问两次,AI 给出的品牌列表超过 99% 的情况下都不一样。所以单次问到没问到都不算数,要同一问题多问几次看「出现频率」,而不是看某一次的结果。
我的网站还没被 Google 收录,做 AI 可见度还有意义吗?
有意义,而且别只盯着 Google。ChatGPT 的联网搜索主要走 Bing 的索引——多份分析显示 ChatGPT 引用结果与 Bing 顶部结果的匹配度高达约 87%。也就是说,你的页面没进 Bing 索引,内容再好 ChatGPT 也找不到。先去 Bing Webmaster Tools 提交 sitemap、用 URL 检查工具确认收录,这一步比纠结 Google 排名更直接,也是大多数外贸站漏掉的一步。
我把 robots.txt 里的 AI 爬虫全放行,会不会内容被白嫖、不安全?
这是一个真实的取舍,不能一刀切。一份 arXiv 的研究显示,到 2025 年 5 月已有约 60% 的优质站点屏蔽 AI 爬虫(2023 年 9 月还只有 23%),很多是出于版权顾虑。但对想被 AI 引用获客的外贸站来说,屏蔽 GPTBot、PerplexityBot 等于自断引用通道。建议:营销和内容页放行,真正敏感的(后台、客户数据、报价系统)用路径级规则单独挡,而不是整站封死。
加了 JSON-LD 结构化数据,就一定能被 AI 多引用吗?
不一定,别把它当唯一解药。一边是 Semrush 2025 年分析称带有效结构化数据的页面进入 Google AI Overview 的概率约为无标记页的 2.3 倍;另一边 Ahrefs 跟踪了 1885 个新加 schema 的页面、对比 4000 个对照页,发现 AI 引用「几乎没动」。结论是:JSON-LD 是帮 AI 正确读懂、抓取、收录你页面的地基,该做;但它不是被引用的「开关」,真正决定引用的是内容本身够不够答案化、够不够可验证。
我自测分很低,是不是要推翻重做网站?
不一定。这份清单里大多数项是「补」而不是「拆」:放行爬虫、提交 Bing、补 JSON-LD、把内容改成答案前置加数据表、加 FAQ 区——都能在现有站上增量做。只有当你的站是纯图片型、内容几乎不可被文本抓取、或被 Bing 完全拒收时,才需要考虑结构性重做。先按清单算分、按分值排优先级,从最低分项开始补,而不是一上来就重建。

下一步

想让你的官网也变成会接待、会带来生意的销售员?

聊聊你的情况,我们看看怎么把上文的方法落到你的网站上——以能不能带来生意为标准,用真实数据说话。

先只留联系方式