當你的瀏覽器成為代理

Bitget

資訊中心

當你的瀏覽器成為代理

Chaincatcher2025/08/19 13:25

作者:IOSG Ventures

就像人類用戶一樣。這種模式承諾將釋放巨大的生產力和經濟價值，因為它能自動化那些目前仍需要人工操作，或傳統腳本過於複雜而無法完成的任務。

作者：Mario Chow \& Figo @IOSG

Pare One

引言過去 12 個月，網頁瀏覽器與自動化的關係發生了劇烈變化。幾乎所有大型科技公司都在爭相構建自主的瀏覽器代理（browser agent）。從 2024 年底開始這一趨勢愈發明顯：OpenAI 在 1 月推出了 Agent 模式，Anthropic 為 Claude 模型發布了"電腦使用"功能，Google DeepMind 推出了 Project Mariner ，Opera 宣布了代理型瀏覽器Neon ，而 Perplexity AI 則推出了 Comet 瀏覽器 。信號十分明確：AI 的未來在於能夠自主導航網頁的代理。

這一趨勢並不僅僅是給瀏覽器加上更聰明的聊天機器人，而是機器與數字環境交互方式的根本轉變。瀏覽器代理 是一類能夠"看"網頁並採取行動的 AI 系統：點擊鏈接、填寫表單、滾動頁面、輸入文字：就像人類用戶一樣。這種模式承諾將釋放巨大的生產力和經濟價值，因為它能自動化那些目前仍需要人工操作，或傳統腳本過於複雜而無法完成的任務。 ▲ GIF 演示：AI 瀏覽器代理的實際操作：遵循指令，導航到目標數據集頁面，自動截圖並提取所需數據。

Part Two

誰將贏得 AI 瀏覽器之戰？ 幾乎所有大型科技公司（以及一些初創公司）都在開發各自的瀏覽器 AI 代理方案。以下是最具代表性的幾個項目： OpenAI -- Agent 模式 OpenAI 的 Agent 模式（前身名為 Operator，2025 年 1 月推出）是一種自帶瀏覽器的 AI 代理。Operator 能夠處理各種重複性的在線任務：例如填寫網頁表單、訂購雜貨、安排會議：全部通過人類常用的標準網頁界面完成。 ▲ AI 代理像專業助理一樣安排會議：檢查日曆、尋找可用時間段、創建活動、發送確認，並為你生成 .ics 文件。 Anthropic -- Claude 的"Computer Use"： 2024 年底，Anthropic 為 Claude 3.5 引入了全新的 "Computer Use（電腦使用）" 功能，賦予了其像人一樣操作電腦和瀏覽器的能力。Claude 可以看屏幕、移動光標、點擊按鈕、輸入文字 。這是首個同類的大模型代理工具進入公開測試版，開發者可以讓 Claude 自動導航網站和應用程序。Anthropic 將其定位為一種實驗性功能，主要目標是實現網頁上的多步驟工作流自動化。 Perplexity -- Comet AI 初創公司 Perplexity（以問答引擎聞名）在 2025 年中期推出了 Comet 瀏覽器，作為 Chrome 的 AI 驅動替代品。Comet 的核心是內置在地址欄（omnibox）中的對話式 AI 搜索引擎，能夠提供即時問答和摘要，而不是傳統的搜索鏈接。

此外，Comet 還內置 Comet Assistant ，這是一個駐留在側邊欄的代理，可以跨網站自動執行日常任務。例如，它可以總結你打開的郵件、安排會議、管理瀏覽器標籤頁，或代表你瀏覽並抓取網頁信息。

通過側邊欄接口讓代理能夠感知當前網頁內容，Comet 旨在將瀏覽與 AI 助手無縫融合。

Pare Three

瀏覽器代理的真實應用場景 在前文中，我們已經回顧了各大科技公司（OpenAI、Anthropic、Perplexity 等）如何通過不同的產品形態為瀏覽器代理（browser agents）注入功能。為了更直觀地理解它們的價值，我們可以進一步看看在真實場景中，這些能力如何被應用到日常生活和企業工作流程中。 日常網頁自動化 # 電商與個人購物 一個非常實用的場景是將購物與預訂任務委託給代理。代理可以根據固定清單自動填充你的線上購物車並下單，也可以在多個零售商之間尋找最低價，並代你完成結帳流程。對於旅行，你可以讓 AI 執行這樣的任務："幫我預訂下個月去東京的航班（票價低於 800 美元），再訂一家有免費 Wi-Fi 的酒店。"代理會處理整個流程：搜索航班、比較選項、填寫乘客信息、完成酒店預訂，全部通過航空公司與酒店網站完成。這種自動化水平遠遠超越了現有的旅遊機器人：它不僅僅是推薦，而是直接執行購買。 # 提升辦公效率 代理能夠自動化許多人們在瀏覽器中進行的重複性業務操作。例如，整理電子郵件並提取待辦事項，或在多個日曆中檢查空檔並自動安排會議。Perplexity 的 Comet 助手已經可以通過網頁界面總結你的收件箱內容，或為你添加日程。代理還可以在獲得你的授權後，登錄 SaaS 工具生成常規報告、更新電子表格，或提交表單。想像一個 HR 代理，能夠自動登錄不同的招聘網站發布職位；或一個銷售代理，可以更新 CRM 系統的潛在客戶數據。這些日常瑣碎工作本來會耗費大量員工時間，但 AI 可以通過自動化網頁表單和頁面操作完成。除了單一任務，代理還能串聯起跨多個網絡系統的完整工作流。所有這些步驟都需要在不同的網頁界面中操作，而這正是 browser agent 的強項。代理可以登錄各種儀表盤進行故障排查，甚至編排流程，例如為新員工完成入職操作（在多個 SaaS 網站上創建帳號）。本質上，任何目前需要點開多個網站完成的多步驟操作，都可以交由代理執行。

Part Four

當前的挑戰與局限 儘管潛力巨大，但今天的瀏覽器代理距離完美仍有很大差距。當前的實現揭示出了一些長期存在的技術和基礎設施難題： 架構不匹配 現代網絡是為人類操作的瀏覽器而設計的，並且隨著時間的推移逐漸演變為主動抵禦自動化。數據常常埋藏在為視覺展示優化的 HTML/CSS 中，被交互手勢（鼠標懸停、滑動）所限制，或者只能通過未公開的 API 訪問。

在此基礎上，反爬蟲與反欺詐系統又人為增加了額外屏障。這些工具結合了 IP 信譽、瀏覽器指紋、JavaScript 挑戰反饋以及行為分析（例如鼠標移動的隨機性、打字節奏、停留時間）。矛盾的是，AI 代理表現得越"完美"、效率越高：比如瞬間填表、從不出錯，就越容易被識別為惡意自動化。這可能導致硬性失敗：例如 OpenAI 或 Google 的代理可能順利完成結帳前的所有步驟，但最終卻被 CAPTCHA 或二次安全過濾攔下。人類優化的界面與對機器人不友好的防禦層疊加在一起，迫使代理採取脆弱的"人機模仿"策略。這種方法極易失效，成功率低（如果沒有人工干預，完整交易的完成率仍不足三分之一）。 信任與安全顧慮 要讓代理獲得完全控制，通常需要訪問敏感信息：登錄憑證、Cookies、雙因素認證令牌，甚至支付信息。這帶來了用戶與企業都能理解的擔憂：

如果代理出錯或被惡意網站欺騙怎麼辦？
如果代理同意了某個服務條款或執行了某筆交易，誰該負責？

基於這些風險，目前的系統普遍採取謹慎態度：

Google 的 Mariner 不會輸入信用卡信息或同意服務條款，而是交還給用戶。
OpenAI 的 Operator 會提示用戶接管登錄或 CAPTCHA 挑戰。

Anthropic 的 Claude 驅動的代理可能直接拒絕登錄，理由是安全考慮。

結果是：AI 與人類之間頻繁的停頓與交接，削弱了無縫自動化的體驗。

儘管存在這些障礙，進展仍在快速推進。OpenAI、Google、Anthropic 等公司在每一輪迭代中都吸取失敗經驗。隨著需求的增長，很可能會出現一種"共同演化"：網站在有利的場景下變得更友好於代理，而代理也會不斷提升對人類行為的模仿能力，以繞過現有屏障。

Part Five

方法與機遇 當前的瀏覽器代理正面臨兩種截然不同的現實：一方面是Web2 的敵對環境 ，反爬蟲與安全防禦無處不在；另一方面是 Web3 的開放環境，自動化反而常常受到鼓勵。這種差異決定了各類解決方案的方向。

下面的解決方案大致分為兩類：一類幫助代理繞過 Web2 的敵對環境，另一類則是原生於 Web3 的方案。

雖然瀏覽器代理面臨的挑戰依舊顯著，但新的項目正不斷湧現，試圖直接解決這些問題。加密貨幣與去中心化金融（DeFi）生態正在成為天然的試驗場，因為它開放、可編程、且對自動化不那麼敵視 。開放的 API、智能合約與鏈上透明性，消除了許多 Web2 世界常見的摩擦點。

以下是四類解決方案，每一類都在應對當前的一項或多項核心局限： 面向鏈上操作的原生代理型瀏覽器 這些瀏覽器從零開始就是為自主代理驅動而設計的，並且與區塊鏈協議深度集成。與傳統的 Chrome 瀏覽器不同，後者若要進行鏈上操作自動化需要額外依賴 Selenium、Playwright 或錢包插件；而原生代理型瀏覽器則直接給予API 和可信的執行路徑，供代理調用。

在去中心化金融中，交易的有效性依賴的是加密簽名，而不是用戶是否"像人類"。因此在鏈上環境中，代理可以繞過 Web2 世界常見的 CAPTCHA、欺詐檢測分數和設備指紋檢查。然而，如果這些瀏覽器指向像 Amazon 這樣的 Web2 網站，它們並不能繞過相關的防禦機制，在那種場景下依然會觸發正常的反機器人措施。

代理型瀏覽器的價值並不是能神奇地訪問所有網站 ，而在於：

原生區塊鏈集成 ：內置錢包與簽名支持，無需再通過 MetaMask 彈窗或解析 dApp 前端的 DOM。
自動化優先設計 ：提供穩定的高層指令，能直接映射為協議操作。
安全模型 ：精細化的權限控制與沙箱，確保私鑰在自動化過程中安全。
性能優化 ：能夠並行執行多個鏈上調用，而無需瀏覽器渲染或 UI 延遲。

# 案例：Donut Donut 將區塊鏈數據與操作作為一等公民進行集成。用戶（或其代理）可以懸停查看代幣的實時風險指標，或直接輸入自然語言指令如 "/swap 100 USDC to SOL"。通過跳過 Web2 的敵對摩擦點，Donut 讓代理能在 DeFi 中全速運行，提升流動性、套利與市場效率。 可驗證與可信的代理執行 讓代理獲得敏感權限風險很大。相關解決方案使用可信執行環境（TEEs） 或零知識證明（ZKPs） 來在執行前加密確認代理的預期行為，使用戶與對手方在不暴露私鑰或憑證的前提下驗證代理動作。 # 案例：Phala Network Phala 使用 TEEs（如 Intel SGX）來隔離與保護執行環境，從而避免 Phala 營運方或攻擊者窺探或篡改代理邏輯與數據。TEE 就像一個硬件加持的"安全密室"， 保證了保密性（外部無法看到）與完整性（外部無法修改）。

對於瀏覽器代理，這意味著它可以登錄、持有會話令牌，或處理支付信息，而這些敏感數據永遠不會離開安全密室。 即便使用者機器、操作系統或網絡被攻破，也無法泄露。這直接緩解了代理應用落地的最大障礙之一：對敏感憑證與操作的信任問題。 去中心化的結構化數據網絡 現代的反機器人檢測系統不僅檢查請求是否"過快"或"自動化"，還會結合 IP 信譽、瀏覽器指紋、JavaScript 挑戰反饋與行為分析 （例如光標移動、打字節奏、會話歷史）。那些來自數據中心 IP 或完全可重複的瀏覽環境的代理很容易被識別。

為了解決這一問題，這類網絡不再抓取為人類優化的網頁，而是直接收集並提供機器可讀的數據 ，或者通過真實的人類瀏覽環境代理流量。這種方式繞過了傳統爬蟲在解析與反爬環節的脆弱性，能為代理提供更乾淨、更可靠的輸入。

通過將代理流量代理到這些真實世界的會話，分佈式網絡（distribution network）讓 AI 代理可以像人一樣訪問網頁內容，而不會立即觸發封鎖。 # 案例

Grass ：去中心化數據/DePIN 網絡，用戶共享閒置的住宅寬帶，從而為公共網頁數據收集與模型訓練提供代理友好、地理多樣化的訪問渠道。
WootzApp ：支持加密貨幣支付的開源移動瀏覽器，帶有後台代理與零知識身份；它將 AI/數據任務"遊戲化"推向消費者。
Sixpence ：分佈式瀏覽器網絡，通過全球貢獻者的瀏覽，為 AI 代理路由流量。

不過這並非完整解決方案。行為檢測（鼠標/滾動軌跡）、帳戶層級的限制（KYC、帳號年齡）以及指紋一致性檢查依然可能觸發封鎖。因此，分佈式網絡最好被視作基礎的隱匿層 ，必須與模仿人類的執行策略結合才能發揮最大效果。 面向代理的網頁標準（前瞻） 目前，越來越多的技術社區和組織正在探索：如果未來網絡用戶不僅是人，還有自動化代理（agent），網站該如何安全、合規地與它們打交道？

這推動了一些新興標準和機制的討論，目標是讓網站能夠明確表示「我允許可信代理訪問」，並且提供一個安全的通道來完成交互，而不是像今天這樣默認把代理當作"機器人攻擊"來攔截。

"Agent Allowed" 標籤 ：就像搜索引擎遵守的 robots.txt 一樣，未來網頁可能會在代碼中加一個標籤，告訴瀏覽器代理"這裡可以安全訪問"。比如說，如果你用代理訂機票，網站就不會彈出一堆驗證碼（CAPTCHA），而是直接提供一個認證後的接口。
認證代理的 API 網關 ：網站可以為經過驗證的代理開放專門的入口，就像"快速通道"。代理不需要模擬人類點擊、輸入，而是走一條更穩定的 API 路徑完成下單、支付或數據查詢。
W3C 的討論 ：萬維網聯盟（W3C）已經在研究如何為"受管自動化"制定標準化通道。這意味著，未來我們可能會有一套全球通用的規則，讓可信代理能被網站識別和接納，同時保持安全和可追責。

雖然這些探索都還在早期，但一旦落地，就可能極大改善人類↔代理↔網站之間的關係。想像一下：不再需要代理拼命模仿人類鼠標移動來"騙過"風控，而是光明正大地通過一個"官方允許"的通道完成任務。

在這條路線上，加密原生的基礎設施可能會率先起步 。因為鏈上應用天生就依賴開放 API 和智能合約，對自動化是友好的。相比之下，傳統 Web2 平台可能還會繼續謹慎防守，尤其是依賴廣告或反欺詐體系的公司。但隨著用戶和企業逐漸接受自動化帶來的效率提升，這些標準化嘗試很可能會成為推動整個互聯網邁向"代理優先架構"的關鍵催化劑。

Part Six

結論瀏覽器代理正在從最初的簡單對話工具，演化為能夠完成複雜線上工作流程的自主系統。這一轉變反映了一個更廣泛的趨勢：將自動化直接嵌入用戶與互聯網交互的核心界面中。雖然生產力提升的潛力巨大，但挑戰同樣嚴峻，包括如何突破根深蒂固的反機器人機制，以及如何確保安全性、信任與負責任的使用方式。

在短期內，代理的推理能力提升、速度更快、與現有服務的更緊密集成，以及分佈式網絡的進步，可能會逐步提高可靠性。從長期來看，我們或許會在那些自動化對服務提供方與用戶雙方都有利的場景中，看到"代理友好"標準的逐步落地。不過，這一轉變將不會是均勻的：在如 DeFi 這樣的自動化友好環境中，採用速度會更快；而在嚴重依賴用戶交互控制的 Web2 平台，接受程度會更慢。

未來，科技公司的競爭將越來越集中在以下幾個方面：其代理在現實世界限制下的導航能力如何、能否安全地集成到關鍵工作流程中，以及能否在多樣化的線上環境中穩定交付結果。至於這一切是否最終會重塑"瀏覽器之戰"，取決的並非單純的技術實力，而是能否建立信任、對齊激勵，並在日常使用中展現出切實的價值。

免責聲明：文章中的所有內容僅代表作者的觀點，與本平台無關。用戶不應以本文作為投資決策的參考。

PoolX：鎖倉獲得新代幣空投

不要錯過熱門新幣，且APR 高達 10%+

立即參與

您也可能喜歡

【首發上架】Bitget 將上架 Theoriq（THQ），參與並瓜分 3,016,600 THQ！

Bitget Announcement•2025/12/16 14:30

新手領取 100 USDT 槓桿禮包，交易可得 1,088 USDT！

Bitget Announcement•2025/12/16 02:00

ETH 理財雙重獎勵，VIP 專屬福利！最高 10.0% APR + 交易解鎖 50,000 USDT 獎池

Bitget Announcement•2025/12/15 07:00

Bitget現貨杠桿關於暫停 SANTOS/USDT, MYRO/USDT, DUSK/USDT, PHB/USDT, ALPINE/USDT 杠桿交易服務的公告

Bitget Announcement•2025/12/15 02:29

當你的瀏覽器成為代理

Pare One

Part Two

Pare Three

Part Four

Part Five

Part Six

您也可能喜歡

熱門新聞

加密貨幣價格