當你的瀏覽器成為代理
就像人類用戶一樣。這種模式承諾將釋放巨大的生產力和經濟價值,因為它能自動化那些目前仍需要人工操作,或傳統腳本過於複雜而無法完成的任務。
作者:Mario Chow \& Figo @IOSG
Pare One
引言 過去 12 個月,網頁瀏覽器與自動化的關係發生了劇烈變化。幾乎所有大型科技公司都在爭相構建自主的瀏覽器代理(browser agent)。從 2024 年底開始這一趨勢愈發明顯:OpenAI 在 1 月推出了 Agent 模式,Anthropic 為 Claude 模型發布了"電腦使用"功能,Google DeepMind 推出了 Project Mariner ,Opera 宣布了代理型瀏覽器Neon ,而 Perplexity AI 則推出了 Comet 瀏覽器 。信號十分明確:AI 的未來在於能夠自主導航網頁的代理。
這一趨勢並不僅僅是給瀏覽器加上更聰明的聊天機器人,而是機器與數字環境交互方式的根本轉變。瀏覽器代理 是一類能夠"看"網頁並採取行動的 AI 系統:點擊鏈接、填寫表單、滾動頁面、輸入文字:就像人類用戶一樣。這種模式承諾將釋放巨大的生產力和經濟價值,因為它能自動化那些目前仍需要人工操作,或傳統腳本過於複雜而無法完成的任務。 ▲ GIF 演示:AI 瀏覽器代理的實際操作:遵循指令,導航到目標數據集頁面,自動截圖並提取所需數據。
Part Two
誰將贏得 AI 瀏覽器之戰? 幾乎所有大型科技公司(以及一些初創公司)都在開發各自的瀏覽器 AI 代理方案。以下是最具代表性的幾個項目: OpenAI -- Agent 模式 OpenAI 的 Agent 模式(前身名為 Operator,2025 年 1 月推出)是一種自帶瀏覽器的 AI 代理。Operator 能夠處理各種重複性的在線任務:例如填寫網頁表單、訂購雜貨、安排會議:全部通過人類常用的標準網頁界面完成。 ▲ AI 代理像專業助理一樣安排會議:檢查日曆、尋找可用時間段、創建活動、發送確認,並為你生成 .ics 文件。 Anthropic -- Claude 的"Computer Use": 2024 年底,Anthropic 為 Claude 3.5 引入了全新的 "Computer Use(電腦使用)" 功能,賦予了其像人一樣操作電腦和瀏覽器的能力。Claude 可以看屏幕、移動光標、點擊按鈕、輸入文字 。這是首個同類的大模型代理工具進入公開測試版,開發者可以讓 Claude 自動導航網站和應用程序。Anthropic 將其定位為一種實驗性功能,主要目標是實現網頁上的多步驟工作流自動化。
Perplexity -- Comet AI 初創公司 Perplexity(以問答引擎聞名)在 2025 年中期推出了 Comet 瀏覽器,作為 Chrome 的 AI 驅動替代品。Comet 的核心是內置在地址欄(omnibox)中的對話式 AI 搜索引擎,能夠提供即時問答和摘要,而不是傳統的搜索鏈接。
- 此外,Comet 還內置 Comet Assistant ,這是一個駐留在側邊欄的代理,可以跨網站自動執行日常任務。例如,它可以總結你打開的郵件、安排會議、管理瀏覽器標籤頁,或代表你瀏覽並抓取網頁信息。
- 通過側邊欄接口讓代理能夠感知當前網頁內容,Comet 旨在將瀏覽與 AI 助手無縫融合。
Pare Three
瀏覽器代理的真實應用場景 在前文中,我們已經回顧了各大科技公司(OpenAI、Anthropic、Perplexity 等)如何通過不同的產品形態為瀏覽器代理(browser agents)注入功能。為了更直觀地理解它們的價值,我們可以進一步看看在真實場景中,這些能力如何被應用到日常生活和企業工作流程中。 日常網頁自動化 # 電商與個人購物 一個非常實用的場景是將購物與預訂任務委託給代理。代理可以根據固定清單自動填充你的線上購物車並下單,也可以在多個零售商之間尋找最低價,並代你完成結帳流程。 對於旅行,你可以讓 AI 執行這樣的任務:"幫我預訂下個月去東京的航班(票價低於 800 美元),再訂一家有免費 Wi-Fi 的酒店。"代理會處理整個流程:搜索航班、比較選項、填寫乘客信息、完成酒店預訂,全部通過航空公司與酒店網站完成。這種自動化水平遠遠超越了現有的旅遊機器人:它不僅僅是推薦,而是直接執行購買。 # 提升辦公效率 代理能夠自動化許多人們在瀏覽器中進行的重複性業務操作。例如,整理電子郵件並提取待辦事項,或在多個日曆中檢查空檔並自動安排會議。Perplexity 的 Comet 助手已經可以通過網頁界面總結你的收件箱內容,或為你添加日程。代理還可以在獲得你的授權後,登錄 SaaS 工具生成常規報告、更新電子表格,或提交表單。想像一個 HR 代理,能夠自動登錄不同的招聘網站發布職位;或一個銷售代理,可以更新 CRM 系統的潛在客戶數據。這些日常瑣碎工作本來會耗費大量員工時間,但 AI 可以通過自動化網頁表單和頁面操作完成。
除了單一任務,代理還能串聯起跨多個網絡系統的完整工作流。所有這些步驟都需要在不同的網頁界面中操作,而這正是 browser agent 的強項。代理可以登錄各種儀表盤進行故障排查,甚至編排流程,例如為新員工完成入職操作(在多個 SaaS 網站上創建帳號)。本質上,任何目前需要點開多個網站完成的多步驟操作,都可以交由代理執行。
Part Four
當前的挑戰與局限 儘管潛力巨大,但今天的瀏覽器代理距離完美仍有很大差距。當前的實現揭示出了一些長期存在的技術和基礎設施難題: 架構不匹配 現代網絡是為人類操作的瀏覽器而設計的,並且隨著時間的推移逐漸演變為主動抵禦自動化。數據常常埋藏在為視覺展示優化的 HTML/CSS 中,被交互手勢(鼠標懸停、滑動)所限制,或者只能通過未公開的 API 訪問。
在此基礎上,反爬蟲與反欺詐系統又人為增加了額外屏障。這些工具結合了 IP 信譽、瀏覽器指紋、JavaScript 挑戰反饋以及行為分析(例如鼠標移動的隨機性、打字節奏、停留時間)。矛盾的是,AI 代理表現得越"完美"、效率越高:比如瞬間填表、從不出錯,就越容易被識別為惡意自動化。這可能導致硬性失敗:例如 OpenAI 或 Google 的代理可能順利完成結帳前的所有步驟,但最終卻被 CAPTCHA 或二次安全過濾攔下。 人類優化的界面與對機器人不友好的防禦層疊加在一起,迫使代理採取脆弱的"人機模仿"策略。這種方法極易失效,成功率低(如果沒有人工干預,完整交易的完成率仍不足三分之一)。 信任與安全顧慮 要讓代理獲得完全控制,通常需要訪問敏感信息:登錄憑證、Cookies、雙因素認證令牌,甚至支付信息。這帶來了用戶與企業都能理解的擔憂:
如果代理出錯或被惡意網站欺騙怎麼辦?
如果代理同意了某個服務條款或執行了某筆交易,誰該負責?
基於這些風險,目前的系統普遍採取謹慎態度:
Google 的 Mariner 不會輸入信用卡信息或同意服務條款,而是交還給用戶。
OpenAI 的 Operator 會提示用戶接管登錄或 CAPTCHA 挑戰。
- Anthropic 的 Claude 驅動的代理可能直接拒絕登錄,理由是安全考慮。
結果是:AI 與人類之間頻繁的停頓與交接,削弱了無縫自動化的體驗。
儘管存在這些障礙,進展仍在快速推進。OpenAI、Google、Anthropic 等公司在每一輪迭代中都吸取失敗經驗。隨著需求的增長,很可能會出現一種"共同演化":網站在有利的場景下變得更友好於代理,而代理也會不斷提升對人類行為的模仿能力,以繞過現有屏障。
Part Five
方法與機遇 當前的瀏覽器代理正面臨兩種截然不同的現實:一方面是Web2 的敵對環境 ,反爬蟲與安全防禦無處不在;另一方面是 Web3 的開放環境,自動化反而常常受到鼓勵。這種差異決定了各類解決方案的方向。
下面的解決方案大致分為兩類:一類幫助代理繞過 Web2 的敵對環境,另一類則是原生於 Web3 的方案。
雖然瀏覽器代理面臨的挑戰依舊顯著,但新的項目正不斷湧現,試圖直接解決這些問題。加密貨幣與去中心化金融(DeFi)生態正在成為天然的試驗場,因為它開放、可編程、且對自動化不那麼敵視 。開放的 API、智能合約與鏈上透明性,消除了許多 Web2 世界常見的摩擦點。
以下是四類解決方案,每一類都在應對當前的一項或多項核心局限: 面向鏈上操作的原生代理型瀏覽器 這些瀏覽器從零開始就是為自主代理驅動而設計的,並且與區塊鏈協議深度集成。與傳統的 Chrome 瀏覽器不同,後者若要進行鏈上操作自動化需要額外依賴 Selenium、Playwright 或錢包插件;而原生代理型瀏覽器則直接給予API 和可信的執行路徑,供代理調用。
在去中心化金融中,交易的有效性依賴的是加密簽名,而不是用戶是否"像人類"。因此在鏈上環境中,代理可以繞過 Web2 世界常見的 CAPTCHA、欺詐檢測分數和設備指紋檢查。然而,如果這些瀏覽器指向像 Amazon 這樣的 Web2 網站,它們並不能繞過相關的防禦機制,在那種場景下依然會觸發正常的反機器人措施。
代理型瀏覽器的價值並不是能神奇地訪問所有網站 ,而在於:
原生區塊鏈集成 :內置錢包與簽名支持,無需再通過 MetaMask 彈窗或解析 dApp 前端的 DOM。
自動化優先設計 :提供穩定的高層指令,能直接映射為協議操作。
安全模型 :精細化的權限控制與沙箱,確保私鑰在自動化過程中安全。
性能優化 :能夠並行執行多個鏈上調用,而無需瀏覽器渲染或 UI 延遲。
# 案例:Donut Donut 將區塊鏈數據與操作作為一等公民進行集成。用戶(或其代理)可以懸停查看代幣的實時風險指標,或直接輸入自然語言指令如 "/swap 100 USDC to SOL"。通過跳過 Web2 的敵對摩擦點,Donut 讓代理能在 DeFi 中全速運行,提升流動性、套利與市場效率。 可驗證與可信的代理執行 讓代理獲得敏感權限風險很大。相關解決方案使用可信執行環境(TEEs) 或零知識證明(ZKPs) 來在執行前加密確認代理的預期行為,使用戶與對手方在不暴露私鑰或憑證的前提下驗證代理動作。 # 案例:Phala Network Phala 使用 TEEs(如 Intel SGX)來隔離與保護執行環境,從而避免 Phala 營運方或攻擊者窺探或篡改代理邏輯與數據。TEE 就像一個硬件加持的"安全密室", 保證了保密性(外部無法看到)與完整性(外部無法修改)。
對於瀏覽器代理,這意味著它可以登錄、持有會話令牌,或處理支付信息,而這些敏感數據永遠不會離開安全密室。 即便使用者機器、操作系統或網絡被攻破,也無法泄露。這直接緩解了代理應用落地的最大障礙之一:對敏感憑證與操作的信任問題。 去中心化的結構化數據網絡 現代的反機器人檢測系統不僅檢查請求是否"過快"或"自動化",還會結合 IP 信譽、瀏覽器指紋、JavaScript 挑戰反饋與行為分析 (例如光標移動、打字節奏、會話歷史)。那些來自數據中心 IP 或完全可重複的瀏覽環境的代理很容易被識別。
為了解決這一問題,這類網絡不再抓取為人類優化的網頁,而是直接收集並提供機器可讀的數據 ,或者通過真實的人類瀏覽環境代理流量。這種方式繞過了傳統爬蟲在解析與反爬環節的脆弱性,能為代理提供更乾淨、更可靠的輸入。
通過將代理流量代理到這些真實世界的會話,分佈式網絡(distribution network)讓 AI 代理可以像人一樣訪問網頁內容,而不會立即觸發封鎖。 # 案例
Grass :去中心化數據/DePIN 網絡,用戶共享閒置的住宅寬帶,從而為公共網頁數據收集與模型訓練提供代理友好、地理多樣化的訪問渠道。
WootzApp :支持加密貨幣支付的開源移動瀏覽器,帶有後台代理與零知識身份;它將 AI/數據任務"遊戲化"推向消費者。
Sixpence :分佈式瀏覽器網絡,通過全球貢獻者的瀏覽 ,為 AI 代理路由流量。
不過這並非完整解決方案。行為檢測(鼠標/滾動軌跡)、帳戶層級的限制(KYC、帳號年齡)以及指紋一致性檢查依然可能觸發封鎖。因此,分佈式網絡最好被視作基礎的隱匿層 ,必須與模仿人類的執行策略結合才能發揮最大效果。 面向代理的網頁標準(前瞻) 目前,越來越多的技術社區和組織正在探索:如果未來網絡用戶不僅是人,還有自動化代理(agent),網站該如何安全、合規地與它們打交道?
這推動了一些新興標準和機制的討論,目標是讓網站能夠明確表示「我允許可信代理訪問」,並且提供一個安全的通道來完成交互,而不是像今天這樣默認把代理當作"機器人攻擊"來攔截。
"Agent Allowed" 標籤 :就像搜索引擎遵守的 robots.txt 一樣,未來網頁可能會在代碼中加一個標籤,告訴瀏覽器代理"這裡可以安全訪問"。比如說,如果你用代理訂機票,網站就不會彈出一堆驗證碼(CAPTCHA),而是直接提供一個認證後的接口。
認證代理的 API 網關 :網站可以為經過驗證的代理開放專門的入口,就像"快速通道"。代理不需要模擬人類點擊、輸入,而是走一條更穩定的 API 路徑完成下單、支付或數據查詢。
W3C 的討論 :萬維網聯盟(W3C)已經在研究如何為"受管自動化"制定標準化通道。這意味著,未來我們可能會有一套全球通用的規則,讓可信代理能被網站識別和接納,同時保持安全和可追責。
雖然這些探索都還在早期,但一旦落地,就可能極大改善人類↔代理↔網站之間的關係。想像一下:不再需要代理拼命模仿人類鼠標移動來"騙過"風控,而是光明正大地通過一個"官方允許"的通道完成任務。
在這條路線上,加密原生的基礎設施可能會率先起步 。因為鏈上應用天生就依賴開放 API 和智能合約,對自動化是友好的。相比之下,傳統 Web2 平台可能還會繼續謹慎防守,尤其是依賴廣告或反欺詐體系的公司。但隨著用戶和企業逐漸接受自動化帶來的效率提升,這些標準化嘗試很可能會成為推動整個互聯網邁向"代理優先架構"的關鍵催化劑。
Part Six
結論 瀏覽器代理正在從最初的簡單對話工具,演化為能夠完成複雜線上工作流程的自主系統。這一轉變反映了一個更廣泛的趨勢:將自動化直接嵌入用戶與互聯網交互的核心界面中。雖然生產力提升的潛力巨大,但挑戰同樣嚴峻,包括如何突破根深蒂固的反機器人機制,以及如何確保安全性、信任與負責任的使用方式。
在短期內,代理的推理能力提升、速度更快、與現有服務的更緊密集成,以及分佈式網絡的進步,可能會逐步提高可靠性。從長期來看,我們或許會在那些自動化對服務提供方與用戶雙方都有利的場景中,看到"代理友好"標準的逐步落地。不過,這一轉變將不會是均勻的:在如 DeFi 這樣的自動化友好環境中,採用速度會更快;而在嚴重依賴用戶交互控制的 Web2 平台,接受程度會更慢。
未來,科技公司的競爭將越來越集中在以下幾個方面:其代理在現實世界限制下的導航能力如何、能否安全地集成到關鍵工作流程中,以及能否在多樣化的線上環境中穩定交付結果。至於這一切是否最終會重塑"瀏覽器之戰",取決的並非單純的技術實力,而是能否建立信任、對齊激勵,並在日常使用中展現出切實的價值。
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
關於 Bitget 上架 MSTR, COIN, HOOD, DFDV RWA 指數永續合約的公告
關於 Bitget 統一帳戶支援部分幣種借貸和保證金功能的公告
【首發上架】Camp Network (CAMP) 將在 Bitget 創新區和 Public Chain 區上架
關於 Bitget 上架 AAPL, GOOGL, AMZN, META, MCD RWA 指數永續合約的公告
加密貨幣價格
更多








