广州总部电话:020-85564311
广州总部电话:020-85564311
20年
互联网应用服务商
请输入搜索关键词
知识库 知识库

优网知识库

探索行业前沿,共享知识宝库

让 AI 真的“会用网页”:Browser-Use 把网站变成 AI Agent 可操作的界面,让自动化像聊天一样简单

发布日期:2026-03-25 16:50:23 浏览次数: 809 来源:AC技术与生活
推荐语
让AI像人类一样操作网页,Browser-Use让自动化任务变得像聊天一样简单自然。

核心内容:
1. 解决AI无法直接操作网页的痛点,告别脆弱的爬虫脚本
2. 提供两种快速上手方式:LLM快速启动和人类开发者模式
3. 通过自然语言指令实现复杂跨站点操作,如填表、购物等场景
小优 网站建设顾问
专业来源于二十年的积累,用心让我们做到更好!

 


🌐 
Make websites accessible for AI agents. Automate tasks online with ease.

Browser-Use 的核心一句话:你告诉 AI “要做什么”,它就能在真实网页里自己点击、输入、提交表单、截图、持续运行。它把“浏览器操作”封装成 Agent 能理解的动作,让你不必为每个网站单独写一堆脆弱的爬虫或自动化脚本。


一、Browser-Use 解决的是什么问题?

很多团队做“AI + 自动化”时都会卡在同一个环节:

  • LLM 很会思考、会写代码,但不会直接操作网页
  • 传统自动化(如脚本化的点击/定位)常常对页面结构变化非常敏感
  • 需要“跨站点完成任务”时,逻辑更复杂:登录态、表单、跳转、选择器全都很麻烦

Browser-Use 的思路是:让 Agent 直接使用浏览器完成任务。你只需要提供任务描述,例如:

  • “把我的简历信息填进这个招聘表单并提交”
  • “把这份购物清单加入 Instacart 购物车”
  • “帮我在装机网站上挑一套合适的 PC 配件”

它的价值在于:用自然语言驱动可执行的网页操作,把“需求”直接连接到“浏览器动作”。


二、两种快速上手方式:给 AI 写(LLM Quickstart)和给人写(Human Quickstart)

1)LLM Quickstart:让你的编码 Agent 直接读指令文档

如果你常用 Cursor、Claude Code 等编码 Agent,可以直接让它们阅读官方的 Agents 指南,然后开始写任务提示词并运行。
项目提供了入口:Agents.md(长文档)
https://docs.browser-use.com/llms-full.txt

这类方式适合:你希望“让 AI 帮你搭建整套自动化流程”。


2)Human Quickstart:你自己跑起第一个浏览器 Agent(Python ≥ 3.11)

Browser-Use 推荐用 uv 来创建环境并安装。

Step 1:创建环境并安装

uv init && uv add browser-use && uv sync
# uvx browser-use install  # Run if you don't have Chromium installed

Step 2(可选):配置 Browser Use Cloud 的 API Key如果你希望使用 Browser Use Cloud(更快、可扩展、带 stealth 浏览器自动化能力),可以申请 key 并写入 .env

# .env
BROWSER_USE_API_KEY=your-key
# GOOGLE_API_KEY=your-key
# ANTHROPIC_API_KEY=your-key

Step 3:运行你的第一个 Agent下面这段示例会让 Agent 去找到 browser-use 仓库的 star 数:

from browser_use import Agent, Browser, ChatBrowserUse
# from browser_use import ChatGoogle  # ChatGoogle(model='gemini-3-flash-preview')
# from browser_use import ChatAnthropic  # ChatAnthropic(model='claude-sonnet-4-6')
import asyncio

asyncdef main():
    browser = Browser(
        # use_cloud=True,  # Use a stealth browser on Browser Use Cloud
    )

    agent = Agent(
        task="Find the number of stars of the browser-use repo",
        llm=ChatBrowserUse(),
        # llm=ChatGoogle(model='gemini-3-flash-preview'),
        # llm=ChatAnthropic(model='claude-sonnet-4-6'),
        browser=browser,
    )
    await agent.run()

if __name__ == "__main__":
    asyncio.run(main())

这里能看到它的关键抽象非常清晰:

  • Browser(...):浏览器执行器(本地或 cloud)
  • Agent(task=...):你给任务,它负责规划与执行
  • llm=...:接哪个模型来“理解任务 + 决策下一步”

官方也给了两个文档入口:

  • 开源库文档: https://docs.browser-use.com/open-source/introduction
  • Cloud 文档: https://docs.cloud.browser-use.com

三、最直观的能力展示:3 个 Demo 场景(表单、购物、个人助理)

Demo 1:表单填写(Form-Filling)

任务示例:“用我的简历和信息填完这份工作申请表。”

示例代码:
https://github.com/browser-use/browser-use/raw/main/examples/use-cases/apply_to_job.py

这个场景非常典型:字段多、页面步骤多、还可能有校验。Browser-Use 的优势是把“要填什么”交给 Agent,让它自己在网页上找到可交互元素并完成输入/提交。


Demo 2:在线买菜(Grocery-Shopping)

任务示例:“把这份清单里的商品加入 Instacart。”

视频:
https://github.com/user-attachments/assets/a6813fa7-4a7c-40a6-b4aa-382bf88b1850

示例代码:
https://github.com/browser-use/browser-use/raw/main/examples/use-cases/buy_groceries.py

这类电商/到家平台往往页面动态复杂,传统脚本容易因为选择器变动而崩。Browser-Use 走的是“Agent 操作网页”的路线,更接近人类。


Demo 3:个人助理(Personal-Assistant)

任务示例:“帮我找一套定制 PC 的配件。”

视频:
https://github.com/user-attachments/assets/ac34f75c-057a-43ef-ad06-5b2c9d42bf06

示例代码:
https://github.com/browser-use/browser-use/raw/main/examples/use-cases/pcpartpicker.py

这类任务不只是“点点点”,还包含“比较、筛选、选择并继续下一步”。Agent 的价值就在于:它能把网页当作“可操作的信息源”。

更多例子入口(官方):
https://docs.browser-use.com/examples


四、想更快开搞:一条命令生成可运行模板(Template Quickstart)

不想从零写?可以直接生成模板脚本:

uvx browser-use init --template default

会生成 browser_use_default.py,开箱即跑。模板选择:

  • default:最小可用
  • advanced:全部配置项 + 详细注释
  • tools:展示如何自定义工具、扩展 Agent 能力

也支持自定义输出路径:

uvx browser-use init --template default --output my_agent.py

五、除了写代码,你还可以用 CLI 直接操控浏览器(并且是“持久会话”)

Browser-Use 提供了命令行工具,适合快速调试、复现步骤、或把一串动作写成脚本化流程:

browser-use open https://example.com    # Navigate to URL
browser-use state                       # See clickable elements
browser-use click 5                     # Click element by index
browser-use type "Hello"                # Type text
browser-use screenshot page.png         # Take screenshot
browser-use close                       # Close browser

一个很实用的点:CLI 会让浏览器在命令之间保持运行,所以你可以反复 state/click/type 快速迭代,而不用每次重启浏览器。

CLI 文档入口(官方):
https://raw.githubusercontent.com/browser-use/browser-use/main/browser_use/skill_cli/README.md


六、模型选择、费用与“是否免费”

1)推荐模型:ChatBrowserUse()

项目说明他们对 ChatBrowserUse() 做了浏览器自动化专项优化:平均完成任务速度可比其他模型快 3-5 倍,并保持 SOTA 准确率

并给出了定价(每 1M tokens):

  • Input tokens:$0.20
  • Cached input tokens:$0.02
  • Output tokens:$2.00

其他模型支持情况见文档:
https://docs.browser-use.com/supported-models

2)能不能免费用?

可以。Browser-Use 是 MIT License 的开源库,你只需要选择 LLM 提供方(例如 OpenAI、Google、ChatBrowserUse,或者用 Ollama 跑本地模型)。


七、进阶:自定义 Tools,让 Agent 多一套“技能手册”

如果你的任务不只是网页操作,还希望在关键步骤调用自定义能力(比如:格式化文本、校验参数、对接内部 API),可以用 Tools() 扩展:

from browser_use import Tools

tools = Tools()

@tools.action(description='Description of what this tool does.')
def custom_tool(param: str) -> str:
    return f"Result: {param}"

agent = Agent(
    task="Your task",
    llm=llm,
    browser=browser,
    tools=tools,
)

这意味着你可以把业务系统的能力“挂”到 Agent 上:网页负责操作,工具负责业务逻辑处理。


八、登录态、验证码与生产化:官方给出的方向

1)如何处理登录/认证(Authentication)

官方提供了认证示例方向:

  • 使用真实浏览器 Profile:复用你现有 Chrome profile(含已保存登录态)
    示例: https://github.com/browser-use/browser-use/raw/main/examples/browser/real_browser.py
  • 需要临时账号 + 收件箱:他们建议选择 AgentMail
  • 如果要把本地 auth profile 同步到远程浏览器:提供了脚本方式(文档中给出 curl 命令)

这些信息的核心是:Browser-Use 不只“能打开网页”,也在考虑“如何持续保持会话”。

2)CAPTCHA 怎么办?

项目明确提到:处理 CAPTCHA 需要更好的浏览器指纹与代理能力,建议使用 Browser Use Cloud,它提供 stealth 浏览器来降低被检测与 CAPTCHA 挑战。

3)如何走到生产环境?

他们指出 Chrome 很吃内存,并行跑很多 agent 需要管理能力。Browser Use Cloud API 提供:

  • 可扩展的浏览器基础设施
  • 内存管理
  • 代理轮换
  • stealth 指纹
  • 高性能并行执行

如果你的目标是“批量跑任务、稳定交付”,Cloud 会更贴近工程落地。


九、同类项目简述:你还可以关注哪些方向?

如果你在选型“AI 驱动的浏览器/网页自动化”,通常会碰到几类相近路线(按功能取向划分):

1)传统浏览器自动化框架(偏脚本与测试)
特点:通过代码精确控制浏览器(定位元素、点击、等待),适合自动化测试与可重复流程;但对页面变化敏感,跨站任务需要大量工程维护。代表方向通常是 Playwright / Selenium 一类。

2)“让 LLM 操作浏览器”的 Agent 框架(偏自然语言 + 决策)
特点:更强调“给目标,自己规划步骤”,适合开放式网页任务(填表、下单、检索、后台操作)。Browser-Use 属于这一类,同时又提供了 CLI、模板、工具扩展与 cloud 的工程化路径。

3)RPA 工具(偏企业流程与可视化编排)
特点:通过录制/流程图编排实现自动化,适合稳定且重复的内部流程;但与 LLM 的深度结合、以及对开放网页的泛化能力,往往需要额外集成。

参考地址:

  • • https://github.com/browser-use/browser-use

📣 记得点赞、分享,Thx🌐 
记得按时休息
📚 欢迎关注我的公众号“AC技术与生活”,原创技术文章第一时间推送。
GotoAI中国技术社区(深圳区)AI讲师

 

优网科技,优秀企业首选的互联网供应服务商

优网科技秉承"专业团队、品质服务" 的经营理念,诚信务实的服务了近万家客户,成为众多世界500强、集团和上市公司的长期合作伙伴!

优网科技成立于2001年,擅长网站建设、网站与各类业务系统深度整合,致力于提供完善的企业互联网解决方案。优网科技提供PC端网站建设(品牌展示型、官方门户型、营销商务型、电子商务型、信息门户型、微信小程序定制开发、移动端应用(手机站APP开发)、微信定制开发(微信官网、微信商城、企业微信)等一系列互联网应用服务。


我要投稿

姓名

文章链接

提交即表示你已阅读并同意《个人信息保护声明》

专属顾问 专属顾问
扫码咨询您的优网专属顾问!
专属顾问
马上咨询
联系专属顾问
联系专属顾问
联系专属顾问
和我们在线交谈!