Browser-Use 的核心一句话:你告诉 AI “要做什么”,它就能在真实网页里自己点击、输入、提交表单、截图、持续运行。它把“浏览器操作”封装成 Agent 能理解的动作,让你不必为每个网站单独写一堆脆弱的爬虫或自动化脚本。 很多团队做“AI + 自动化”时都会卡在同一个环节: Browser-Use 的思路是:让 Agent 直接使用浏览器完成任务。你只需要提供任务描述,例如: 它的价值在于:用自然语言驱动可执行的网页操作,把“需求”直接连接到“浏览器动作”。 如果你常用 Cursor、Claude Code 等编码 Agent,可以直接让它们阅读官方的 Agents 指南,然后开始写任务提示词并运行。 这类方式适合:你希望“让 AI 帮你搭建整套自动化流程”。 Browser-Use 推荐用 uv 来创建环境并安装。 Step 1:创建环境并安装 Step 2(可选):配置 Browser Use Cloud 的 API Key如果你希望使用 Browser Use Cloud(更快、可扩展、带 stealth 浏览器自动化能力),可以申请 key 并写入 Step 3:运行你的第一个 Agent下面这段示例会让 Agent 去找到 browser-use 仓库的 star 数: 这里能看到它的关键抽象非常清晰: 官方也给了两个文档入口: 任务示例:“用我的简历和信息填完这份工作申请表。” 示例代码: 这个场景非常典型:字段多、页面步骤多、还可能有校验。Browser-Use 的优势是把“要填什么”交给 Agent,让它自己在网页上找到可交互元素并完成输入/提交。 任务示例:“把这份清单里的商品加入 Instacart。” 视频: 示例代码: 这类电商/到家平台往往页面动态复杂,传统脚本容易因为选择器变动而崩。Browser-Use 走的是“Agent 操作网页”的路线,更接近人类。 任务示例:“帮我找一套定制 PC 的配件。” 视频: 示例代码: 这类任务不只是“点点点”,还包含“比较、筛选、选择并继续下一步”。Agent 的价值就在于:它能把网页当作“可操作的信息源”。 更多例子入口(官方): 不想从零写?可以直接生成模板脚本: 会生成 也支持自定义输出路径: Browser-Use 提供了命令行工具,适合快速调试、复现步骤、或把一串动作写成脚本化流程: 一个很实用的点:CLI 会让浏览器在命令之间保持运行,所以你可以反复 CLI 文档入口(官方): 项目说明他们对 ChatBrowserUse() 做了浏览器自动化专项优化:平均完成任务速度可比其他模型快 3-5 倍,并保持 SOTA 准确率。 并给出了定价(每 1M tokens): 其他模型支持情况见文档: 可以。Browser-Use 是 MIT License 的开源库,你只需要选择 LLM 提供方(例如 OpenAI、Google、ChatBrowserUse,或者用 Ollama 跑本地模型)。 如果你的任务不只是网页操作,还希望在关键步骤调用自定义能力(比如:格式化文本、校验参数、对接内部 API),可以用 这意味着你可以把业务系统的能力“挂”到 Agent 上:网页负责操作,工具负责业务逻辑处理。 官方提供了认证示例方向: 这些信息的核心是:Browser-Use 不只“能打开网页”,也在考虑“如何持续保持会话”。 项目明确提到:处理 CAPTCHA 需要更好的浏览器指纹与代理能力,建议使用 Browser Use Cloud,它提供 stealth 浏览器来降低被检测与 CAPTCHA 挑战。 他们指出 Chrome 很吃内存,并行跑很多 agent 需要管理能力。Browser Use Cloud API 提供: 如果你的目标是“批量跑任务、稳定交付”,Cloud 会更贴近工程落地。 如果你在选型“AI 驱动的浏览器/网页自动化”,通常会碰到几类相近路线(按功能取向划分): 1)传统浏览器自动化框架(偏脚本与测试) 2)“让 LLM 操作浏览器”的 Agent 框架(偏自然语言 + 决策) 3)RPA 工具(偏企业流程与可视化编排) 参考地址:
🌐 Make websites accessible for AI agents. Automate tasks online with ease.一、Browser-Use 解决的是什么问题?
二、两种快速上手方式:给 AI 写(LLM Quickstart)和给人写(Human Quickstart)
1)LLM Quickstart:让你的编码 Agent 直接读指令文档
项目提供了入口:Agents.md(长文档):
https://docs.browser-use.com/llms-full.txt2)Human Quickstart:你自己跑起第一个浏览器 Agent(Python ≥ 3.11)
uv init && uv add browser-use && uv sync
# uvx browser-use install # Run if you don't have Chromium installed.env:# .env
BROWSER_USE_API_KEY=your-key
# GOOGLE_API_KEY=your-key
# ANTHROPIC_API_KEY=your-keyfrom browser_use import Agent, Browser, ChatBrowserUse
# from browser_use import ChatGoogle # ChatGoogle(model='gemini-3-flash-preview')
# from browser_use import ChatAnthropic # ChatAnthropic(model='claude-sonnet-4-6')
import asyncio
asyncdef main():
browser = Browser(
# use_cloud=True, # Use a stealth browser on Browser Use Cloud
)
agent = Agent(
task="Find the number of stars of the browser-use repo",
llm=ChatBrowserUse(),
# llm=ChatGoogle(model='gemini-3-flash-preview'),
# llm=ChatAnthropic(model='claude-sonnet-4-6'),
browser=browser,
)
await agent.run()
if __name__ == "__main__":
asyncio.run(main())Browser(...):浏览器执行器(本地或 cloud)Agent(task=...):你给任务,它负责规划与执行llm=...:接哪个模型来“理解任务 + 决策下一步”三、最直观的能力展示:3 个 Demo 场景(表单、购物、个人助理)
Demo 1:表单填写(Form-Filling)
https://github.com/browser-use/browser-use/raw/main/examples/use-cases/apply_to_job.pyDemo 2:在线买菜(Grocery-Shopping)
https://github.com/user-attachments/assets/a6813fa7-4a7c-40a6-b4aa-382bf88b1850
https://github.com/browser-use/browser-use/raw/main/examples/use-cases/buy_groceries.pyDemo 3:个人助理(Personal-Assistant)
https://github.com/user-attachments/assets/ac34f75c-057a-43ef-ad06-5b2c9d42bf06
https://github.com/browser-use/browser-use/raw/main/examples/use-cases/pcpartpicker.py
https://docs.browser-use.com/examples四、想更快开搞:一条命令生成可运行模板(Template Quickstart)
uvx browser-use init --template defaultbrowser_use_default.py,开箱即跑。模板选择:default:最小可用advanced:全部配置项 + 详细注释tools:展示如何自定义工具、扩展 Agent 能力uvx browser-use init --template default --output my_agent.py五、除了写代码,你还可以用 CLI 直接操控浏览器(并且是“持久会话”)
browser-use open https://example.com # Navigate to URL
browser-use state # See clickable elements
browser-use click 5 # Click element by index
browser-use type "Hello" # Type text
browser-use screenshot page.png # Take screenshot
browser-use close # Close browserstate/click/type 快速迭代,而不用每次重启浏览器。
https://raw.githubusercontent.com/browser-use/browser-use/main/browser_use/skill_cli/README.md六、模型选择、费用与“是否免费”
1)推荐模型:ChatBrowserUse()
https://docs.browser-use.com/supported-models2)能不能免费用?
七、进阶:自定义 Tools,让 Agent 多一套“技能手册”
Tools() 扩展:from browser_use import Tools
tools = Tools()
@tools.action(description='Description of what this tool does.')
def custom_tool(param: str) -> str:
return f"Result: {param}"
agent = Agent(
task="Your task",
llm=llm,
browser=browser,
tools=tools,
)八、登录态、验证码与生产化:官方给出的方向
1)如何处理登录/认证(Authentication)
示例: https://github.com/browser-use/browser-use/raw/main/examples/browser/real_browser.py2)CAPTCHA 怎么办?
3)如何走到生产环境?
九、同类项目简述:你还可以关注哪些方向?
特点:通过代码精确控制浏览器(定位元素、点击、等待),适合自动化测试与可重复流程;但对页面变化敏感,跨站任务需要大量工程维护。代表方向通常是 Playwright / Selenium 一类。
特点:更强调“给目标,自己规划步骤”,适合开放式网页任务(填表、下单、检索、后台操作)。Browser-Use 属于这一类,同时又提供了 CLI、模板、工具扩展与 cloud 的工程化路径。
特点:通过录制/流程图编排实现自动化,适合稳定且重复的内部流程;但与 LLM 的深度结合、以及对开放网页的泛化能力,往往需要额外集成。
记得按时休息
GotoAI中国技术社区(深圳区)AI讲师

优网科技秉承"专业团队、品质服务" 的经营理念,诚信务实的服务了近万家客户,成为众多世界500强、集团和上市公司的长期合作伙伴!
优网科技成立于2001年,擅长网站建设、网站与各类业务系统深度整合,致力于提供完善的企业互联网解决方案。优网科技提供PC端网站建设(品牌展示型、官方门户型、营销商务型、电子商务型、信息门户型、微信小程序定制开发、移动端应用(手机站、APP开发)、微信定制开发(微信官网、微信商城、企业微信)等一系列互联网应用服务。
公安局备案号:
