
如果你听说过 BrowserOS,并且想知道为什么这么多人都在谈论“有大脑的浏览器”,那么这里就是全部情况。 BrowserOS 是一款开源浏览器,它集成了能够理解和执行自然语言指令的 AI 代理。代表您进行点击、输入和浏览操作,使用您已登录的会话和本地访问权限。所有这一切都基于默认隐私保护原则,并且无需依赖云基础设施来存储您的个人数据。
这项提议并非浏览器领域中又一个随意的想法: BrowserOS 是 Chromium 的一个分支,它兼容 Chrome 扩展程序,并拥有明确的目标。:成为一种开放且注重隐私的替代方案,以取代诸如……之类的解决方案 Atlas(ChatGPT)除了传统浏览器之外,还可以使用 Comet(Perplexity)或 Dia 等工具。其原理简单易懂,效果显著:你描述任务,代理程序会使用你的凭据在你的电脑上执行任务,而且不会将你的浏览记录发送给第三方。
BrowserOS是什么?它有何不同之处?
在本质上, BrowserOS 是一款原生支持 AI 代理的浏览器。它允许你像向同事解释一样编写指令,系统会自动执行一系列操作:打开页面、开始搜索、填写表单或提取数据。它并非一个“查看”你浏览器的外部助手:这些代理程序就存在于 BrowserOS 内部。
因为它基于 Chromium 内核, 从一开始,这种体验就让人感到似曾相识。熟悉的界面、与扩展程序的兼容性、Chrome 数据导入功能,以及对于已熟悉该生态系统的用户而言几乎可以立即上手,这种“宾至如归”的感觉,减少了自动化入门的阻力,同时又不影响日常使用。
为什么是现在:浏览器代理的时代已经到来
近几个月来,人工智能辅助编程工具极大地提高了开发人员的生产力。 然而,数百万知识工作者仍然深陷于重复性的浏览器任务中。复制粘贴、填写表格、导出仪表盘数据、发起营销活动等等,这些都是每天都会遇到的瓶颈。
BrowserOS 团队认为,自 Netscape 时代以来,这是第一次 我们有机会重新构想浏览器,使其真正适用于实际工作。如果人工智能已经能够“编写”整个项目,为什么它不能像你一样按下按钮、浏览网页界面或组合操作,而你却不必一直进行控制呢?
BrowserOS 解决的问题
在 BrowserOS 出现之前,代理在实际任务中的部署失败是由于一些非常具体的原因。 该项目指出了阻碍其大规模应用的三大主要障碍。尤其是在公司里:
- 访问已验证会话许多代理解决方案运行在远程服务器上,无法操作您的真实账户(例如 Gmail、LinkedIn、企业工具等)。因此,它们在实际应用中往往表现不佳。
- 工具碎片化有些代理与 MCP 服务器通信,有些仅执行 Web 自动化,还有一些则像 Zap 一样将 API 串联起来。目前缺少的是一个用于构建复杂流程的统一“工具箱”。
- 黑盒子和锁一些流行的浏览器实际上是搜索或广告产品。 他们既不公开提示信息,也不公开内部运作机制。他们会给你分配一个特定的LLM(链路聚合管理器),并将数据路由到他们的服务器。对很多公司来说,这绝对是行不通的。
BrowserOS 从底层做出响应: 浏览器中的代理程序,运行在您的计算机上结合 MCP 和自动化,并秉持 100% 开放的理念,您可以随时进行审核和分支,这种组合解决了迄今为止将严肃的工作委托给浏览器中的 AI 而不可行的问题。
BrowserOS 的工作原理和入门指南
流程是直接的: 您可以像下载和安装其他浏览器一样下载和安装 BrowserOS。您登录日常使用的网站,然后用自然语言描述任务。智能体会在您的真实情境中,根据您的权限和活跃会话进行操作,就像您坐在屏幕前一样。
- 下载并安装 BrowserOS 适用于您的系统(支持 macOS、Windows 和 Linux)。如果您担心在 Linux 系统上安装的问题,它还提供 AppImage 版本。 在GitHub上.
- 导入您的 Chrome 数据 如果您有兴趣保存书签、历史记录或设置。
- 连接您的人工智能提供商: OpenAI通过 Ollama/LM Studio 提供人畜或本地模型,并配备您自己的钥匙。
- 开始自动化:用文本制定目标,让代理在网络上执行步骤。
还有,你可以 将浏览器自动化与 MCP 服务器结合使用 以及在同一流程中进行 API 调用。这种组合使您能够构建助手,这些助手可以抓取数据、在模型中处理数据并更新电子表格或 SaaS 工具,所有这些操作都由单个代理串联起来。
BrowserOS 的关键特性使其脱颖而出
- 用自然语言构建代理无需编程,即可表达你的想法。
- 模型自由带上你的密钥,在 LLM 之间切换,或者运行本地模型。
- 这是一个“普通”浏览器:铬基, 你的Chrome扩展程序能正常运行吗?.
隐私是设计的基石: 您的数据、历史记录和会话将保留在您的计算机上。无需侵入式遥测或依赖外部云。如果您愿意,您可以完全使用本地模型,彻底关闭数据采集。
更糟糕的是, 他们正在开发一款人工智能驱动的广告拦截器。 它承诺能够覆盖比静态过滤器更复杂的场景。此外,对于开发者和高级用户,它还支持将浏览器用作 MCP 服务器,并将其与诸如 等工具集成。 claude-code o gemini-cli.
集成、MCP 和外部工具的使用
它最强大的优势之一是: BrowserOS 可以作为 MCP 服务器运行这意味着其他与该协议兼容的应用程序(例如前面提到的那些) claude-code o gemini-cli它们可以与你的浏览器“对话”,并将网页界面任务委托给它们的代理。
有趣的是它的编排: 你不需要在自动化浏览器和调用 API 之间做出选择。您可以在同一代理程序中完成这两项操作。例如,从具有复杂用户界面的门户网站提取数据,使用模型处理数据,然后将结果加载到电子表格或 CRM 系统中,而无需手动混合使用不同的工具。
快速比较 Chrome、Brave、Arc/Dia 和 Perplexity Comet
与 Chrome 相比
由于 Chromium 的开源特性,BrowserOS 继承了其基础,但是 Chrome 多年来在自动化方面的原生 AI 技术方面都没有取得重大进展。如果没有 MCP、本地代理和集成编排层,它就只是一个很棒的浏览器……而没有“点击助手”。
勇敢面对
Brave 在隐私保护方面开辟了道路,但是 他们的业务重点涵盖加密货币、搜索、VPN 等领域。BrowserOS 走的是一条独特的路:在浏览器中实现人工智能,并实现真正的工作自动化。
面向弧/直径
很多人都赞赏Arc的提议,但是 它关闭了代码库,让用户陷入了困境。BrowserOS 则恰恰相反:100% 开放、可审计、可分支,拥有活跃的社区,并且不依赖任何单一提供商。
面对困惑彗星
Perplexity 本质上是一家搜索和广告公司。 你的历史可以成为一种产品BrowserOS 的承诺很明确:本地数据和完全的控制权都归您所有。
安全、隐私和许可
其理念是“隐私优先”: 您可以使用自己的 API 密钥或本地模型来操作 Ollama/LM Studio。您可以选择哪些内容可以留在您的设备上,哪些内容不能保留,并且可以确保历史记录和会话信息不会被第三方获取。
在法律和社区层面, BrowserOS 是根据 AGPL-3.0 许可协议授权的自由软件。你可以查看它的制作过程、查看系统提示、提出修改建议、fork 项目并做出贡献。所有这一切都秉承了其创建者所说的“来自旧金山的爱”精神。
社区、数据和项目进展
人们的兴趣显而易见。 它在 GitHub 上拥有超过 4,3k 个星标,超过 25.000 次下载,以及一个拥有超过一千名成员的 Discord 社区。 参与人数活跃度。在另一段文字中,出现了“6,3k”和“558”等指标(与代码库相关,可能是星标/关注者/分支数),表明存在上升趋势。
从技术角度来看,该项目最突出的特点是其基础建设。 基于 Chromium 庞然大物的 C++这是一段充满挑战的旅程,需要付出大量的努力,并在保持与上游变更兼容的同时,继续在代理层进行创新。
使用案例和演示
想想现实世界中的任务: 在 LinkedIn 申请中筛选出感兴趣的个人资料,并将其添加到 Google 表格中。填写冗长的表格,从多个网站收集数据,或准备包含关键信息的会前简报。您只需用文字描述,代理人就会像您一样进行操作和处理。
有视听资料展示了这一概念的实际应用: 例如“HackerNews.top.3.mp4”、“use-browserOS-to-chat.mp4”或“use-browserOS-to-extract.mp4”等演示文件 他们教授的内容涵盖从辅助对话到真实场景中的数据提取,强调自动化发生在您的真实环境中。
愿景:将浏览器视为代理的“操作系统”
企业运营离不开浏览器:Salesforce、SAP、Workday、内部工具…… 一大批知识工作者每天有 60% 到 80% 的时间都花在网络应用程序上。如果一个智能体能够像人一样点击和打字,它几乎可以自动化任何界面,包括那些没有 API 的界面。
该项目提出的愿景是: IT部门可以部署可重用的“员工代理”。公司的“支出代理”、社区共享的“Facebook广告代理”(您可以根据自己的工作流程进行调整)等等。减少机械性任务,更多地专注于创造价值的事情。
BrowserOS 的幕后推手是谁?
该项目的核心由一对在大型科技公司拥有丰富经验的双胞胎兄弟领导。 Nikhil曾使用C++和系统开发过Reels和Facebook Feed的后端。Nithin曾是YouTube的机器学习工程师,参与了该平台首个大型推荐模型(LRM)的开发。这种组合 低级 AI 层赋予他们处理 Chromium 的自由,同时还能在其之上构建“代理大脑”。
- 具备 C++ 和大型系统方面的经验:关键和高性能服务的维护。
- 机器学习和推荐系统专业化对现代模型及其应用有深刻的理解。
来自社区的声音和鲜为人知的替代方案
高级用户渴望使用具有潜力的“不同”浏览器。 我们已经测试过 Wavebox、Ulaa、Arc、Ghost Browser 或 Thorium 等替代方案。Zen Browser 因其高效的生产力而备受赞誉(尽管它并非基于 Chromium 内核)。评测指出,Wavebox 功能非常全面,但可能过于复杂,而且要充分发挥其潜力需要花费一些时间;Ulaa 标榜隐私保护,但包含的附加功能过多;Arc 的评价褒贬不一;而 Ghost Browser 也未能赢得所有人的青睐。
关于钍,据说…… 速度很快,但存在一些安全隐患。这就是为什么有些人会推迟尝试的原因。而且,通常的建议是不要选择最知名的品牌,因为他们可能已经尝试过大约二十种了,而我们的目标是发现那些真正能带来全新体验的稀有品牌。
代理使用简要指南
一旦进入系统,“神奇时刻”就到来了,那就是描述实际任务的时候。 代理程序不会要求“它查找某某内容”并返回摘要,而是直接在您的浏览器中执行交互。即使网站没有 API 也无关紧要:只要有用户界面,代理就可以准确地复制相应的操作。
- 描述你的目标例如,在专业网络中查找特定联系人,并将他们的信息转移到电子表格中。
- 确认步骤 如果代理人向您推荐他们(有助于审核他将要做的事情)。
- 第一次监督 要调整提示或规则,请重复使用该配方。
MCP 的使用以及将自动化、API 和模型“拼接”起来的能力使得这一点成为可能。 单个代理即可解决完整的端到端流程而以前,这需要用胶带把几个工具粘在一起才能完成。
通过设计和模型控制来保护隐私
一个关键优势是可以自由选择人工智能引擎。 你可以使用 OpenAI、Anthropic,或者使用 Ollama/LM Studio 将所有代码保留在本地。路由路径会根据成本、延迟或项目敏感性进行调整。对绝对隐私要求极高的用户会选择 100% 本地路由。
另外, 该项目发布并允许编辑系统提示。这种情况并不常见。这种透明度使得调整代理的行为以适应您的组织或具体案例变得更加容易,也便于审核其决策过程。
参与 BrowserOS 项目的步骤
如果你认同这个想法并想伸出援手,有很多方法可以支持它。 在 GitHub 上留下星标 它有助于提高知名度;下载和使用它可提供有趣的遥测数据(如果您激活它)和反馈;加入 Discord 可以让您提出、发现和测试新功能。
最后,官方网站通常会显示一条提醒信息。 下载适用于您系统的浏览器您可以根据需要导入 Chrome 数据并连接您首选的 AI 提供商。之后,您只需创建代理并分享您的成功经验即可。
从整体来看,BrowserOS正在确立自身作为…… 一款基于 Chromium 内核、以代理为中心的开源浏览器,优先考虑隐私,并拥有不断壮大的社区。它融合了与扩展程序的兼容性、MCP、对本地模型(Ollama/LM Studio)的支持,以及包含AGPL-3.0许可和可编辑提示的开放承诺。与Chrome、Brave、Arc/Dia或其他以广告和搜索为主导的浏览器不同,它旨在将人工智能的“魔力”直接带到您每天工作的网站。尽管仍有一些细节需要完善(例如即将推出的AI广告拦截器,以及Windows系统上偶尔出现的安装问题),但其发展速度和用户参与度表明,这是一个正在蓬勃发展的项目,由旧金山团队精心打造,其愿景是将网络从简单的点击链转变为一个与您并肩工作的智能代理平台。