返回全部工具
    本地 AI 工具

    浏览器端物体检测器

    反馈问题

    用私密 DETR 工作流在浏览器中本地检测图片里的物体

    源图片

    用私密 DETR 工作流在浏览器中本地检测图片里的物体

    点击上传图片进行本地物体检测

    照片、截图和产品图都可以在浏览器里本地扫描常见物体。

    检测设置

    选择推理后端以及物体列表的最小置信度阈值。

    浏览器内存中的物体分析

    图片会在浏览器内存中解码并完成物体扫描。较大图片仍依赖设备内存和所选推理后端。

    上传图片以开始私密本地物体检测。0%

    检测结果

    在复制或导出前,先检查私密本地物体列表和边框。

    处理完成后,这里会显示本地 AI 物体检测结果。

    运行统计

    快速查看本地检测、本次阈值、模型、图片尺寸和离线状态。

    离线 runtime作用域 service worker
    离线状态Service worker 不可用
    检测到的物体0
    最高标签-
    置信度阈值-
    模型Xenova/detr-resnet-50
    图片尺寸-
    浏览器端处理
    即时结果
    不存储数据

    浏览器端物体检测器是什么?

    浏览器端物体检测器让你在浏览器里扫描图片中的物体,而不是把文件上传到外部视觉 API。它适合内部截图、产品图、插图或 QA 图片,当你只想快速看看模型识别到了什么,同时又希望原图留在设备上时尤其有用。

    当前工作流基于 Transformers.js,并采用 DETR 路线。首次运行时浏览器可能需要下载并缓存模型,之后如果缓存仍在,后续运行会顺畅得多。

    很多物体检测流程都默认要先把图片上传到云端

    很多图像识别工具会要求你先把图片发到远程 API,才会返回物体标签和边框。

    这不适合内部截图、敏感图片或未公开素材。

    而很多时候你只需要一次快速扫描,看看模型识别到了哪些明显物体,以及它有多自信,并不需要完整的计算机视觉平台。

    在浏览器里用本地 DETR 扫描物体

    这个工具在浏览器内运行本地物体检测流程,直接返回标签、置信度和边框坐标,不需要把图片上传到应用服务器。

    你可以切换 WebGPU 与 WASM,并调整置信度阈值,让输出更宽松或更保守。

    模型会缓存在浏览器中,因此首次下载后,后续运行通常更快,也更接近离线体验。

    如何使用浏览器端物体检测器

    1. 1上传图片 - 从设备中选择截图、产品图或其他图片文件。
    2. 2选择后端 - 使用 auto,或手动切换到 WebGPU / WASM 来控制速度和兼容性。
    3. 3设置阈值 - 决定模型需要多高置信度,检测结果才保留在列表中。
    4. 4运行本地检测 - 让工具加载模型,在浏览器里扫描图片并返回物体标签与边框。
    5. 5检查结果 - 查看边框覆盖层,然后复制结果或下载 JSON 继续使用。

    主要功能

    • 基于 DETR 的浏览器内本地物体检测
    • 边框覆盖层和物体列表
    • 可调置信度阈值
    • WebGPU / WASM 后端切换
    • 源图片不上传到应用服务器

    优势

    • 无需把图片交给托管 vision API 也能扫描物体
    • 先在本地检查标签与置信度再继续使用
    • 让截图、产品图和内部素材留在设备上
    • 后续可继续复用已缓存模型

    使用场景

    内部图片 QA

    先在本地检查模型能识别哪些物体,而不用把图片交给托管 API。

    手工标注前准备

    把物体标签和边框位置当作人工复核前的第一层提示。

    内容运营辅助

    在做 metadata 或说明前,先用本地扫描快速理解图片中的主要物体。

    更偏离线的工作流

    利用已缓存模型,在同一浏览器里继续做后续物体检测。

    技巧与常见错误

    技巧

    • 尽量使用主体清晰、物体明显的图片,以获得更稳定的初始检测结果。
    • 如果你想看看边缘结果,可以降低阈值;如果只想保留更稳的结果,再把阈值调高。
    • 如果 WebGPU 不稳定,可以切换到 WASM。

    常见错误

    • 假设 detector 一定能正确识别所有小众物体、logo 或图片里的文字。
    • 不人工检查就直接把低置信度结果当成可靠标签。
    • 把阈值设得过高后,就误以为图片里没有任何值得关注的内容。

    知识要点

    • DETR 这类模型可以同时预测物体类别和边框位置,适合做浏览器里的第一轮检测。
    • 置信度能帮助排序,但并不保证每个标签在所有场景下都一定正确。
    • 物体检测与 OCR 解决的是不同问题,所以文字很多的截图通常需要两种流程配合。

    常见问题

    图片会上传到应用服务器吗?

    不会。图片在浏览器中完成检测。只有模型文件可能在首次运行时需要下载。

    结果包括什么?

    结果包括物体标签、置信度分数,以及帮助你查看位置的边框。

    它能替代截图 OCR 吗?

    不能。这是物体检测流程,不是专用 OCR,所以文字很多的截图往往还需要单独 OCR。

    可以把结果直接当最终结论吗?

    不建议。更适合作为私密本地第一轮扫描,再结合人工复核来判断。

    探索更多 本地 AI 工具

    浏览器端物体检测器 属于 本地 AI 工具。探索更多免费在线工具,快速完成相关任务。

    查看全部 本地 AI 工具