视频中的物体计数-平芜编程栈

原文：towardsdatascience.com/mastering-object-counting-in-videos-3d49a9230bd2?source=collection_archive---------3-----------------------#2024-06-25

按步骤指导如何使用检测和追踪技术计数树上行走的蚂蚁。

https://medium.com/@lihigurarie?source=post_page---byline--3d49a9230bd2--------------------------------https://towardsdatascience.com/?source=post_page---byline--3d49a9230bd2-------------------------------- Lihi Gur Arie, 博士

·发表于 Towards Data Science ·阅读时间 7 分钟·2024 年 6 月 25 日

–

视频中的蚂蚁计数。左上角显示进入和退出的计数。每只蚂蚁被分配一个独特的 ID 和颜色。标签由作者提供，原始视频由 Lui Lo Franco 在 Pexels 提供。

介绍

在视频中计数物体是一个具有挑战性的计算机视觉任务。与静态图像中的物体计数不同，视频包含更多的复杂性，因为物体可以移动、被遮挡或在不同时间出现和消失，这使得计数过程更加复杂。

在本教程中，我们将演示如何使用物体检测和追踪技术计数沿树木移动的蚂蚁。我们将利用 Ultralytics 平台集成 YOLOv8 模型进行检测，使用 BoT-SORT 进行追踪，并通过计数线来计算蚂蚁的数量。

如果你没有付费的 Medium 账户，可以在这里免费阅读。

流程概述

在典型的视频物体计数流程中，每一帧会经历一系列的处理步骤：检测、追踪和计数。以下是每个步骤的简要概述：

**检测：**一个物体检测器在每一帧中识别并定位物体，生成围绕物体的边界框。
**追踪：**追踪器在每一帧之间跟踪这些物体，给每个物体分配唯一的 ID，确保它们只被计数一次。
**计数：**计数模块汇总这些信息，并将每个新物体加入，以提供准确的结果。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/020922d351e2affc484485704545edb2.png

图片由作者提供

连接物体检测器、追踪器和计数器可能需要大量编码。幸运的是，Ultralytics 库[1]通过提供一个便捷的流水线来简化这一过程，能够无缝地集成这些组件。

1. 使用 YOLOv8 检测物体

第一步是在每一帧中检测蚂蚁，并为它们生成边界框。在本教程中，我们将使用我提前训练的 YOLOv8 检测器来检测蚂蚁。我使用了 Grounding DINO [2]来标注数据，然后使用这些标注数据训练 YOLOv8 模型。如果你想了解更多关于训练 YOLO 模型的信息，可以参考我之前的文章训练 YOLOv5，因为概念是相似的。对于你的应用，你可以使用一个预训练模型或自己训练一个自定义模型。

要开始使用，我们需要用预训练的权重初始化检测器：

fromultralyticsimportYOLO# Initialize YOLOv8 model with pre-trained weightsmodel=YOLO("/path/to/your/yolo_model.pt")

接下来，我们将使用检测器在视频循环中的每一帧中检测蚂蚁，并将检测与追踪过程相结合。

2. 使用 BoT-SORT 追踪物体

由于蚂蚁在视频帧中出现多次，因此必须追踪每只蚂蚁并分配一个唯一的 ID，以确保每只蚂蚁只被计数一次。Ultralytics 支持 BoT-SORT [3]和 ByteTrack [4]进行追踪。

ByteTrack：提供了精度和速度之间的平衡，并且具有较低的计算复杂度。它可能无法像 BoT-SORT 那样处理遮挡和摄像头运动。
BoT-SORT：在追踪准确性和鲁棒性方面优于 ByteTrack，尤其是在有遮挡和摄像头运动的挑战性场景中。然而，它的代价是更高的计算复杂度和较低的帧率。

这些算法的选择取决于你应用的具体需求。

BoT-SORT 的工作原理：BoT-SORT 是一个多物体追踪器，意味着它可以同时追踪多个物体。它结合了运动和外观信息，并进行了摄像头运动补偿。物体的位置通过卡尔曼滤波器进行预测，现有轨迹的匹配基于物体的位置和视觉特征。这种方法使 BoT-SORT 即使在有遮挡或摄像头运动的情况下，也能保持准确的轨迹。

一个配置良好的追踪器可以弥补检测器的轻微故障。例如，如果物体检测器暂时未能检测到一只蚂蚁，追踪器可以通过运动和外观线索保持蚂蚁的轨迹。

检测器和追踪器在视频循环中的每一帧上都被迭代使用，以生成轨迹。这是将其集成到你的视频处理循环中的方法：

tracks=model.track(frame,persist=True,tracker=’botsort.yaml’,iou=0.2)

跟踪器配置在‘botsort.yaml’文件中定义。你可以调整这些参数以最好地适应你的需求。要将跟踪器更改为 ByteTrack，只需将‘bytetrack.yaml’传递给跟踪器参数。

确保交并比（IoU）值符合你的应用需求；IoU 阈值（用于非最大抑制）决定了检测结果必须多接近才被视为同一物体。persist=True参数告诉跟踪器当前帧是序列的一部分，并期望上一帧的轨迹在当前帧中持续存在。

3. 计数物体

现在我们已经检测并跟踪了蚂蚁，最后一步是统计在视频中穿过指定线的唯一蚂蚁。来自 Ultralytics 库的ObjectCounter类允许我们定义一个计数区域，该区域可以是线条或多边形。在本教程中，我们将使用一条简单的线作为计数区域。这种方法通过确保每只蚂蚁在穿过线时只被计数一次，减少了错误，即使由于跟踪错误它的唯一 ID 发生了变化。

首先，我们在视频循环之前初始化ObjectCounter：

counter=solutions.ObjectCounter(view_img=True,# Display the image during processingreg_pts=[(512,320),(512,1850)],# Region of interest pointsclasses_names=model.names,# Class names from the YOLO modeldraw_tracks=True,# Draw tracking lines for objectsline_thickness=2,# Thickness of the lines drawn)

在视频循环内部，ObjectCounter将计数由跟踪器生成的轨迹。线的端点作为reg_pts参数传递给计数器，格式为[(x1, y1), (x2, y2)]。当一只蚂蚁的边界框的中心点第一次穿过线时，它将根据其轨迹方向加入计数。向某一方向移动的物体被计为‘In’，而向另一方向移动的物体则计为‘Out’。

# Use the Object Counter to count new objectsframe=counter.start_counting(frame,tracks)

完整代码

现在我们已经看到了计数组件，让我们将代码与视频循环集成并保存结果视频。

# Install and import Required Libraries%pip install ultralyticsimportcv2fromultralyticsimportYOLO,solutions# Define paths:path_input_video='/path/to/your/input_video.mp4'path_output_video="/path/to/your/output_video.avi"path_model="/path/to/your/yolo_model.pt"# Initialize YOLOv8 Detection Modelmodel=YOLO(path_model)# Initialize Object Countercounter=solutions.ObjectCounter(view_img=True,# Display the image during processingreg_pts=[(512,320),(512,1850)],# Region of interest pointsclasses_names=model.names,# Class names from the YOLO modeldraw_tracks=True,# Draw tracking lines for objectsline_thickness=2,# Thickness of the lines drawn)# Open the Video Filecap=cv2.VideoCapture(path_input_video)assertcap.isOpened(),"Error reading video file"# Initialize the Video Writer to save resulted videovideo_writer=cv2.VideoWriter(path_output_video,cv2.VideoWriter_fourcc(*"mp4v"),30,(1080,1920))# itterate over video frames:frame_count=0whilecap.isOpened():success,frame=cap.read()ifnotsuccess:print("Video frame is empty or video processing has been successfully completed.")break# Perform object tracking on the current frametracks=model.track(frame,persist=True,tracker='botsort.yaml',iou=0.2)# Use the Object Counter to count objects in the frame and get the annotated imageframe=counter.start_counting(frame,tracks)# Write the annotated frame to the output videovideo_writer.write(frame)frame_count+=1# Release all Resources:cap.release()video_writer.release()cv2.destroyAllWindows()# Print counting results:print(f'In:{counter.in_counts}\nOut:{counter.out_counts}\nTotal:{counter.in_counts+counter.out_counts}')print(f'Saves output video to{path_output_video}')