news 2026/6/15 11:08:53

眼睛图像识别 瞳孔跟踪识别 瞳孔检测 眼球识别

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
眼睛图像识别 瞳孔跟踪识别 瞳孔检测 眼球识别

基于YOLOv8分割模型的人眼瞳孔追踪

项目文件说明
  1. config.yaml:YOLOv8语义分割模型所需的配置文件。
  2. eye_tracking_v2.ipynb:包含用于训练和评估YOLOv8语义分割模型的Python脚本。
  3. masks_to_polygon.py:将标签图像(即掩码)转换为YOLO格式(.txt文件)的Python脚本,用于训练模型。
  4. yolov8l-seg.pt:包含模型的所有权重。使用模型时需导入此语义分割模型。
  5. run\segment:文件夹包含YOLOv8语义分割模型的所有预测和验证结果。
  6. Prediction_eye_video.mp4:视频展示了语义分割模型的结果,即使用YOLOv8分割模型在视频中追踪人眼瞳孔。
背景介绍

图像分割(也称为对象分割)是为图片中的每个像素值分配类别的过程。人脸语义分割可以帮助计算机视觉系统完成年龄识别、性别和种族预测、表情识别等任务。这些任务通过语义分割实现,它将面部区域划分为关键特征,包括嘴巴、下巴、鼻子、眼睛和头发。

仅通过图像中的类别,我们可以使用目标检测模型构建边界框。然而,由于边界框是方形或矩形的,它无法揭示对象的形状。图像分割为每个对象提供逐像素的掩码,有助于理解对象的细节。

语义分割:语义分割是为图像中的每个像素分配标签的过程。这与分类形成鲜明对比,分类是为整个图片分配单一标签。语义分割将同一类别的多个对象视为单个实体。

评估指标:交并比(IoU方法):IoU指标将目标掩码和预测掩码中包含的总像素数除以它们之间共享的像素数。

方法

本研究使用的数据集包含从不同角度拍摄的IR相机人眼瞳孔图像。数据集由15个不同人物的瞳孔图像组成。

我们使用计算机视觉标注工具(CVAT)创建标注图像,这些图像显示在CVAT用户控制台中,用于训练YOLOv8语义分割模型。CVAT是一个免费、开源、基于网络的图像和视频标注工具,用于为计算机视觉算法标注数据。CVAT最初由英特尔开发,专为专业数据标注团队设计,用户界面针对计算机视觉标注任务进行了优化。

在创建训练输入数据后,我训练了YOLOv8模型100个epoch,并获得了0.995的优异平均精度。下图展示了预测结果。

结果

YOLOv8目标分割模型经过训练并实现,能够在视频中实时检测和追踪人眼瞳孔,置信度为0.80时F1得分为0.98。

以下是模型的结果:

下图展示了分割模型的验证结果。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 10:55:52

MLP优化器选型实战:SGD、RMSProp、Adam与Nadam深度对比

1. 项目概述:这不是调参,是给神经网络装上智能油门和刹车“Enhancing Multi-Layer Perceptron Performance: Demystifying Optimizers”——光看标题,你可能以为这又是一篇堆满希腊字母和收敛证明的理论课。但作为在工业界用MLP跑过三年信用评…

作者头像 李华
网站建设 2026/6/15 10:45:05

AMD平台内存升级避坑指南:为什么你的微星B550M插三根条子会开不了机?

AMD平台内存兼容性深度解析:从微星B550M实战看Ryzen内存控制器设计最近在技术论坛上看到不少玩家反映,给微星B550M主板插上三根内存条后出现各种奇怪问题——从无法开机到随机蓝屏,甚至BIOS损坏报错。这让我想起自己去年组装Ryzen工作站时踩过…

作者头像 李华