FPGA与以太网：从MII接口到UDP通信的实战解析-平芜编程栈

1. 以太网通信与FPGA开发入门

第一次接触FPGA以太网开发时，我被各种专业术语搞得晕头转向。MII、PHY、MAC、UDP这些名词像天书一样，直到真正动手做了一个数据采集项目才豁然开朗。以太网通信看似复杂，其实拆解开来就是硬件接口+协议栈+数据处理的组合拳。

FPGA实现以太网通信最大的优势在于灵活可控。与现成的以太网模块不同，我们可以自定义每个数据包的处理流程。比如在工业数据采集中，我经常需要给原始传感器数据加上时间戳和校验码，用FPGA可以在MAC层就完成这些操作，效率比软件处理高得多。

典型的开发流程是这样的：先选型PHY芯片和接口类型（MII/RMII），接着用HDL代码实现MAC层逻辑，最后构建UDP/IP协议栈。新手建议从100Mbps的MII接口开始，它的时序要求比千兆网宽松许多。我用Xilinx Artix-7做过实测，200行左右的Verilog代码就能实现基础帧收发。

2. 硬件设计：PHY芯片与接口实战

2.1 PHY芯片选型要点

市面上常见的PHY芯片如DP83848、LAN8720A我都用过，选型时要重点关注三个参数：

支持速率：10/100Mbps的芯片足够大多数应用，千兆PHY会大幅增加布线难度
接口类型：MII需要16根信号线，RMII只需7根但时序更严格
封装尺寸：QFN封装的LAN8720A只有4x4mm，适合空间受限的场景

最近帮客户调试时发现个坑：某些PHY的电压是1.8V，而FPGA Bank是3.3V，必须加电平转换电路。推荐使用TI的DP83848，它的3.3V兼容性最好，原理图设计也简单。

2.2 MII接口信号详解

MII接口的16根线可以分成三组：

发送通道：TXD[3:0]、TX_CLK、TX_EN
接收通道：RXD[3:0]、RX_CLK、RX_DV
管理接口：MDIO（数据）、MDC（时钟）

调试时最容易出错的是时钟相位。记得第一次做硬件测试，发现FPGA发出的数据PHY始终不认，最后用示波器抓波形才发现TX_CLK应该用下降沿采样。这里分享个技巧：在Verilog里用ODDR原语生成时钟信号，比直接用PLL稳定得多。

// Xilinx ODDR时钟输出示例 ODDR #( .DDR_CLK_EDGE("OPPOSITE_EDGE"), .INIT(1'b0), .SRTYPE("SYNC") ) ODDR_txclk ( .Q(TX_CLK), .C(tx_clk_90deg), .CE(1'b1), .D1(1'b1), .D2(1'b0), .R(1'b0), .S(1'b0) );

3. 协议栈实现：从MAC帧到UDP包

3.1 以太网帧组装技巧

一个标准的以太网帧包含：

前导码（7字节0x55 + 1字节0xD5）
目的MAC（6字节）
源MAC（6字节）
类型/长度字段（2字节）
载荷数据（46-1500字节）
FCS校验（4字节）

在FPGA中实现时，建议用状态机控制组装过程。下面这个状态机我用了不下十次，稳得很：

enum logic [2:0] { IDLE, SEND_PREAMBLE, SEND_HEADER, SEND_DATA, SEND_FCS } tx_state;

有个细节要注意：类型字段0x0800表示IP协议，但实际发送时要先传输高位字节。我曾经因为字节序问题调试了一整天，后来养成习惯：所有多字节字段都用{byte3, byte2, byte1, byte0}的方式定义。

3.2 IP与UDP协议实现

UDP协议栈的实现可以分三步走：

IP头部：重点处理版本号、总长度、校验和字段
UDP头部：需要计算伪头部校验和
数据载荷：注意分片不超过MTU限制

这里有个提升效率的技巧：预先计算好IP头部的固定部分。比如下面这个模板，每次只需更新长度和校验和：

localparam IP_HEADER_TEMPLATE = { 4'h4, // IPv4 4'h5, // 5个32位字 8'h00, // DSCP 16'h0000, // 总长度(动态填充) 16'h0000, // 标识符 16'h4000, // 不分片 8'h40, // TTL 8'h11, // UDP协议 16'h0000, // 头部校验和 {8'd192, 8'd168, 8'd1, 8'd2}, // 源IP {8'd192, 8'd168, 8'd1, 8'd1} // 目的IP };

4. 调试与优化实战经验

4.1 常见问题排查指南

遇到通信失败时，建议按这个顺序检查：

物理层：用示波器测量TX_CLK和RX_CLK是否正常
链路层：确认PHY的自动协商是否完成（读取寄存器0x01）
协议层：抓取原始以太网帧分析错误点

我常用的调试组合拳是：

Wireshark抓包看上层协议
ChipScope抓取FPGA内部信号
用Python脚本发送测试UDP包

# UDP测试脚本示例 import socket sock = socket.socket(socket.AF_INET, socket.SOCK_DGRAM) sock.sendto(b'\x11\x22\x33\x44', ('192.168.1.2', 1234))

4.2 性能优化方案

在视频传输项目中，我们通过三项优化将吞吐量提升了3倍：

双缓冲设计：当一帧数据在发送时，下一帧已经准备好
校验和卸载：用DSP48E1硬核计算IP校验和
时钟域优化：对RX_CLK采用异步FIFO处理

实测Artix-7在100Mbps速率下，优化前CPU占用率70%，优化后降到20%以下。关键代码是这段流水线处理：

always_ff @(posedge clk) begin // 第一拍：提取以太网头部 if (rx_valid) eth_header <= {eth_header[47:0], rx_data}; // 第二拍：解析IP协议类型 if (eth_header[15:0] == 16'h0800) is_ip_pkt <= 1'b1; // 第三拍：校验和计算 if (is_ip_pkt) checksum <= checksum + ip_header[15:0]; end

最后提醒新手朋友：一定要先调通环回测试（把FPGA的TX直连到RX），再连接真实网络设备。我见过太多人一开始就接路由器，结果被ARP、ICMP这些额外协议搞得焦头烂额。先确保基础帧收发正常，再逐步扩展协议栈功能，这才是稳妥的开发路线。