常用的测试工具包括:iperf3(精确测吞吐,支持多流)、speedtest-cli(对比公网测速)、mtr或
使用ping获取RTT均值、最大/最小值和丢包率;用mtr连续分析路径每跳的丢包和延迟分布。要关注延迟的百分位(p50/p95/p99),不是仅看平均值;抖动(jitter)可通过连续RTT差值计算。对于1Gbps链路,短时的延迟突增或丢包即可能影响高并发传输,建议采样至少几分钟并在不同时段(高峰/非高峰)比较。
保证服务器网卡、交换机和客户端都支持1Gbps并开启全双工。用iperf3做测量时应:使用多并发流(-P),延长测试时间(-t 60)、调整窗口大小(-w),必要时测试TCP与UDP两种模式。注意CPU不是瓶颈(监测CPU占用、中断数),关闭或调整网卡卸载(GSO/GRO/TSO)和防火墙影响。此外,避免Wi‑Fi或虚拟化宿主资源争用带来的误差,最好在有线直连或同一机房内多点测试。
长期监控推荐使用Prometheus + Grafana或Netdata、Zabbix。关键监控指标包括:吞吐(入/出带宽)、延迟(p50/p95/p99)、丢包率、TCP重传率、连接数、CPU/内存/磁盘IO、网卡错误和中断、队列长度。设置告警时用百分位阈值(如p95延迟>100ms或丢包>0.5%持续5分钟)比单次峰值更科学。配合自动化脚本定期跑iperf3并把结果入库,可以把主动测得数据与被动监控结合评估。
评估节点表现要综合看:稳定吞吐(持续可达的带宽)、延迟与抖动的百分位(影响体验)、丢包/重传率、可用性(在线时长)、资源占用与成本比。具体做法:1)用多次长时间iperf3测出平均/中位/峰值带宽并计算方差;2)用mtr/ping统计p95和p99延迟与丢包;3)结合Prometheus历史数据看高峰期表现;4)检测CPU或网卡是否成为瓶颈(若网络饱和而CPU高,可能需更强实例)。最后把这些指标映射到业务需求(例如实时语音对延迟和丢包敏感,文件传输更看吞吐)来决定节点是否合格。