日期:2014-05-16  浏览次数:20900 次

linux 内核tcp拥塞处理(一)
这次我们来分析tcp的拥塞控制,我们要知道协议栈都是很保守的,也就是说只要有一个段被判断丢失,它就会认为发生了拥塞.而现在还有另一种,也就是路由器来通知我们发生了拥塞,这里ip头还会有一个ECN的位(准确的说是两位),来表示已经发送拥塞,不过这里要注意首先收到ECN的是接受方,可是真正需要被通知的却是发送方,因此当接受方收到ECN之后,用下一个ack来通知发送方有拥塞发生了,然后发送方才会做出响应.

可以看到这里会有个问题的,那就是我们如何来之到对端是否支持ECN,在内核中一般都是在握手的时候就会确定对端是否支持ECN.这里可以看到我们ip头里面必须用到2位,因为这里我们会有3个状态:

第一个发送端不支持ECN,第二个状态发送端支持ECN,第三个状态,发生了拥塞.

可以看到我们在握手的时候双方通过交换ECN的信息,从而能得到这条连接是否支持ECN.

下面这段在tcp_transmit_skb中的代码片断就是如何通知对端本地支持ecn的代码。可以看到代码很简单,就是判断是否是一个syn包,如果是的话就进入ecn的握手处理。


if (likely((tcb->flags & TCPCB_FLAG_SYN) == 0))
		TCP_ECN_send(sk, skb, tcp_header_size);


而在TCP_ECN_send中最终会通过下面这两个宏来设置是否支持ecn。可以看到都是通过设置tos。


//支持
#define	INET_ECN_xmit(sk) do { inet_sk(sk)->tos |= INET_ECN_ECT_0; } while (0)

//不支持
#define	INET_ECN_dontxmit(sk) \
	do { inet_sk(sk)->tos &= ~INET_ECN_MASK; } while (0)



内核中是使用ip头的TOS域的剩余2两位来表示ECN的.下面就是ECN的三种状态:

enum {

//发送端不支持ecn
	INET_ECN_NOT_ECT = 0,
//下面这个貌似没有用到,不知道有什么意义。
	INET_ECN_ECT_1 = 1,
//发送端支持ecn
	INET_ECN_ECT_0 = 2,
//发生了拥塞
	INET_ECN_CE = 3,

//掩码
	INET_ECN_MASK = 3,
};



而这里通过ecn来设置拥塞是通过IP_ECN_set_ce方法来做的,这个设置是在ip层(是在qos的enqueue也就是出队列方法)来做的,我们先来看这个方法。这个方法就是通过ip头的tos域来判断是否为INET_ECN_CE,如果是这个则说明发生了拥塞(路由器通知我们),此时我们需要设置这个ip头的tos域,然后发送给对端,从而通知对端。


static inline int IP_ECN_set_ce(struct iphdr *iph)
{
	u32 check = (__force u32)iph->check;
	u32 ecn = (iph->tos + 1) & INET_ECN_MASK;

	/*
	 * After the last operation we have (in binary):
	 * INET_ECN_NOT_ECT => 01
	 * INET_ECN_ECT_1   => 10
	 * INET_ECN_ECT_0   => 11
	 * INET_ECN_CE      => 00
	 */
//可以看到如果没有发生拥塞或者说不支持ecn的话直接返回。
	if (!(ecn & 2))
		return !ecn;

	/*
	 * The following gives us:
	 * INET_ECN_ECT_1 => check += htons(0xFFFD)
	 * INET_ECN_ECT_0 => check += htons(0xFFFE)
	 */
///然后开始计算对应的域。
	check += (__force u16)htons(0xFFFB) + (__force u16)htons(ecn);

	iph->check = (__force __sum16)(check + (check>=0xFFFF));

//设置tos为 INET_ECN_CE从而通知对端。
	iph->tos |= INET_ECN_CE;
	return 1;
}


然后我们来看接受端如何来处理ECN通知的拥塞,这里检测拥塞(ECN通知的)是通过TCP_ECN_check_ce这个方法来做的。

static inline void TCP_ECN_check_ce(struct tcp_sock *tp, struct sk_buff *skb)
{
	if (tp->ecn_flags & TCP_ECN_OK) {
//如果发生了拥塞,则设置flags。
		if (INET_ECN_is_ce(TCP_SKB_CB(skb)->flags))
			tp->ecn_flags |= TCP_ECN_DEMAND_CWR;
		/* Funny extension: if ECT is not set on a segment,
		 * it is surely retransmit. It is not in ECN RFC,
		 * but Linux follows this rule. */
		else if (INET_ECN_is_not_ect((TCP_SKB_CB(skb)->flags)))
			tcp_enter_quickack_mode((struct sock *)tp);
	}
}



接下来来看拥塞状态机,也就是发送的状态机,在linux内核中,发送端的状态分为下面5种,而这个状态是保存在inet_connection_sock的icsk_ca_state域中的。

enum tcp_ca_state
{
	TCP_CA_Open = 0,
#define TCPF_CA_Open	(1<<TCP_CA_Open)
	TCP_CA_Disorder = 1,
#define TCPF_CA_Disorder (1<<TCP_CA_Disorder)
	TCP_CA_CWR = 2,
#define TCPF_CA_CWR	(1<<TCP_CA_CWR)
	TCP_CA_Recovery = 3,
#define TCPF_CA_Recovery (1<<TCP_CA_Recovery)
	TCP_CA_Loss = 4
#define TCPF_CA_Loss	(1<<TCP_CA_Loss)
};


然后就简要的描述下这4个状态。

1 TCP_CA_Open

这个状态是也就是初始状态,我们可以看到在tcp_create_openreq_child(这个函数的意思可以看我前面的blog)中,当我们new一个新的socket之后就会设置这个socket的状态为TCP_CA_Open。这个也可以说是fast path。

2 TCP_CA_Disorder

当发送者检测到重复的ack或者sack就进入这个状态。在这个状态,拥塞窗口不会被调整,但是这个状态下的话,每一次新的输入数据包都会触发一个新的端的传输。

3 TCP_CA_CWR

这个状态叫做 (Congestion Window Reduced),顾名思义,也就是当拥塞窗口减小的时候会进入这个状态。比如当发送者收到一个ECN,此时就需要减小窗口。这个状态能够被Recovery or Loss 所打断。当接收到一个拥塞提醒的时候,发送者是每接收到一个ack,就减小拥塞窗口一个段,直到窗口大小减半。因此可以这么说当发送者正在减小窗口并且没有任何重传段的时候,就会处于CWR状态。

4 TCP_CA_Recovery

当足够数量的(一般是3个)的连续的重复ack到达发送端,则发送端立即重传第一个没有被ac