死锁

概述

死锁：各个进程相互等待对方资源，导致各个进程阻塞，无法向前推荐的现象。
饥饿：由于长期得不到想要的资源，某进程无法向前推进的现象。比如：短进程优先算法会导致长进程等不到处理机，导致长进程饥饿。
死循环：某进程执行过程中一直跳不出来某个循环现象。有时是因为程序逻辑bug导致的，有时是程序员故意设计的。

死锁产生的必要条件

产生死锁必须同时满足一下四个条件，只要其中任意一条件不成立，死锁就会发生。

互斥条件：只有对必须使用的资源争抢才会导致死锁（如哲学家筷子、打印机设备）。向内存，扬声器这样可以同时让多个进程使用的资源是不会导致死锁的。（因为进程不用阻塞等待）
不剥夺条件：进程所获得的资源在未使用之前，不能由其他进程强行夺走，只能主动释放。
请求和保持条件：进程已经保持了至少一个资源，但是又提出了新的要求，而该资源又被其他进程占有，此时请求进程被阻塞，但又对自己已有的资源保持不放。
循环等待条件：存在同一种资源的循环等待链，链中的每一个进程已获得的资源同时被下一个进程所请求。

注意：发生死锁事一定有循环等待，但是发生循环等待时未必死锁（循环等待事死锁产生的必要不充分条件）如果同类资源有循环等待，也未必发生死锁。但系统中每类资源都只有一个，那循环等待就是死锁的充分必要条件了。

总之：对不可剥夺资源的不合理分配，就可能导致死锁。

死锁的处理策略

预防死锁：破坏死锁产生的四个必要条件的一个或几个。
避免死锁：用某种方法防止死锁进入不安全状态，从而避免死锁。
死锁的检测和解除：允许死锁的发生，不过操作系统会负责检测出死锁的发生，然后采取措施解除死锁。

预防死锁

破坏互斥条件

互斥条件：只有对必须互斥使用的资源的争抢才会导致死锁。

如果只能互斥使用的资源改造为允许共享使用，则系统不会进入死锁状态。操作系统可以采用SPOOLing技术把独占设备在逻辑上改造成共享设备。比如：用SPOOLing技术将打印机改造为共享设备。

alt text

该策略的缺点：并不是所有的资源都可以改造成可共享使用的资源。并且为了系统安全，很多地方还必须保护这种互斥性。因此，很多时候都无法破坏互斥条件。

破坏不剥夺条件

不剥夺条件：进程所获得的资源在未使用之前，不能由其他进程强行夺走，只能主动释放。

方案一：当某个进程请求新的资源得不到满足时，它必须立即释放保持的左右资源，待以后需要时再重新申请。也就是说，即使某些资源尚未用完，也需要主动释放，从而破坏了不可剥夺条件。
方案二：当某个进程需要的资源被其他进程占有的时候，可以由操作系统协助，将想要的资源强行剥夺。这种方式一般需要考虑各进程的优先级（比如将低优先级进程的资源强行剥夺给高优先级的进程使用）。

该策略的缺点：

实现起来比较复杂。
释放已获得的资源可能会造成前一阶段工作的失效。因此这种方法一般只适用于易保存和恢复状态的资源。
反复的申请和释放资源会增加系统工作开销，降低系统吞吐量。
若采用方案一：就意味着进程只有暂时得不到资源，之前获得的那些资源就都需要放弃，以后重新申请。如果一直发生这样的情况，就会导致进程饥饿。

破坏请求和保持条件

请求和保持条件：进程已经保持了至少一个资源，但是又提出了新的要求，而该资源又被其他进程占有，此时请求进程被阻塞，但又对自己已有的资源保持不放。

可采用静态分配的方法，即进程在运行前一次申请完它需要的全部资源，在他资源尚未满足前，不让他投入运行。一旦投入运行后，这些资源就一直归他所有，该进程就不会再请求别的任何资源了。

该策略的缺点：

有些资源可能只需要用很短的时间，因此如果进程的整个运行期间都一直保持着所有资源，就会造成严重的资源浪费，资源利用率极低。另外，该策略也有可能导致某些进程饥饿。

alt text

破坏循环等待条件

循环等待条件：存在同一种资源的循环等待链，链中的每一个进程已获得的资源同时被下一个进程所请求。

可采用顺序资源分配法

方法：首先给系统中的资源编号，规定每个进程必须按编号递增的顺序请求资源，同类资源（即编号相同的资源）一次申请完。
原理分析：一个进程只有已占有小编号的资源时，才有资格申请更大编号的资源。按此规则，已持有大编号资源的进程不可能逆向地回来申请小编号的资源，从而就不会产生循环等待的现象。

该策略的缺点：

不方便增加新的设备，因为可能需要重新分配所有的编号。
进程实际使用的资源的顺序可能和编号循序不一致，会导致进程资源浪费。
必须按规定次序申请资源，用户编程麻烦。

避免死锁

安全序列：指如果系统中按照这种序列分配资源，则每个进程都能顺利完成。只要能找出一个安全序列，系统就是安全状态。当然，安全序列可能有多个。

不安全状态：分配了系统资源之后，系统找不任何一个安全序列。这就意味之后可能所有的进程都无法顺利进行下去。当然，如果有一些进程提前归还了资源，那系统也有可能重新回到安全状态，不过我们需要再分配资源的时候就考虑到最坏的情况。

如果系统处于安全状态，系统一定不会发生死锁。
如果系统处于不安全状态，系统可能会发生死锁。
发生死锁时，系统一定处于不安全状态。

因此可以在资源分配之前预先判断这次分配是否会导致系统进入不安全状态，以此决定是否答应资源分配请求。这也是银行家算法的核心思想。

安全性算法

安全性算法步骤：
检查当前的剩余可用资源是否能满足某个进程的最大需求，如果可以，就把该进程加入安全序列，并把该进程持有的资源全部回收。不断重复上述过程，看最终是否能让所有进程都加入安全序列。

举例：假设此时资源总数(10, 5, 7)，剩余资源总数是(3, 3, 2)时系统是否处于安全状态？

进程	最大需求	已分配	最多还需要
P0	(7, 5, 3)	(0, 1, 0)	(7, 4, 3)
P1	(3, 2, 2)	(2, 0, 0)	(1, 2, 2)
P2	(9, 0, 2)	(3, 0, 2)	(6, 0, 0)
P3	(2, 2, 2)	(2, 1, 1)	(0, 1, 1)
P4	(4, 3, 3)	(0, 0, 2)	(4, 3, 1)

我们尝试找出一个安全序列：

剩余资源总数是(3, 3, 2)。我们可以发现P0，P2和P4进程都不能分配，P1和P3进程可以分配，选择先分配P1进程资源并将P1进程加入安全队列。P1进程运行结束之后，归还所用资源。
剩余资源总数是(5, 3, 2)。把资源分配给P3进程并将P3进程加入安全队列。P3进程运行结束之后，归还所用资源。
剩余资源总数是(7, 5, 4)。再把资源分配给P0进程并将P0进程加入安全队列。P0进程运行结束之后，归还所用资源。
剩余资源总数是(7, 5, 4)。再把资源分配给P2进程并将P2进程加入安全队列。P2进程运行结束之后，归还所用资源。
剩余资源总数是(10, 5, 6)。再把资源分配给P4进程并将P4进程加入安全队列。P4进程运行结束之后，归还所用资源。

安全序列为：{P1, P3, P0, P2, P4}

举例：假设此时资源总数(10, 5, 7)，剩余资源总数是(3, 3, 2)时系统是否处于安全状态？

进程	最大需求	已分配	最多还需要
P0	(8, 5, 3)	(0, 1, 0)	(8, 4, 3)
P1	(3, 2, 2)	(2, 0, 0)	(1, 2, 2)
P2	(9, 0, 2)	(3, 0, 2)	(6, 0, 0)
P3	(2, 2, 2)	(2, 1, 1)	(0, 1, 1)
P4	(4, 3, 3)	(0, 0, 2)	(4, 3, 1)

我们尝试找出一个安全序列：

剩余资源总数是(3, 3, 2)。我们可以发现P0，P2和P4进程都不能分配，P1和P3进程可以分配，选择先分配P1进程资源并将P1进程加入安全队列。P1进程运行结束之后，归还所用资源。
剩余资源总数是(5, 3, 2)。把资源分配给P3进程并将P3进程加入安全队列。P3进程运行结束之后，归还所用资源。
剩余资源总数是(7, 4, 3)。我们发现都不满足进程P0，P2，P4的要求。所以无法找到任何一个安全序列，说明此时系统处于不安全状态，有可能发生死锁。

银行家算法

银行家算法是荷兰学者 Dijkstra 为银行系统设计的，以确保银行在发放现金贷款时，不会发生不能满足所有客户需要的情况。后来该算法被用在操作系统中，用于避免死锁。

核心思想：在进程提出资源申请时，先预判此次分配是否会导致系统进入不安全状态。如果会进入不安全状态，就暂时不答应这次请求，让该进程先阻塞等待。

数据结构：

长度为 m 的一维数组 Available 表示还有多少可用资源。
n*m 矩阵 Max 表示各进程对资源的最大需求数。
n*m 矩阵 Allocation 表示已经给各进程分配了多少资源。
Max – Allocation = Need 矩阵表示各进程最多还需要多少资源。
用长度为 m 的一位数组 Request 表示进程此次申请的各种资源数。

alt text {: height=75%, width=75%}

银行家算法步骤：

检查此次申请是否超过了之前声明的最大需求数：是否Request[i] <= Need[i, j]。
检查此时系统剩余的可用资源是否还能满足这次请求：是否Request[i] <= Available[i, j]。
试探着分配，更改各数据结构：
- Available = Available - Request[i]
- Allocation[i, j] = Allocation[i, j] + Request[i]
- Need[i, j] = Need[i, j] - Request[i]
用安全性算法检查此次分配是否会导致系统进入不安全状态。若安全，则正式分配，否则，恢复响应数据，让进程阻塞等待。

检测和消除

如果系统中既不采取预防死锁的措施，也不采取避免死锁的措施，系统就很可能发生死锁。在这种情况下，系统应当提供两个算法：

死锁检测算法：用于检测系统状态，以确定系统中是否发生了死锁。
死锁解除算法：当认定系统中已经发生了死锁，利用该算法可将系统从死锁状态中解脱出来。

死锁的检测

为了能对系统是否已发生了死锁进行检测，必须：

用某种数据结构来保存资源的请求和分配信息；
提供一种算法，利用上述信息来检测系统是否已进入死锁状态。

alt text

检测死锁算法：

在资源分配图中，找出既不阻塞又不是孤点的进程 Pi（即找出一条有向边与它相连，且该有向边对应资源的申请数量小于等于系统中已有空闲资源数量。如下图中，R1没有空闲资源，R2有一个空闲资源。若所有的连接该进程的边均满足上述条件，则这个进程能继续运行直至完成，然后释放它所占有的所有资源）。消去它所有的请求边和分配变，使之称为孤立的结点。在下图中，P1 是满足这一条件的进程结点，于是将P1的所有边消去。
进程 Pi 所释放的资源，可以唤醒某些因等待这些资源而阻塞的进程，原来的阻塞进程可能变为非阻塞进程。在下图中，P2 就满足这样的条件。根据 1）中的方法进行一系列简化后，若能消去途中所有的边，则称该图是可完全简化的。

死锁定理：如果某时刻系统资源的分配图是不可简化的，那么此时系统死锁。（并不是系统中所有的进程都是死锁状态，用死锁检测算法化简资源分配图后，还连这边的那些进程就是死锁进程）。

死锁的消除

一旦死锁发生，就应该立即解除死锁。

解除死锁的主要方法有：

资源剥夺法：挂起某些死锁进程，并抢占他的资源，将这些资源分配给其他死锁的进程。但是应放置被挂起的进程长时间得不到资源而饥饿。
撤销进程法（终止进程法）：强制撤销部分，甚至全部是死锁进程，并剥夺这些进程的资源。这种方式的优点是实现简单，但付出的代价可能会很大。因为有些进程可能已经运行了很长时间，已经接近结束了。
进程回退法：让一个或多个死锁进程回退到足以避免死锁的地步。这就是要求记录进程的历史信息，设置原点。

可以考虑进程优先级，进程以执行时间，还有多久完成，进程以使用了多少资源，进程是交互式的还是批处理式等方法选择进程。