Thế lưỡng nam của người tù- Bài toán cơ bản nhất trong lỹ thuyết trò chơi

Lí thuyết trò chơi nghiên cứu hành vi của con người trong các tình huống mà trong đó các quyết định hành động của họ có tính chất phụ thuộc lẫn nhau. Khi ra quyết định, mỗi người đều phải tính đến phản ứng của những người khác đối với hành động của mình.

Do tính phụ thuộc lẫn nhau là đặc trưng của thị trường độc quyền nhóm, nên lí thuyết trò chơi rất hữu ích cho việc giải thích hành vi của các doanh nghiệp trên thị trường này.

Nội dung chính

Thế tiến thoái lưỡng nan của người tù

Thế lưỡng nan của người tù là một bài toán điển hình trong lí thuyết trò chơi. Có thể nói đây là bài toán kinh điển dẫn chúng ta đến và tìm hiểu về lý thuyết trò chơi. Bài toán mô tả sự tiến thoái lưỡng nan của những người tham gia vào một trò chơi phụ thuộc lẫn nhau trong việc lựa chọn giữa hợp tác (cấu kết) hay bất hợp tác.

Mô tả bài toán

Ta có thể mô tả bài toán này như sau:

Giả sử hai phạm nhân A và B vừa bị cảnh sát bắt. Người ta đã có đủ chứng cứ để kết tội mỗi người 3 năm tù do phạm phải tội ăn cắp xe máy.

Tuy nhiên, cảnh sát điều tra còn nghi ngờ rằng, hai người này đã cùng nhau phạm một tội khác nghiêm trọng hơn (ví dụ cướp các tiệm vàng) song chưa có các chứng cứ rõ ràng để kết tội này cho họ.

Người ta giam giữ những phạm nhân này trong các phòng giam riêng biệt đủ để họ không thể trao đổi thông tin được cho nhau. Giả sử những người có trách nhiệm thỏa thuận với từng phạm nhân như sau:

“Vì tội ăn cắp xe máy, anh có thể bị ngồi tù 3 năm. Tuy nhiên, nếu anh nhận tội cướp các tiệm vàng và tố cáo đồng phạm, anh sẽ chỉ bị ngồi tù tổng cộng là 1 năm. Đồng phạm của anh sẽ bị ngồi tù tổng cộng là 20 năm”.

“Nhưng nếu cả hai người đều nhận tội, đương nhiên sự tố cáo của anh đối với đồng phạm trở nên ít giá trị hơn và mỗi người sẽ nhận một bản án tổng hợp là 9 năm tù”.

Nếu hai người tù A và B này đều là những kẻ ích kỉ, chỉ quan tâm đến việc tối thiểu hóa số năm tù của mình và không quan tâm đến số phận của đồng bọn thì kết cục, họ sẽ hành động như thế nào?

Trong trường hợp này, mỗi người tù có hai chiến lược hành động: thú tội hoặc im lặng không thú tội. Số năm tù mà mỗi người phải nhận phụ thuộc vào chiến lược mà anh ta lựa chọn cũng như chiến lược mà người bạn tù của anh ta chọn. Các phương án có thể và kết quả của chúng được thể hiện ở bảng 1.

Bảng 1: Ma trận kết quả trong thế tiến thoái lưỡng nan của người tù

Hãy xem xét xem A sẽ ra quyết định như thế nào?

Là một người khôn ngoan, anh ta sẽ phải tự hỏi ” Nếu B thú tội, thì mình sẽ phải hành động như thế nào để tối thiểu hóa được số năm tù mà mình có thể phải nhận?”. Trong trường hợp này, A thấy rằng hoặc là mình sẽ bị 9 năm tù, nếu chọn chiến lược thú tội, hoặc sẽ bị 20 năm tù nếu chọn chiến lược không thú tội.

Chiến lược tốt nhất của A lúc này là thú tội. Tuy nhiên, do không trao đổi được thông tin cho nhau, A không biết được B sẽ hành động như thế nào. Vì thế, anh ta phải cân nhắc tiếp “Nếu B không thú tội, thì chiến lược hành động tốt nhất của mình là gì?”.

Trong trường hợp này, A hoặc sẽ bị 1 năm tù nếu chọn chiến lược thú tội hoặc sẽ bị 3 năm tù nếu chọn chiến lược không thú tội.

Động cơ ích kỉ sẽ cho thấy chiến lược thú tội là chiến lược tốt nhất mà A sẽ lựa chọn. Anh ta chỉ cần tối thiểu hóa số năm tù của mình, bất chấp điều đó có thể đẩy B vào tình huống bị giam giữ 20 năm trong tù.

Như vậy, trong bài toán trò chơi này, bất chấp B hành động như thế nào, chiến lược hành động tốt nhất của A là thú tội. Một chiến lược duy nhất mà A lựa chọn như vậy, không phụ thuộc vào chiến lược hành động của đối thủ, được gọi là chiến lược trội.

Phân tích tương tự cũng cho chúng ta thấy rằng, chiến lược trội của B cũng là thú tội. Bất chấp A hành động như thế nào, đối với B thú tội vẫn là hướng hành động tốt nhất để giảm thiểu số năm phải ngồi tù của mình.

Kết quả là cả A lẫn B đều thú tội, do đó, mỗi người phải nhận 9 năm tù. Cần thấy rằng đây không phải là một kết cục tốt nhất đối với cả A và B. Nếu cả hai đều không thú tội, mỗi người chỉ phải nhận 3 năm tù vì tội ăn cắp xe máy.

Kết cục này không xảy ra khi mỗi người đều hành động một cách riêng rẽ, nhằm theo đuổi lợi ích riêng của mình. Không cấu kết hay hợp tác được với nhau, họ không đi đến được một kết cục có lợi nhất cho cả hai người.

Nếu hai người này hợp tác với nhau bằng cách thỏa thuận trước rằng, cả hai sẽ im lặng không thú nhận tội cướp tiệm vàng, và nếu cả hai đều trung thành với thỏa thuận này, mỗi người sẽ chỉ bị 3 năm tù.

Tuy nhiên, khi mỗi người chỉ hành động trên cơ sở lợi ích cá nhân, thỏa thuận chung nói trên sẽ không bền vững. Khi biết trước đồng phạm của mình không thú tội, mỗi người tù vẫn thấy có lợi khi chọn chiến lược thú tội (mỗi người muốn mình chỉ bị ngồi tù 1 năm).

Còn khi nghi ngờ rằng đồng phạm của mình sẽ có thể không trung thành với những điều đã cam kết, mỗi người càng có động cơ để thú tội. Điều này cho thấy, trong trò chơi này, việc duy trì các thỏa thuận luôn gặp khó khăn.

Sự hợp tác hay cấu kết có thể đem lại lợi ích tổng thể tốt nhất cho cả hai người, song nó chỉ tồn tại được trên cơ sở sự tin tưởng lẫn nhau giữa các người tù và sự hành động của họ trên cơ sở lợi ích chung. Khi theo đuổi lợi ích cá nhân, nguy cơ vi phạm các thỏa thuận hợp tác luôn là hiện thực.