抽奖系统

"""
抽奖系统：随机抽取，黑名单、中奖概率
"""

import random
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 读取数据
df = pd.read_csv('data.csv')

# 设置随机种子
random.seed(42)

# 设置中奖概率
probability = 0.5

# 设置黑名单
blacklist = ['Alice', 'Bob', 'Charlie']

# 设置抽奖次数
num_draws = 1000

# 初始化结果列表
results = []

# 进行抽奖
for _ in range(num_draws):
    # 随机选择一个名字
    name = random.choice(df['Name'])
    
    # 如果名字在黑名单中，跳过
    if name in blacklist:
        continue
    
    # 检查抽奖结果
    if random.random() < probability:
        results.append(name)

# 将结果写入CSV文件
df_results = pd.DataFrame({'Name': results})
df_results.to_csv('results.csv', index=False)

# 绘制抽奖结果图表
plt.hist(results, bins=len(df['Name']), edgecolor='black')
plt.xlabel('Name')
plt.ylabel('Frequency')
plt.title('Lottery Results')
plt.show()

# 打印抽奖结果
print(results)

# 打印中奖概率
print("中奖概率:", len(results) / num_draws)

# 打印中奖人数
print("中奖人数:", len(results))

# 打印总抽奖次数
print("总抽奖次数:", num_draws)

# 打印黑名单人数
print("黑名单人数:", len(blacklist))

下面我将为你详细解释这段Python代码的含义、实现原理、用途以及需要注意的事项。

### 一、代码含义与用途

这段代码实现了一个**带有黑名单过滤和自定义中奖概率的抽奖系统**。它的主要功能是从CSV文件中读取候选人名单，进行1000次抽奖模拟。在抽奖过程中，处于黑名单的用户会被直接跳过，而其他用户则有50%的概率中奖。最后，代码会将中奖结果保存为新的CSV文件，绘制中奖频次直方图，并打印出抽奖的统计信息。

### 二、实现原理与逐段解析

1. 导入依赖库

```python

import random

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

```

- random：用于生成随机数和随机选择候选人。

- numpy 和 pandas：用于数据处理和读取CSV文件（注：此代码numpy未被实际使用，属于冗余导入）。

- matplotlib.pyplot：用于绘制数据可视化图表。

2. 初始化配置

```python

df = pd.read_csv('data.csv')

random.seed(42)

probability = 0.5

blacklist = ['Alice', 'Bob', 'Charlie']

num_draws = 1000

```

- 读取包含候选人姓名data.csv文件。

- random.seed(42)：设置随机数种子，保证每次运行代码的随机结果一致，便于调试和复现。

- probability = 0.5：设定50%的中奖概率。

- blacklist：定义黑名单，这些人绝对无法中奖。

- num_draws：设定模拟抽奖的总次数为1000次。

3. 核心抽奖逻辑

```python

for in range(numdraws):

name = random.choice(df['Name'])

if name in blacklist:

continue

if random.random() < probability:

results.append(name)

```

- 循环1000次，每次使random.choice从候选人中随机抽取一人。

- 黑名单过滤：如果抽中的人在黑名单中，使continue跳过后续步骤，直接进入下一次抽奖。

- 概率判定random.random()生成一个0到1之间的随机浮点数，如果小于0.5，则视为中奖，将名字加入结果列表。

4. 结果输出与可视化

- 将中奖列表转换为DataFrame并保存results.csv。

- 使plt.hist绘制直方图展示各个名字的中奖频次。

- 打印结果列表及各项统计数据（实际中奖概率、中奖人数、总抽奖次数、黑名单人数）。

### 三、注意事项与潜在问题（重要）

这段代码虽然能运行，但在逻辑和业务场景上存在几个明显的缺陷，在实际应用中需要特别注意：

1. “跳过”导致实际抽奖次数不足

- 代码中，如果抽到黑名单用户，执行的continue，这意味着这一次抽奖被作废了。

- 结果：如果黑名单人数较多，实际参与概率判定的有效抽奖次数会远小于1000次。代码最后计算中奖概率的公式 len(results) / num_draws 会出现偏差，因为分母是1000，但实际参与抽奖的次数少于1000。

2. 允许重复中奖

- random.choice每次都是从全量名单中抽取，这意味着同一个人可以被多次抽中并多次加results列表。

- 如果业务需求是“每人最多中奖一次”，当前逻辑无法满足，需要增加去重逻辑（例如维护一个已中奖名单）。

3. 抽奖逻辑的公平性问题

- 当前逻辑是“先随机选人，再判断是否在黑名单”。这种做法不仅浪费计算（抽到黑名单作废），还会改变非黑名单用户的绝对中奖概率。

- 更合理的做法：在抽奖前，先从候选人池中剔除黑名单用户，生成一个纯净的候选池 valid_pool = [name for name in df['Name'] if name not in blacklist]，然后再从 valid_pool 中抽取。

4. 直方图（hist）绘制参数问题

- plt.hist(results, bins=len(df['Name']), edgecolor='black') 中results 是字符串列表bins 参数通常用于数值型数据的区间划分，对字符串分类统计并不适用。

- 更好的做法：使用 plt.bar 配合 value_counts() 来绘制分类频次图，或者让 matplotlib 自动处理分类直方图（去掉 bins 参数）。

5. 冗余导入

- import numpy as np 在代码中未被使用，建议移除以保持代码整洁。

### 四、改进后的代码参考

针对上述问题，我为你提供一份优化后的代码：

```python

"""

抽奖系统优化版：随机抽取，黑名单过滤，中奖概率，防重复中奖

"""

import random

import pandas as pd

import matplotlib.pyplot as plt

# 读取数据

df = pd.read_csv('data.csv')

# 设置随机种子

random.seed(42)

# 设置中奖概率

probability = 0.5

# 设置黑名单

blacklist = ['Alice', 'Bob', 'Charlie']

# 设置抽奖次数 (这里指有效抽奖次数，不含黑名单作废)

num_draws = 1000

# 生成有效候选池（剔除黑名单）

valid_pool = [name for name in df['Name'] if name not in blacklist]

# 初始化结果列表

results = []

# 进行抽奖

for in range(numdraws):

# 从有效池中随机选择一个名字

name = random.choice(valid_pool)

# 检查抽奖结果 (如果允许重复中奖，保留此处；如果不允许，需加判断)

if random.random() < probability:

results.append(name)

# 将结果写入CSV文件

df_results = pd.DataFrame({'Name': results})

df_results.to_csv('results.csv', index=False)

# 绘制抽奖结果图表 (使用bar图更适合分类变量)

result_counts = pd.Series(results).value_counts()

plt.bar(result_counts.index, result_counts.values, edgecolor='black')

plt.xlabel('Name')

plt.ylabel('Frequency')

plt.title('Lottery Results')

plt.xticks(rotation=45) # 旋转x轴标签防止重叠

plt.tight_layout() # 自动调整布局

plt.show()

# 打印抽奖结果

# print(results) # 数据量较大，建议注释掉

# 打印实际中奖概率 (基于有效抽奖次数计算)

actual_probability = len(results) / num_draws

print("设定中奖概率:", probability)

print("实际中奖概率:", actual_probability)

# 打印中奖人数 (去重统计)

unique_winners = len(set(results))

print("中奖次数:", len(results))

print("中奖人数(去重):", unique_winners)

# 打印总抽奖次数

print("有效抽奖次数:", num_draws)

# 打印黑名单人数

print("黑名单人数:", len(blacklist))

```

优化后的代码解决了黑名单导致的抽奖次数缩水问题，修正了图表绘制方式，并增加了去重统计，更加符合实际业务场景的需求。

让代码自动生成一个测试用的 `data.csv` 文件

如果你只是在测试这段代码，手头没有现成的数据文件，我们可以先用 Python 生成一个包含人名的 data.csv 文件，然后再执行抽奖逻辑。

方法三：直接在内存中模拟数据（最快捷，无需生成文件）

既然我们只是想测试抽奖逻辑，完全可以跳过读取文件的步骤，直接用代码构造一个包含名字的列表来代替 df['Name']。

下面我为你提供一份整合了方法二和方法三的完整代码。它会先检查是否存在 data.csv，如果不存在，它会自动创建一个；然后继续执行抽奖逻辑：

"""

抽奖系统：随机抽取，黑名单、中奖概率（解决文件缺失问题版）

"""

import random

import pandas as pd

import matplotlib.pyplot as plt

import os

# ================= 1. 准备数据文件 =================

file_path = 'data.csv'

# 检查文件是否存在，如果不存在则自动生成一个测试文件

if not os.path.exists(file_path):

print(f"未找到 {file_path}，正在自动生成测试数据文件...")

# 生成一些随机人名用于测试

names = ['Alice', 'Bob', 'Charlie', 'David', 'Eve',

'Frank', 'Grace', 'Helen', 'Ivy', 'Jack',

'Karl', 'Linda', 'Mandy', 'Nancy', 'Olivia']

# 创建DataFrame并保存为CSV

df_mock = pd.DataFrame({'Name': names})

df_mock.to_csv(file_path, index=False)

print(f"测试数据文件 {file_path} 生成完毕！\n")

# ================= 2. 核心抽奖逻辑 =================

# 读取数据

df = pd.read_csv(file_path)

# 设置随机种子

random.seed(42)

# 设置中奖概率

probability = 0.5

# 设置黑名单

blacklist = ['Alice', 'Bob', 'Charlie']

# 设置抽奖次数

num_draws = 1000

# 生成有效候选池（剔除黑名单，避免无效抽奖）

valid_pool = [name for name in df['Name'] if name not in blacklist]

if len(valid_pool) == 0:

print("错误：候选池为空（所有人都在黑名单中或数据文件无数据），无法抽奖！")

else:

# 初始化结果列表

results = []

# 进行抽奖

for in range(numdraws):

# 从有效池中随机选择一个名字

name = random.choice(valid_pool)

# 检查抽奖结果

if random.random() < probability:

results.append(name)

# 将结果写入CSV文件

df_results = pd.DataFrame({'Name': results})

df_results.to_csv('results.csv', index=False)

# ================= 3. 结果统计与可视化 =================

# 绘制抽奖结果图表 (使用 bar 图更适合分类变量)

result_counts = pd.Series(results).value_counts()

plt.figure(figsize=(10, 5))

plt.bar(result_counts.index, result_counts.values, edgecolor='black')

plt.xlabel('Name')

plt.ylabel('Frequency')

plt.title('Lottery Results')

plt.xticks(rotation=45) # 旋转x轴标签防止重叠

plt.tight_layout()

plt.show()

# 打印中奖概率

actual_probability = len(results) / num_draws

print(f"设定中奖概率: {probability}")

print(f"实际中奖概率: {actual_probability:.4f}")

# 打印中奖人数

print(f"中奖总次数: {len(results)}")

print(f"中奖人数(去重): {len(set(results))}")

# 打印总抽奖次数

print(f"有效总抽奖次数: {num_draws}")

# 打印黑名单人数

print(f"黑名单人数: {len(blacklist)}")

设定中奖概率: 0.5

实际中奖概率: 0.5000

中奖总次数: 500

中奖人数(去重): 12

有效总抽奖次数: 1000

黑名单人数: 3

菜单

分享

让代码自动生成一个测试用的 `data.csv` 文件

方法三：直接在内存中模拟数据（最快捷，无需生成文件）

评论

用Pytorch搭建深度学习环境

黑客帝国数字雨

从通用到专属的模型进化之路

英文句子核心结构（主谓宾SVO）

AI如何“思考”？3种推理方式，决定智能的上限

抓取豆瓣电影Top250榜单的数据

🔄 间隔重复：Spaced Repetition 对抗遗忘的科学武器

读取 txt 文件，统计词频, 生成词云

德川家康

RAG Technology

分享

让代码自动生成一个测试用的 data.csv 文件

方法三：直接在内存中模拟数据（最快捷，无需生成文件）

评论

让代码自动生成一个测试用的 `data.csv` 文件