用朴素贝叶斯根据姓名判断性别

条件概率与贝叶斯定理

对于事件A和B,当B发生的情况下,A发生的条件概率为
$$
P(A|B) = \frac{P(AB)}{P(B)}.
$$
如果把$$P(AB)$$表示为$$P(B|A)P(A)$$,那么 就有
$$
P(A|B) = \frac{P(B|A)P(A)}{P(B)}.
$$

朴素贝叶斯

朴素贝叶斯是一个基于贝叶斯定理的分类算法,其基本假设是所有特征是相互独立的

举个例子来说,有一个二元分类问题,每个样本只有两个二元特征$$X1$$和$$X2$$。若已知一个样本$$(X1=1,X2=0)$$,我们要预测它的标签为1的概率,就是等价于去计算
$$
P(Y=1|X_1=1,X_2=0)
$$
根据贝叶斯定理,可以得到
$$
P(Y=1|X_1=1,X_2=0)=\frac{P(Y=1)P(X_1=1,X_2=0|Y=1)}{P(X_1=1, X_2=0)}
$$

拉普拉斯光滑

“我爱机器学习”中有七个字
“我”的频率为:
$$
f(我)=\frac 1 7
$$
“学”的频率为:
$$
f(学)=\frac 2 7
$$
拉普拉斯光滑的公式为:
$$
g(x)=\frac{n_x+\alpha}{l+\alpha c}
$$

其中$$n_x$$是单词$$x$$出现的次数,$$l$$是句子的长度,$$c$$是句子中不同词汇的个数,$$\alpha$$是拉普拉斯光滑的光滑系数,这个是自行设定的。

上面的句子里一共七个字,五个不同的字。假设我们选定$$\alpha$$=1: