微积分线代概率论

牛顿迭代法:

$$
x_{n+1}=x_n-\frac{f(x_n)}{f’(x_n)}
$$

指数分布:

$$
f(x)= \begin{cases} \lambda e^{-\lambda x}, & x \ge 0 \ 0, & x < 0 \end{cases}
$$

$$
P(X\ge t)=\int_t^{+\infty} f(x),dx =\int \lambda e^{-\lambda x},dx=e^{-\lambda t}
$$

指数分布具有无记忆性

深度学习

DBSCAN 聚类算法不需要预先指定聚类数

注意力层的计算量与序列长度 L 呈O(L^2)关系,FFN 层与 L 呈O(L)关系, L 足够大时注意力计算量可超过 FFN

对于 Decoder-only 模型,一次完整前向传播的 FLOP 约为 2N,来自每个参数参与一次乘加运算

指标 核心区别 直觉
micro 先把所有类别的 TP/FP/FN 加总,再算 precision/recall/F1 更看重总体样本表现,大类影响更大
macro 先分别算每个类别的指标,再简单平均 每个类别权重相同,更关注小类表现

$$
F_1 = \frac{2TP}{2TP + FP + FN}
$$