• 在数学优化与决策论中,损失函数(亦称成本函数或误差函数)是将事件或变量值映射至实数域的函数,其数值直观体现与该事件相关的“代价”。优化问题的核心目标即是最小化损失函数。与之相对的目标函数在不同领域有不同称谓——收益函数、效用函数、适应度函数等——这类函数则需要通过最大化来实现价值。值得注意的是,损失函数的设计往往融合多层级结构的要素。...
    3 KB (436 words) - 19:52, 24 May 2025
  • BP)是對多層人工神经网络進行梯度下降的算法,也就是用链式法则以网络每层的权重為變數计算损失函数的梯度,以更新权重來最小化损失函数。 任何监督式学习算法的目标是找到一个能把一组输入最好地映射到其正确的输出的函数。例如一个简单的分类任务,其中输入是动物的图像,正确的输出将是动物的名称。一些输入和输出...
    20 KB (3,362 words) - 08:04, 6 August 2024
  • ,用来描述基准真相和模型预测值之间的差距。一般来说,损失函数是一个有下确界的函数;当基准真相和模型预测值足够接近,损失函数的值也会接近该下确界。 因此,机器学习的训练过程可以被转化为训练集 D {\displaystyle {\mathcal {D}}} 上的最小化问题。我们的目标是在泛函空间内,找到使得全局损失 L ( F ) =...
    10 KB (1,759 words) - 09:40, 2 August 2022
  • 在機器學習和最佳化領域中,分類問題之損失函數可以用來表達預測不準確之程度,其中分類問題主要是用來判斷所偵測到的物件屬於什麼類別。將一個向量空間 X {\displaystyle X} 做為所有的輸入值,而向量空間 Y = { − 1 , 1 } {\displaystyle Y=\{-1,1\}}...
    5 KB (1,109 words) - 04:13, 18 August 2023
  • 则是对应的输出向量。 损失函数的选择是机器学习算法所选的函数 f S {\displaystyle f_{S}} 中的决定性因素。 损失函数也影响着算法的收敛速率。损失函数的凸性也十分重要。 根据问题是回归问题还是分类问题,我们可以使用不同的损失函数。 回归问题中最常用的损失函数是平方损失函数...
    5 KB (830 words) - 20:07, 16 September 2020
  • 三元组损失是机器学习算法中的一种损失函数,该损失函数将锚点(anchor)样本与正(positive)样本和负(negative)样本进行比较。具体做法是,将锚点样本与正样本之间的距离最小化,将锚点样本与负样本之间的距离最大化。 2003 年,早期的三元组损失公式(未使用锚点样本)由 M. Schultze...
    2 KB (322 words) - 21:06, 22 January 2022
  • Hinge loss (redirect from 铰链损失)
    在機器學習中,鉸鏈損失是一個用於訓練分類器的損失函數。鉸鏈損失被用於「最大間格分類」,因此非常適合用於支持向量機 (SVM)。 对于一个预期输出 t = ± 1 {\displaystyle t={\pm }1} ,分类结果 y {\displaystyle y} 的鉸鏈損失定義為 ℓ ( y )...
    9 KB (1,132 words) - 20:29, 11 October 2020
  • ,如采用典型的决策树作为弱预测模型,这时则为梯度提升树(GBT或GBDT)。像其他提升方法一样,它以分阶段的方式构建模型,但它通过允许对任意可微分损失函数进行优化作为对一般提升方法的推广。 梯度提升技術源自於Leo Breiman(英语:Leo Breiman)於1997年時將提升方法用於优化算法的观察。随后Jerome...
    20 KB (3,410 words) - 10:18, 18 May 2025
  • 目前有多种估计法可供选择,每种估计法都有不同属性。 最小方差均值无偏估计 (MVUE),能够使平方误差损失函数的风险 (预期损失)最小化。 最佳线性无偏估计 (BLUE) 最小均方误差 (MMSE) 中值无偏估计 ,能够使绝对误差损失函数的风险最小化 最大似然估计 (MLE) 矩估计和广义矩估计 贝叶斯推断通常基于后验分布...
    5 KB (584 words) - 20:57, 8 February 2024
  • 等式)。f的定义域A称作搜索空间或选择集,A的元素称作候选解或可行解。 函数f有多种叫法,常见的有目标函数、判别函数损失函数、成本函数(最小化)、效率函数、适应度函数(最大化),某些领域还有能量函数、能量泛函等等。使得目标函数取最值(取决于问题)的可行解就是最优解。 数学中,传统优化问题通常用最小化形式表示。...
    42 KB (5,879 words) - 17:23, 8 September 2024
  • ) {\displaystyle u(t,x)} 和 f ( t , x ) {\displaystyle f(t,x)} 的参数能通过最小化以下损失函数 L t o t {\displaystyle L_{tot}} 来学习: L t o t = L u + L f . {\displaystyle...
    11 KB (1,750 words) - 19:55, 31 March 2025
  • 损失函数的最小值前进。它影响到新学习到的信息在多大程度上取代了旧信息,暗示了机器学习模型 "学习 "的速度。在自适应控制中,学习率通常被称为增益(Gain)。 设置学习率需要在收敛速度和过冲(Overshooting)之间进行权衡。学习时的前进方向通常由损失函数...
    5 KB (799 words) - 20:13, 8 July 2023
  • 因此,由ERM原理定义的学习算法在于解决上述优化问题。 对于具有0-1损失函数的分类问题,即使对于像线性分类器这样的相对简单的函数类,经验风险最小化也被认为是NP难题。 但是,当最小经验风险为零(即数据是线性可分离的)时,可以有效解决。 在实践中,机器学习算法可以通过对0-1损失函数(例如SVM的铰链损失)采用凸近似来解决该问题,这种方法更容易优化,或者对分布进行假设...
    5 KB (853 words) - 12:08, 2 January 2025
  • 罗森布拉特给出了相应的感知机学习算法,常用的有感知机学习、最小二乘法和梯度下降法。譬如,感知机利用梯度下降法对损失函数进行极小化,求出可将训练数据进行线性划分的分离超平面,从而求得感知机模型。 感知机是生物神经细胞的简单抽象。神经细胞结构大致可分为:树突、突触、细...
    14 KB (2,391 words) - 11:43, 30 December 2024
  • 线性迴归模型经常用最小二乘逼近来拟合,但他们也可能用别的方法来拟合,比如用最小化“拟合缺陷”在一些其他规范里(比如最小绝对误差迴归),或者在桥迴归中最小化最小二乘损失函数的惩罚。相反,最小二乘逼近可以用来拟合那些非线性的模型。因此,尽管“最小二乘法”和“线性模型”是紧密相连的,但他们是不能划等号的。...
    21 KB (3,686 words) - 10:14, 4 November 2024
  • 其中,Y是g的陪域,且L會對應到非負實數(L可能有其它限制)。如果預測出來g的值是z,但實際值是y,而L(z, y)這個量是其間的損失。 某個函數f的風險是定義成损失函数的期望值。如果機率分佈p是離散的(如果是連續的,則可採用定積分和機率密度函數),則定義如下: R ( f ) = ∑ i L ( f ( x i ) , g ( x i...
    6 KB (1,034 words) - 10:56, 8 October 2021
  • 最佳超参数的问题。超参数是用于控制学习过程的参数。 超参数优化会找到能产生最优模型的超参数元组,在给定的独立数据上将预定义的损失函数最小化。目标函数获取超参数元组,返回相关损失。交叉验证常用于估算这种泛化性能,从而为超参数选择一组能使其最大化的值。 超参数优化的传统方法是网格搜索(grid search)或参数扫描(parameter...
    22 KB (2,471 words) - 12:24, 4 December 2024
  • 例如,最小二乘估计的回归模型对异常值非常敏感:误差幅度为典型观测值2倍的异常值,对平方误差损失函数的贡献是典型观测值的4倍(2倍的平方),因此对回归估计值的影响更大。休伯损失函数是普通平方误差损失的一种稳健替代,可减少异常值对平方误差损失的贡献,从而限制其对回归估计值的影响。...
    17 KB (2,189 words) - 01:40, 4 July 2024
  • PyTorch包括torch.autograd、torch.nn、torch.optim等子模块。 PyTorch包含多种损失函数,包括 MSE(均方误差 = L2 范数)、交叉熵损失和负熵似然损失(对分类器有用)等。 PyTorch定義了一個名為張量(torch.Tensor) 的類別來儲存和操作同構多維矩形數字陣列。...
    15 KB (1,550 words) - 05:25, 7 October 2024
  • 和相关的Davidon–Fletcher–Powell算法类似,BFGS算法通过利用曲率信息对梯度进行预处理来确定下降方向。曲率信息则是通过维护一个使用广义的割线法逐步近似的关于损失函数的Hessian矩陣来获得。 从起始点 x 0 {\displaystyle \mathbf {x} _{0}} 和初始的Hessian矩阵 B 0...
    2 KB (455 words) - 10:31, 24 May 2021
  • 参数。这些用于描述模型的超参数通常不能用一般的优化方法学习,然而它们仍然会影响损失函数。例如支持向量机中错误的容忍度超参数。 部分超参数不能从训练数据中学习,因为对部分超参数的学习过程通常会过分增加模型容量,并使损失函数趋于不希望的小值(即过拟合),而不是正确映射数据的结构。例如,如果我们将拟合回...
    7 KB (925 words) - 07:36, 26 October 2024
  • 偏的,却不是均值无偏的(或反之);由于一个有偏估计量较之无偏估计量(特别是收缩估计量(英语:shrinkage estimator))可以减小一些损失函数(尤其是均方差);或者由于在某些情况下,无偏的条件太强,这种情况无偏估计量不是必要的。此外,在非线性变换下均值无偏性不会保留,不过中值无偏性会保留...
    10 KB (1,777 words) - 15:14, 11 March 2023
  • {E} (L(\delta _{1}(X)))\leq \operatorname {E} (L(\delta (X)))} 其中“损失函数”L可以是任何凸函数。如果损失函数是二次可微的,例如均方误差的情况,那么我们可以得到更精确的不等式 E ⁡ ( L ( δ ( X ) ) ) − E ⁡ ( L...
    13 KB (2,432 words) - 01:21, 18 February 2024
  • 均方误差 (category 損失函數)
    +X_{n})/n} 为样本均值。 第一个估计函数为最大似然估计,它是有偏的,即偏差不为零,但是它的方差比第二个小。而第二个估计函数是无偏的。较大的方差某种程度上补偿了偏差,因此第二个估计函数的均方误差比第一个要大。 另外,这两个估计函数的均方误差都比下边这个有偏估计函数大: 1 n + 1 ∑ i = 1...
    4 KB (603 words) - 08:00, 11 May 2025
  • 交叉熵 (category 損失函數)
    分别为 p {\displaystyle p} 和 q {\displaystyle q} 在测度 r {\displaystyle r} 上概率密度函数。则 − ∫ X P ( x ) log ⁡ Q ( x ) d r ( x ) = E p ⁡ [ − log ⁡ Q ] . {\displaystyle...
    4 KB (747 words) - 09:36, 11 November 2024
  • 最优控制理论是數學最优化中的分支,要找到动力系统在特定一段時間的控制,可以使特定的损失函数最佳化。最佳控制在科學、工程及作業研究上都有很多應用,例如其控制的系統可能是航天器,控制為其動力來源的火箭推進器,目標是在消耗最小燃料的情形下登陸月球,其系統也可能是國家的经济,目標是使失業降到最低,控制是财政...
    24 KB (3,661 words) - 04:38, 17 April 2025
  • {\displaystyle T} 為溫度參數,用於控制輸出分佈的平滑程度。學生模型 p i {\displaystyle p_{i}} 的輸出則透過最小化總損失函數進行學習: L = α ⋅ L CE ( y , p ) + ( 1 − α ) ⋅ T 2 ⋅ L KL ( q , p ) {\displaystyle...
    7 KB (1,197 words) - 21:58, 28 May 2025
  • 函数(英語:window function)在信号处理中是指一种除在给定区间之外取值均为0的实函数。譬如:在给定区间内为常数而在区间外为0的窗函数被形象地称为矩形窗。 任何函数与窗函数之积仍为窗函数,所以相乘的结果就像透过窗口“看”其他函数一样。窗函数在頻譜分析、滤波器设计、波束形成、以及音频数据压缩(如在Ogg...
    17 KB (3,033 words) - 03:31, 4 July 2024
  • 直接建模似然函数具有很多优点。例如,可以直接计算得到负对数似然并将其作为损失函数最小化。此外,通过从初始分布中采样并应用流变换可以生成新的样本。 相比之下,变分自编码器、生成对抗网络等其他生成模型无法显式地表示似然函数。 考虑随机变量 z 1 {\displaystyle...
    26 KB (4,149 words) - 08:13, 8 April 2025
  • 损失。 如果这些额外层具有身份映射的能力,那么更深的网络应该能够实现与其较浅网络相同的功能。但这里存在一个假设,即优化器不能有效地将这些参数化的网络层调整为身份映射。 在多层神经网络模型里,设想一个包含若干层的子网络。这个子网络的函数用 H ( x ) {\textstyle...
    22 KB (2,797 words) - 13:44, 17 December 2024
  • Methods of Robust Design)。 品質工程包括了三個和統計學有關的原則: 特定的損失函數(田口損失函數(英语:Taguchi loss function)) 離线质量控制的哲學 實驗設計的創新 田口方法(英文:Taguchi...
    22 KB (2,855 words) - 02:29, 4 February 2025