• 梯度消失问题(Vanishing gradient problem)是一种机器学习中的难题,出現在以梯度下降法和反向传播训练人工神經網路的時候。在每次訓練的迭代中,神经网路权重的更新值与误差函数的偏導數成比例,然而在某些情况下,梯度值会几乎消失,使得权重无法得到有效更新,甚至神經網路可能完全无法继续...
    3 KB (366 words) - 08:47, 14 April 2022
  • 循环神经网络(Recurrent neural network:RNN)是神經網絡的一種。单纯的RNN因为无法处理随着递归,权重指数级爆炸或梯度消失问题,难以捕捉长期时间关联;而结合不同的LSTM可以很好解决这个问题。 时间循环神经网络可以描述动态时间行为,因为和前馈神经网络(feedforward neural...
    19 KB (2,681 words) - 22:29, 19 March 2025
  • } 传递到深层块 L {\textstyle L} 。 残差学习的公式还在一定程度上缓解了梯度消失问题。然而,梯度消失并不是导致性能退化问题的根源,因为通过引入规范化层(如批量规范化)可在一定程度上解决此问题。根据上面的前向传播过程,对 x ℓ {\textstyle x_{\ell }} 进行求导,可以得到:...
    22 KB (2,797 words) - 13:44, 17 December 2024
  • 在向量微积分中,梯度(英語:gradient)是一种关于多元导数的概括。平常的一元(单变量)函数的导数是标量值函数,而多元函数的梯度是向量值函数。多元可微函数 f {\displaystyle f} 在点 P {\displaystyle P} 上的梯度,是以 f {\displaystyle f}...
    16 KB (2,671 words) - 07:37, 17 September 2023
  • Hochreiter)于1991年提出的梯度消失问题。 最早的进行一般自然杂乱图像中自然物体识别的深度学习网络是翁巨扬(Juyang Weng)等在1991和1992发表的生长网(Cresceptron)。它也是第一个提出了后来很多实验广泛采用的一个方法:现在称为最大汇集(max-pooling)以用于处理大物体的变形等问题...
    42 KB (5,930 words) - 07:21, 16 October 2024
  • 梯度消失问题使得长句末尾的模型状态会缺少前面标记的精确信息。此外,每个标记的计算都依赖于先前标记的计算结果,这也使得其很难在现代深度学习硬件上进行并行处理,这导致了RNN模型训练效率低下。 注意力机制解决了上述这些问题...
    22 KB (2,950 words) - 04:58, 26 April 2025
  • 不过需要指出的是,一般情况下,在一个使用修正线性单元(即线性整流)的神经网络中大概有50%的神经元处于激活态。 更加有效率的梯度下降以及反向传播:避免了梯度爆炸和梯度消失问题 简化计算过程:没有了其他复杂激活函数中诸如指数函数的影响;同时活跃度的分散性使得神经网络整体计算成本下降 Xavier Glorot...
    8 KB (1,022 words) - 16:19, 13 July 2022
  • 反向传播(英語:Backpropagation,意為误差反向传播,缩写为BP)是對多層人工神经网络進行梯度下降的算法,也就是用链式法则以网络每层的权重為變數计算损失函数的梯度,以更新权重來最小化损失函数。 任何监督式学习算法的目标是找到一个能把一组输入最好地映射到其正确的输出的函数。例如一个简单的分...
    20 KB (3,362 words) - 08:04, 6 August 2024
  • Seq2seq将输入序列转换为输出序列。它通过利用循环神经网络(递归神经网络)或更常用的LSTM GRU(英语:Gated recurrent unit)网络来避免梯度消失问题。当前项的内容总来源于前一步的输出。Seq2seq主要由一个编码器和一个解码器组成。 编码器将输入转换为一个隐藏状态向量,其中包含输入项的内容。...
    7 KB (738 words) - 04:19, 23 October 2023
  • 在地面的空氣比上層微冷的狀況,光線會被偏折朝下,產生「上蜃景」。 「寧靜」狀態的地球大氣層垂直梯度大約是高度每升高100米,溫度變化-1℃ (數值是負的是因為溫度隨高度增加而降低)。發生蜃景的溫度梯度必須比這個大許多。依據M. Minnaert,這個溫度梯度的量級至少是每米2℃,而要達到每米4℃或5℃才會出現明顯的蜃景。這些...
    14 KB (2,072 words) - 03:19, 8 May 2025
  • 為了最小化訓練誤差,梯度下降法(Gradient descent)如:應用時序性倒傳遞演算法(英语:Backpropagation through time),可用來依據錯誤修改每次的權重。梯度下降法在循環神經網路(RNN)中主要的問題初次在1991年發現,就是誤差梯度隨著事件間的時間長度成指數般的消失。當設置了LSTM...
    10 KB (1,331 words) - 12:14, 9 January 2025
  • 梯度定理(英語:gradient theorem),也叫线积分基本定理,是说标量场梯度沿曲线的积分可用标量场在该曲线两端的值之差来计算。 设函数 φ : U ⊆ R n → R {\displaystyle \varphi :U\subseteq \mathbb {R} ^{n}\to \mathbb...
    3 KB (635 words) - 03:21, 7 April 2018
  • 一组新的未知数,即拉格朗日乘数(英語:Lagrange multiplier),又称拉格朗日乘子,或拉氏乘子,它们是在转换后的方程,即约束方程中作为梯度的线性组合中各个向量的系数。 比如,求 可微函數 f ( x , y ) {\displaystyle f(x,y)} 在 g ( x , y ) =...
    11 KB (2,281 words) - 00:16, 2 May 2025
  • 对连续可微多变量函数,若其所有偏导数在P点都为零(梯度为零),则P点是一个临界点。临界值是函数在临界点上的值。 若函数光滑,或至少2次连续可微,则临界点可能是局部极值或鞍点。考虑二阶导的黑塞矩阵的特征值,可以区分不同情形。 由费马引理,可微函数的局部极值都出现在临界点上。因此,要找到局部极值,只需计算梯度的零点及当处的黑塞矩阵特征值。...
    15 KB (1,882 words) - 05:48, 14 July 2024
  • 然而,深度学习也有自身的缺点。以循环神经网络为例,一个最常见的问题梯度消失问题(沿着时间序列反向传播过程中,梯度逐渐减小到0附近,造成学习停滞)。为了解决这些问题,很多针对性的模型被提出来,例如LSTM(长短期记忆网络,早在1997年就已经提出,最近随着RNN...
    96 KB (13,407 words) - 04:04, 4 June 2025
  • 機媲美。這個程式預設使用「標準模式」執行,即是一個四則計算機。一些較先進的功能可以在工程模式操作,包括对数、记数系统轉換,一些布尔函数、弧度、角度和梯度的支援,同時對一元積分統計函數提供支援。但是它不支援使用者自定義的函数、複數、儲存變量的分段結果(與傳統的蓄電池計算機不同),自動极坐标系 -...
    7 KB (922 words) - 15:33, 1 September 2024
  • 们使用Sleep-EDF数据集评估模型的性能时,总体准确率达到了86.4%,这低于Zhu等的模型。为了避免因更有效的捕捉特征而增加网络深度引起的梯度消失问题,Zhu等和Cui等选择使用层数较少的CNN模型,通过使用注意力机制和多尺度熵中的细粒度段来增加模型特征提取能力,从而获得较高的睡眠阶段分类性能。...
    66 KB (8,506 words) - 06:04, 4 July 2024
  • 如果一个标量场在某点沿任意方向的方向导数都存在,则其中必有最大的一个。由柯西不等式可知,方向导数的最大值等于其梯度的范数,当且仅当沿着其梯度的方向时取到。这也说明标量场某点梯度的方向是函数瞬时变化率最大的方向。 设 M {\displaystyle M} 是一个可微流形, x {\displaystyle...
    6 KB (1,059 words) - 19:10, 9 January 2024
  • 流体力学 (category 含有多个问题的条目)
    以及空氣,在地表的正常環境下其特性都很接近牛頓流體。 非牛頓流體是流體的切應力和垂直剪切平面的速度梯度不呈正比的流體。在攪動非牛頓流體時,會在流體表面產生一個「凹洞」,不過凹洞在一小段時間後就會慢慢消失。這種特性出現在像布丁、太白粉水悬浊液、以及沙子(雖然嚴格來說沙子不算流體)。攪拌非牛頓流體會使其...
    11 KB (1,683 words) - 11:00, 7 December 2024
  • 時間性:結果必須發生在原因之後(如果在原因和預期結果之間存在預期的延遲,那麼結果必須在該延遲之後發生)。 生物梯度(劑量反應關係):更多的暴露通常會導致更大的影響發生率。但是,在某些情況下,僅存在該因素即可觸發效果。在其他情況下,觀察到成反比:更大的暴露導致更低的發病率。...
    5 KB (482 words) - 00:18, 29 August 2024
  • 在數學以及物理中,拉普拉斯算子或是拉普拉斯算符(英語:Laplace operator, Laplacian)是由欧几里得空间中的一個函数的梯度的散度给出的微分算子,通常寫成 Δ {\displaystyle \Delta } 、 ∇ 2 {\displaystyle \nabla ^{2}} 或 ∇...
    10 KB (2,002 words) - 14:28, 2 July 2024
  • 地转风与真实风之差,它会导致空气逐渐填满气旋。梯度风与地转风相似,但还包括离心力(或向心加速度)。 另有一小眾觀點認為風是由於能量溢散所引起的能量運動現象,大至颱風等由於熱能的交換運動導致,小至人類的揮手產生的風,由於能量(力)的運動而浪費(溢散或消失的功)的部分會化作風力。...
    35 KB (3,705 words) - 23:03, 9 November 2024
  • {\partial f}{\partial x_{n}}}(a)\right)} 这个向量称为f在点a的梯度。如果f在定义域中的每一个点都是可微的,那么梯度便是一个向量值函数∇f,它把点a映射到向量∇f(a)。这样,梯度便决定了一个向量场。 一个常见的符号滥用是在欧几里得空间R3中用单位向量 i ^ , j ^...
    12 KB (2,133 words) - 08:51, 13 July 2024
  • 端点。这时曲线积分值的绝对值与参量化函数r无关,但其方向与参量化函数r的选择有关。特别地,当方向相反时,积分值也相反。 如果向量场F是一个标量场G的梯度,即: ∇ G = F , {\displaystyle \nabla G=\mathbf {F} ,} 那么,由G和r组成的复合函数的导数是: d...
    9 KB (1,724 words) - 10:57, 29 April 2024
  • \mathbf {G} ).} 其中 curl {\displaystyle \operatorname {curl} } 是旋度。 对一个标量场求梯度后再求散度,等于拉普拉斯算子作用在其上: div grad ⁡ f = ∇ ⋅ ∇ f = Δ f {\displaystyle \operatorname...
    17 KB (3,083 words) - 00:44, 31 August 2024
  • 菲克定律描述擴散作用,可以使用這條定律來求得擴散係數:D。定律由阿道夫·菲克於1855年推導出來。 假設從高濃度區域往低濃度流的通量大小與濃度梯度(空間導數)成正比,通過這個假設,菲克第一定律把擴散通量與濃度聯繫起來。在一維空間下的菲克定律如下: J = − D ∂ ϕ ∂ x {\displaystyle...
    11 KB (1,752 words) - 06:42, 5 September 2024
  • 溫帶氣旋 (category 含有多个问题的条目)
    混亂,如溫帶氣旋是由熱帶氣旋轉性而成,會沿用熱帶氣旋時期的名稱,但會加上「ex-」以示識別。 在溫帶,南北溫差比較明顯,而溫帶氣旋的能量來源正是溫度梯度,所以溫帶氣旋通常都在溫帶發展,包括從熱帶氣旋或副熱帶氣旋轉性而成的溫帶氣旋,但有研究指出南半球的溫帶氣旋的活躍範圍從南緯30至70度。平均每6小時...
    21 KB (2,234 words) - 01:01, 23 November 2024
  • \ldots ,x_{n})}}} 此矩陣的第 i {\displaystyle i} 行是由函數 f i {\displaystyle f_{i}} 的梯度函数所表示的, 1 ≤ i ≤ m {\displaystyle 1\leq i\leq m} 。 如果 p {\displaystyle p} 是...
    11 KB (2,262 words) - 14:25, 27 November 2024
  • 偏导数可以组合起来,创造出形式更复杂的导数。在向量分析中,Nabla算子( ∇ {\displaystyle \nabla } )依据偏导数被用于定义这些概念:梯度,散度,旋度。在含有偏导数的矩阵中,雅可比矩阵可以用来表示任意维空间之间的函数的导数。因此,导数可理解为从函数定义域到函数值域的逐点变化的线性映射。...
    12 KB (1,691 words) - 19:41, 26 June 2022
  • 外微分 (section 梯度)
    ⟩ , {\displaystyle df(V)=\langle {\mbox{grad }}f,V\rangle ,} 其中grad f代表f的梯度而<•, •>是标量积。 对于一个1-形式 ω = ∑ i f i d x i {\displaystyle \omega =\sum _{i}f_{i}\...
    5 KB (1,069 words) - 13:27, 8 November 2021
  • 微积分学 (category 含有多个问题的条目)
    微積分學在科學、商學和工程學領域皆有廣泛的應用,並成為了現代大學教育的重要组成部分,用於有效解决一些僅以代數學和幾何學無法處理的問題。 微積分學於代數學和幾何學的基礎上建立,其中微分是指函數的局部變化率的一種線性描述,包括求導數和其運算,即一套關於變化率的理論。它使得函數、速度、...
    40 KB (6,629 words) - 12:26, 18 January 2025