潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什...
6 KB (1,070 words) - 10:31, 1 September 2024
概率的潜在语义分析(PLSA),也称为概率潜在语义索引(PLSI,尤其是在信息检索领域),是用于分析双模和共现数据的统计方法。 实际上,人们可以根据对某些隐变量的亲和性来推导出观测变量的低维表示,就像PLSA是从潜在语义分析中演化而来。 与源于线性代数并缩小发生表(通常通过奇异值分解)的标准潜在语义...
7 KB (869 words) - 01:39, 3 January 2022
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于...
5 KB (788 words) - 08:22, 25 January 2025
Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。...
4 KB (549 words) - 07:21, 5 April 2023
向量空間模型 (category 有未列明来源语句的条目)
异值分解)和词汇数据库(比如WordNet)。 基于及扩展了向量空间模型的模型包括: 广义向量空间模型 (增强的)基于主题的向量空间模型 潜在语义学 潜在语义索引 DSIR模型 詞彙鑑別(Term Discrimination) Rocchio分类 使用向量空间模型做实验或者想基于它们实现研究服务的人或许会对以下的这些软件包感兴趣。...
8 KB (1,406 words) - 05:08, 12 July 2023
形态分析 萬能翻譯機(英语:universal translator) 電腦語言學 受限自然語言 信息抽取 資訊檢索 词嵌入 自然語言理解 潛在語義索引 潜在语义学 隨機文法(英语:Stochastic grammar) 機器記者 寫作自動評分(英语:Automated essay scoring)...
21 KB (2,586 words) - 12:19, 7 February 2025
在語音辨識和在資料壓縮的領域中,這種模式試圖捕捉語言的特性,並預測在語音串列中的下一個字。 在语音识别中,声音与单词序列相匹配。当来自语言模型的证据与发音模型和声学模型相结合时,歧义更容易解决。 當用於資訊檢索,語言模型是與文件有關的集合。以查詢字「Q」作為輸入,依據機率將文件作排序,而該機率 P ( Q | M d ) {\displaystyle...
10 KB (1,696 words) - 09:44, 6 February 2025
语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記。 根据语料库的特征,可以分为单语语料库、双语语料库、平行语料库等,根据语料的来源,可以分为书面语语料库、口语语料库、作文语料库、学习者语料库、古文书语料库等。 点通多语言语音語料庫 賓州大學語料庫(页面存档备份,存于互联网档案馆)...
6 KB (647 words) - 09:08, 5 October 2023
弹珠分布(英语:Pachinko allocation) 隐含狄利克雷分布 潜在语义索引 计算机辅助 审查(英语:Computer-assisted reviewing) 自动作文评分(英语:Automated essay scoring) 语料库检索工具(英语:Concordancer) 文法检查器(英语:Grammar...
8 KB (701 words) - 02:39, 1 May 2025
跟1966年的ELIZA並無不同。「強人工智能」(strong AI) 則不同, 必須有智慧和邏輯推理的能力。 Jabberwacky 基於與使用者的即時互動,習得新的對答和語境,而不是驅動於靜態的資料庫。一些較新的聊天機器人也融合了即時學習與進化演算法,根據每次聊天的經驗,改善溝通的能力,一個著名的例子是「凱爾」(Kyle)...
15 KB (1,993 words) - 07:55, 21 March 2025
在小样本学习的例子中,包含思维链的提示在语言模型中显示出更好的推理能力。零样本学习中,在提示中预留鼓励思考链的语句(如“让我们一步一步地思考”)可能会提高语言模型在多步骤推理问题中的表现。这些工具的广泛可及性由几个开源笔记和社区主导的图像合成项目的发布所推动。...
12 KB (1,507 words) - 07:47, 10 January 2025
弹珠分布(英语:Pachinko allocation) 隐含狄利克雷分布 潜在语义索引 计算机辅助 审查(英语:Computer-assisted reviewing) 自动作文评分(英语:Automated essay scoring) 语料库检索工具(英语:Concordancer) 文法检查器(英语:Grammar...
4 KB (314 words) - 10:27, 2 May 2025
NLP)的预训练技术,由Google提出。2018年,雅各布·德夫林和同事创建并发布了BERT。Google正在利用BERT来更好地理解用户搜索语句的语义。 2020年的一项文献调查得出结论:「在一年多一点的时间里,BERT已经成为NLP实验中无处不在的基线」,算上分析和改进模型的研究出版物超过150篇。...
13 KB (1,389 words) - 09:17, 20 February 2025
尽管大语言模型仅在预测句子中的下一个单词等简单任务上接受过训练,但具有足够训练和参数计数的神经语言模型可以捕获人类语言的大部分句法和语义。 此外大语言模型还展示了相当多的关于世界的常识,并且能够在训练期间“记住”大量事实。 虽然ChatGPT等大语言模型在生成类人文本方面表现出了卓越...
61 KB (6,345 words) - 22:05, 19 April 2025
弹珠分布(英语:Pachinko allocation) 隐含狄利克雷分布 潜在语义索引 计算机辅助 审查(英语:Computer-assisted reviewing) 自动作文评分(英语:Automated essay scoring) 语料库检索工具(英语:Concordancer) 文法检查器(英语:Grammar...
21 KB (2,037 words) - 15:49, 1 May 2025
弹珠分布(英语:Pachinko allocation) 隐含狄利克雷分布 潜在语义索引 计算机辅助 审查(英语:Computer-assisted reviewing) 自动作文评分(英语:Automated essay scoring) 语料库检索工具(英语:Concordancer) 文法检查器(英语:Grammar...
3 KB (257 words) - 08:08, 31 March 2025
multimodal, says Microsoft Germany. Heise.de. [2023-03-10]. (原始内容存档于2023-06-01) (德语). Potuck, Michael. Microsoft Office will soon gain GPT-4 AI with new 'Copilot'...
9 KB (787 words) - 14:08, 20 April 2025
句子抽取(英语:Sentence extraction) 文本简化(英语:Text simplification) 分佈語義(英语:Distributional semantics)模型 潜在语义学 Seq2Seq模型 Word2vec 語言模型 大型语言模型 基础模型 LLaMA ChatGPT GPT-4...
7 KB (738 words) - 04:19, 23 October 2023
弹珠分布(英语:Pachinko allocation) 隐含狄利克雷分布 潜在语义索引 计算机辅助 审查(英语:Computer-assisted reviewing) 自动作文评分(英语:Automated essay scoring) 语料库检索工具(英语:Concordancer) 文法检查器(英语:Grammar...
10 KB (1,099 words) - 04:20, 16 May 2025
与其他多数聊天机器人不同的是,ChatGPT能够记住与用户之前的对话内容和给它的提示。此外,为了防止ChatGPT接受或生成冒犯言论,输入内容会由审核API过滤,以减少潜在的种族主义或性别歧视等内容。 2023年9月28日起,Plus版用戶及企業用戶可以使用ChatGPT進行網路搜尋。 2025年,ChatGPT 通过...
89 KB (8,366 words) - 18:30, 3 May 2025
词极其普遍,与其他词相比,功能词没有什么实际含义,比如「the、「is」、「at」、「which」、「on」等。但是对于搜索引擎来说,当所要搜索的短语包含功能词,特别是像「The Who」、「The The」或「Take That」等复合名词时,停用词的使用就会导致问题。另一类词包括词汇词,比如'...
4 KB (435 words) - 16:27, 26 September 2024
句子抽取(英语:Sentence extraction) 文本简化(英语:Text simplification) 分佈語義(英语:Distributional semantics)模型 潜在语义学 Seq2Seq模型 Word2vec 語言模型 大型语言模型 基础模型 LLaMA ChatGPT GPT-4...
3 KB (330 words) - 20:45, 17 May 2021
以及許多規模較小的公司都已開發出生成式人工智慧模型。 生成式人工智慧在藝術、寫作、軟體開發、醫療保健、金融、遊戲、客戶服務、行銷和時尚等各行各業都有潛在的應用。 然而,也有人擔心產生式人工智能可能會被濫用,包括肆無忌憚地使用有版權的材料來訓練生成式人工智慧,以及製造假新聞和深伪技术來欺騙和操縱人們,...
68 KB (6,198 words) - 08:02, 21 March 2025
n元语法(英語:n-gram)指文本中连续出现的n个语词。n元语法模型是基于(n-1)阶马尔可夫链的一种概率语言模型,通过n个语词出现的概率来推断语句的结构。这一模型被广泛应用于概率论、通信理论、计算语言学(如基于统计的自然语言处理)、计算生物学(如序列分析)、数据压缩等领域。...
2 KB (134 words) - 07:42, 7 February 2025
像Lucene這樣的文檔索引軟體可以存儲單詞的基本詞幹提取格式,而不需要了解詞義,只是考慮單詞形成的語法規則。詞幹提取的詞本身可能不是一個有效的單詞:如下例所示,「lazy」被許多詞幹提取為「lazi」。這是因為詞幹提取的目的不是為了產生適當的詞組——那是一個更具挑戰性的任務,需要對語...
7 KB (795 words) - 07:41, 2 October 2023
此處有10個不同的詞,使用清單的索引表示長度為10的向量: (1) [1, 2, 1, 1, 2, 0, 0, 0, 1, 1] (2) [1, 1, 1, 1, 0, 1, 1, 1, 0, 0] 每個向量的索引內容對應到清單中詞出現的次數。 舉例來說,第一個向量(文件一)前兩個內容索引是1和2,第一個索引...
4 KB (480 words) - 17:32, 6 June 2023
层(靠近输入层的层)冻结,因为它们捕捉到较低层次的特征,而较后的层通常能够识别更高层次的特征,这些特征可能更相关于模型训练的任务。 对于在大型和通用语料库上进行预训练的模型,通常通过重用模型的参数作为起点,并添加一个从头开始训练的任务特定层进行微调。 对整个模型进行微调也很常见,通常会产生更好的结果,但计算成本更高。...
11 KB (1,028 words) - 02:29, 23 January 2025
Gemini(Google 聊天机器人),2023年 文心一言,2023年,输入可以是多模态(文字或图像,有OCR功能),输出仍是单模态(文字)。 通义千问,2023年9月13日 Poe (Quora 聊天机器人),2023年 Mistral AI,2023年 Character.ai(虚拟角色 聊天机器人),2022年9月...
6 KB (649 words) - 03:00, 21 March 2025
指涉語生成(英语:Referring expression generation):產生能辨認物體或地區的指涉語(英语:referring expression (RE))。例如用「北方島嶼和蘇格蘭東北角」指涉蘇格蘭的某個地區。這個任務也包括決定代名詞以及其它的照應語(英语:Anaphora...
13 KB (1,688 words) - 01:23, 23 January 2025
句子抽取(英语:Sentence extraction) 文本简化(英语:Text simplification) 分佈語義(英语:Distributional semantics)模型 潜在语义学 Seq2Seq模型 Word2vec 語言模型 大型语言模型 基础模型 LLaMA ChatGPT GPT-4...
6 KB (498 words) - 02:08, 18 August 2024
这种组被用在最成功的一种语音识别的 語言模型中。它们是N字母组的一种特例。 本术语也被用在密碼學里,在此领域,试图破解密码电文有时二元语法频率攻击会被用到。参考频率分析。 据小英语语料库的统计结果,最常见的字母双字母的频率是: th 1.52% en 0.55% ng 0.18% he 1.28% ed 0.53% of 0.16%...
3 KB (521 words) - 02:09, 15 June 2021