文本挖掘 Search Results

文本挖掘

文本挖掘（Text mining）有时也被称为文字探勘、文本数据挖掘等，大致相当于文字分析，一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生，如模式识别。文本挖掘通常涉及输入文本的处理过程（通常进行分析，同时加上一些衍生语言特征以及消除杂音，随后插入到数据库中）...

16 KB (1,989 words) - 04:41, 25 August 2024

文本情感分析

文本情感分析（也称为意见挖掘）是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观訊息。通常来说，情感分析的目的是为了找出说话者/作者在某些话题上或者针对一个文本两极的观点的态度。这个态度或许是他或她的个人判断或是评估，也许是他当时的情感状态（就是说，作者在做出这个言论时的...

18 KB (2,101 words) - 10:45, 23 May 2025

ChatGPT

以文字方式互動，而除了可以用人類自然對話方式來互動，還可以用于甚為複雜的語言工作，包括自动生成文本、自动问答、自动摘要等多种任务。如：在自动文本生成方面，ChatGPT可以根据输入的文本自动生成类似的文本（劇本、歌曲、企劃等），在自动问答方面，ChatGPT可以根据输入的问题自动生成答案。还有编写...

89 KB (8,431 words) - 05:12, 20 July 2025

Tf-idf

tf-idf（英語：term frequency–inverse document frequency）是一種用於資訊檢索與文本挖掘的常用加權技術。tf-idf是一種統計方法，用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加，但同時會...

6 KB (1,123 words) - 15:13, 2 July 2025

GPT-4o

Pre-trained Transformer 4 Omni，简称GPT-4o）是由OpenAI训练的多语言、多模态（多种类型数据，例如文本、图像、音频等）GPT大型语言模型。GPT-4o于2024年5月13日发布。该模型比其前身GPT-4快两倍，而价格仅为其50%。该模型由米拉·穆拉...

9 KB (759 words) - 12:20, 25 June 2025

数据挖掘

(statistics)）支持向量机文本挖掘代理挖掘（英语：Agent mining）应用领域解析学（英语：Analytics）行为信息学（英语：Behavior informatics）大數據生物信息学商业智能数据分析資料倉儲决策支持系统领域驱动的数据挖掘（英语：Domain driven...

19 KB (2,578 words) - 01:40, 4 July 2025

余弦相似性

个向量表示，其各個維度上的值對應于該词項在文档中出现的频率。余弦相似度因此可以给出两篇文档在其主题方面的相似度。另外，它通常用于文本挖掘中的文件比较。此外，在数据挖掘领域中，會用到它来度量集群内部的凝聚力。两个向量间的余弦值可以通过使用欧几里得点积公式求出： a ⋅ b = ‖ a ‖ ‖ b...

6 KB (1,077 words) - 16:50, 15 January 2025

停用词

作为信息检索的先驱者之一，Hans Peter Luhn（英语：Hans Peter Luhn）创造了这个短语，并在他的研究中应用这个概念，推动了这个概念的使用。文本挖掘概念挖掘信息提取自然语言处理查询扩展词干提取搜索引擎标引功能词 Luhn, H. P. Keyword-in-Context Index...

4 KB (435 words) - 16:27, 26 September 2024

隐含狄利克雷分布

LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出，目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。 LDA是一种典型的词袋模型，即它认为一篇文档是由一组词构成的一个集合，词与词之间没有顺序以及先后的关...

7 KB (1,205 words) - 22:37, 29 April 2023

大型语言模型

model，LLM），也称大语言模型，是由具有大量参数（通常数十亿个权重或更多）的人工神经网络组成的一类语言模型，使用自监督学习或半监督学习对大量未标记文本进行训练。大语言模型在2018年左右出现，并在各种任务中表现出色。尽管这个术语没有正式的定义，但它通常指的是参数数量在数十亿或更多数量级的深度学习...

62 KB (6,352 words) - 03:45, 15 July 2025

文本分割

文本分割（Text segmentation）将书面文本分割成有意义单位的过程，如单词、句子或主题。这个术语既适用于人类阅读文本时的心理过程，也适用于在计算机中实现的人工过程，后者属于自然语言处理的领域。一些书面语言有明确的单词分界标记，例如英语的词之间有空格标识，阿拉伯语有独特的首、中、末字母形状，但这种标记不是所有书面语言都有。...

2 KB (246 words) - 15:04, 18 September 2023

GPT-4

可以将图像和文本作为输入；这使它能够描述不寻常图像中的幽默、总结截屏文本以及回答包含图表的试题。尽管有这些新能力，GPT-4 和它的前辈一样，仍然倾向于产生幻觉答案。 GPT-4可通过API和ChatGPT Plus用户使用。 2023年3月9日，微软表示GPT-4是多模态学习的（将支持文本...

9 KB (787 words) - 12:20, 25 June 2025

光学字符识别

技术的应用场景大致可分为以下几类：印刷文本识别：印刷文本通常指报刊、杂志、文档、小票等使用现代计算机字体编排并印刷的文本内容。这类文本内容通常具有清晰一致的字体、间距等，因此识别技术相对成熟，并被广泛应用于纸质档案、报刊的数字化上。手写文本识别：相较于具有固定字体的印刷文本而言，手写文本...

9 KB (1,151 words) - 02:18, 3 July 2025

自然语言处理

Tree），而我們必須要仰賴語意及前後文的資訊才能在其中選擇一棵最為適合的剖析樹。例如語音處理時遇到外國口音或地方口音，或者在文本的處理中處理拼寫，語法或者光學字元識別（OCR）的錯誤。句子常常并不只是字面上的意思；例如，“你能把盐递过来吗”，一个好的回答应当是動手把盐递过去...

21 KB (2,586 words) - 04:40, 6 July 2025

GPT (语言模型)

用于Slack即时通讯服务，帮助导航和概括讨论内容（使用OpenAI的API） BioGPT – 由微软开发的，用于生物医学领域，帮助进行生物医学文献的文本生成和挖掘 ProtGPT2 – 用于蛋白质研究有时，领域特异性可以通过软件插件或附加组件实现。例如，几家公司已经开发了与OpenAI的ChatGPT接口直接交互的特定插件，Google...

52 KB (4,298 words) - 15:28, 24 June 2025

LLaMA

在大多数基准测试中都击败了Gemini和Claude。 Llama-4系列于2025年4月5日发布。其架构已更改为混合专家模型。它们具备多模态（文本和图像输入，文本输出）和多语言（12种语言）特性，包括基础版本和指令调整版本： Scout：170 亿个活跃参数模型，包含 16 位专家，上下文窗口为 1000...

21 KB (2,037 words) - 03:57, 8 June 2025

语法分析

在计算机科学和语言学中，语法分析（英語：syntactic analysis，也叫 parsing）是根据某种给定的形式文法对由单词序列（如英语单词序列）构成的输入文本进行分析并确定其语法结构的一种过程。语法分析器（parser）通常是作为编译器或解释器的组件出现的，它的作用是进行语法检查、并构建由输入的单词组成...

3 KB (330 words) - 13:42, 17 July 2025

生成式人工智慧 (section 文本)

其中包括ChatGPT、Copilot、Gemini和LLaMA等聊天機器人；Stable Diffusion、Midjourney和DALL-E等文本到图像人工智慧影像生成系統；以及Sora等文字轉影片生成系統。OpenAI、Anthropic、微软、Google和百度等公司以及許多規模較小的公司都已開發出生成式人工智慧模型。...

68 KB (6,198 words) - 08:02, 21 March 2025

搜索引擎

search）（Vertical search）计算机科学文本自动摘要索引倒排索引搜索引擎列表搜索服务企业搜索供应商搜索引擎优化搜索建议下拉列表（英语：Search suggest drop-down list）求解程序（英语：Solver）垃圾索引 SQL 文本挖掘 Voorhees, E.M. Natural...

5 KB (692 words) - 14:00, 4 February 2025

提示工程

等文本到图像模型向公众发布。文本到影片生成 (TTV) 是一项新兴技术，可以直接根据文本描述创建影片。这个新颖的领域具有显着改变影片制作、动画和故事讲述的潜力。通过利用人工智能的力量，TTV 允许用户绕过传统的影片编辑工具，将他们的想法转化为移动图像。一些方法用非文本输入来增强或替换自然语言文本提示。...

12 KB (1,502 words) - 07:47, 10 January 2025

自动标引

文本挖掘域被称为关键词抽取（英語：Keyword Extraction），在计算语言学领域通常着眼于术语自动识别（英語：Automatic Term Recognition），在訊息检索领域，就是指自动标引。自动标引属于文本訊息抽取的范畴。文本訊息抽取是从文本数据中抽取人们关注的特定的訊息。...

9 KB (1,502 words) - 04:32, 6 July 2025

聊天机器人列表

聊天机器人是基于文本的对话代理，可以通过某种媒介（例如即时消息服务）与人类用户进行交互。一些聊天机器人是为特定目的而设计的，而另一些聊天机器人则与人类用户就广泛的主题进行对话。 ChatGPT (OpenAI 聊天机器人)，2022年12月，ChatGPT plus 基于GPT-4。输入可以是多模态（文字或图像，有OCR功能）。...

6 KB (652 words) - 13:27, 7 June 2025

圖靈機（Turing Machine），一種抽象的計算模型。 time.h，C語言的Library。 .tm，土庫曼國家及地區頂級域（ccTLD）的域名。文本挖掘（Text mining） Tencent Messenger，中国深圳腾讯公司针对办公环境推出的免费即时通讯软件，可与QQ互联互通他媽的，罵人的髒話...

1 KB (126 words) - 10:28, 2 November 2023

Word2vec

Word2vec是一群用來產生詞向量的相關模型。這些模型為淺层雙層的神經網路，用來訓練以重新建構語言學之詞文本。網路以詞表現，並且需猜測相鄰位置的輸入詞，在word2vec中词袋模型假設下，詞的順序是不重要的。訓練完成之後，word2vec模型可以把每個詞映射到一個向量，來表示詞与詞之間的關係。該向量為神經網路的隱藏層。...

5 KB (464 words) - 08:18, 26 October 2022

语料库

语料库一詞在語言學上意指大量的文本，通常經過整理，具有既定格式與標記。根据语料库的特征，可以分为单语语料库、双语语料库、平行语料库等，根据语料的来源，可以分为书面语语料库、口语语料库、作文语料库、学习者语料库、古文书语料库等。点通多语言语音語料庫賓州大學語料庫（页面存档备份，存于互联网档案馆）...

6 KB (647 words) - 09:08, 5 October 2023

BERT

Pre-Training），ELMo（英语：ELMo）和ULMFit。与之前的模型不同，BERT是一种深度双向的、无监督的语言表示，且仅使用纯文本语料库进行预训练的模型。上下文无关模型（如word2vec或GloVe（英语：GloVe））为词汇表中的每个单词生成一个词向量表示，因此容易出现单词...

13 KB (1,389 words) - 11:29, 4 June 2025

语音识别

Speech Recognition, ASR）、電腦語音識別（英語：Computer Speech Recognition）或是語音轉文本識別（英語：Speech To Text, STT），其目标是以電腦自動将人类的语音内容转换为相應的文字。与说话人识别（英语：Speaker...

26 KB (4,776 words) - 13:43, 17 July 2025

词嵌入

matrix）降维、機率模型以及单词所在上下文的显式表示等。在底层输入中，使用词嵌入来表示词组的方法极大提升了NLP中语法分析器和文本情感分析等的效果。词嵌入技术起源于2000年。约书亚·本希奥等人在一系列论文中使用了神经機率语言模型（Neural probabilistic language...

10 KB (936 words) - 23:34, 12 August 2024

愛思唯爾 (category CS1含有外文文本)

爱思唯尔寻求以私有许可规管文本和数据挖掘，声称，若读取活动是自动化的且出版商持有自动化输出内容的版权，则需要额外的许可。研究和版权政策的冲突往往导致研究者的工作成果被封锁。 2015年11月，爱思唯尔阻止一个科学家以爱思唯尔的论文成规模地执行文本挖掘...

124 KB (12,721 words) - 23:34, 14 June 2025

推理語言模型

一般术语语料库口语语料库停用词词袋完全人工智慧（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））文本挖掘文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound...

4 KB (442 words) - 23:58, 28 July 2025

Seq2Seq模型

用到各種不同的技術上，如聊天機器人、Inbox by Gmail等，但需要有配對好的文本集才能訓練出對應的模型。 Seq2seq是用于自然语言处理的一系列机器学习方法。应用领域包括机器翻译，图像描述，对话模型和文本摘要。此算法最初由Google开发，并用于机器翻译. 在2019年， Facebook宣布其用于求解微分方程。...

7 KB (738 words) - 04:19, 23 October 2023