文本挖掘(Text mining)有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中)...
16 KB (1,989 words) - 04:41, 25 August 2024
文本情感分析(也称为意见挖掘)是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观訊息。 通常来说,情感分析的目的是为了找出说话者/作者在某些话题上或者针对一个文本两极的观点的态度。这个态度或许是他或她的个人判断或是评估,也许是他当时的情感状态(就是说,作者在做出这个言论时的...
18 KB (2,101 words) - 10:45, 23 May 2025
(statistics)) 支持向量机 文本挖掘 代理挖掘(英语:Agent mining) 应用领域 解析学(英语:Analytics) 行为信息学(英语:Behavior informatics) 大數據 生物信息学 商业智能 数据分析 資料倉儲 决策支持系统 领域驱动的数据挖掘(英语:Domain driven...
19 KB (2,578 words) - 11:11, 12 December 2024
个向量表示,其各個維度上的值對應于該词項在文档中出现的频率。余弦相似度因此可以给出两篇文档在其主题方面的相似度。 另外,它通常用于文本挖掘中的文件比较。此外,在数据挖掘领域中,會用到它来度量集群内部的凝聚力。 两个向量间的余弦值可以通过使用欧几里得点积公式求出: a ⋅ b = ‖ a ‖ ‖ b...
6 KB (1,077 words) - 16:50, 15 January 2025
LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。 LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关...
7 KB (1,205 words) - 22:37, 29 April 2023
Pre-trained Transformer 4 Omni,简称GPT-4o)是由OpenAI训练的多语言、多模态(多种类型数据,例如文本、图像、音频等)GPT大型语言模型。GPT-4o于2024年5月13日发布。 该模型比其前身GPT-4快两倍,而价格仅为其50%。该模型由米拉·穆拉...
9 KB (759 words) - 15:46, 31 May 2025
tf-idf(英語:term frequency–inverse document frequency)是一種用於資訊檢索與文本挖掘的常用加權技術。tf-idf是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會...
6 KB (1,123 words) - 08:37, 8 November 2024
技术的应用场景大致可分为以下几类: 印刷文本识别:印刷文本通常指报刊、杂志、文档、小票等使用现代计算机字体编排并印刷的文本内容。这类文本内容通常具有清晰一致的字体、间距等,因此识别技术相对成熟,并被广泛应用于纸质档案、报刊的数字化上。 手写文本识别:相较于具有固定字体的印刷文本而言,手写文本...
9 KB (1,151 words) - 04:56, 10 May 2024
以文字方式互動,而除了可以用人類自然對話方式來互動,還可以用于甚為複雜的語言工作,包括自动生成文本、自动问答、自动摘要等多种任务。如:在自动文本生成方面,ChatGPT可以根据输入的文本自动生成类似的文本(劇本、歌曲、企劃等),在自动问答方面,ChatGPT可以根据输入的问题自动生成答案。还有编写...
89 KB (8,423 words) - 13:55, 27 May 2025
作为信息检索的先驱者之一,Hans Peter Luhn(英语:Hans Peter Luhn)创造了这个短语,并在他的研究中应用这个概念,推动了这个概念的使用。 文本挖掘 概念挖掘 信息提取 自然语言处理 查询扩展 词干提取 搜索引擎标引 功能词 Luhn, H. P. Keyword-in-Context Index...
4 KB (435 words) - 16:27, 26 September 2024
model,LLM),也称大语言模型,是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练。大语言模型在2018年左右出现,并在各种任务中表现出色。 尽管这个术语没有正式的定义,但它通常指的是参数数量在数十亿或更多数量级的深度学习...
61 KB (6,345 words) - 22:05, 19 April 2025
文本分割(Text segmentation)将书面文本分割成有意义单位的过程,如单词、句子或主题。这个术语既适用于人类阅读文本时的心理过程,也适用于在计算机中实现的人工过程,后者属于自然语言处理的领域。一些书面语言有明确的单词分界标记,例如英语的词之间有空格标识,阿拉伯语有独特的首、中、末字母形状,但这种标记不是所有书面语言都有。...
2 KB (246 words) - 15:04, 18 September 2023
可以将图像和文本作为输入; 这使它能够描述不寻常图像中的幽默、总结截屏文本以及回答包含图表的试题。 尽管有这些新能力,GPT-4 和它的前辈一样,仍然倾向于产生幻觉答案。 GPT-4可通过API和ChatGPT Plus用户使用。 2023年3月9日,微软表示GPT-4是多模态学习的(将支持文本...
9 KB (787 words) - 14:08, 20 April 2025
search)(Vertical search) 计算机科学 文本自动摘要 索引 倒排索引 搜索引擎列表 搜索服务 企业搜索供应商 搜索引擎优化 搜索建议下拉列表(英语:Search suggest drop-down list) 求解程序(英语:Solver) 垃圾索引 SQL 文本挖掘 Voorhees, E.M. Natural...
5 KB (692 words) - 14:00, 4 February 2025
其中包括ChatGPT、Copilot、Gemini和LLaMA等聊天機器人;Stable Diffusion、Midjourney和DALL-E等文本到图像人工智慧影像生成系統;以及Sora等文字轉影片生成系統。OpenAI、Anthropic、微软、Google和百度等公司以及許多規模較小的公司都已開發出生成式人工智慧模型。...
68 KB (6,198 words) - 08:02, 21 March 2025
在大多数基准测试中都击败了Gemini和Claude。 Llama-4系列于2025年4月5日发布。其架构已更改为混合专家模型。它们具备多模态(文本和图像输入,文本输出)和多语言(12种语言)特性, 包括基础版本和指令调整版本: Scout:170 亿个活跃参数模型,包含 16 位专家,上下文窗口为 1000...
21 KB (2,037 words) - 15:49, 1 May 2025
用于Slack即时通讯服务,帮助导航和概括讨论内容(使用OpenAI的API) BioGPT – 由微软开发的,用于生物医学领域,帮助进行生物医学文献的文本生成和挖掘 ProtGPT2 – 用于蛋白质研究 有时,领域特异性可以通过软件插件或附加组件实现。例如,几家公司已经开发了与OpenAI的ChatGPT接口直接交互的特定插件,Google...
52 KB (4,318 words) - 06:29, 7 February 2025
圖靈機(Turing Machine),一種抽象的計算模型。 time.h,C語言的Library。 .tm,土庫曼國家及地區頂級域(ccTLD)的域名。 文本挖掘(Text mining) Tencent Messenger,中国深圳腾讯公司针对办公环境推出的免费即时通讯软件,可与QQ互联互通 他媽的,罵人的髒話...
1 KB (126 words) - 10:28, 2 November 2023
Tree),而我們必須要仰賴語意及前後文的資訊才能在其中選擇一棵最為適合的剖析樹。 例如語音處理時遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學字元識別(OCR)的錯誤。 句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是動手把盐递过去...
21 KB (2,586 words) - 12:19, 7 February 2025
Pre-Training),ELMo(英语:ELMo)和ULMFit。与之前的模型不同,BERT是一种深度双向的、无监督的语言表示,且仅使用纯文本语料库进行预训练的模型。上下文无关模型(如word2vec或GloVe(英语:GloVe))为词汇表中的每个单词生成一个词向量表示,因此容易出现单词...
13 KB (1,389 words) - 09:17, 20 February 2025
聊天机器人是基于文本的对话代理,可以通过某种媒介(例如即时消息服务)与人类用户进行交互。 一些聊天机器人是为特定目的而设计的,而另一些聊天机器人则与人类用户就广泛的主题进行对话。 ChatGPT (OpenAI 聊天机器人),2022年12月,ChatGPT plus 基于GPT-4。 输入可以是多模态(文字或图像,有OCR功能)。...
6 KB (649 words) - 03:00, 21 March 2025
等文本到图像模型向公众发布。 文本到影片生成 (TTV) 是一项新兴技术,可以直接根据文本描述创建影片。这个新颖的领域具有显着改变影片制作、动画和故事讲述的潜力。通过利用人工智能的力量,TTV 允许用户绕过传统的影片编辑工具,将他们的想法转化为移动图像。 一些方法用非文本输入来增强或替换自然语言文本提示。...
12 KB (1,507 words) - 07:47, 10 January 2025
在计算机科学和语言学中,语法分析(英語:syntactic analysis,也叫 parsing)是根据某种给定的形式文法对由单词序列(如英语单词序列)构成的输入文本进行分析并确定其语法结构的一种过程。 语法分析器(parser)通常是作为编译器或解释器的组件出现的,它的作用是进行语法检查、并构建由输入的单词组成...
3 KB (330 words) - 20:45, 17 May 2021
用到各種不同的技術上,如聊天機器人、Inbox by Gmail等,但需要有配對好的文本集才能訓練出對應的模型。 Seq2seq是用于自然语言处理的一系列机器学习方法。应用领域包括机器翻译,图像描述,对话模型和文本摘要。 此算法最初由Google开发,并用于机器翻译. 在2019年, Facebook宣布其用于求解微分方程。...
7 KB (738 words) - 04:19, 23 October 2023
Word2vec是一群用來產生詞向量的相關模型。這些模型為淺层雙層的神經網路,用來訓練以重新建構語言學之詞文本。網路以詞表現,並且需猜測相鄰位置的輸入詞,在word2vec中词袋模型假設下,詞的順序是不重要的。 訓練完成之後,word2vec模型可以把每個詞映射到一個向量,來表示詞与詞之間的關係。該向量為神經網路的隱藏層。...
5 KB (464 words) - 08:18, 26 October 2022
文本挖掘域被称为关键词抽取(英語:Keyword Extraction),在计算语言学领域通常着眼于术语自动识别(英語:Automatic Term Recognition),在訊息检索领域,就是指自动标引。自动标引属于文本訊息抽取的范畴。文本訊息抽取是从文本数据中抽取人们关注的特定的訊息。...
9 KB (1,502 words) - 11:16, 19 September 2024
愛思唯爾 (category CS1含有外文文本)
爱思唯尔寻求以私有许可规管文本和数据挖掘 ,声称,若读取活动是自动化的且出版商持有自动化输出内容的版权,则需要额外的许可。研究和版权政策的冲突往往导致研究者的工作成果被封锁。 2015年11月,爱思唯尔阻止一个科学家以爱思唯尔的论文成规模地执行文本挖掘...
124 KB (12,721 words) - 04:17, 4 May 2025
一般术语 语料库 口语语料库 停用词 词袋 完全人工智慧(英语:AI-complete) n元语法(双字母组、三元语法(英语:Trigrams)) 文本挖掘 文本分割 词性标注(英语:Part-of-speech tagging) 拆句处理(英语:Shallow parsing) 复合词处理(英语:Compound...
4 KB (314 words) - 18:26, 27 May 2025
一般术语 语料库 口语语料库 停用词 词袋 完全人工智慧(英语:AI-complete) n元语法(双字母组、三元语法(英语:Trigrams)) 文本挖掘 文本分割 词性标注(英语:Part-of-speech tagging) 拆句处理(英语:Shallow parsing) 复合词处理(英语:Compound...
15 KB (1,993 words) - 07:55, 21 March 2025
I于2003年提出。LDA允许文档拥有多种主题。它用於按主題收集、分類和降低文本的維度。 LDA 是一種主題模型方法,可用於分析文檔的主題分佈。它以概率分佈的形式揭示每個文檔集的主題,以便在分析一些文檔以提取其主題分佈後,可以根據主題分佈進行主題聚類或使用文本分類。每個主題都用一個詞分佈表示。其它主题模型一般是在LD...
4 KB (549 words) - 07:21, 5 April 2023
Speech Recognition, ASR)、電腦語音識別(英語:Computer Speech Recognition)或是語音轉文本識別(英語:Speech To Text, STT),其目标是以電腦自動将人类的语音内容转换为相應的文字。与说话人识别(英语:Speaker...
26 KB (4,776 words) - 14:13, 5 January 2024