文本挖掘(Text mining)有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中)...
16 KB (1,989 words) - 04:41, 25 August 2024
文本情感分析(也称为意见挖掘)是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观訊息。 通常来说,情感分析的目的是为了找出说话者/作者在某些话题上或者针对一个文本两极的观点的态度。这个态度或许是他或她的个人判断或是评估,也许是他当时的情感状态(就是说,作者在做出这个言论时的...
18 KB (2,101 words) - 10:45, 23 May 2025
个向量表示,其各個維度上的值對應于該词項在文档中出现的频率。余弦相似度因此可以给出两篇文档在其主题方面的相似度。 另外,它通常用于文本挖掘中的文件比较。此外,在数据挖掘领域中,會用到它来度量集群内部的凝聚力。 两个向量间的余弦值可以通过使用欧几里得点积公式求出: a ⋅ b = ‖ a ‖ ‖ b...
6 KB (1,077 words) - 16:50, 15 January 2025
LDA首先由 David M. Blei、吴恩达和迈克尔·I·乔丹于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。 LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关...
7 KB (1,205 words) - 22:37, 29 April 2023
(statistics)) 支持向量机 文本挖掘 代理挖掘(英语:Agent mining) 应用领域 解析学(英语:Analytics) 行为信息学(英语:Behavior informatics) 大數據 生物信息学 商业智能 数据分析 資料倉儲 决策支持系统 领域驱动的数据挖掘(英语:Domain driven...
19 KB (2,578 words) - 11:11, 12 December 2024
以文字方式互動,而除了可以用人類自然對話方式來互動,還可以用于甚為複雜的語言工作,包括自动生成文本、自动问答、自动摘要等多种任务。如:在自动文本生成方面,ChatGPT可以根据输入的文本自动生成类似的文本(劇本、歌曲、企劃等),在自动问答方面,ChatGPT可以根据输入的问题自动生成答案。还有编写...
89 KB (8,390 words) - 04:18, 28 June 2025
tf-idf(英語:term frequency–inverse document frequency)是一種用於資訊檢索與文本挖掘的常用加權技術。tf-idf是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會...
6 KB (1,123 words) - 08:37, 8 November 2024
Pre-trained Transformer 4 Omni,简称GPT-4o)是由OpenAI训练的多语言、多模态(多种类型数据,例如文本、图像、音频等)GPT大型语言模型。GPT-4o于2024年5月13日发布。 该模型比其前身GPT-4快两倍,而价格仅为其50%。该模型由米拉·穆拉...
9 KB (759 words) - 12:20, 25 June 2025
model,LLM),也称大语言模型,是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练。大语言模型在2018年左右出现,并在各种任务中表现出色。 尽管这个术语没有正式的定义,但它通常指的是参数数量在数十亿或更多数量级的深度学习...
62 KB (6,346 words) - 13:36, 9 June 2025
作为信息检索的先驱者之一,Hans Peter Luhn(英语:Hans Peter Luhn)创造了这个短语,并在他的研究中应用这个概念,推动了这个概念的使用。 文本挖掘 概念挖掘 信息提取 自然语言处理 查询扩展 词干提取 搜索引擎标引 功能词 Luhn, H. P. Keyword-in-Context Index...
4 KB (435 words) - 16:27, 26 September 2024
search)(Vertical search) 计算机科学 文本自动摘要 索引 倒排索引 搜索引擎列表 搜索服务 企业搜索供应商 搜索引擎优化 搜索建议下拉列表(英语:Search suggest drop-down list) 求解程序(英语:Solver) 垃圾索引 SQL 文本挖掘 Voorhees, E.M. Natural...
5 KB (692 words) - 14:00, 4 February 2025
可以将图像和文本作为输入;这使它能够描述不寻常图像中的幽默、总结截屏文本以及回答包含图表的试题。 尽管有这些新能力,GPT-4 和它的前辈一样,仍然倾向于产生幻觉答案。 GPT-4可通过API和ChatGPT Plus用户使用。 2023年3月9日,微软表示GPT-4是多模态学习的(将支持文本...
9 KB (787 words) - 12:20, 25 June 2025
圖靈機(Turing Machine),一種抽象的計算模型。 time.h,C語言的Library。 .tm,土庫曼國家及地區頂級域(ccTLD)的域名。 文本挖掘(Text mining) Tencent Messenger,中国深圳腾讯公司针对办公环境推出的免费即时通讯软件,可与QQ互联互通 他媽的,罵人的髒話...
1 KB (126 words) - 10:28, 2 November 2023
技术的应用场景大致可分为以下几类: 印刷文本识别:印刷文本通常指报刊、杂志、文档、小票等使用现代计算机字体编排并印刷的文本内容。这类文本内容通常具有清晰一致的字体、间距等,因此识别技术相对成熟,并被广泛应用于纸质档案、报刊的数字化上。 手写文本识别:相较于具有固定字体的印刷文本而言,手写文本...
9 KB (1,151 words) - 17:07, 7 June 2025
Tree),而我們必須要仰賴語意及前後文的資訊才能在其中選擇一棵最為適合的剖析樹。 例如語音處理時遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學字元識別(OCR)的錯誤。 句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是動手把盐递过去...
21 KB (2,586 words) - 17:09, 7 June 2025
在大多数基准测试中都击败了Gemini和Claude。 Llama-4系列于2025年4月5日发布。其架构已更改为混合专家模型。它们具备多模态(文本和图像输入,文本输出)和多语言(12种语言)特性, 包括基础版本和指令调整版本: Scout:170 亿个活跃参数模型,包含 16 位专家,上下文窗口为 1000...
21 KB (2,037 words) - 03:57, 8 June 2025
用于Slack即时通讯服务,帮助导航和概括讨论内容(使用OpenAI的API) BioGPT – 由微软开发的,用于生物医学领域,帮助进行生物医学文献的文本生成和挖掘 ProtGPT2 – 用于蛋白质研究 有时,领域特异性可以通过软件插件或附加组件实现。例如,几家公司已经开发了与OpenAI的ChatGPT接口直接交互的特定插件,Google...
52 KB (4,298 words) - 15:28, 24 June 2025
等文本到图像模型向公众发布。 文本到影片生成 (TTV) 是一项新兴技术,可以直接根据文本描述创建影片。这个新颖的领域具有显着改变影片制作、动画和故事讲述的潜力。通过利用人工智能的力量,TTV 允许用户绕过传统的影片编辑工具,将他们的想法转化为移动图像。 一些方法用非文本输入来增强或替换自然语言文本提示。...
12 KB (1,507 words) - 07:47, 10 January 2025
其中包括ChatGPT、Copilot、Gemini和LLaMA等聊天機器人;Stable Diffusion、Midjourney和DALL-E等文本到图像人工智慧影像生成系統;以及Sora等文字轉影片生成系統。OpenAI、Anthropic、微软、Google和百度等公司以及許多規模較小的公司都已開發出生成式人工智慧模型。...
68 KB (6,198 words) - 08:02, 21 March 2025
在计算机科学和语言学中,语法分析(英語:syntactic analysis,也叫 parsing)是根据某种给定的形式文法对由单词序列(如英语单词序列)构成的输入文本进行分析并确定其语法结构的一种过程。 语法分析器(parser)通常是作为编译器或解释器的组件出现的,它的作用是进行语法检查、并构建由输入的单词组成...
3 KB (330 words) - 20:45, 17 May 2021
Pre-Training),ELMo(英语:ELMo)和ULMFit。与之前的模型不同,BERT是一种深度双向的、无监督的语言表示,且仅使用纯文本语料库进行预训练的模型。上下文无关模型(如word2vec或GloVe(英语:GloVe))为词汇表中的每个单词生成一个词向量表示,因此容易出现单词...
13 KB (1,389 words) - 11:29, 4 June 2025
文本分割(Text segmentation)将书面文本分割成有意义单位的过程,如单词、句子或主题。这个术语既适用于人类阅读文本时的心理过程,也适用于在计算机中实现的人工过程,后者属于自然语言处理的领域。一些书面语言有明确的单词分界标记,例如英语的词之间有空格标识,阿拉伯语有独特的首、中、末字母形状,但这种标记不是所有书面语言都有。...
2 KB (246 words) - 15:04, 18 September 2023
聊天机器人是基于文本的对话代理,可以通过某种媒介(例如即时消息服务)与人类用户进行交互。 一些聊天机器人是为特定目的而设计的,而另一些聊天机器人则与人类用户就广泛的主题进行对话。 ChatGPT (OpenAI 聊天机器人),2022年12月,ChatGPT plus 基于GPT-4。 输入可以是多模态(文字或图像,有OCR功能)。...
6 KB (652 words) - 13:27, 7 June 2025
文档分类 (category 数据挖掘)
主题 (文档)(英语:Subject (documents)) 主题索引(英语:Subject indexing) 文本挖掘, 网页挖掘(英语:web mining), 概念挖掘(英语:concept mining) Fabrizio Sebastiani. Machine learning in...
11 KB (1,331 words) - 15:39, 14 January 2024
语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記。 根据语料库的特征,可以分为单语语料库、双语语料库、平行语料库等,根据语料的来源,可以分为书面语语料库、口语语料库、作文语料库、学习者语料库、古文书语料库等。 点通多语言语音語料庫 賓州大學語料庫(页面存档备份,存于互联网档案馆)...
6 KB (647 words) - 09:08, 5 October 2023
Word2vec是一群用來產生詞向量的相關模型。這些模型為淺层雙層的神經網路,用來訓練以重新建構語言學之詞文本。網路以詞表現,並且需猜測相鄰位置的輸入詞,在word2vec中词袋模型假設下,詞的順序是不重要的。 訓練完成之後,word2vec模型可以把每個詞映射到一個向量,來表示詞与詞之間的關係。該向量為神經網路的隱藏層。...
5 KB (464 words) - 08:18, 26 October 2022
matrix)降维、機率模型以及单词所在上下文的显式表示等。 在底层输入中,使用词嵌入来表示词组的方法极大提升了NLP中语法分析器和文本情感分析等的效果。 词嵌入技术起源于2000年。约书亚·本希奥等人在一系列论文中使用了神经機率语言模型(Neural probabilistic language...
10 KB (936 words) - 23:34, 12 August 2024
愛思唯爾 (category CS1含有外文文本)
爱思唯尔寻求以私有许可规管文本和数据挖掘 ,声称,若读取活动是自动化的且出版商持有自动化输出内容的版权,则需要额外的许可。研究和版权政策的冲突往往导致研究者的工作成果被封锁。 2015年11月,爱思唯尔阻止一个科学家以爱思唯尔的论文成规模地执行文本挖掘...
124 KB (12,721 words) - 23:34, 14 June 2025
I于2003年提出。LDA允许文档拥有多种主题。它用於按主題收集、分類和降低文本的維度。 LDA 是一種主題模型方法,可用於分析文檔的主題分佈。它以概率分佈的形式揭示每個文檔集的主題,以便在分析一些文檔以提取其主題分佈後,可以根據主題分佈進行主題聚類或使用文本分類。每個主題都用一個詞分佈表示。其它主题模型一般是在LD...
4 KB (549 words) - 07:21, 5 April 2023
TAIDE模型的訓練素材具有臺灣本土特色,涵蓋了政府與民間多元領域的資料。 這些素材包括大量通用文本,如中央社、光華雜誌、公共電視、各部會公開資料、法規資料庫及國家文化記憶庫等,以及字辭典資料,如臺灣語料庫和各領域常用字辭典,還有來自民間出版社提供的文本。 在算力方面,先期已建置9臺共72片最新的NVIDIA...
8 KB (986 words) - 08:09, 13 May 2025
n元语法(英語:n-gram)指文本中连续出现的n个语词。n元语法模型是基于(n-1)阶马尔可夫链的一种概率语言模型,通过n个语词出现的概率来推断语句的结构。这一模型被广泛应用于概率论、通信理论、计算语言学(如基于统计的自然语言处理)、计算生物学(如序列分析)、数据压缩等领域。...
2 KB (134 words) - 07:42, 7 February 2025