文本信息检索 Search Results

文本信息检索

文本信息检索是针对文本的信息檢索技术。在技术社区中，文本信息检索常常被等同于信息检索技术本身。相对视频、音频检索而言，文本信息检索是发展较快也较成熟的，其他模态的信息检索技术，往往也要仰赖文本信息检索的支持。虽然网络搜索引擎目前已不仅仅局限于对文本进行检索，文本信息检索仍然是大部分网络搜索引擎的基础。...

20 KB (3,947 words) - 03:38, 20 December 2021

信息檢索

按照检索手段，可分为：传统信息检索（手工检索）和现代信息检索（计算机检索）；按照检索内容，分为：书目检索、数据检索、事实检索、全文检索、图像检索：例如：Google images 多媒体检索：例如：SoundHound（聲頻檢索）。傳統的指標：齊全率準確率检索速度常用的指標代號：...

6 KB (663 words) - 13:03, 5 January 2024

多模态学习 (section 跨模态检索)

多模态学习是一种深度学习方法。它整合和处理多种类型的数据，例如文本、音频、图像或视频。这些不同类型的数据叫做模态。这种整合能够更全面地理解复杂数据，从而提高模型在视觉问答、跨模态检索、文本到图像生成、美学排名和图像字幕等任务中的性能。 2023年以来，多模态大型语言模型（例如Google...

9 KB (1,147 words) - 16:13, 20 March 2025

文本挖掘

，产生结构化数据，并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性，新颖性和趣味性。典型的文本挖掘方法包括文本分类，文本聚类，概念/实体挖掘，生产精确分类，观点分析，文档摘要和实体关系模型（即，学习已命名实体之间的关系）。文本分析包括了信息检索与词典分析来研究词语的频数分布、模式识别、标签\注释、信息...

16 KB (1,989 words) - 04:41, 25 August 2024

搜索引擎 (category 信息检索系统)

搜索引擎（英語：search engine）是一种信息检索系统，旨在协助搜索存储在计算机系统中的信息。搜索结果一般被称为“hits”，通常会以表单的形式列出。网络搜索引擎是最常见、公开的一种搜索引擎，其功能为搜索万维网上储存的信息。搜索引擎为一组项目提供了一个接口，使用户能够指定关于感兴趣的项目的...

5 KB (692 words) - 14:00, 4 February 2025

光学字符识别

文本而言要更高。手写体识别可以帮助用户快速将手写的笔记内容数字化输入到计算机中，也被用在一些电子备忘录中来对用户的手写笔记内容进行检索。此外，由手写文本识别进一步衍生的一个应用则是签名笔迹认证，这类方法用于比对签名的真实性。公式文本...

9 KB (1,151 words) - 17:07, 7 June 2025

朴素贝叶斯分类器 (section 文本分类)

classifier）。單純貝氏自1950年代已广泛研究，在1960年代初就以另外一个名称引入到文本信息检索界中，并仍然是文本分类的一种热门（基准）方法，文本分类是以词频为特征判断文件所属类别或其他（如垃圾邮件、合法性、体育或政治等等）的问题。通过适当的预处理，它可以与这个领...

24 KB (4,474 words) - 05:25, 1 April 2024

网络搜索引擎 (section 搜集信息)

含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。整理信息及接受查询的过程，大量应用了文本信息检索技术，并根据网络超文本的特点，引入了更多的信息。 1990年初當時萬維網還未出現，為了查詢散佈在各個分散的主機中的文件，曾有...

16 KB (2,190 words) - 21:25, 26 July 2022

向量空間模型 (category 信息检索)

向量空间模型是一个把文本文件表示為标识符（比如索引）向量的代数模型。它应用于信息过滤、信息检索、索引以及相關排序。SMART是第一个使用这个模型的信息检索系统。[來源請求] 文档和查詢都用向量来表示。 d j = ( w 1 , j , w 2 , j , . . . , w t , j ) {\displaystyle...

8 KB (1,406 words) - 05:08, 12 July 2023

跨語檢索

of foreign language documents》文章。Salton 以智能文本信息检索系統當作實驗對象，智能檢索系統背後有多國語言語料庫的支援，藉由該系統，Salton 使用英文為主要檢索詞彙的語言，檢索德文的文件和資料，反之亦然。實驗結果發現，採用全自動文件處理方法(fully automatic...

11 KB (1,372 words) - 16:17, 19 September 2020

全文檢索

從文本或資料庫中，不限定資料欄位，自由地萃取出訊息的技術。執行全文檢索任務的程式，一般稱作搜尋引擎，它將使用者隨意輸入的文字，試圖從資料庫中，找到符合的內容。語根處理 (stemming) 符素解析器 (token parser) 1-gram, 2-gram , n-gram 斷詞/分詞 word...

2 KB (154 words) - 07:22, 15 May 2019

余弦相似性 (category 信息检索)

注意這上下界对任何维度的向量空間中都適用，而且余弦相似性最常用於高维正空间。例如在信息检索中，每个词項被賦予不同的維度，而一个文档由一个向量表示，其各個維度上的值對應于該词項在文档中出现的频率。余弦相似度因此可以给出两篇文档在其主题方面的相似度。另外，它通常用于文本挖掘中的文件比较。此外，在数据挖掘领域中，會用到它来度量集群内部的凝聚力。...

6 KB (1,077 words) - 16:50, 15 January 2025

基于内容的图像检索

基于内容的图像检索（英語：Content-based image retrieval，CBIR；或content-based visual information retrieval），属于图像分析的一个研究领域。基于内容的图像检索目的是在给定查询图像的前提下，依据内容信息...

5 KB (792 words) - 03:46, 5 February 2023

计算机文献检索

计算机文献检索经常称为机检，是文献检索的一种方式。是通过计算机来模拟人的手工检索过程，由计算机来处理检索者的检索提问，将检索者输入检索系统的检索提问(即检索标识)按检索者预先制定的检索策略与系统文档（机读数据库）中的存贮标识进行类比、匹配运算,通过“人机对话”而检索出所需要的文献。目前计算机检索...

2 KB (402 words) - 10:22, 9 November 2022

自然语言处理 (redirect from 自然语言信息处理)

classification）自然語言生成（Natural language generation）文本分类（Text categorization）信息检索（Information retrieval）信息抽取（Information extraction）文字校對（Text-proofing）問答系統（Question...

21 KB (2,586 words) - 17:09, 7 June 2025

停用词 (category 信息技术)

在信息檢索中，为节省存储空间和提高搜索效率，在自然语言处理数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words（停用词）。对于一个给定的目的，任何一类的词语都可以被选作停用词。通常意义上，停用词大致分为两类。一类是人类语言中包含的功能词，这些功能词极其普遍，与其他...

4 KB (435 words) - 16:27, 26 September 2024

檢索增強生成

檢索增強生成（英語：Retrieval-augmented generation, RAG ) 是赋予生成式人工智能模型資訊檢索能力的技术。檢索增強生成最佳化大型语言模型(LLM) 的交互方式，讓模型根据指定的一组文件回應使用者的查詢，并使用这些資訊增强模型从自身庞大的静态训练数据中提取的資訊。檢索...

1 KB (131 words) - 12:35, 3 January 2025

识典古籍

据统计，中国现存约20万种中国古籍，合计约5000万册，其中有图片扫描的约8万种，有文本数字化的只有约4万种，此外还有约1000万册古籍亟需修复。将古籍扫描成图片固然可以保存和保护古籍，但仅仅是图片版本的扫描并不能进行全文检索，不便于研究、阅读和传播，因此将图片转成文本，以文本的形式实现完全数字化才能起到最大的作用。中国一直在陆...

10 KB (1,545 words) - 14:07, 15 December 2023

文档分类

indexing）基于内容的图像检索文档监督式学习, 非监督式学习文档检索（英语：Document retrieval）文档聚类（英语：Document clustering）信息检索信息组织（英语：Knowledge organization）信息组织体系（英语：Knowledge...

11 KB (1,331 words) - 15:39, 14 January 2024

语音识别

语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。...

26 KB (4,776 words) - 17:12, 7 June 2025

Solr

Lucene项目的开源企业搜索（英语：Enterprise search）平台。其主要功能包括全文检索、命中標示、分面搜索（英语：Faceted search）、动态聚类、数据库集成，以及富文本（如Word、PDF）的處理。Solr是高度可扩展的，并提供了分布式搜索和索引复制。Solr是最流行的企业级搜索引擎，Solr...

5 KB (660 words) - 13:35, 14 January 2023

电子游戏本地化

文本等其他信息。配音是为配音演员朗读而准备的翻译台词。这是用于预渲染或预录制视频的翻译对话。大多数字幕都是硬编码的，以确保视频和字幕同步。玩家界面是电子游戏玩家操作游戏或是与游戏内容互动的地方。包含各种需要翻译的不同文字素材。翻译人需要斟酌以确保游戏翻译文本的位元数可以被容纳进游戏本体，特别是Rom的汉化。...

16 KB (1,888 words) - 00:07, 14 September 2023

简单邮件传输协议

Exchange/Outlook或Lotus Notes/Domino。Webmail客户端可能使用其中任一方式，但检索协议通常不是正式标准。 SMTP定义了消息传输而非消息内容，因此它定义了邮件信封及其参数（如信封发件人），但不包括消息的头部（除追踪信息外）或正文。STD 10和RFC 5321定义了SMTP（即信封），而STD 11和RFC...

13 KB (2,282 words) - 05:25, 4 November 2024

词袋模型

在自然語言處理和信息檢索裏，词袋模型（英語：Bag-of-words model）是一個簡化的表達模型。在此模型下，一段文本（比如一个句子或是一个文档）可以用一個装着这些词的袋子来表示，這種表示方式不考慮文法以及詞的順序。最近词袋模型也被應用在電腦視覺領域。词袋模型被廣泛應用在文件分類，詞語出現的頻率可以用來當作訓練分類器的特徵。...

4 KB (480 words) - 17:32, 6 June 2023

SAP HANA (category 使用未知软件信息框参数的页面)

HANA指的是其内置的数据库管理系统，其主要功能是存储和检索数据。广义上，SAP HANA指的是HANA数据库系统及周边的各种功能组成的平台。SAP HANA除内置数据库以外，还具有高级分析（例如预测分析，空间数据处理，文本分析，文本搜索，流分析，图形数据处理）功能，ETL功能，并内置了应用程序服务器。...

3 KB (356 words) - 01:28, 5 October 2021

文字处理器 (redirect from 文本编辑)

作。汉语中对此类系统又称为字词处理系统。文本編輯引入電腦的概念改變了世界，有趣的是這套軟件的研製與華人有相當的關連，1975年積體電路技術逐漸成熟，電腦小型化到桌上等級成為可能，在電腦發展早期，王安电脑公司就看準此次商機首次推出了世界上第一台具有編輯、檢索等功能的文字處理系統。這種「WPS」...

6 KB (766 words) - 01:41, 20 June 2024

互联网电影数据库

2021年7月，测试发现使用中国移动网络无法访问IMDb网站。 IMDb的数据在官网上可以免费下载，可惜的是免费提供下载的数据是文本格式，不能检索。为了使IMDb的数据能够被更多人使用，许多开发人员用各自的方法实现了不同的API，目前主要有以下几种：...

23 KB (2,475 words) - 07:38, 15 April 2025

Slack (category 使用未知软件信息框参数的页面)

"Slack for Android – release notes"; 检索日期: 2025年2月23日; 作者姓名字符串: Slack; 作品或名稱使用語言: 英語. "Slack for iOS – release notes"; 检索日期: 2025年2月23日; 作者姓名字符串: Slack; 作品或名稱使用語言:...

10 KB (739 words) - 11:19, 14 March 2024

内容管理系统

、Drupal、Xoops、CmsTop等。内容是任何类型的数字信息的结合体，可以是文本、图形图像、Web页面、业务文档、数据库表单、视频、声音、XML文件等。应该说，内容是一个比数据、文档和信息更广的概念，是对各种结构化数据、非结构化文档、信息的聚合。管理就是施加在“内容”对象上的一系列处理过程，包括...

3 KB (436 words) - 02:46, 22 August 2023

SimRank (category 信息检索)

是一种基于图的拓扑结构信息来衡量任意两个对象间相似程度的模型，该模型由 MIT 实验室的 Glen Jeh 和 Jennifer Widom教授在2002年首先提出。SimRank相似度的核心思想为：如果两个对象和被其相似的对象所引用（即它们有相似的入邻边结构），那么这两个对象也相似。近年来已在信息检索...

6 KB (1,095 words) - 23:07, 26 September 2020

Tf-idf (category 情报检索)

tf-idf（英語：term frequency–inverse document frequency）是一種用於資訊檢索與文本挖掘的常用加權技術。tf-idf是一種統計方法，用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加，但同時...

6 KB (1,123 words) - 08:37, 8 November 2024