大型语言模型 (LLM) 是一种机器学习模型,专为语言生成等自然语言处理任务而设计。LLM 是具有许多参数的语言模型,并通过对大量文本进行自监督学习进行训练。 本页列出了值得注意的大型语言模型。 对于训练成本一列,1 petaFLOP-day = 1 petaFLOP/sec × 1 天 = 8.64×1019...
65 KB (3,341 words) - 03:19, 6 May 2025
大型语言模型(英語:large language model,LLM),也称大语言模型,是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练。大语言模型在2018年左右出现,并在各种任务中表现出色。...
62 KB (6,346 words) - 13:36, 9 June 2025
基于转换器的生成式预训练模型(英語:generative pre-trained transformers,GPT)是一种大型语言模型(LLM),也是生成式人工智慧的重要框架。首个GPT由OpenAI于2018年推出。GPT模型是基于Transformer模型的人工神经网络,在大型...
52 KB (4,318 words) - 06:29, 7 February 2025
LangChain (category 大型语言模型)
LangChain 是一个应用框架,旨在简化使用大型语言模型的应用程序。作为一个语言模型集成框架,LangChain 的用例与一般语言模型的用例有很大的重叠。 重叠范围包括文档分析和总结摘要, 代码分析和聊天机器人。 LangChain提供了一个标准接口,用于将不同的语言模型...
3 KB (257 words) - 08:08, 31 March 2025
檢索增強生成 (category 大型语言模型)
generation, RAG ) 是赋予生成式人工智能模型資訊檢索能力的技术。檢索增強生成最佳化大型语言模型(LLM) 的交互方式,讓模型根据指定的一组文件回應使用者的查詢,并使用这些資訊增强模型从自身庞大的静态训练数据中提取的資訊。檢索增強生成技術促使大型語言模型能够使用特定领域或更新後的資訊。應用案例,包...
1 KB (131 words) - 12:35, 3 January 2025
模型學習輸入數據的模式和結構,然後產生與訓練數據相似但具有一定程度新穎性的新內容,而不僅僅是分類或預測數據。用於處理生成式人工智慧的最突出框架包括生成对抗网络和基于转换器的生成式预训练模型。 基於Transformer模型的深度神經網路,特別是大型语言模型 (LLM)...
68 KB (6,198 words) - 08:02, 21 March 2025
大型语言模型。是應對OpenAI公司開發的ChatGPT聊天機器人的崛起而開發的。其在2023年3月以有限的規模推出,2023年5月擴展到更多個國家。2024年2月8日從Bard更名为Gemini。 最初基於LaMDA系列大型語言模型...
64 KB (4,717 words) - 07:46, 21 June 2025
深度求索 (section 模型效率提升是否意味着算力重要性降低?)
深度求索(DeepSeek),全称杭州深度求索人工智能基础技术研究有限公司,是中华人民共和国的一家人工智能与大型语言模型公司。该公司的总部位于浙江省杭州市(注册地位于拱墅区),由中資对冲基金幻方量化创立,创始人和行政總裁为梁文锋。 早在2008年,梁文锋就开始带领团队使用机器学习等技术探索全自动量化交易。...
72 KB (6,660 words) - 05:26, 8 June 2025
Mamba (深度学习架构) (redirect from Mamba (深度学习模型))
成为未来视觉表征学习进步的可扩展模型。 Jamba 是一种将Transformer 和 Mamba SSM 架构相结合的新型架构,由AI21 Labs开发,拥有 520 亿个参数,是迄今为止创建的参数最多的 Mamba 变种。它有一个包含 256k token的上下文窗口。 Mamba代表了大型语言模型...
11 KB (1,287 words) - 06:46, 11 June 2025
Transformer架构 (redirect from Transformer模型)
深度学习架构,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。采用该架构的模型主要用于自然语言处理(NLP)与计算机视觉(CV)领域。 与循环神经网络(RNN)一样,Transformer旨在处理自然语言等顺序输入数据,可应用于翻译、文本摘要等任务。而与RNN不同的是,Transform...
22 KB (2,950 words) - 04:58, 26 April 2025
ChatGPT (category 大型语言模型)
5、GPT-4、GPT-4o、GPT-4.5架构的大型语言模型並以强化学习训练。ChatGPT目前仍以文字方式互動,而除了可以用人類自然對話方式來互動,還可以用于甚為複雜的語言工作,包括自动生成文本、自动问答、自动摘要等多种任务。如:在自动文本生成方面,Chat...
89 KB (8,390 words) - 13:52, 8 June 2025
本、音频、图像或视频。这些不同类型的数据叫做模态。这种整合能够更全面地理解复杂数据,从而提高模型在视觉问答、跨模态检索、文本到图像生成、美学排名和图像字幕等任务中的性能。 2023年以来,多模态大型语言模型(例如Google Gemini和GPT-4o)越来越受欢迎。它们能够提高多功能性并更广泛地理解现实世界中的现象。...
9 KB (1,147 words) - 16:13, 20 March 2025
通义千问 (category 大型语言模型)
模型工具「通义千问」,并宣布此语言模型会接入阿里旗下的所有业务中。 2023年9月13日,阿里云宣布通义千问向公众开放。 2025年4月29日,新一代模型Qwen3(千问3)宣布开源,总共涉及8款不同尺寸的千问3模型。目前,阿里通义已开源200余个模型,全球下载量超3亿次。 语言主题 技术主题...
5 KB (469 words) - 03:42, 8 June 2025
search)、语义检索、多模态搜索(英语:Multimodal search)、推薦系統、大型语言模型(LLM)、物体识别等。 向量数据库也常用于实现檢索增強生成(RAG),这是一种提高大型语言模型在特定领域响应能力的方法。RAG的检索组件可以是任何搜索系统,但最常见的实现方式是向量数据库。首...
5 KB (508 words) - 20:46, 29 March 2025
用例图、协作图、活动图、序列图、部署图、构件图、类图、状态图,是模型中信息的图形表达方式,但是UML模型独立于UML图存在。UML的当前版本只提供了模型信息的交换,而没有提供图信息的交换。 UML使用一套与Java语言或其他面向对象语言等价物,同时也是本体论等价物的图形标记。...
12 KB (1,406 words) - 15:30, 2 May 2025
SQL 是最早采用埃德加・F・科德提出的关系模型的商用语言之一。该模型在他 1970 年发表的具有重大影响力的论文《大型共享数据库的关系数据模型》中被详细阐述。尽管 SQL 并未完全遵循科德所描述的关系模型,但还仍然成为了使用最为广泛的数据库语言。 SQL在1986年成为美国国家标准学会(AN...
22 KB (2,336 words) - 05:43, 16 June 2025
(页面存档备份,存于互联网档案馆) 生成式人工智慧 聊天機器人 大型语言模型 文本到图像生成模型 GPT-3 (OpenAI 對話語言模型) GPT-4 (OpenAI 對話語言模型) LLaMA(Meta 對話語言模型) LaMDA(Google 對話語言模型) BLOOM ElevenLabs(英语:ElevenLabs)...
6 KB (652 words) - 13:27, 7 June 2025
人工智能术语表 (category 自2025年5月未完成列表)
信息处理语言 智力放大 智能控制 智能个人助理——助理軟體 解释 (逻辑) 核方法 知识蒸馏 知识交换格式 k-均值聚类 语言模型 大型语言模型——用大量文字建構的語言模型 Lisp(编程语言)——編程語言 逻辑编程 机器学习——對電腦系統用於在沒有明確指令的情況下執行任務的演算法與統計模型的科學研究...
9 KB (1,557 words) - 18:55, 4 June 2025
计算机科学术语表 (category 自2025年6月未完成列表)
(计算机科学) 虚拟机——计算机软件 V模型 (软件开发) 瀑布模型 波形音频文件格式 网络爬虫——从互联网上检索资源的程序 Wi-Fi——基于電機電子工程師學會802.11标准的无线局域网 XHTML ——标记语言HTML以XML形式的地方 基本的计算机科学主题列表 人工智能术语表 计算机硬件术语表(英语:Glossary...
11 KB (2,297 words) - 15:57, 18 June 2025
Microsoft Copilot (section 集成OpenAI语言模型)
Microsoft Copilot是由微软开发的基于大型语言模型的聊天機器人,於2023年2月7日推出。它被視為Cortana的後繼產品。 Microsoft Copilot在Microsoft Bing和Microsoft Edge內被稱為Bing Chat 。 在Build 2023大会上,微软宣布Windows...
28 KB (2,805 words) - 16:55, 14 May 2025
文心一言 (category 大型语言模型)
2023年3月20日,百度於官方微信公布,文心一言雲服務將於3月27日上線。 2023年3月27日,百度推出企业级大语言模型服务平台「文心千帆」,其包括百度全套文心大模型、相应的开发工具链。 2023年6月27日,百度在一份声明中表示,其最新版本的文心一言模型——文心一言3.5,在综合能力得分上超过了ChatGPT,并在多个中文功能方面表现优于GPT-4。...
10 KB (1,106 words) - 07:57, 19 June 2025
Microsoft 365 Copilot是一种基于大型语言模型(LLM)和微软图形(Microsoft Graph)的数据和人工智能(AI)辅助工具,它可以将用户的自然语言输入转化为高效的生产力工具。它于2023年9月26日由微软公司正式发布,并集成在微软365(Microsoft...
8 KB (847 words) - 08:20, 14 February 2025
GPT-1 (category 大型语言模型)
GPT-1,全称基于转换器的生成式预训练模型1(Generative Pre-trained Transformer 1)是继2017年Google推出Transformer架构后,OpenAI推出的第一个大型语言模型。2018年,OpenAI发布了一篇名为《通过生成式预训练提高语言理解能力》(Improving...
26 KB (1,127 words) - 07:03, 14 January 2025
IBM Granite (category 大型语言模型)
基礎模型是指在大規模且多元資料上進行訓練的人工智慧模型,因此能夠適用於各種下游任務。 Granite的第一批基礎模型分別為 Granite.13b.instruct 與 Granite.13b.chat。它們名稱中的「13b」取自模型擁有的130億個參數,低於當時大多數較大型語言模型的參數數量。後續模型的參數規模介於30億至340億之間。...
7 KB (524 words) - 03:18, 8 June 2025
聊天機器人 (category 大型语言模型)
Messenger即時回答學生作業相關的問題,以便加速學習。加大爾灣分校圖書館的聊天機器人「ANTswers」於2014年開始試用,被外界認為非常成功。 聊天机器人列表 生成式人工智慧 大型语言模型 通用人工智慧 图灵测试 What is a chatbot?. techtarget,com. [30 January 2017]...
15 KB (1,992 words) - 10:15, 18 June 2025
Python (redirect from Python程序设计语言)
模型、从用户获取反馈,并通过自动生成的可共享链接轻松部署模型。 LangChain:它是一个应用框架,旨在简化使用大型语言模型的应用程序。作为一个语言模型集成框架,LangChain的用例包括文档分析和总结摘要, 代码分析和聊天机器人。 LangChain提供了一个标准接口,用于将不同的语言模型...
220 KB (23,158 words) - 01:32, 15 June 2025
词嵌入 (category 语言模型)
embedding)是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。 词嵌入的方法包括人工神经网络、对词语同现矩阵(英语:co-occurrence matrix)降维、機率模型以及单词所在上下文的显式表示等。...
10 KB (936 words) - 23:34, 12 August 2024
机器翻译 (category 语言学)
語言,如上文所说,知识库作为专业领域,其文法较为制式化,翻译结果亦更加符合自然语言。 早期的方法大多基于规则或统计。这些方法后来被神经机器翻译和大型语言模型所取代。 機器翻譯的概念最早可追溯到17世紀。1629年,哲學家笛卡兒提出了世界語言的概念,即将不同语言...
13 KB (1,839 words) - 03:19, 15 June 2025
模型处理。同时,它一般也包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。 声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。 发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。 语言模型。语言...
26 KB (4,776 words) - 17:12, 7 June 2025
模型。 在Elm架构中,发送消息至update是改变状态的唯一方式。在更加复杂的应用中,消息可以来自各种来源:用户交互,模型初始化,来自update的内部调用,订阅的外部事件(窗口改变大小、系统时钟、JavaScript互操作等等)和URL变更及请求。 Elm不支持高种类多态,这是同为函数式的语言...
20 KB (2,251 words) - 19:56, 7 May 2023
2016年最佳語言」。 目前,Go每半年发布一个二级版本(即从a.x升级到a.y)。 Go的语法接近C语言,但对于变量的声明有所不同。Go支持垃圾回收功能。Go的并行计算模型是以東尼·霍爾的通信顺序进程(CSP)为基础,采取类似模型的其他语言包括Occam和Limbo,Go也具有这个模型...
26 KB (2,355 words) - 09:03, 1 March 2025