大型语言模型(英語:large language model,LLM),也称大语言模型,是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练。大语言模型在2018年左右出现,并在各种任务中表现出色。...
61 KB (6,345 words) - 22:05, 19 April 2025
大型语言模型 (LLM) 是一种机器学习模型,专为语言生成等自然语言处理任务而设计。LLM 是具有许多参数的语言模型,并通过对大量文本进行自监督学习进行训练。 本页列出了值得注意的大型语言模型。 对于训练成本一列,1 petaFLOP-day = 1 petaFLOP/sec × 1 天 = 8.64×1019...
65 KB (3,341 words) - 03:19, 6 May 2025
基于转换器的生成式预训练模型(英語:generative pre-trained transformers,GPT)是一种大型语言模型(LLM),也是生成式人工智慧的重要框架。首个GPT由OpenAI于2018年推出。GPT模型是基于Transformer模型的人工神经网络,在大型...
52 KB (4,318 words) - 06:29, 7 February 2025
大型语言模型,其最新版本为Claude 3.7 Sonnet。 Claude是由Anthropic公司开发的先进人工智能模型,该公司专注于创建安全、可靠且符合人类价值观的人工智能系统。Claude以信息论之父香农的名字命名,旨在成为友善、诚实、无害的人工智能助手,协助完成从自然语言理解到复杂问题解决等一系列任务。...
13 KB (1,221 words) - 19:51, 6 March 2025
語言模型是一個自然語言中的詞語機率分佈模型,例如提供一个长度为 m {\displaystyle m} 的字詞序列 w 1 , w 2 , . . . , w m {\displaystyle w_{1},w_{2},...,w_{m}} ,計算這些字詞的概率: P ( w 1 , … , w m...
10 KB (1,696 words) - 09:44, 6 February 2025
Gemini是一个多模态大型语言模型系列,由谷歌DeepMind开发,是LaMDA的后继,属于PaLM2系列的新一代。Gemini包含Gemini Ultra、Gemini Pro和Gemini Nano,于2023年12月6日面世,被定位为与OpenAI的GPT-4抗衡的产品系列。 Google在2023年5月10日的Google...
4 KB (314 words) - 10:27, 2 May 2025
大型语言模型。是應對OpenAI公司開發的ChatGPT聊天機器人的崛起而開發的。其在2023年3月以有限的規模推出,2023年5月擴展到更多個國家。2024年2月8日從Bard更名为Gemini。 最初基於LaMDA系列大型語言模型...
64 KB (4,692 words) - 07:54, 5 May 2025
coding(有譯氛圍編程[來源請求])是一種使用AI輔助的編程范式,程式設計師會用提示描述要處理的問題,提供給軟體開發專用的大型语言模型(LLM)。应用程序的原始碼是由大型语言模型產生,程式設計師的工作從原來的撰寫程式碼,改為指導AI產生程式碼,測試及優化程式碼。Vibe...
11 KB (1,142 words) - 00:59, 29 April 2025
模型上下文协议(英语:Model Context Protocol,缩写:MCP)是 Anthropic 所推动的一项开放标准,目的是为大型语言模型(LLMs)应用提供一个标准化接口,使其能够连接外部数据源和工具,并与其交互。 MCP 的目标在克服 LLMs 应用仅依赖其训练数据的局限性,使其能够获...
6 KB (732 words) - 08:38, 8 May 2025
ChatGPT (category 大型语言模型)
5、GPT-4、GPT-4o、GPT-4.5架构的大型语言模型並以强化学习训练。ChatGPT目前仍以文字方式互動,而除了可以用人類自然對話方式來互動,還可以用于甚為複雜的語言工作,包括自动生成文本、自动问答、自动摘要等多种任务。如:在自动文本生成方面,Chat...
89 KB (8,366 words) - 18:30, 3 May 2025
GPT-4o (category 大型语言模型)
生成型预训练变换模型4多模态(英語:Generative Pre-trained Transformer 4 Omni,简称GPT-4o)是由OpenAI训练的多语言、多模态(多种类型数据,例如文本、图像、音频等)GPT大型语言模型。GPT-4o于2024年5月13日发布。 该模型...
8 KB (701 words) - 02:39, 1 May 2025
深度求索 (section 模型效率提升是否意味着算力重要性降低?)
大型语言模型公司。该公司的总部位于浙江省杭州市(注册地位于拱墅区),由中資对冲基金幻方量化创立,创始人和行政總裁为梁文锋。 2025年1月20日,DeepSeek在iOS和安卓系统发布其首款免费的基于DeepSeek-R1模型...
72 KB (7,093 words) - 10:29, 10 May 2025
檢索增強生成 (category 大型语言模型)
generation, RAG ) 是赋予生成式人工智能模型資訊檢索能力的技术。檢索增強生成最佳化大型语言模型(LLM) 的交互方式,讓模型根据指定的一组文件回應使用者的查詢,并使用这些資訊增强模型从自身庞大的静态训练数据中提取的資訊。檢索增強生成技術促使大型語言模型能够使用特定领域或更新後的資訊。應用案例,包...
1 KB (131 words) - 12:35, 3 January 2025
模型學習輸入數據的模式和結構,然後產生與訓練數據相似但具有一定程度新穎性的新內容,而不僅僅是分類或預測數據。用於處理生成式人工智慧的最突出框架包括生成对抗网络和基于转换器的生成式预训练模型。 基於Transformer模型的深度神經網路,特別是大型语言模型 (LLM)...
68 KB (6,198 words) - 08:02, 21 March 2025
Grok是xAI基于大型语言模型开发的生成式人工智慧聊天機器人,類似於ChatGPT。它能夠實時回答用戶的問題,並利用X社交媒體平台的數據進行回應。 2015年,埃隆·马斯克与萨姆·阿尔特曼共同创立OpenAI。2018年,由於埃隆·马斯克不認可OpenAI团队,他決定離開OpenAI董事会。...
9 KB (873 words) - 06:33, 28 April 2025
自然語言認知和理解是讓電腦把输入的語言变成有意思的符号和关系,然后根据目的再處理。自然語言生成系統则是把計算機數據轉化為自然語言。 自然语言处理要研制表示语言能力和语言应用的模型, 建立计算框架来实现并完善语言模型,并根据语言模型设计各种实用系统及探讨这些系统的评测技术。 自然語言處理大體是從1950年代開始,雖然更早期也有作為。1...
21 KB (2,586 words) - 12:19, 7 February 2025
LangChain (category 大型语言模型)
LangChain 是一个应用框架,旨在简化使用大型语言模型的应用程序。作为一个语言模型集成框架,LangChain 的用例与一般语言模型的用例有很大的重叠。 重叠范围包括文档分析和总结摘要, 代码分析和聊天机器人。 LangChain提供了一个标准接口,用于将不同的语言模型...
3 KB (257 words) - 08:08, 31 March 2025
Fine-Tuning(PEFT)软件包提供给广泛的其他模型。 微调在自然语言处理(NLP)中很常见,特别是在语言建模领域。像OpenAI的GPT基础模型系列这样的大型语言模型可以在特定下游NLP任务的数据上进行微调(使用预训练模型的任务),以提高性能,超过未修改的预训练模型。 商业化的语言模型, 有时提供商提供了微调API,可以进行微调。...
11 KB (1,028 words) - 02:29, 23 January 2025
DeepSeek-R1 (category 大型语言模型)
DeepSeek-R1是深度求索(DeepSeek)于2025年1月20日发布的人工智能大型语言模型,专门适用于数学、编码和逻辑等任务,性能对标OpenAI o1。 DeepSeek-R1-Lite是深度求索于2024年11月20日发布的人工智能大型语言模型,是深度求索第一個推理模型。专门适用于数学、编码和逻辑等任务,性能对标OpenAI...
11 KB (1,116 words) - 02:40, 21 March 2025
對話程式語言模型(英語:Language Model for Dialogue Applications,通稱:LaMDA)是Google所開發的一系列對話神經語言模型。第一代模型於2021年的Google I/O年會發表,第二代模型則同樣發表於次年的I/O年會。2022年6月,Google工程師布雷克·雷蒙恩(Blake...
44 KB (3,575 words) - 22:52, 28 April 2025
LLaMA (category 大型语言模型)
AI)是Meta於2023年2月發布的大型语言模型。它訓練了各種模型,這些模型的參數從70億到650億不等。LLaMA的開發人員報告說,LLaMA運行的130億參數模型在大多數NLP基準測試中的性能超過了更大的、具有1750億參數的GPT-3提供的模型,且LLaMA的模型可以與PaLM和Chinchilla等最先進的模型...
21 KB (2,037 words) - 15:49, 1 May 2025
本、音频、图像或视频。这些不同类型的数据叫做模态。这种整合能够更全面地理解复杂数据,从而提高模型在视觉问答、跨模态检索、文本到图像生成、美学排名和图像字幕等任务中的性能。 2023年以来,多模态大型语言模型(例如Google Gemini和GPT-4o)越来越受欢迎。它们能够提高多功能性并更广泛地理解现实世界中的现象。...
9 KB (1,147 words) - 16:13, 20 March 2025
DeepSeek-V3 (category 大型语言模型)
大型语言模型,专门适用于数学、编码和中文等任务,性能对标GPT-4o等竞争产品。DeepSeek-V3在所有模型中排名第七,在开源模型排第一。而且,DeepSeek-V3是全球前十中性价比最高的模型。 DeepSeek-V3是深度求索於2024年12月26日發佈的人工智能大型語言模型...
7 KB (966 words) - 02:16, 3 April 2025
GPT-4 (redirect from 生成型预训练变换模型 4)
生成型预训练变换模型4(英語:Generative Pre-trained Transformer 4,简称GPT-4)是由OpenAI公司开发,並於2023年3月14日发布的自回归语言模型。2025年4月10日,OpenAI在更新日志中宣布,ChatGPT将于2025年4月30日停止使用GPT‑4,但API依旧可以调用。...
9 KB (787 words) - 14:08, 20 April 2025
幻觉 (人工智能) (category 語言模型)
人们认为,自然语言模型产生幻觉数据的可能原因有很多。 例如: 来自数据的幻觉:源内容存在差异(大型训练数据集通常会发生这种情况), 来自训练的幻觉:当数据集中几乎没有差异时,幻觉仍然会发生。在这种情况下,它源自模型的训练方式。造成这种幻觉的原因有很多,例如: 来自转换器的错误解码 模型先前生成的历史序列的偏差...
17 KB (1,853 words) - 05:57, 6 May 2025
Hugging Face (section Transformers模型库)
Workshop),发布了一个开放的大型语言模型。2022年,该工作坊以1760亿参数的多语言大型语言模型BLOOM(英语:BLOOM (language model))的发布而结束。 2021年12月21日,该公司宣布收购Gradio,这是一个用于制作机器学习模型交互式浏览器演示的软件库。...
12 KB (1,023 words) - 10:30, 2 May 2025
(工程):第一批做出來測試用的產品 模型论:數學集合論底下的一研究分支 科学模型:科学研究中对事物的合理简化 数学模型:对所描述的对象用数学语言所作出的描述和处理 分子建模 數據模型 标准模型:物理學描述強力、弱力及電磁力這三種基本力及組成所有物質的基本粒子理論 心智模型 語言模型 對話程式語言模型 大型语言模型 计算机模拟...
2 KB (198 words) - 05:52, 3 March 2025
模型可以通过进一步开发以适用于特定的任务或领域。 除文本模型外,还先后诞生了各种视觉或多模式的基础模型,如DALL-E、Flamingo、Florence和NOOR等。视觉基础模型(visual foundation model,简称VFM)已与基于文本的大型语言模型相结合以构建适应特定任务的复杂模型。此外,还有Meta...
6 KB (498 words) - 02:08, 18 August 2024
018年推出的各类GPT以及2021年推出的DALL-E,皆对此次发展起到了推波助澜的作用。 由于大型语言模型在2022年得到了提升,基于这一模型的聊天机器人得以成为现实。与此同时,文本到图像生成模型所绘图片与手工绘图相比已经到了可以以假乱真的地步,而语音合成技术亦可成功的模仿人类讲话。...
17 KB (1,334 words) - 07:06, 14 January 2025
通义千问 (category 大型语言模型)
模型于2023年4月定向邀请企业用户进行体验测试,现已开放免费使用。国际版可以使用Google账户或电子邮箱登录。 2023年4月7日,阿里巴巴集团旗下的云端运算服务公司阿里云正式宣布通义千问对已受邀的企业用户开启内测。 2023年4月11日,阿里巴巴董事局主席张勇,在阿里云峰会上正式发布了大语言...
3 KB (304 words) - 01:42, 30 April 2025
聊天機器人驅動的研究和對話搜索引擎,通過自然語言預測文本來回答查詢。Perplexity 於 2022 年推出,使用來自網路的資源生成答案,並在回應文本中引用連結。 Perplexity 採取增值服務模式運作;免費版本使用該公司獨立的大型語言模型(LLM),此模型包含自然語言處理(NLP)功能,而付費版本 Perplexity...
20 KB (1,616 words) - 03:27, 28 April 2025