Xubin's notes

从文档到知识库:RAG系统的自动化数据处理与管理方案

一、背景介绍 检索增强生成(RAG)系统已成为人工智能领域的一个重要发展方向,它结合了大规模语言模型的生成能力和外部知识库的精确信息,以提供更准确、更可靠的回答。然而,构建和维护RAG系统的知识库一直是一个耗时且复杂的过程,特别是在处理大量非结构化文档时。最近,我们正在为一个检索增强生成(RAG)系统开发一个自动化的问答(QA)生成工具。这个项目旨在缓解上述挑战,通过自动化流程将各种格式的文...

大模型时代的演化计算

一、大模型的兴起及其影响 近年来,人工智能领域经历了一场革命性的变革,这场变革的核心就是大模型的兴起。大模型,特别是以GPT (Generative Pre-trained Transformer) 为代表的大规模语言模型,凭借其惊人的能力,正在重塑我们对人工智能的认知和期望。 大模型的出现标志着人工智能进入了一个新的阶段。这些模型通过海量数据的训练,展现出了前所未有的语言理解和生成能力...

2023年人工智能技术进展与挑战全面分析

一、《AI指数》技术性能 今年的《AI指数》报告中的技术性能部分,为我们提供了2023年人工智能进展的全面回顾。该部分从对AI技术性能的宏观概述入手,详细追溯了其随时间的广泛演变历程。章节进一步细致审视了当前多种AI能力的发展现状,涵盖了语言处理、编程、计算机视觉(图像与视频分析)、推理、音频处理、自主代理、机器人技术及强化学习等领域。报告特别强调了过去一年中AI研究的重大突破,并探讨了如何...

TKDE 24 | 面向高维特征选择的高效多任务进化学习 | Efficient Multi-Task Evolutionary Learning for High-dimensional Feature Selection

分享一下我们最近被TKDE接收的工作:论文、代码 一、摘要 特征选择在数据挖掘中扮演着关键角色,通过减少数据维度以提升模型性能。然而,随着数据维度的不断增加,面临着被称为“维度灾难”的挑战,其中计算量呈指数级增长。为了解决这一难题,进化计算(EC)方法因其简单性和适用性而备受关注。然而,EC方法的多样设计导致了在处理不同数据时性能的差异,通常未能有效地利用和共享信息。在本文中,我们提出了...

赵军《知识图谱》脑图笔记

豆瓣介绍 书籍内容简介 本书聚焦于知识图谱,分十个章节围绕知识建模、知识获取、知识融合、存储和检索、知识推理以及知识服务等知识图谱生命周期各个主要环节展开介绍。每章以任务为导引,引出任务描述、难点问题、基本方法、研究现状和存在的问题,并从多个相关的研究方向对各个任务的发展进程进行系统的、多维度的梳理,注重介绍传统知识工程的思想和理论以及机器学习和深度学习在知识图谱各个环节中应用的...