点击“AladdinEdu你的AI学习实践工作坊”注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价。一、引言万维网是一个浩瀚的知识海洋每时每刻都有海量的文本被创造和传播。新闻、博客、百科、论坛、社交媒体……这些非结构化文本中蕴含着难以计数的实体关系事实。然而传统的关系抽取Relation Extraction任务假定我们事先知道要抽取哪些关系类型例如“出生地”“任职于”“创始人”等并要求标注大量训练数据来教会模型识别这些特定关系。这种封闭世界假设在面对开放域Web文本时捉襟见肘关系类型无穷无尽新关系不断涌现人工定义所有关系既不现实也不经济。开放信息抽取Open Information Extraction, OpenIE应运而生。OpenIE的核心理念是不预先定义关系集合而是直接从文本中自动挖掘任意实体对之间的关系短语并以(主语, 关系短语, 宾语)三元组形式输出。例如对于句子“爱因斯坦出生于德国乌尔姆”OpenIE系统可能输出(爱因斯坦, 出生于, 德国乌尔姆)或更细粒度的(爱因斯坦, 出生于, 乌尔姆)。由于关系短语直接来源于文本中的词汇片段OpenIE能够以无监督或弱监督的方式处理任意领域、任意关系的抽取天然适用于Web规模的知识获取。OpenIE的研究始于华盛顿大学图灵中心KnowItAll项目下的TextRunner系统2007年此后十余年间学术界和工业界涌现出一系列经典系统Reverb、OLLIE、ClausIE、Stanford OpenIE、OpenIE4、OpenIE5、OpenIE6、IMoJIE等。这些系统在关系短语的界定标准、非动词关系处理、上下文信息保留、嵌套三元组抽取等方面不断突破推动OpenIE从最初的浅层句法分析迈向深层的语义理解。近年来随着BERT等预训练语言模型和Seq2Seq生成模型的兴起OpenIE进入了神经网络时代。研究者开始将OpenIE转化为序列到序列的生成任务通过端到端训练来学习从句子到三元组集合的映射大幅提升了抽取的覆盖率和精确率。同时针对中文的OpenIE研究也逐渐受到重视涌现出如CORE、ZORE等中文本地化系统。本文将系统梳理开放信息抽取的技术发展脉络。第二节介绍OpenIE的任务定义、三元组表示与评测指标第三节详细阐述基于规则和句法分析的经典系统第四节聚焦基于神经网络和预训练模型的现代方法第五节探讨OpenIE面临的关键挑战与应对策略第六节介绍中文OpenIE的现状与实践第七节展望未来趋势。力求为读者提供一份全面而深入的开放信息抽取技术参考。二、开放信息抽取基础2.1 任务定义与三元组表示开放信息抽取的目标是对于输入的自然语言句子S SS输出一个或多个三元组集合T { ( s i , p i , o i ) } \mathcal{T} \{(s_i, p_i, o_i)\}T{(si,pi,oi)}其中s i s_isi主语/论元1通常是名词短语表示关系的主体。p i p_ipi关系短语/谓词从句子中抽取的文本片段用于表达s i s_isi和o i o_ioi之间的语义关系。o i o_ioi宾语/论元2通常是名词短语、形容词短语或从句表示关系的客体。例如句子“美国发明家托马斯·爱迪生发明了留声机并于1877年申请了专利。”可能被抽取为(托马斯·爱迪生, 发明了, 留声机)(托马斯·爱迪生, 申请了, 专利)(托马斯·爱迪生, 申请专利于, 1877年)在OpenIE中关系短语p i p_ipi必须是从原句中直接提取的连续或不连续文本片段部分系统允许规范化处理。主语和宾语通常也要求是句子中的名词短语。2.2 OpenIE与传统关系抽取的区别对比维度传统关系抽取开放信息抽取关系集合预定义、封闭的有限关系类型开放、无限、直接从文本中提取训练数据需要大量人工标注数据无监督或使用远距离监督无需或仅需少量标注领域适应性迁移到新领域需重新标注和训练领域无关无需重新训练输出形式(实体1, 关系类型, 实体2)(主语短语, 关系短语, 宾语短语)应用场景知识图谱构建特定关系填充Web信息抽取、开放域问答、知识库自动扩充2.3 OpenIE的评测指标与数据集OpenIE的评测通常采用精确率Precision、召回率Recall和F1值。但由于OpenIE输出的三元组形式自由没有标准的“金标准”答案评测方法经历了演变人工评测早期工作由人工判断抽取三元组是否正确是否被句子蕴含。代价高但最可靠。基于现有知识库的自动评测将OpenIE抽取的三元组与Freebase、DBpedia等知识库中的事实进行比对。但这种方法受限于知识库的不完整性和关系短语的对齐问题。基准数据集近年来研究者构建了专门的OpenIE评测数据集其中最具代表性的是CaRBCrowdsourced Automatic Open IE Benchmark由Bhardwaj等人于2019年提出包含641个句子和对应的众包标注三元组支持精确匹配和宽松匹配评测。OIE2016基于Wikipedia和Newswire的评测集。SAOKE中文开放信息抽取评测集Jia et al., 2018。BenchIE面向更复杂语句的评测基准。在CaRB评测中通常采用词汇重叠度Lexical Overlap和语义蕴含Semantic Entailment两种方式来判断预测三元组与标准答案的一致性。2.4 OpenIE的技术发展简史OpenIE研究大致可分为三个阶段规则与浅层句法阶段2007-2012以TextRunner、Reverb为代表主要依赖词性标注和名词短语分块通过规则提取围绕动词的关系三元组。深度句法与语义角色阶段2013-2017以OLLIE、ClausIE、Stanford OpenIE为代表引入依存句法分析、成分句法分析能够处理非动词关系如名词化、形容词、上下文信息如时间、地点以及嵌套三元组。神经网络与预训练模型阶段2018至今以OpenIE6、IMoJIE、DeepEx为代表采用Seq2Seq生成模型、BERT编码器、拷贝机制等深度学习方法将OpenIE转化为序列生成问题实现端到端学习大幅提升召回率和鲁棒性。三、基于规则的经典开放信息抽取系统3.1 TextRunnerOpenIE的开山之作2007年Banko等人发表了TextRunner标志着开放信息抽取领域的诞生。TextRunner的核心架构包括三个组件自监督训练数据生成利用少量启发式规则从Penn Treebank句法树中自动抽取正例三元组。例如如果一个名词短语是动词的主语另一个名词短语是动词的直接宾语则形成(主语, 动词, 宾语)三元组。朴素贝叶斯分类器TextRunner训练了一个朴素贝叶斯分类器来判断任意候选三元组(NP1, VPNP2)是否表示一个可信的关系。特征包括词性标签序列、是否存在介词、名词短语长度等。冗余感知的抽取器将分类器应用于大规模Web语料保留高置信度的三元组并通过关系短语的归一化如时态还原、去除情态动词合并相似的抽取。TextRunner的成功证明了在没有人工标注数据的情况下利用语言的浅层统计规律即可从Web中挖掘出大量有意义的关系三元组。它的局限也很明显仅能处理以动词为核心的简单关系无法处理否定、情态、介词附着等复杂现象且三元组往往不完整或不合语法。3.2 Reverb动词关系短语的精准界定针对TextRunner输出三元组不连贯和包含过多冗余信息的问题Fader等人于2011年提出了Reverb系统。Reverb的两大核心贡献是关系短语的句法约束Reverb规定一个有效的关系短语必须满足以下条件以动词开头如“发明了”“出生于”“是……的总统”。包含至少一个动词。以介词、动词、名词或形容词结束。不能跨越句子边界。不能仅由单个动词和“to”构成。这些约束有效地过滤掉了诸如“is”“has”“made”后接过多修饰语的情况显著提升了三元组的可读性。基于置信度函数的大规模抽取Reverb在ClueWeb09语料5亿网页上运行通过一个逻辑回归模型为每个抽取的三元组计算置信度。特征包括关系短语在文本中的出现频率、主语和宾语的句法合理性等。Reverb输出的三元组例如输入The Obama administration has been pushing for comprehensive immigration reform.输出(The Obama administration, has been pushing for, comprehensive immigration reform)相比TextRunnerReverb的关系短语更加自包含、语义更加清晰。但Reverb仍然受限于动词中心假设无法抽取如“苹果公司的创始人乔布斯”中的名词化关系。3.3 OLLIE突破动词中心假设2012年Mausam等人提出了OLLIEOpen Language Learning for Information Extraction首次系统性地解决了非动词关系表达和上下文信息缺失问题。OLLIE的创新点包括利用开放句法模式学习OLLIE不依赖于固定的关系短语模板而是从Reverb的高质量抽取结果中自动学习依存路径模式。例如从(Einstein, was born in, Ulm)中学习到模式nsubjpass → prep_in之后可以将该模式泛化到其他被动语态句子。非动词关系抽取OLLIE能够处理名词化、形容词化关系。例如句子Microsofts acquisition of Nokia surprised the industry.OLLIE输出(Microsoft, s acquisition of, Nokia)或(Microsoft, acquired, Nokia)规范化后上下文信息保留OLLIE可以为每个三元组附加属性Attribution如时间、地点、情态、否定等。例如句子Early astronomers believed that the earth is the center of the universe.三元组(the earth, is, the center of the universe)属性attributedTo: Early astronomers,time: (unspecified past)嵌套三元组处理当宾语本身包含一个子事件时OLLIE可以递归地抽取嵌套三元组。例如句子I know that John married Mary.可同时输出(I, know, that John married Mary)和(John, married, Mary)。OLLIE通过句法模式泛化和上下文增强将OpenIE的性能和覆盖范围推向了新的高度至今仍是许多后续工作的基线参考。3.4 ClausIE从句法结构到语义子句的分解2013年Del Corro和Gemulla提出了ClausIEClause-based Open Information Extraction其核心思想是利用依存句法分析将复杂句子分解为简单子句Clause再从每个子句中生成三元组。ClausIE的工作流程依存解析使用Stanford Parser对句子进行依存句法分析。子句识别基于依存树识别出构成独立命题的子句。一个子句通常包含一个谓语动词及其核心论元。子句类型判定将子句分为七种类型SV主谓、SVA主谓状、SVO主谓宾、SVOO主谓双宾、SVOC主谓宾补、SVC主谓补、Existential存在句等。基于规则的论元提取对每种类型的子句依据句法角色主语、宾语、补语、状语提取论元并生成三元组。优势ClausIE能够处理非常复杂的句式包括关系从句、同位语、并列结构等。通过将复杂句分解为原子命题它生成的多个三元组往往能更完整地覆盖句子的语义。例如句子Albert Einstein, who was born in Ulm, developed the theory of relativity.ClausIE输出(Albert Einstein, was born in, Ulm)(Albert Einstein, developed, the theory of relativity)ClausIE属于无监督方法无需训练数据且在多语言上有一定泛化能力。但其规则依赖于准确的依存解析解析错误会严重影响抽取质量。3.5 Stanford OpenIE与OpenIE 4.x斯坦福大学自然语言处理组也发布了一系列有影响力的OpenIE系统。Stanford OpenIEAngeli et al., 2015基于成分句法树和语义角色标注SRL首先用自然逻辑推理生成候选三元组再训练一个逻辑回归分类器过滤低质量抽取。该系统能够处理较长句子但速度较慢。OpenIE 4由华盛顿大学和艾伦人工智能研究所开发整合了Reverb的关系短语界定和OLLIE的上下文学习并加入了基于SRL的抽取器在精确率和召回率之间取得了更好平衡。OpenIE 5进一步优化了速度引入了词典化的论元边界检测并改善了嵌套三元组的处理。这些系统均以Java实现提供了命令行接口和Web演示极大地推动了OpenIE在研究和工业界的应用。3.6 经典系统的对比总结系统核心技术优势局限TextRunner自监督训练朴素贝叶斯首个OpenIE系统开创性关系短语不连贯召回低Reverb动词短语句法约束大规模语料三元组可读性强精确率高无法处理非动词关系OLLIE依存路径模式学习上下文属性支持非动词关系、嵌套、属性依赖高质量种子模式ClausIE依存句法分解子句类型规则处理复杂句式能力强无需训练依赖句法解析准确率Stanford OpenIE成分树SRL分类器精确率高语义角色利用充分速度较慢经典系统虽各有千秋但普遍存在两个共同瓶颈一是规则和解析器的错误传播问题二是面对互联网非规范文本时的脆弱性。这为基于深度学习的OpenIE方法提供了登场契机。四、基于神经网络的现代开放信息抽取4.1 神经网络OpenIE的动机与范式转变传统OpenIE系统依赖大量人工设计的规则和外部NLP工具分词、词性标注、句法解析这不仅导致错误传播也难以扩展到多语言和低资源场景。深度学习的兴起为OpenIE提供了新思路将OpenIE转化为一个端到端的序列到序列Seq2Seq生成任务直接学习从输入句子到输出三元组序列的映射。这种范式转变带来了多重优势无需手工规则模型自动学习抽取模式。鲁棒性强对非规范文本和解析错误有更好的容忍度。易于扩展通过标注或远距离监督数据即可训练。当然挑战也随之而来如何获取大规模训练数据如何保证生成三元组的事实准确性如何输出可变数量的三元组4.2 训练数据的构造远距离监督与Bootstrapping神经OpenIE需要大量(句子, 三元组列表)对作为训练数据。由于人工标注代价高昂研究者采用了远距离监督和自举Bootstrapping策略基于现有系统的标注使用Reverb、OLLIE、ClausIE等经典系统对大规模语料如Wikipedia进行抽取筛选高置信度结果作为“银标准”训练数据。例如Cui等人2018使用ClausIE在Wikipedia上抽取了数百万条三元组来训练OpenIE模型。基于知识库的对齐将Freebase、DBpedia中的三元组与句子对齐作为远程监督数据。迭代自举先用少量标注数据训练一个初级模型然后用该模型对更大语料进行预测将高置信度预测加入训练集反复迭代。4.3 典型神经OpenIE模型4.3.1 OpenIE6迭代网格标注与BERT编码Kolluru等人于2020年提出的OpenIE6是神经OpenIE的代表作之一。它采用了一种新颖的迭代网格标注Iterative Grid Labeling架构而非传统的Seq2Seq生成。OpenIE6的核心思想将句子中的所有词构成一个二维网格网格中的每个单元格(i, j)代表从第i ii个词到第j jj个词的文本片段。模型的任务是为每个单元格预测一个标签指示该片段是“主语”“关系短语”“宾语”还是“无关”。通过BERT对句子编码然后利用多层Transformer解码器在网格上进行迭代预测。每次迭代输出一个三元组并将已抽取的部分掩码以防止重复抽取。优势避免了Seq2Seq生成可能产生的幻觉hallucination因为抽取的片段必须严格来自原句。通过迭代解码可以抽取任意数量的三元组。训练数据OpenIE6使用CaRB和OpenIE4的训练集进行微调。代码示例使用OpenIE6基于HuggingFace和官方实现简化# 假设已安装openie6相关依赖fromopenie6importOpenIE6 modelOpenIE6.from_pretrained(dirkgr/openie6)sentenceAlbert Einstein, who was born in Ulm, developed the theory of relativity.extractionsmodel.extract(sentence)forextinextractions:print(f({ext[subject]},{ext[relation]},{ext[object]}))# 输出类似: (Albert Einstein, was born in, Ulm)# (Albert Einstein, developed, the theory of relativity)4.3.2 IMoJIE基于BART的生成式模型IMoJIEIterative Memory-based Joint Open Information Extraction由Kolluru等人于2020年提出采用BART作为骨干生成模型。模型架构输入句子文本。输出一个线性化的三元组序列例如[SS] Albert Einstein [SE] [RS] was born in [RE] [OS] Ulm [OE] ...其中特殊token标记了主语、关系、宾语的起始和结束。训练时采用迭代复制机制先让模型生成第一个三元组然后将该三元组附加到输入中引导模型生成下一个不同的三元组直到生成结束标志。训练策略使用从Wikipedia上由ClausIE生成的约3000万三元组作为训练数据。通过BART的Seq2Seq训练目标交叉熵进行优化。IMoJIE在CaRB评测上超越了OpenIE6成为当前SOTA方法之一。其生成式特性允许模型对关系短语进行一定程度的规范化例如将被动语态转为主动、还原时态等。4.3.3 DeepEx从句法到语义的深度抽取DeepExCui et al., 2018较早探索了用神经网络进行OpenIE。它采用BiLSTM编码器指针网络解码器直接从句子中抽取(主语, 关系, 宾语)的三元组片段。DeepEx的贡献在于证明了递归神经网络指针生成机制可以在OpenIE任务上取得接近经典系统的效果且无需任何句法解析器。它为后续的神经OpenIE研究铺平了道路。4.3.4 Multi2OIE多语言开放信息抽取Ro等人2020提出的Multi2OIE是第一个面向多语言的神经OpenIE系统。它使用多语言BERT作为编码器并在英语训练数据上训练后零样本迁移到西班牙语、葡萄牙语等目标语言取得了令人瞩目的效果。这证明了跨语言句法模式的共享性以及预训练多语言模型的强大泛化力。4.4 神经OpenIE的优势与隐忧优势性能显著超越经典系统尤其在召回率上。对长难句、非规范文本更鲁棒。可通过数据增强快速适应新领域。隐忧事实幻觉生成式模型如IMoJIE可能生成原句中不存在的短语导致三元组错误。数据偏差训练数据若由ClausIE等生成会继承其系统性偏差。可解释性差难以理解模型为何做出特定抽取决策。计算资源消耗大大型预训练模型的微调和推理成本远高于轻量级规则系统。五、开放信息抽取的关键挑战与应对策略尽管OpenIE取得了长足进步以下核心挑战仍是研究热点5.1 关系短语的界定与规范化什么是“好”的关系短语不同系统有不同标准。Reverb强调动词短语的句法完整性OLLIE允许名词化和形容词ClausIE则倾向于生成多个简单三元组。这导致不同系统输出难以直接对比也影响了三元组在下游任务中的可用性。规范化策略时态还原将动词还原为一般现在时如“was born in”→“be born in”。主动化被动转主动如“was invented by”→“invent”。代词消解将代词替换为其指代的实体需要共指消解支持。前沿探索最近的工作尝试用生成式模型学习从原始关系短语到规范化形式的映射或将关系短语链接到知识库中的谓词如P1717。5.2 嵌套三元组与复杂语义自然语言中一个事件常常嵌入另一个事件如“I believe that John loves Mary.”。如何处理嵌套结构是OpenIE的难点。解决方案OLLIE通过递归应用抽取模式处理嵌套。神经模型如OpenIE6和IMoJIE通过迭代解码隐式处理嵌套但缺乏显式的嵌套结构建模。一些研究尝试将句子解析为抽象语义表示AMR图再从图中抽取三元组以更结构化地处理嵌套。5.3 上下文信息与属性保留关系三元组往往需要伴随情态、否定、时间、地点等上下文信息才完整。例如“Obama may visit France next week.”中情态“may”和时间“next week”至关重要。应对方法OLLIE引入了属性字段将时间、地点、情态等作为三元组的附加元数据。神经模型通常直接将这些信息融入关系短语如“may visit”但会丢失细粒度的属性标注。5.4 跨句与篇章级开放信息抽取绝大多数OpenIE系统是句子级的但真实知识常常分布在多个句子中。篇章级OpenIE旨在从段落或文档中抽取跨句关系这要求模型具备共指消解和跨句推理能力。目前该方向尚处于起步阶段有研究尝试将文档表示为图利用图神经网络进行跨句三元组抽取。5.5 多语言与低资源语言OpenIE英语OpenIE研究较为成熟但其他语言的数据和工具匮乏。Multi2OIE证明了多语言预训练模型的迁移潜力但性能仍远低于英语。未来需要构建更多非英语的OpenIE评测基准并探索无监督跨语言对齐方法。六、面向中文的开放信息抽取6.1 中文OpenIE的特殊挑战中文与英语在语言特性上存在显著差异给OpenIE带来独特挑战无天然分词边界中文词之间没有空格分词错误会直接影响后续句法分析和三元组边界识别。缺乏形态变化中文动词无时态、语态变化导致部分关系隐含在语境中不易提取。话题显赫结构中文常采用“主题-述题”结构主语省略频繁需进行零指代消解。连动式和兼语式如“我请他吃饭”包含两个动词论元共享关系复杂。6.2 中文OpenIE经典系统ZOREQiu and Zhang, 2014第一个中文OpenIE系统采用依存模式匹配方法。它从依存树中提取主语-谓语-宾语模式并设计了针对中文特殊句式的规则如“把”字句、“被”字句。CORETseng et al., 2014利用中文成分句法树通过规则将句子分解为子句并生成三元组。SAOKEJia et al., 2018提出了一个大规模中文OpenIE评测数据集包含超过4万个句子的标注推动了中文OpenIE研究的规范化。6.3 中文神经OpenIE进展受英文神经OpenIE启发国内研究者开始探索中文神经OpenIE。例如基于BERT-Chinese的迭代网格标注模型、基于mBART的生成式模型被应用于中文数据。然而由于中文缺乏类似ClausIE的大规模高质量自动标注数据神经模型的训练数据仍需依赖人工标注或远距离监督性能较英文尚有差距。一个简化的中文OpenIE实现示例基于规则和依存解析使用HanLPimporthanlp# 加载HanLP的依存句法分析模型parserhanlp.load(hanlp.pretrained.dep.CTB9_DEP_ELECTRA_SMALL)defextract_triples_dep(sentence):parsedparser(sentence)triples[]fortokeninparsed:iftoken[deprel]核心成分ortoken[upos]VERB:# 寻找主语和宾语subjNoneobjNoneforchildinparsed:ifchild[head]token[id]:ifchild[deprel]in[主谓关系,名词主语]:subjchild[form]elifchild[deprel]in[动宾关系,直接宾语]:objchild[form]ifsubjandobj:triples.append((subj,token[form],obj))returntriplesprint(extract_triples_dep(爱因斯坦出生于德国乌尔姆。))# 可能输出: [(爱因斯坦, 出生, 德国乌尔姆)]实际中文OpenIE系统需要考虑更多的句式和边界处理以上仅为原理示意。七、未来展望开放信息抽取正处在从“规则驱动”向“数据驱动”的深刻转型期。展望未来以下方向值得关注超大规模预训练模型的深度融合利用GPT-4、LLaMA等LLM的零样本和少样本能力通过提示工程Prompt Engineering实现无需训练的OpenIE。例如用提示“列出句子中所有的(主语, 关系, 宾语)三元组”引导LLM直接输出结构化结果。可解释与可信赖的OpenIE当前的神经模型如同黑箱未来需研究模型如何为其抽取的三元组提供句子中的证据片段Evidence Span以增强用户信任。统一的信息抽取框架将命名实体识别、关系抽取、事件抽取、开放信息抽取统一到同一个生成式框架下共享知识表示实现多任务协同增效。例如UIEUniversal Information Extraction模型已朝此方向迈进。多模态开放信息抽取从图文并茂的网页、视频字幕中抽取跨模态三元组例如从图片和说明文字中抽取(埃菲尔铁塔, 位于, 巴黎)。面向知识图谱的闭环反馈将OpenIE抽取的结果与现有知识图谱进行实体链接和关系对齐利用知识图谱的约束反过来修正和过滤抽取结果形成“抽取-对齐-反馈”的闭环迭代。低资源与跨语言OpenIE探索基于无监督对比学习的跨语言表示使得在英语上训练的OpenIE模型能更好地泛化到斯瓦希里语、藏语等低资源语言。八、结语开放信息抽取以其开放性和领域无关性成为了从海量Web文本中获取结构化知识的利器。从TextRunner的浅层词性模式到OLLIE的依存句法泛化再到IMoJIE的Seq2Seq生成OpenIE技术经历了从规则到统计、从符号到神经的范式跃迁。每一次跃迁都显著扩展了系统的覆盖范围和抽取质量使得机器阅读Web的梦想一步步照进现实。然而OpenIE的终极目标——像人类一样灵活、准确、完整地理解自由文本中的任意关系——仍未达成。面对复杂嵌套、隐式信息、跨句关联、多语言迁移等难题现有的方法仍显稚嫩。我们期待随着大规模语言模型和跨模态理解技术的持续突破未来的开放信息抽取系统将更加智能和可靠成为连接非结构化文本与结构化知识世界的坚固桥梁。开放信息抽取的故事还在继续而Web这片无垠的语料海洋正等待着更强大的“渔网”去捕获其中无尽的“关系”之鱼。参考文献主要工作列举Banko, M., Cafarella, M. J., Soderland, S., Broadhead, M., Etzioni, O. (2007). Open information extraction from the web.IJCAI.Fader, A., Soderland, S., Etzioni, O. (2011). Identifying relations for open information extraction.EMNLP.Mausam, Schmitz, M., Bart, R., Soderland, S., Etzioni, O. (2012). Open language learning for information extraction.EMNLP-CoNLL.Del Corro, L., Gemulla, R. (2013). ClausIE: Clause-based open information extraction.WWW.Angeli, G., Premkumar, M. J., Manning, C. D. (2015). Leveraging linguistic structure for open domain information extraction.ACL.Cui, L., Wei, F., Zhou, M. (2018). Neural open information extraction.ACL.Kolluru, K., Aggarwal, S., Rathore, V., Mausam, Chakrabarti, S. (2020). IMoJIE: Iterative memory-based joint open information extraction.ACL.Kolluru, K., Adlakha, V., Aggarwal, S., Mausam, Chakrabarti, S. (2020). OpenIE6: Iterative grid labeling and coordination analysis for open information extraction.EMNLP.Ro, Y., Lee, Y., Kang, P. (2020). Multi^2OIE: Multilingual open information extraction based on multi-head attention with BERT.EMNLP Findings.Bhardwaj, S., Aggarwal, S., Mausam. (2019). CaRB: A crowdsourced benchmark for open IE.EMNLP-IJCNLP.Qiu, L., Zhang, Y. (2014). ZORE: A syntax-based system for Chinese open relation extraction.EMNLP.Jia, S., Li, M., Xiang, Y., Wang, X. (2018). SAOKE: A large-scale Chinese open relation extraction dataset.NLPCC.点击“AladdinEdu你的AI学习实践工作坊”注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价。