🔍 LangExtract v1.2

📖 什么是 LangExtract?

LangExtract 是 Google 开源的结构化信息提取库,使用大语言模型 (LLM) 从非结构化文本中提取结构化数据。
只需提供几个示例 (Few-shot),即可定义任意领域的提取任务,无需微调模型。

✕ 关闭
🎯 精确源文定位每个提取结果映射回原文位置,支持高亮可视化
📚 Few-shot 学习几个示例即可定义提取任务,无需训练
📄 长文档优化分块处理 + 多轮提取,解决"大海捞针"问题
🤖 多模型支持Gemini、GPT、Claude、Ollama 本地模型

典型应用: 临床报告提取 (药物/剂量/症状) | 文学作品分析 (人物/情感/关系) | 合同文档结构化 | 实体关系抽取

📄 输入文本 拖拽/URL

📁
拖拽文件或点击选择 (.txt .md .html .json)
字符数: 0

💡 提取指令 (Prompt)

定义要提取什么类型的信息,如何组织属性

📋 Few-shot 示例 (JSON)

示例驱动模型行为,extraction_text 应为原文精确片段

⚙️ 模型配置

LiteLLM/OpenAI 兼容
▶ 提取参数 (性能/召回)
每次推理字符数,小值更准但调用多
提取轮数,多轮提高召回
并行线程,加速不增成本
每批块数,≥workers 最优
跨块上下文,解决指代消解
▶ 生成参数 (模型行为)
0=确定性,越高越随机
代码块包裹输出
结构化输出约束
▶ 对齐参数 (精度/召回)
模糊匹配阈值 0-1
▶ 其他参数
就绪

运行提取后显示结果