LangExtract - 结构化信息提取

📖 什么是 LangExtract？

LangExtract 是 Google 开源的结构化信息提取库，使用大语言模型 (LLM) 从非结构化文本中提取结构化数据。
只需提供几个示例 (Few-shot)，即可定义任意领域的提取任务，无需微调模型。

✕ 关闭

🎯 精确源文定位每个提取结果映射回原文位置，支持高亮可视化

📚 Few-shot 学习几个示例即可定义提取任务，无需训练

📄 长文档优化分块处理 + 多轮提取，解决"大海捞针"问题

🤖 多模型支持Gemini、GPT、Claude、Ollama 本地模型

典型应用: 临床报告提取 (药物/剂量/症状) | 文学作品分析 (人物/情感/关系) | 合同文档结构化 | 实体关系抽取

📄 输入文本拖拽/URL

📁

拖拽文件或点击选择 (.txt .md .html .json)

字符数: 0

💡 提取指令 (Prompt)

定义要提取什么类型的信息，如何组织属性

📋 Few-shot 示例 (JSON)

示例驱动模型行为，extraction_text 应为原文精确片段

⚙️ 模型配置

模型

模型名称 (LiteLLM)

格式: provider/model

API Key

API 端点 (可选)

LiteLLM/OpenAI 兼容

▶ 提取参数 (性能/召回)

max_char_buffer

每次推理字符数，小值更准但调用多

extraction_passes

提取轮数，多轮提高召回

max_workers

并行线程，加速不增成本

batch_length

每批块数，≥workers 最优

context_window_chars

跨块上下文，解决指代消解

▶ 生成参数 (模型行为)

temperature

0=确定性，越高越随机

fence_output

代码块包裹输出

use_schema_constraints

结构化输出约束

▶ 对齐参数 (精度/召回)

enable_fuzzy_alignment

fuzzy_threshold

模糊匹配阈值 0-1

▶ 其他参数

additional_context (附加上下文)

启用调试日志

就绪

📖 什么是 LangExtract？

📄 输入文本 拖拽/URL

💡 提取指令 (Prompt)

📋 Few-shot 示例 (JSON)

⚙️ 模型配置

📄 输入文本拖拽/URL