Jina的网页内容获取工具Reader能够运用视觉语言模型(VLM)为网页上的每一张图片生成描述,并自动为这些图片创建alt标签。这样,当RAG进行内容检索时,就能够同时检索到图片信息。
Reader API的功能
- 核心内容提取:Reader API能够从提供的URL中提取核心内容,过滤掉不必要的元素,如HTML标签和脚本代码,从而得到干净、易于处理的文本。
- LLM友好的输入:通过转换提取的内容为LLM友好的文本格式,Reader API确保了输入数据的质量,这对于训练和使用语言模型来说是非常重要的。
- 免费使用:Reader API提供了一个简单的前缀
https://r.jina.ai
,用户可以通过这个前缀将任何URL转换成LLM友好的输入格式,并且这个服务是免费的。
如何使用Reader API
- 获取源代码:用户可以直接点击网页上的按钮来获取页面的源代码。
- 获取内容:同样,用户可以点击另一个按钮通过Reader API获取URL的内容。
- 结合问题生成答案:用户可以输入一个问题,并结合通过Reader API获取的内容,让语言模型(LLM)生成答案。
相关导航
暂无评论...