文件解析
一般来说,模型只能接收它所原生支持的输入类型。比如,gpt-3.5 只支持文本输入;许多较新的模型也支持图像输入;最新的模型中也有支持音频输入的。但如果是模型不支持的文件类型,该如何输入呢?这时候就需要文件解析器。
文件解析器的作用,就是将模型不支持类型的文件(如文档、视频)转化为模型支持的类型(一般是文本)。
文件解析器也是由插件提供的,我们内置了几个解析文件的插件,你可以在插件页面看到它们:
语音识别 Whisper:通过 Whisper 模型,识别语音中的文字,实现将音频转为文本
视频转文字:提取视频中的音频,然后和上面一样,通过 Whisper 模型转为文本
文档解析:解析文档(PDF、Word、Excel、PPT 等)内容,并转换为 Markdown 文本
前两个插件通过 Huggingface🤗 Spaces 调用 Whisper 模型,因此是免费的。文档解析后端调用的是 LlamaParse,目前我们也免费提供。
类型匹配流程
当添加一个文件时,AIaW 首先会检测文件是否为模型直接支持的类型(详见多模态)。如果是,就直接添加;否则就弹出文件解析对话框。
这时会检查所有文件解析器支持的类型,当一个文件解析器设定的 MIME 类型与文件的 MIME 类型匹配时,这个文件解析器就会作为解析选项之一。文件解析器的 MIME 类型可在插件设置中修改。