In addition to achieving conventional single-image, single-round reverse engineering, it can also achieve single-image multi-round and multi-image single-round reverse engineering. Moreover, the Phi model has a better understanding of prompts.
模型会自动下载安装到本地的/ComfyUI/models/LLM/Phi-3.5-vision-instruct路径,但是需要提前挂好梯子。
除了可以实现常规的单图单轮反推外,还可以实现单图多轮、以及多图单轮反推。另外,Phi模型对prompt的理解更好,以下是一些示例:
可以看到prompt是只对图片的背景环境做描述,而不描述人物进行反推,反推的结果贴合Prompt。
不同prompt之间用回车键隔开,即可切换为单图多轮。
将多图组成一个batch,即可切换为多图单轮。