GOOGLE_OPAL & 插图生成

3325 字
9 分钟

使用自然语言构建、编辑和共享迷你AI应用程序。现在还可以直接接入Gemini生态。

本来只想创建一个简单的Gem来帮助创建插入博客,论文,报告的图片。但进入页面后,突然发现Gemini应用的Gems更新了:

1770005539261

现在可以通过自然语言创建一个工作流,并且可以无缝在Gemini应用中使用:

1770005864148

虽然在Gemini应用程序中,可以通过自然语言让AI帮助我们修改工作流,但是目前测试效果并不理想。AI在为了满足下一个要求进行修改时,可能会忽视之前的一些要求。并且对于一些细节的要求比较难以满足。

所以建议使用AI创建大致的应用程序框架,再进入高级编辑进行细节调整。

进入高级编辑模式后发现,原来其背后接入了Google自家的Opal平台:

1770006434460

接下里我们就来探究一下,如何使用Opal创建一个能够生成高质量论文图片的Gems。

Opal

这个AI搭建的工作流麻雀虽小,五脏俱全。已经包含了OPal平台中核心的三个组件。我们来一一学习一下。

User Input

此步骤用于收集用户输入。系统会向用户显示提示信息。您可以使用高级选项来指定用户应提供的输入类型,例如文本或图像。

Input中的文字会显示在用户输入页面中,作为用户输入的提示:

1770013374972

在高级设置中,我们可以选择该输入的类型,以及该输入是否为必须的

  • 不勾选 input is required:用户不输入任何内容依然可以进入下一步。

1770013598913

针对特殊的需要,我们可以引导用户进行连续的多次输入,在console中可以查看每个输入框输入的顺序:

1770013917781

  • 针对不同的输入,可以设置不同的引导词
  • 多次输入可以一并提交给后续过程

Generate

这一步骤是大多数 Opal 系统的基础构建模块。您可以选择要使用的 AI 模型,然后指定要发送给该模型的提示。通过在之前的步骤中收集用户输入,您可以在向 AI 模型发送提示以生成新内容(例如文本回复、视频或图像)时参考用户的输入,具体取决于您选择的模型。

1770014435281

Output

输出步骤允许您控制在收集和生成所需数据后所显示的内容。您可以选择应用程序的输出方式,例如创建由 AI 模型决定布局的动态网页,或导出到 Google 云端硬盘电子表格。一个 Opal 中可以使用多个输出步骤。

1770014737559

tools

在Geneate和Output中,我们可以选择调用一些Tools:

1770014835431

绘图工作流

在论文、博客中插入一些生动形象的图片是必不可少的,这有助于读者更好的理解文章的内容,尤其是对于理工科来说。

但是如果我们直接在如Gemini,Chatgpt等平台中进行绘图,结果往往是不理想的。生成的图片可能会出现各种各样的问题:

  • 风格各异:在一个文档中,出现各种风格迥异的图像,有的是浅色系,有的是深色系。
  • 不稳定性:哪怕是相同的提示词,我们也并非一次就能生成满意的图片,AI生图仍有一定的随机性。
  • 文字乱码:尤其是对于中文来说,容易出现错别字,导致整张图片报废。

于是我总结经验,提出一套针对博文生成插图的最佳实践:

  1. 将文章摘要,或这个文章发给AI进行理解,让AI知道文章的主题

    1770015795279

  2. 发送一张你满意的,或者你希望风格的示例图片,让ai以后生成相似风格的生图提示词。

    1770015869664

  3. 接下来便可以将文章中需要插入图片的段落,依次发送给AI,让AI生成提示词。

    1770015969722

  4. 生图网站批量生成,查看整体风格是否满意。挑选喜欢的那一张,进入下一步。

    该网站一次可以生成两张图片,并且生图速度快,可以准确生成英文,但是中文是乱码。所以在这一步时,我们生成图片最好要干净,不要有其他注释性文字。

    1770016122890

    • 若效果不佳,请反复修改AI生成提示词的风格
  5. 添加中文注释,很多时候我们还需要在图片中增加一写中文注释,来解释图片中的一些抽象的内容。这时,我们就需要使用一些比较强的生图模型,如Nano Banana。我们将选好的图片与文本片段一同发送给AI:

    1770016607398

最终效果如下:

除了图片中的内容外,还补充了:生成的注释不仅贴合文本,而且也能融入图片,不突兀。

1770025180271

在Gemini网站在线预览图片时,由于像素过低,可能出现一些汉字看起来失真\错误,请下载后检查文字是否有误。

使用Opal

Opal只是一个很简单的AI工作流,仅支持整个过程单向传递,无法实现上述完整的绘图工作流。

现在Opal的每次运行,都像是一个实现单一功能的过程流的封装:

  • 运行前:用户填入所有需要的数据
  • 运行中:无法打断,无法再次交互,反馈
  • 运行后:程序直接结束,给出最终结果

所以我打算制作一个生成与上面图片类似风格的工作流:

1770025223206

嗯…

现在Opal在调用Gemini 3 Pro的绘图模型时,还存在明显的bug。你可能遇到包括但不限于以下情况:

  • 绘图时报错(如上图)。
  • 不报错,但是无响应,持续数分钟后被我手动结束。
  • 成功画图,但是分辨率超低,下载后只有70K。

已经向官方提交feedback,期待修复:

1770025806590

这里分享我创建的工作流:生成3D插图

以及一张结果图:

使用Imagen4绘制的:

1770029044668

使用Gemini 3 Pro Image 绘制的中文版(超低分辨率Bug):

1770029055557