Uma das coisas que mais dá dor de cabeça é tentar criar um prompt para gerar imagens. Muitas vezes, olhamos uma foto e queremos gerar um prompt baseado nesta imagem, mas não conseguimos descrever todos os detalhes. Quando comecei a utilizar o ComfyUI, precebi que um dos Workflows que tinha baixado para ver o funcionamento, utilizava o Ollama. Comecei a pesquisar sobre ele e percebi que poderia ser um grande aliado na geração de prompts. E o processo para isto é bem simples.

Primeiramente, vamos instalar o Ollama. E sim, há uma versão para Windows (sim, ainda não migrei pro linux). O download pode ser feito nesse link:

Ollama

Após a instalação, ele ficará ativo no “dock” do Windows:

Feito isso, vamos abrir um Powershell. Com ele aberto, iremos iniciar uma instância do Ollama, e também definir um modelo para utilização. E aqui está o pulo do gato. Primeiramente, pode-se verificar se já existe algum modelo instalado. Para isto, usamos o comando ollama list

Como eu já fiz alguns testes, estes modelos são exibidos. Existem vários modelos para utilização, que podem ser obtidos em:

Modelos Ollama

Com base nos nomes dos modelos do link acima, para fazer o download, basta pedir ao aplicativo executar o model. Como exemplo, vou usar o modelo nomic-embed-text. para isto, utilizamos o comando ollama run nomic-embed-text.

O erro no final foi proposital. Precisava de um modelo pequeno só pro exemplo. Voltando ao foco, dos modelos que testei, o que obtive o melhor resultado foi o llava:latest. Para executá-lo, usamos o comando ollama run llava:latest

Assim que o prompt for exibido, fazemos a pergunta mágica: “What is in this photo?” Sim, a pergunta mais simples do mundo. Mas como ele vai identificar a foto. Após digitar a pergunta mágica, arraste a foto desejada para o PowerShell, para que ele pegue o caminho da imagem, ficando como na imagem:

Usei a seguinte imagem como exemplo

Ao darmos ENTER, a mágica acontece, e temos como resultado:

In the photo, there are three individuals on a stage that appears to be set up for an event or
ceremony. The person in the center is standing confidently and is wearing athletic gear with a
crest that suggests they might be part of the French national team. There are two individuals on
either side of this central figure who seem to be presenting them with trophies, indicating they
have won medals in an athletic competition. The audience in the background looks engaged and is
likely at a sporting event or a celebration associated with it.

O resultado foi exato? Não. Mas convenhamos que ele conseguiu te dar muitas informações. Como trata-se de um modelo de chat, se solicitar a ele a criação de um prompt para Stable Diffucion, ele até vai criar, mas vai ser um pouco extenso.

Imagine that you are attending an Olympic ceremony where athletes are being honored for their
achievements. You are standing at the edge of the stage, admiring the athletes as they receive
their awards. As you observe the scene, you find yourself reflecting on the hard work, dedication,
and perseverance it takes to achieve success in sports.

Take a moment to think about what you have accomplished in your own life, whether in sports or
other endeavors. Consider how you can continue to challenge yourself, learn from setbacks, and
strive for excellence in all that you do.

As you stand there, take a deep breath and feel the energy of the crowd, the pride of the athletes,
and the spirit of camaraderie among competitors. Let this moment inspire you to keep reaching for
your goals, whether they be personal or professional.

After your reflection, take a moment to appreciate the beauty in the world around you, from the
vibrant colors of the Olympic rings to the determination etched on the faces of the athletes. As
you leave the ceremony, carry with you the spirit of the Olympics and strive to embody those values
in your own life.

Com base na primeira resposta, da análise da foto, já dá pra ter uma boa idéia de como definir o prompt para sua imagem.

Como teste, usei o seguinte prompt:

Realistic photo. there are three individuals on a stage that appears to be set up for an event or ceremony. The person in the center is standing confidently and is wearing athletic gear with a
crest that suggests they might be part of the Brazil national team. There are two individuals on
either side of this central figure who seem to be presenting them with trophies, indicating they
have won medals in an athletic competition. The audience in the background looks engaged and is
likely at a sporting event or a celebration associated with it.

Abaixo o resultado da imagem, e as configurações usadas. Agora é dar uma trabalhada no prompt para chegar num resultado melhor.

Steps: 20,
Sampler: Euler
Schedule type: Simple
CFG scale: 1
Distilled CFG Scale: 3.5
Seed: 2713418357
Size: 1152×896
Model hash: bea01d51bd
Model: flux1-dev-bnb-nf4-v2
Version: f2.0.1v1.10.1-previous-329-g128a7932

Depois de pequenas alterações no prompt, chegamos a este resultado:

By alemaia

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *