A Microsoft lançou o Phi-3-vision, uma nova versão de seu modelo de linguagem pequeno, Phi-3, projetado para interpretar e analisar imagens. Este modelo, parte da série Phi-3, pode realizar tarefas de raciocínio visual, como responder a perguntas sobre imagens e gráficos, e seu tamanho reduzido o torna altamente adequado para dispositivos móveis.
Principais recursos do Phi-3-vision
- O Phi-3-vision é um modelo multimodal, o que significa que pode processar tanto texto quanto imagens.
- Ele possui 4,2 bilhões de parâmetros, indicando sua complexidade e a profundidade de seu treinamento.
- Apesar de suas capacidades, o Phi-3-vision é significativamente menor do que outros modelos de IA focados em imagens, como o DALL-E da OpenAI ou o Stable Diffusion da Stability AI.
- Diferentemente desses modelos, que geram imagens, o Phi-3-vision se destaca em entender e analisar imagens existentes.
Leia mais:
- Microsoft Teams: como alterar idioma da plataforma
- ChatGPT vs. Microsoft Copilot: quais são as diferenças?
- Microsoft Copilot: o que é e como usar inteligência artificial?
O Phi-3-vision está atualmente disponível para visualização prévia, enquanto os outros modelos da família Phi-3 — Phi-3-mini, Phi-3-small e Phi-3-medium — podem ser acessados através da biblioteca de modelos do Azure.
*Nota em atualização.
O post Phi-3-vision: a nova ferramenta da Microsoft para analisar imagens apareceu primeiro em Olhar Digital.
Fonte: https://olhardigital.com.br/2024/05/21/pro/phi-3-vision-microsoft-introduz-modelo-de-ia-que-interpreta-imagens/