21 de setembro de 2024
Compartilhe:

A Microsoft lançou o Phi-3-vision, uma nova versão de seu modelo de linguagem pequeno, Phi-3, projetado para interpretar e analisar imagens. Este modelo, parte da série Phi-3, pode realizar tarefas de raciocínio visual, como responder a perguntas sobre imagens e gráficos, e seu tamanho reduzido o torna altamente adequado para dispositivos móveis.

Principais recursos do Phi-3-vision

  • O Phi-3-vision é um modelo multimodal, o que significa que pode processar tanto texto quanto imagens.
  • Ele possui 4,2 bilhões de parâmetros, indicando sua complexidade e a profundidade de seu treinamento.
  • Apesar de suas capacidades, o Phi-3-vision é significativamente menor do que outros modelos de IA focados em imagens, como o DALL-E da OpenAI ou o Stable Diffusion da Stability AI.
  • Diferentemente desses modelos, que geram imagens, o Phi-3-vision se destaca em entender e analisar imagens existentes.

Leia mais:

  • Microsoft Teams: como alterar idioma da plataforma
  • ChatGPT vs. Microsoft Copilot: quais são as diferenças?
  • Microsoft Copilot: o que é e como usar inteligência artificial?

O Phi-3-vision está atualmente disponível para visualização prévia, enquanto os outros modelos da família Phi-3 — Phi-3-mini, Phi-3-small e Phi-3-medium — podem ser acessados através da biblioteca de modelos do Azure.

*Nota em atualização.

O post Phi-3-vision: a nova ferramenta da Microsoft para analisar imagens apareceu primeiro em Olhar Digital.

Fonte: https://olhardigital.com.br/2024/05/21/pro/phi-3-vision-microsoft-introduz-modelo-de-ia-que-interpreta-imagens/