A legendagem de imagens com udio surgiu como uma tarefa desafiante mas promissora no dom nio da aprendizagem profunda. Este documento prop e uma nova abordagem para lidar com essa tarefa, integrando redes neurais convolucionais (CNNs) para extra o de recursos de imagem e redes neurais recorrentes (RNNs) para an lise de udio sequencial. Especificamente, utilizamos CNNs pr -treinadas, como VGG, para extrair caracter sticas visuais de imagens e empregamos representa es de espectrogramas acopladas a RNNs, como LSTM ou GRU, para processar entradas de udio. O nosso modelo proposto baseia-se n o s no seu conte do visual, mas tamb m nas pistas de udio que o acompanham. Avaliamos o desempenho do nosso modelo em conjuntos de dados de refer ncia e demonstramos a sua efic cia na gera o de legendas coerentes e contextualmente relevantes para imagens com entradas de udio correspondentes. Al m disso, efectuamos estudos de tabula o para analisar a contribui o de cada modalidade para o desempenho global da legendagem. Os nossos resultados mostram que a fus o das modalidades visual e auditiva melhora significativamente a qualidade da legendagem em compara o com a utiliza o isolada de cada uma das modalidades.
ThriftBooks sells millions of used books at the lowest
everyday prices. We personally assess every book's quality and offer rare, out-of-print treasures. We
deliver the joy of reading in recyclable packaging with free standard shipping on US orders over $15.
ThriftBooks.com. Read more. Spend less.