Die Beschriftung von Bildern mit Audiodaten hat sich als anspruchsvolle, aber vielversprechende Aufgabe im Bereich des Deep Learning herausgestellt. Dieses Papier schl gt einen neuartigen Ansatz zur Bew ltigung dieser Aufgabe durch die Integration von Convolutional Neural Networks (CNNs) f r Bild Feature-Extraktion und rekurrente neuronale Netze (RNNs) f r sequentielle Audio-Analyse. Konkret nutzen wir vortrainierte CNNs wie VGG, um visuelle Merkmale aus Bildern zu extrahieren, und verwenden Spektrogrammdarstellungen in Verbindung mit RNNs wie LSTM oder GRU, um Audioeingaben zu verarbeiten. Das von uns vorgeschlagene Modell basiert nicht nur auf dem visuellen Inhalt, sondern auch auf den begleitenden Audiohinweisen. Wir evaluieren die Leistung unseres Modells anhand von Benchmark-Datens tzen und demonstrieren seine Effektivit t bei der Generierung koh renter und kontextuell relevanter Bildunterschriften f r Bilder mit entsprechenden Audioeingaben. Zus tzlich f hren wir Tabellierungsstudien durch, um den Beitrag jeder Modalit t zur Gesamtleistung der Beschriftung zu analysieren. Unsere Ergebnisse zeigen, dass die Fusion von visuellen und auditiven Modalit ten die Qualit t der Beschriftung im Vergleich zur isolierten Verwendung einer der beiden Modalit ten deutlich verbessert.
ThriftBooks sells millions of used books at the lowest
everyday prices. We personally assess every book's quality and offer rare, out-of-print treasures. We
deliver the joy of reading in recyclable packaging with free standard shipping on US orders over $15.
ThriftBooks.com. Read more. Spend less.