Einführung

Globale Unternehmen müssen häufig Bilder, Poster oder Folien an neue Märkte anpassen, ohne ihre visuelle Identität zu beeinträchtigen. Diese Aufgabe ist anspruchsvoll, da sich Sprachen in Wortlänge, Schriftsystem und Typografie unterscheiden, was ein konsistentes Design leicht stören kann.

Problem

Die manuelle Bearbeitung von Grafiken ist teuer, fehleranfällig und gefährdet häufig die Markenkonsistenz (Schriften, Farben, Layouts). 

Unsere Umsetzung 

Wir haben eine Pipeline entwickelt, die Texte in Bildern mit moderner Szenentexterkennung und neuronaler maschineller Übersetzung erkennt und übersetzt. Schriften, Farben und Layouts bleiben unverändert – nur der Text wird ersetzt. Dieser Ansatz kombiniert Deep Learning auf dem neuesten Stand der Technik für die Szenentexterkennung mit kontextsensitiver Übersetzung und gewährleistet natürliche und professionelle Ergebnisse in allen Sprachen. 

Zentrale Herausforderungen 

  • Sicherstellung einer hohen Erkennungsgenauigkeit bei verrauschten Hintergründen und vielfältigen Schriftarten. 
  • Wahrung der Layout-Integrität (Schriften, Farben, Abstände) nach der Übersetzung. 
  • Gewährleistung der semantischen Korrektheit, auch bei ressourcenarmen Sprachen. 
  • Skalierbarkeit für große Datensätze und mehrsprachige Anwendungen. 

Fazit

Diese Technologie ermöglicht es Organisationen, Lokalisierung zu skalieren, Designkosten zu senken und globale Markenrichtlinien einzuhalten. Kontaktieren Sie uns, um zu erfahren, wie die mehrsprachige Bildübersetzung Ihren Workflow optimieren kann. 
Hierfür senden Sie gerne eine Mail an: markus.tatzgern@fh-salzburg.ac.at

Referenzen 

  • Zhang, H., et al. (2024). Text Recognition in the Wild: A Survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. DOI: 10.1109/TPAMI.2024.3373918 
  • Liu, Y., Wang, S., Jin, L., Zhang, S., & Luo, C. (2021). Adaptive Scene Text Recognition With Attentional Feature Fusion. IEEE Transactions on Image Processing, 30, 1313–1326. DOI: 10.1109/TIP.2020.3041344 
  • Wang, W., Xie, E., Li, X., Hou, W., Lu, T., Yu, G., & Shao, S. (2020). Scene Text Recognition with Stronger Visual-Language Modeling. arXiv preprint arXiv:1911.08947
  • Baek, J., Kim, G., & Lee, S. (2019). What Is Wrong With Scene Text Recognition Model Comparisons? Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 4715–4723. arXiv:1904.01941
  • Wu, C., Li, J., Zhou, J., Lin, J., Gao, K., Yan, K., Yin, S., Bai, S., Xu, X., Chen, Y., Chen, Y., Tang, Z., Zhang, Z., Wang, Z., Yang, A., Yu, B., Cheng, C., Liu, D., Li, D., Zhang, H., … Liu, Z. (2025). Qwen-Image Technical Report. arXiv preprint arXiv:2508.02324

© Fachhochschule Salzburg GmbH · Alle Rechte vorbehalten.