Open Source Tools

Alle Software-Entwicklungen innerhalb des CN-Projektes sind Open Source.

CN-Editor

Der Editor ist ein modular aufgebautes Tool zur Erfassung, Recherche und Auswertung antiker Münzen. Er kann leicht für andere Objektgattungen, die Bild und Schrift aufweisen und in großer Stückzahl vorliegen adaptiert werden.
https://github.com/telota/corpus-nummorum-editor

Die Schulungsvideos für CN Editor können hier heruntergeladen werden. Derzeit werden folgende Themen in den Schulungen behandelt:
Die Benutzeroberfläche
Erstellung von Datensätzen
Der Import von Münzdaten aus anderen Sammlungen
Funktionen der Bildbearbeitung

Natural Language Processing (NLP) und Image Recognition (IR)

Die beiden nachfolgenden Links machen Teile unserer bisherigen Fortschritte im Bereich der Künstlichen Intelligenz (KI) im Zusammenhang mit den Münzen des Corpus Nummorum (CN) Projekts zugänglich. Es handelt sich um unsere Natural Language Processing (NLP) und Image Recognition (IR)-Ansätze, die wir in Form eines Colab Notebooks auf der GitHub Plattform zur Verfügung stellen. Eine Anleitung zur Benutzung dieser beiden Notebooks ist jeweils (auf Englisch) beigefügt. Es wird lediglich ein gängiger Browser zur Ausführung des Notebooks benötigt. Weitere Vorkenntnisse im Bereich KI sind nicht erforderlich. Auf der GitHub Seite führt der "Open in Colab" Button direkt zu den Notebooks.

Mit dem NLP Notebook kann die Erkennung von einzelnen Entitäten wie beispielsweise "Apollon" auf einzelnen Münzbeschreibungen aus der CN Datenbank oder eigenen Beschreibungen getestet werden:
https://github.com/Frankfurt-BigDataLab/NLP-on-multilingual-coin-datasets

Das IR Notebook dient zur Erkennung von CN Typen oder Münzstätten anhand von Münzbildern. Hier können Beispiele oder selbst ausgewählte Bilder aus der CN Sammlung getestet werden:
https://github.com/Frankfurt-BigDataLab/IR-on-coin-datasets

Coin Image Dataset

Das Datenset ist eine Zusammenstellung antiker Münzbilder aus drei verschiedenen Quellen: Corpus Nummorum (CN), Münzkabinett Berlin und Bibliothèque nationale de France, Département des Monnaies, médailles et antiques. Es enthält eine Auswahl von griechischen und römischen Münzen der antiken Regionen Thrakien, Moesia Inferior, Troas und Mysia, die auf der Webseite corpus-nummorum.eu veröffentlicht worden. Mit diesem Datenset wurden im CN-Projekt die Machine Learning basierten Bilderkennungsmodelle trainiert. Mit der Publikation des Datensets laden wir alle ein, damit eigene Ideen und Modelle zu testen und umzusetzen.
Download von Zenodo

Data Quality Tool

Die Hauptidee dieses Tools besteht darin, vordefinierte SPARQL-Abfragen (Regeln) auf einem SPARQL-Endpunkt auszuführen, um Datenqualitätsprobleme (Inkonsistenzen innerhalb der Daten, fehlende Werte und Ausreißer) zu identifizieren. Die Ergebnisse dieser SPARQL-Abfragen werden in einer Excel-Datei zusammengestellt und aufgelistet (ein Tabellenblatt für jede Abfrage und ein Übersichtsblatt). In der resultierenden Excel-Datei können die Fachexperten Kommentare zum Status des gefundenen Problems eingeben (könnte kein Fehler sein oder Gründe für Inkonsistenzen oder fehlende Daten angeben). Diese kommentierte Excel-Datei kann für die nächste Durchführung der Datenqualitätsprüfung verwendet werden, und das Tool speichert: a) das Datum, an dem ein Problem zum ersten Mal gemeldet wurde, und b) die Kommentare der Experten. Wir haben das Tool auf Basis von RDF/SPARQL implementiert, um eine bessere Wiederverwendung zu ermöglichen. Das Tool kann von jedem genutzt werden, der seine Daten über einen SPARQL-Endpunkt zur Verfügung stellt. Gruppen, die dasselbe Modell verwenden, können ihre generierten SPARQL-Abfragen wiederverwenden und austauschen. Das Tool wird mit Regeln ausgeliefert, die wir für unsere Münzdaten im Corpus Nummorum auf Basis der Ontologie von Nomisma.org erstellt haben.

Imagines Nummorum VLM Indexcard Data Extraction Pipeline

Ein Tool zur automatisierten Analyse von Karteikarten mittels Vision-Language-Model (Qwen2.5-VL). Das System führt eine mehrstufige Bildanalyse durch, klassifiziert Bilder, erkennt handschriftlichen Inhalt und extrahiert strukturierte Daten.

https://github.com/telota/imagines-nummorum-vlm-data-extraction