“Software löst nur dann Probleme, wenn der User sie nutzen will.

Haben Sie die richtige Lösung für ihre User?”

» Waidner IT Solutions | Mainz/Wiesbaden | +49 176 10042345
Home » Softwareberatung » Erhöhung der Datenqualität mit Open Refine

Erhöhung der Datenqualität mit Open Refine

Die Problemstellung kennt jeder, der mit größeren Datenmengen arbeitet: die notwendigen Informationen stammen aus den unterschiedlichsten Quellen, sind nicht abgeglichen und Stammdatenlisten gibt es sowieso nicht. Der geneigte User greift dann oft seufzend zu Microsoft Excel und versucht dort über mehr oder weniger intelligente Filter und großezügige Nutzung von SVERWEIS() die Daten einigermaßen ins Lot zu bringen.

Spezialisierte Tools
Doch das muss nicht sein. Für solche Arbeiten gibt es spezialisierte Tools, die das Leben einfacher machen. Klar ruft jeder, aber für Preise, die einem auch 3 Monate lang einen Werksstudenten finanzieren können, sich also nicht lohnen.

OpenRefine
Vor einiger Zeit bin ich bei Google über ein Tool namens „Google Refine“ gestolpert, dass mittlerweile als „Open Refine“ weiterlebt. Das Projekt hat als „Freebase Gridworks“ begonnen, bevor die Firma durch Google gekauft wurde. Inzwischen ist Google bei der Unterstützung des Tools ausgestiegen, es bleibt aber wie vorher als OpenSource verfügbar.

OK, was bringt mir das?

  • Daten aus zwei verschiedenen Quellen zusammenführen, eine Excel und die andere eine SQL-Datenbank? Check.
  • Schlecht gepflegte Stammdatenfelder mit Werten wie „male“, „m“, „männlich“, … zusammenführen? Check.
  • Unnötige Leerzeichen, Sonderzeichen etc. aus Felder entfernen? Check.
  • Duplikate entsorgen? Check.

Fazit
Nachdem ich schon einige Listen durch das Tool gefiltert und aufbereitet habe, möchte ich es nicht mehr missen. Die Einarbeitungszeit für triviale Operationen ist recht gering und auch für nicht-ITler überschaubar. Eine gute Einleitung in die wichtigsten Themen gibt es über die folgenden youtube-Videos, die ich jedem ans Herz legen kann.

Weitere Tutorials finden sich auf der Website von OpenRefine. Die meisten behandeln keine hypothetischen Fragen, sondern Probleme aus der echten Welt.

Dem Tool unbedingt einmal eine Chance beim nächsten Projekt geben. Kostenlos und für die wichtigen Plattformen verfügbar ist OpenRefine sicherlich keine schlechte Wahl.