Automatische Erkennung von Papierfragebögen

Aus LinuxUser 02/2011

Automatische Erkennung von Papierfragebögen

© Luis Santos, 123rf.com

Fragen über Fragen

Wo elektronische Mittel zum Erfassen von Daten versagen, erlebt der gute alte Papierfragebogen ein Comeback. Readform hilft, ihn zu erstellen und die Ergebnisse anschließend komfortabel digital zu erfassen.

Umfragen via Webinterface gehören heute zu den gängigen Werkzeugen beim Erheben von Daten. Aber nicht immer lässt sich dieses Verfahren praktizieren: Um zum Beispiel Patienten in Krankenhäusern zu befragen, eignet es sich nicht. Aufgrund des Alters und der Befindlichkeit vieler Patienten ist es in der Regel nicht angezeigt, einen elektronischen Fragebogen am Computer auszufüllen.

Darüber hinaus gibt es weitere Gründe, etwa Sicherheitsaspekte, die bei bestimmten Anwendungen eine Papierform zumindest nahe legen oder gar erzwingen. Am Ende liegen die Ergebnisse erst einmal in Form eines Stapels mehr oder weniger sorgsam ausgefüllter Papierfragebögen vor. Daraus gilt es möglichst automatisiert digitale Umfrageresultate für die Weiterbearbeitung zu erzeugen. Dafür braucht es einen maschinellen Erkennungsvorgang, der sich möglichst einfach handhaben lässt, aber gleichzeitig schnell und fehlerarm arbeitet.

Computergestützte Papierumfragen

Abbildung 1 zeigt den organisatorischen Ablauf einer computergestützten Umfrage auf Papierbasis. Sie beginnt mit dem Gestalten eines Befragungsbogens als Textdokument (1.). Darauf folgen der Ausdruck der Bögen (2.), das das Ausfüllen durch die Befragten (3.) und das abschließende Einsammeln.

Abbildung 1: Der schematische Ablauf einer papiergestützten Befragung.

Abbildung 1: Der schematische Ablauf einer papiergestützten Befragung.

Um die gewonnenen Daten zum Auswerten wieder in eine digitale Form zu überführen, stehen grundsätzlich die folgenden Wege zur Auswahl:

  • Ein Sachbearbeiter gibt die Daten der ausgefüllten Seiten in den Computer ein (4.a),
  • man reicht die Bögen an einen Dienstleister weiter, der den Digitalisierungsprozess extern erledigt (4.b), oder
  • man extrahiert mithilfe einer geeigneten Software, die die Daten aus den eingescannten Papierfragebögen zur digitalen Weiterverarbeitung (4.c).

Vom automatischen Ansatz geht ein besonderer Reiz aus, da er ohne zusätzliche Personalkosten selbst bei umfangreichen Befragungen schnelle und unabhängige Ergebnisse verspricht. Das automatische Auswerten wirft allerdings einige Fragen auf: Stammen die Papierfragebögen aus einer beliebigen Software (etwa einer Textverarbeitung), die aber über keine Funktion zum Auswerten verfügt, oder aus einer Anwendung, die sie sowohl generiert als auch analysiert?

Die erste Form eignet sich insbesondere dann, wenn Sie schon eine Vielzahl von Fragebögen mit der gewohnten Software hergestellt haben und diese nun vorliegen. Dann gilt es, dem Analyseprogramm für jeden Papierfragebogen die Koordinaten der jeweiligen Daten mitzuteilen. Dafür drucken Sie den Bogen aus, scannen ihn ein und öffnen das so erzeugte digitale Bild im Analyseprogramm.

Diese zeigt die Seite an, und Sie ziehen mit der Maus um alle Felder, die Sie einbeziehen möchten, einen Rahmen. Dazu zählen Eingabefelder für Kreuze und Text oder Barcodes für das automatische Zuordnen des Papierfragebogens. Darüber hinaus bestimmen Sie in diesem Arbeitsschritt die Bedeutungen der Felder (Abbildung 2). Je nach Leistungsfähigkeit der Software erkennt diese Texte und Zahlen aus den Eingabefeldern verarbeitet die Werte gleich weiter. Alternativ stellen viele Programme diese Informationen als Bild bereit.

Abbildung 2: Mithilfe der Maus markieren Sie die gewünschten Felder, die in die Analyse der Fragebögen einfließen sollen.

Abbildung 2: Mithilfe der Maus markieren Sie die gewünschten Felder, die in die Analyse der Fragebögen einfließen sollen.

Zu den typischen Vertretern der Erkennungssysteme zählt beispielsweise das QueXF-Projekt [1] in Kombination mit QueXML [2]. QueXML generiert die Papierfragebögen mithilfe einer XSL-FO-Transformation. Die ausgefüllten Bögen lesen Sie später mit QueXF wieder ein. Das Erstellungsmodul ermöglicht dabei den Einsatz von Balkencodes. Darüber hinaus stellt dieser Workflow sicher, dass nur Fragebogenkomponenten zum Einsatz kommen, die QueXF später erkennt. Für dieses Erkennen ist es notwendig, die ausgefüllten Felder manuell mit QueXF zu markieren. Das erschwert das Bedienen enorm.

Derartige Nachteile beseitigt der zweite Ansatz: Das mühsame Erstellen einer Scan-Schablone entfällt bei Architekturen mit integriertem Erkennungssystem. Solche Anwendungen verzahnen den Fragebogengenerator so eng mit dem Analyseprogramm, dass beide Programmteile mit dem gleichen Layout arbeiten. Zum Erstellen eines Fragebogens stehen eine Reihe von Komponenten bereit – etwa Ankreuzfelder, Textfelder oder Beschreibungstexte– aus denen Sie die gewünschten Bausteine zusammensetzen.

Ihre Aufgabe besteht darin, die Elemente zu positionieren, zu beschriften und zum Schluss auszudrucken. Gleichzeitig erhält die Software so alle Angaben, die sie für die Analyse braucht, denn die Koordinaten von Text- oder Ankreuzfeldern stehen für den Seitendruck ebenso bereit wie für das Erkennen der Seite.

Readform/ReadGUI

Das System Readform zum Erstellen und Auswerten von Papierumfragen entstand an der Hochschule Zittau/Görlitz im Rahmen des Risikous-Projekts [3]. Es gehört zu den automatischen Fragebogensystemen. Mit der grafischen Oberfläche ReadGUI stehen darüber hinaus ein Fragebogeneditor und der Scannerzugriff unter Linux und Windows bereit. Das Projekt steht unter der GPLv2.

Sie finden die Software auf der Projektseite [4] sowie auf der Heft-DVD. Das System bildet den in Abbildung 1 gezeigten Umfrageablauf vom Erstellen der Fragen bis hin zum Auswerten softwareseitig vollständig ab. Dabei bettet das Programm in jeden Papierfragebogen Elemente ein, die eine automatische Identifikation nach den oben dargestellten Gesichtspunkten ermöglicht. Für die Produktion der PDF-Dokumente kam das HaruPDF-Projekt [5] zum Einsatz.

Aufbau

Ein Fragebogen entsteht durch Komposition vorgefertigter Bausteine verschiedenen Typs, wie Eingabe- oder Mehrfach-Auswahlfeld. Moderne Content-Management-Systeme haben es vorgemacht: Sie trennen Inhalt und Layout. Gleiches gilt für das Erstellen des Fragebogens: Das “Was” (Fragebogeninhalt) und das “Wie” (Darstellung) liegen hier in zwei verschiedenen XML-Formaten und ergänzen sich: Das Layout-Format beschreibt die Bausteine mittels elementarer Eigenschaften, wie etwa der optischen Merkmale. Der Inhalt des Fragebogens landet in einem separaten Dokument, das auf die Bausteine aus dem Layout Bezug nimmt.

Abbildung 3 zeigt einen Papierfragebogen und dessen XML-Beschreibung. Das Layout stellt Bausteine, wie block, question oder radio.value mit der jeweiligen Formatierung zur Verfügung: block ist mit einem Rahmen versehen, radio.value bietet Antwortmöglichkeiten. Diese Bausteine tauchen dann im Fragebogen auf und erhalten dort einen beschreibenden Text, wie zum Beispiel “Kürzliche Erkrankungen”.

Abbildung 3: Eine XML-Struktur bestimmt den Aufbau eines Fragebogens.

Abbildung 3: Eine XML-Struktur bestimmt den Aufbau eines Fragebogens.

Abschließend erzeugt Readform aus den Layout- und Fragebogendaten ein PDF (Abbildung 4). Die PDF-Engine liest dabei beide Dokumente ein und wendet die Layout-Regeln auf die Fragebogenbeschreibung an.

Abbildung 4: Über eine Transformation entsteht aus den XML-Daten des Fragebogens das fertige Layout.

Abbildung 4: Über eine Transformation entsteht aus den XML-Daten des Fragebogens das fertige Layout.

Analyse

Nach der Umfrage liegt ein Stapel ausgefüllter Papierfragebögen zum Erfassen bereit. Dabei passiert es in der Praxis, dass die Reihenfolge der Seiten bei mehrseitigen Umfragen nach dem Ausfüllen eventuell durcheinander gerät. Vielleicht sind zudem Blätter einer ganz anderen Umfrage dazwischen gerutscht.

Für den Umgang mit derart erschwerten Bedingungen haben die Entwickler einen Identifizierungscode (ähnlich einem Barcode) und ein Justierungssystem in die Software integriert. Beides macht die Software robuster und ermöglicht es zum Beispiel, auf dem Kopf stehende Seiten zu erkennen und einzelne Papierbögen richtig zuzuordnen.

Die dafür notwendigen Informationen stehen in Form zweier kleiner Kreise und eines Codeblocks auf den Seiten. Abbildung 3 zeigt links oben einen solchen Justierungskreis mit Code. Die ID-Codes enthalten dabei drei Angaben für das Zuordnen der Fragebogenseite zu einer Befragung:

  • die Seitennummer (zum Beispiel 3, wenn die Umfrage 5 Seiten umfasst),
  • eine Umfragenummer (zum Beispiel 321, wenn 500 Mitarbeiter an der Umfrage teilnehmen), und
  • eine Befragungsnummer (zum Beispiel 2, wenn die erste Umfrage bei den Managern stattfindet und eine zweite bei den Angestellten).

Dieses System greift auch dann, wenn Sie die Seiten von Umfragen beliebig vermischt einscannen. Durch die eindeutige ID jeder Seite ordnet die Software die Bögen stets richtig zu.

ReadGUI

Mit ReadGUI gestaltete sich der Zugriff auf die Funktionen sehr komfortabel. Sie erreichen über die Oberfläche den Editor und das Druckmodul. Die GUI dient aber auch zum Erfassen der Bögen und zum Auswerten. Als erstes vergeben Sie für das Projekt einen Namen sowie eine Nummer. Dann platzieren Sie im Editor (Abbildung 5) die Elemente aus dem Komponentenmenü rechts im Hauptbereich. Über einen Doppelklick bearbeiten Sie Teile; mit einem einfach Klick markieren ein Element, dass sich in der Folge gelb einfärbt. Einem markierten Element lassen sich weitere unterordnen.

Abbildung 5: Mittels eines Editors erstellen Sie komfortabel via Mausklick einen Fragebogen inklusive automatischer Merkmale zum Einlesen.

Abbildung 5: Mittels eines Editors erstellen Sie komfortabel via Mausklick einen Fragebogen inklusive automatischer Merkmale zum Einlesen.

Nach dem Fertigstellen der Umfrage wandeln Sie diese mittels Fragebogendruck in ein PDF um und drucken das Ergebnis aus. Die Angabe der Exemplaranzahl bestimmt, wieviele Papierfragebögen aus dem Gerät kommen. Jedem Exemplar gibt die Software dann eine Umfragenummer. Durch Verändern der Startnummer fertigen Sie für eine bereits laufende Befragung weitere Fragebögen an. Der Einsatz eines Kopierers scheidet aus.

Über Bogenerfassung analysieren Sie die ausgefüllten Papierfragebögen. Nach der Wahl des Scanners und der Auflösung (300 dpi empfohlen) schieben Sie den Scanvorgang via Starten an. Die digitalisierten Fragebögen landen in dem unter Zielordner angegebenen Verzeichnis.

Abbildung 6: Aus den analysierten Daten der Fragebögen erstellt ReadGUI Balkendiagramme.

Abbildung 6: Aus den analysierten Daten der Fragebögen erstellt ReadGUI Balkendiagramme.

Abschließend visualisiert Auswertung (Abbildung 6) das Ergebnis der Umfrage in Form von Balkendiagrammen. Für Texteingaben zeigt das Programm das eingescannte Bild des passenden Elements an.

ReadGUI verwendet vorgegebene Baustein-Layouts, die Sie im Editor bei Bedarf an individuelle Anforderungen anpassen (Bearbeiten | Layout Editor). Außerdem zeigt die Editor-Komponente die XML-Notation des aktuellen Layouts auf Wunsch an und erlaubt auch das direkte Bearbeiten der Struktur. Das detaillierte Handbuch [4] hilft bei fast allen Problemen weiter.

Fazit

Das hier vorgestellte System zeigt einen Realisierungsansatz zum Erstellen, Auswerten und Verwalten von Papierumfragen. Als Voraussetzungen für den Systemeinsatz benötigen Sie lediglich einen Linux-Rechner (oder einen Windows-PC), einen Scanner, einen Drucker und Kopierpapier.

Bei dem System handelt es sich derzeit noch um einen Prototypen, der zwar schon gut funktioniert, aber noch Raum für verschiedene Erweiterungen oder Verfeinerungen bietet. So fehlt beispielsweise bislang ein Datenexport in etablierte Formate wie SPSS. Ein digitale Texterfassung (OCR) würde das System ebenfalls ausgezeichnet ergänzen und neue Anwendungsfelder erschließen. 

LinuxUser 02/2011 KAUFEN
EINZELNE AUSGABE
ABONNEMENTS
TABLET & SMARTPHONE APPS
E-Mail Benachrichtigung
Benachrichtige mich zu:

Hinweis: Dieser Artikel ist älter als ein Jahr, enthaltene Informationen sind möglicherweise veraltet.

0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben