Der vorliegende Text ist publiziert in Hans Rudolf Straub: "Das interpretierende System", Z/I/M-Verlag, 2001, ISBN 3-9521232-6-9



8    Zur Architektur des semantischen Raumes bei der Diagnosecodierung
[1]



8.1    Einleitung

Im Gesundheitswesen liegt ein entscheidender Teil der Daten in Form von Texten vor. Diese Texte sind zwar sehr aussagekräftig, weil sie aber nicht in einer standardisierten und wohlstrukturierten Form vorliegen, sind sie statistisch schlecht auswertbar. Diesem Mangel kann prinzipiell auf zwei Weisen abgeholfen werden, entweder durch das Erzwingen einer standardisierten  Sprache a priori (kaum durchsetzbar), oder dann durch die Interpretation der heterogenen Sprache a posteriori. Die Codierung von Diagnosen stellt einen solchen Versuch der nachträglichen Strukturierung dar, in der Hoffnung, damit Transparenz über die Vorgänge in unserem Gesundheitswesen zu erlangen.


8.2    Das Dreieck nach Ogden und Richards und der semantische Raum

Ogden und Richards [1923] unterscheiden in ihrer Arbeit über das semiotische Dreieck zwischen Symbolen, Gedanken und Objekten[2] . Wenn wir codieren, dann bewegen wir uns von Symbolen (Worten) zu anderen Symbolen (Codes). Die Bewegung findet über Vorstellungen in unseren Gedanken statt. In diesen Vorstellungen sind die Bedeutungen der Worte und Codes enthalten, und der Vorgang der Codierung besteht darin, die Bedeutungen miteinander zu vergleichen und den zur Bedeutung der Worte am besten passenden Code auszuwählen.
             

                

        Abb 35: Diagnose-Codierung im Dreieck von Ogden und Richards (1923), s.a. Kap. 10.1.

Vergleich und Auswahl finden im semantischen Raum der Begriffe statt. Dieser Raum unterscheidet sich vom uns gewohnten dreidimensionalen Raum in vieler Hinsicht. Eine präzise Beschreibung des semantischen Raumes ist für die Darstellung des Codiervorgangs notwendig und somit für die erfolgreiche automatisierte Diagnosecodierung eine Voraussetzung.


8.3    Achsen und Werte im semantischen Raum

Eine Dimension im semantischen Raum kann als Achse angesehen werden. Sie enthält einen informatischen Freiheitsgrad. Die Achse entspricht einem Merkmal (z.B. Farbe) und ein Wert auf der Achse der Ausprägung des Merkmals (z.B. grün). Für die Beschreibung des Spiels der Werte (= Begriffe) und Achsen sind unterschiedliche Architekturen gebräuchlich.


8.4    Die hierarchische (= monoaxiale) Architektur

Die einfachste Architektur, die Hierarchie, kennt nur eine Achse. Alle Werte bilden sich auf diese Achse ab. Obwohl in Abb. 36 die Begriffe zweidimensional angeordnet sind, ändert sich die Information qualitativ nur in der einen, nämlich der horizontalen Richtung. In der Vertikalen ändern sich dagegen Präzision und Geltungsbereich des jeweiligen Begriffs, d.h. die Granularität  der Information.
   

        

        Abb 36: Die Hierarchie, ein einachsiges System

Eindimensionale , monohierarchische Systeme stehen nicht nur am Ursprung der europäischen Systematik, nämlich bei Platon und Aristoteles . Dank ihrer Einfachheit sind sie auch ideal für den Einsatz in Archiven und Computersystemen. Probleme entstehen durch die sogenannte "kombinatorische Katastrophe ": Wenn ich m Ausprägungen eines Merkmals mit n Ausprägungen eines zweiten kombiniere – z.B. 100 Infektionskeime mit 10 Organen – dann erhalte ich m*n Kombinationen – im Beispiel 1000 Krankheiten. Die Zahl der Kombinationen ist ein Produkt und steigt entsprechend viel stärker an als die Summe der Einzelausprägungen. Eine monohierarchische Systematik erfordert deshalb auf dem feingranulären Layer eine unverhältnismässig hohe Anzahl von Blättern. Die ICD-10   braucht zur Darstellung einer Information von nicht ganz 14 Bit über 14'000 Blätter (4-Steller). Bei gröberer Granularität entstehen zudem Überschneidungen – wie z.B. zwischen "Lungenkrankheit" und "Tuberkulose". Der eine Begriff spezifiziert das Organ, der andere den Keim. Korrekt voneinander trennen und darstellen lassen sich die begrifflichen Inhalte nur in einem semantischen Raum, welcher die beiden Merkmale getrennt behandelt (s. Abb. 37 ).


8.5    Die multidimensionale Architektur

Die mehrdimensionale (= multiaxiale) Architektur besitzt als kombinierende (= komposite) Architektur die Potenz, der "kombinatorischen Katastrophe" zu begegnen:

        

                                            Abb 37: Beispiel eines zweidimensionalen Systems

Mehrdimensionale Architekturen verfügen über mehrere unabhängige Achsen . Wenn wir alle Achsen in einem Zentrum sich schneiden lassen, dann spannen sie einen mehrdimensionalen Raum auf und ein Punkt in diesem Raum wird durch je einen Wert auf jeder Achse definiert. Als Beispiel einer mehrdimensionalen Architektur verfügt die SNOMED[3]   in der Version 2 über sieben und in der Version 3 über zwölf Achsen. Der Anstieg der Achsenzahl ist typisch, da mit der Verfeinerung der Systematik immer mehr eigenständige Merkmale getrennt eine eigene Dimension  (einen eigenen Freiheitsgrad) erhalten. Zu viele Achsen aber sind unübersichtlich. Auch sind für einen konkreten Fall dann nicht mehr auf allen Achsen Werte sinnvoll, d.h. es entstehen sinnlose Kombinationen.


8.6    Die multifokale Architektur

Diese Nachteile der einfachen multidimensionalen Architektur überwindet die multifokale Architektur, welche mehrere explizite Verzweigungspunkte (Foci ) besitzt, an denen von einem beliebigen Punkt einer bestehenden Achse neue Achsen ausgehen (siehe Abb. 38 , dort ist z.B. der Begriff Fraktur ein Fokus). Multifokale Architekturen lassen sich mit relationalen Datenbanken, den Datenstrukturen der OOP, der GRAIL  des GALEN-Projektes [Rector, 1995] und mit J. F. Sowas  Conceptual Graphs [Sowa, 1984] darstellen.

           

                    Abb 38: Beispiel eines multifokalen Systems 


8.7    Die multipunktuelle Architektur

Die konkrete Arbeit bei der Wissensrepräsentation in der Medizin zeigt jedoch, dass Probleme vor allem bei der Darstellung von Multimorbidität und zusammengesetzten Syndromen auftreten, d.h. immer bei summierenden Begriffen. Dabei wird es nötig, auf der selben Achse mehrere Punkte   gleichzeitig aktiv zu halten (z.B. Ulna und Radius auf der Achse Knochen bei der Vorderarmfraktur). Auch im Raum, der durch die Achsen aufgespannt wird, sind mehrere Raumpunkte für die gleiche Entität wirksam. Eine solche multipunktuelle Wissensrepräsentation muss formal geregelt werden. Der semantische Raum bleibt zwar der gleiche wie bei der multifokalen Architektur, doch auf einer Achse können nun mehrere Punkte gleichzeitig einen einzigen Begriff ausmachen. Ein formales Element addiert dabei die Summe (whole) aus den Summandenpunkten (parts).


8.8    Die Rolle der Architekturen bei der Codierung

Der semantische Raum ist entscheidend für die Darstellung der Begrifflichkeit, also der Bedeutung von Worten und Codes. Erst mit Architekturen der 4. Generation (multipunktuell) können medizinische Begriffe widerspruchsfrei systematisiert und verglichen werden. Mit der multipunktuellen Darstellung gelingt es, die gesamte Information der textlichen Diagnosebezeichnung festzuhalten, und zwar in einer Form, die der Computer einfach weiterverarbeiten kann.

      

       Abb 39: Die semantische Darstellung enthält die Information in klarer Struktur

Durch die Erstellung des internen Datenformates (=semantische Darstellung, Abb. 39 ) werden die heterogenen Freitexte datawarehouse-gängig. Dank des hohen Informationsgehalts der primären semantischen Darstellung ist es möglich, sekundär und automatisiert aus dieser Darstellung heraus für verschiedene Zwecke und Codewerke zu gruppieren[4] .


[1]    Referat an der 44. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie am 14. Sept. 1999. Publiziert im Bulletin der Schweizerischen Gesellschaft für Medizinische Informatik No. 44, April 2000. Co-Autoren: M.A. Demarmels, N. Frei, H. Mosimann.
Obwohl das Referat die Codierung medizinischer Diagnosen zum Thema hat, gelten die Überlegungen zum semantischen Raum allgemein für jede Begriffsanordnung.
Eine detaillierte Darstellung der Überlegungen dieses Kapitels findet sich in Straub H. R: Four Different Types of Classification Models -  in:  Grütter R. (Hrsg): Knowledge Media in Health Care: Opportunities and Challenges. Herskey / Londen. Idea Group Publishing.
[2]    Diese Verhältnisse sind detailliert in Kap. 10 erklärt.
[3]
   Standardized Nomenclature of Medicine: Eine normierte amerikanische Nomenklatur der Medizin, ursprünglich in der Pathologie eingesetzt.
[4]    Siehe Abb. 41 auf S. 68 und die an Abb. 34 anschliessende Diskussion im Kap. 6.2.5 .


Inhaltsverzeichnis     Zum Buch       HOME