Wednesday, February 29, 2012

Semantic in Bullets - Linked Data Engineering


  • Daten verschlossen, unterschiedliche APIs und Austauschformate
  • → semantische Technologien um Daten zu publizieren und zu verbinden
  • Linked Open Data
    • 1. use URIs for things
      • reale und abstrakte Objekte
    • 2. use HTTP uris to lookup
      • lesbar für Mensch und Maschine (Content Negotiation)
    • 3. give useful information using standards (RDF/SPARQL)
      • alle URIs dereferenzierbar
    • 4. include links to other resources
      • inhaltlich zusammenhängen
      • relationship, identity, vocabulary
    • → Entstehung des Web of Data → DBPedia in Mitte
  • Anwendung
    • Semantic Mashups
      • Anwendung nutzt vernetzte RDF Daten aus unterschiedliche Datenquellen
    • Browser für Linked Data
    • Linked Open Data Rating
      • Available → Maschine-readable → non-proprietary format → RDF and SPARQL → Link to other data
    • Linked Data Ontologien
      • owl:sameAs, owl:equivalentClass to connect ontologies
      • Upper Ontology z.B. Umbel
      • Link Ontology SKOS
    • Zugriff über SPARQL Endpoints (RESTfull)
      • komplexe Abfragen über mehrere
        • nacheinander
        • LOD repo → zentraler Speicher (nicht immer aktuell)
        • local copy (Wartung)
        • föderiert: Mediator, Link Traversal Based Query Execution (zeitaufwändig)
  • Challenges
    • quality, performance, data consumption, usability
    • Research
      • Crawl, Analysis (Structural, Content), Cleansing, Ranking, Augmenting

Tuesday, February 28, 2012

Semantic in Bullets - Semantic Search


  • Information Retrieval
    • Boolean Retrieval
    • Vector Space Model
    • Probabilistic Model
  • Evaluation
    • Recall, Precision, F-Measure
  • Suchmaschinen
    • Tasks
      • Datennormalisierung, Wortidentifikation, Sprachidentifikation, Word Stemming, POS-Tagging, Deskriptorgenerierung
    • Probleme
      • Informationssuche
      • Informationsextraktion
  • multimedia Search
    • relies on link context
    • yet a bit visual similiarity is used
  • Semantic Search
    • Verknüpfung von Metadaten mit semantischen Entitäten
    • Nutzung der semantischen Relationen
    • Named Entity Recognition
      • Extract Entity Mapping Kandidaten → decide via Context
      • Co-occurence, semantic analysis, maschine learning
    • Nutzen semantischer Metadaten
      • Query String Refinement
        • Thesauri, Domain Ontologies
      • Cross Referencing
      • Visualization
    • Explorative Suche via geeigneter Properties

Sunday, February 26, 2012

Semantic in Bullets - RDF(S) semantics


  • um Tool Inkompatibilitäten zu vermeiden Definition einer formalen Semantik
  • Modelltheoretische Semantik
    • Interpretation ist Modell von Satz, wenn aus Interpretation Satz folgt (erfüllt)
    • Schlussfolgerung: Jede Interpretation von s1 auch I von s2
    • RDFS
      • Triple sind Sätze → Grundvokabular
      • einfach Interpretation → RDF-Interpretation → RDFS-Interpretation
        genereller Graph
        RDF Vokabular → RDFS Vokabular
  • einfache Interpretation
    • IR = Menge von Ressourcen
    • IP = Menge der Properties
    • Iext = Extension von Properties (Link zu Resourcen)
    • Is = URIs aus Vokabular zu IR ∪ IP
    • IL = Literale aus V zu Ressource
    • LV = Menge der ungetypten Literale aus IR
    • Graph1 folgt einfach aus Graph2, wenn jede einfach Interpretation
      • Schlussfolgern wann Tripel valide
  • RDF Interpretation
    • Sonderbehandlung für RDF Vokabular
    • zusätzliche Bedingungen
      • e ist Property, wenn (x,rdf:Property) in Iext(rdf:type)
      • nur wohlgeformte XMLLiterale
      • axiomatische Tripel wie (rdf:type rdf:type rdf:Property, …)
    • G1 RDF-folgt aus G2, wenn jede RDF-Interpreation von G2 auch Modell von G1
  • RDFS Interpretation
    • ergänzt RDFS Vokabular
    • Klassenextension Icext
    • jede Resource rdf:type rdfs:Resource
    • domain, range, subclass, sub property (reflexiv+transitiv)
  • Modelltheoretische Semantik nicht zum schlussfolgern geeignet da man alle Interpretationen beachten muss
    • syntaktisches Schlussfolgern mit Deduktionsregeln
  • Grenzen der RDFS Semantik
    • Disjunktheit von Klassen
    • Klassenkombination und Aufzählungsklassen
    • Kardinalitätsrestriktionen
    • Property → Transitivität, Eineindeutigkeit, Inversivität

Friday, February 24, 2012

Semantic in Bullets - Description Logic


  • Ontology is a
    • formal specification machine understandable
    • of a shared group of people
    • conceptualization about concepts
    • of domain of interest between general description and individual use
  • FOL is ausdrucksstark, aber semi-entscheidbar → Suche Fragement
  • OWL1 basiert auf SHOIN(D)
  • ALC kleinste DL die aussagen logisch deduktiv abgeschlossen
    • Klassen, Rollen, Individuen
    • Strikte / Offene Bindung einer Klasse an eine Rolle ( Existenz/Allquantor)
  • Beschreibungsregel Symbolic
    • ALC = Attribute Language with Complement
    • S = ALC + Rollentransitivität
    • H = Subrollen
    • O = abgeschlossene Klassen
    • I = inverse Rollen
    • N = Zahlenrestriktionen
    • Q = qualifizierte Zahlenrestriktionen
    • (D) = Datentypen
    • F = Funktionale Rollen
    • R = Rollenkonstruktoren
  • OWL1 DL = SHOIN(D)
  • OWL2 DL = SHROIQ(D)
  • Open/Closed World Assumption
  • Inferenzprobleme
    • Klasseninklusion, Klassenäquivalenz, Klassendisjunktheit, Klassenzugehörigkeit
    • Rückführung auf Unerfüllbarkeit
  • Tableau-Verfahren
    • finde terminierende Bäume
    • Regel
      • Alpha: Kunjunktionen erweitern Pfad
      • Beta: Disjunktionen splitten Pfad
      • Delta: Existenzquantor durch neue Konstante ersetzen
      • Gamma: Allquantor durch existierende Konstante

Thursday, February 23, 2012

Semantic in Bullets - Logic in detail


  • Logik, die Lehre des formalen Schließens
  • Semantik
    • Syntax zulässige Zeichenfolgen ohne Bedeutung
    • Semantik Regeln wie Bedeutung komplexer Zeichenfolgen aus der von atomare Zeichenfolgen hergeleitet werden kann
      • intendiert
      • formal
      • prozedural
    • Modelltheoretische Semantik: formale Interpretation der Sprache in einem Modell
  • Logik besteht aus Menge von Sätzen S und Schlussfolgerungsrelation
  • Aussagenlogik
    • Negation, Konjunktion, Disjunktion, Implikation, Äquivalenz
  • FOL
    • Existenz-/Allquantor
    • Terme = Variablen, Konstanten- und Funktionssymbole
    • Atome = Relationssymbole mit Termen als Argumenten
    • Formeln = Atome, Junktoren und Quantoren
  • Modeltheoretische Semantik
    • Interpretation abbilden der Atome nach wahr und falsch
    • Struktur
      • Grundbereich
      • Konstanten auf Grundbereich
      • Funktionen auf Grundbereich
      • Relationen auf Grundbereich
      • Zeige dass Formel widerlegbar → nicht allgemeingültig
    • logische Konsequenz: jedes Modell von F1 auch modell von F2
  • Normalformen
    • NegationsNF → Negationen ganz innen
    • PränexNF → Quantoren ganz vorne
      • gleiche Reihenfolge ggf. umbenennen
    • Skolemnisierte PränexNF → Eleminierung der Existenzquantoren
      • durch Konstante ersetzen
      • bei Allquantor Funktionssymbol
    • Konjunktive NF → Konjunktion aus Disjunktionen
      • aka Klauselform
      • nur noch Allquantoren → weglassen
  • Logik rechnen
    • Entscheidbarkeit
    • Semientscheidbarkeit (Aufzählbarkeit)
  • Resolution
    • Verfahren
      • 1. Wähle Zwei Klausel und erzeuge noch durch Resolutionsschritt
      • 2. Ist Klausel immer falsch → Widerspruch
      • 3. Sonst, füge Klausel hinzu und gehe zu 1
    • Variablenbindung durch Substitution
      • Unifikator → nach Substituion Formeln gleich
    • endliche Anzahl von Schritten um Widerspruch zu finden
    • nicht entscheidbar
  • Eigenschaften von FOL Prädikatenlogik
    • Monotonie → mit Vergrößerung des Wissens, keine Verlust von Schlussfolgerungen
    • Kompaktheit Schlussfolgerung begründet auf endliche Menge von Sätzen
    • nicht entscheidbar
      • außer Nachweisen der logischen Konsequenz → semi-entscheidbar
  • Eigenschaften der Aussagenlogik
    • alles aus FOL
    • Schlussfolgerungen sind entscheidbar

Wednesday, February 22, 2012

Semantic in Bullets - Onotologies


sharing knowledge → interlingua

  • Syntax, Sematik
  • Taxonomy: Klassifikation von Begriffen
  • Thesauri: Assoziation und Vernetzung von Begriffen
  • Onotologie: Regeln + Wissen über sinnvolle Vernetzung
    • Wissen ist Teilmenge aller wahren Annahmen.

Onotologie in der Philosophie
  • Existenz?
  • Kategorien der existierenden Objekte
  • Platon: Trennung zw. Klasse und Instanz
  • Sylogismen (Aristoteles) Schlussfolgerungsregeln

An ontology is an explicit, formal specification, of a shared conceptualization.
Onotologie in Informatik
  • Bestandteile: Klassen, Beziehungen und Instanzen
  • informal, semi-informal, semi-formal oder formal definiert
    • formal: sogrfältig definierte Begriffe mit formaler Semantik
  • Klassen stehen mit anderen in Beziehung
    • an Beziehung können Regeln geknüpft sein
  • Aussage über Klassen, Regeln, Beziehungen
  • formale Axiome bezeichnen nicht ausdrückbares Wissen
  • Instanzen bezeichnen Individuen: konkrete und abstrakte
Ontologieentwurf
  • UML, ER → keine logischen Zusammenhänge oder Schlussfolgerungen

Ontologytypen

  • Top-Level → allg. bereichsübergreifend
  • Domain → Konzepte einer generischen Domäne
  • Task → Konzepte einer allg. Aktivität oder Aufgabe
  • Application → konkrete fokusierte Domäne, spezialisiert Domain-/Task Ontologie
  • lightweight to heavyweight ontologies
    • vokabular thesauri → formales ist-ein → Frames → Wertrestriktionen → Allg. logische Constraints → Disjunktheit, Part-of, inverses
    • Taxonomie → Klassifikation
    • informale IS-A-Hierarchie → nicht strikte Subklassen
    • formale IS-A-Hierarchie → strikte Subklassen
    • formale Instanz explizite Hierarchie mit Instanzen

Anwendungen
  • Top-Level z.B. OpenCyc
  • Domain z.B. NP-Ontologie for SAT & Co.

Monday, February 20, 2012

Semantic in Bullets - Logic Overview


Logic

Prädikatenlogik
  • besteht aus Fakten

Frist Order Logik

  • ergänzt um Existenz und Allquantoren (uneingeschränkt)

Beschreibungslogiken
  • entscheidbare Untermenge der FOL
  • TBox und ABox
    • terminologisches Wissen (Konzepte einer Domäne)
      • Concepte beschreiben Klassen (unär)
      • Rollen beschreiben Eigenschaften (binär)
    • assertionales Wissen (Instanzen)
      • Individuals (Konstanten, Ausprägungen)
  • Operatoren und Konstruktoren
    • Konjunktion, Disjunktion, Negation, eingeschränkte Quantifizierung

→ Basis Beschreibungslogik ALC (attribute language with complement)
ALC
  • ergänzt Top und Bottom Konzept
  • Klasseninklusion und -gleichheit
  • TBox: Struktur der modellierten Domäne
  • ABox: Axiome die konkrete Daten beschreiben

Operatoren und Logiken
  • FL →  Konjunktion, Werterestriktion, Existenzquantor
  • AL* → Top, Bootom, Negation(C), Disjunktion, existentielle Restriktion, Zahlenrestriktion(N), Menge von Individuen(O)
  • S*FL und AL*
  • H → Beziehunghierarchie
  • I → inverse Beziehungen
  • Q → qualifizierte Zahlenrestriktionen

Sunday, February 19, 2012

Semantic in Bullets - RDFS

RDFSchema
  • definiert welche Terme benutzt werden → Datendefinition
  • Klassen
    • rdfs:Resource, Property, Class, Literal, Datatype, Container
  • Eigenschaften
    • rdfs:subClassOf, domain, range
    • formal definierte Semantik
  • mehr als XML
    • kleine ontologische Einigung
    • eigene Vokabulare definierbar

Semantik von RDF(S)

  • Bedeutung eines Terms liegt in seinen Properties und deren Werten
  • Schlussfolgerungen
    • Klassenzugehörigkeit durch Property Domain und Range
    • Superklassenzugehörigkeit
    • Fakten aus Subproperty Beziehung


Semantische Annotation im WWW

  • link rel meta zu RDF Dokument
  • Microformats
    • nutzen XHtml-attribute: class, rel, rev
    • XSLT zur RDF Generierung
  • RDFa
    • ergänzte weitere Xhtml Attribute → generisches RDF in HTML
    • GRDDL zur Extraction (Profilangabe notwendig)
    • freie Ontologien
    • offener Standard, formale Semantik
  • schema.org
    • microdata schema
    • itemscope, itemprop
    • nur vordefinierte Vokabularien, keine formale Semantik

Friday, February 17, 2012

Semantic in Bullets - SPARQL


SPARQL - Protocol and RDF Query Language

  • Extraction von Werten aus strukturierten Daten
    • URIs, Literale
    • Subgraphen
  • komplexe Join Operationen über verteilten Datenbanken
  • RDF Vokabular Transformation
  • RDF Graph Konstruktion
  • Syntax basiert auf Turtle
    • SELECT ?title ?author WHERE{?title ex:of ?x. ?author ex:wrote ?x. }
    • FILTER(?price<30.5)
    • OPTIONAL // selektiert optionale Elemente
  • ASK (boolsche Antwort), CONSTRUCT(neue RDF triple), DESCRIBE(server beschreibt)
  • nutzt HTTP query als get parameter

Wednesday, February 15, 2012

Semantic in Bullets - Basic Architecture


URI

  • U - einheitliches Schema
  • R - alles hat  ID
  • I - dient der Unterscheidung

Metadaten

  • Beschreibung einer Ressource
  • maschine-understandable information about a resource

Interoperabilität mit XML

  • schwierig da Schema-Matching, XSLT notwendig