Zum Inhalt springen
Fact Crashing™, Fact Crashing, Aktionsdaten, Was sind Aktionsdaten?, verbale Daten, datenbasierte Beweise, Entdeckung, Metadaten, physische Beweise, demonstrative Beweise, dokumentarische Beweise und Zeugnisbeweise, elektronisch gespeicherte Informationen, strukturierte Daten und unstrukturierte Daten , Persönlich identifizierbare Informationen, iDiscovery

Dies ist eine mehrteilige Einführung in Fact Crashing™: Die Beschleunigung der Streitbeilegung durch die Priorisierung datenbasierter Beweise (ACTION-Daten).

Es gibt 9 Prinzipien von Fakt Absturz™. Ab Teil III der Serie habe ich besprochen:

Grundsatz 1: Daten sind Beweise und auffindbar

Grundsatz 2: Daten sollten frühzeitig adressiert werden

Lassen Sie uns fortfahren.

Für diese Folge werde ich die Frage beantworten: Was sind ACTION-Daten?

Traditionell befassen sich die Parteien bei Entdeckungen mit einer Vielzahl von Beweisen, aber wohl nur einigen wenigen Kategorien, die von Bedeutung sind – physische Beweise, demonstrative Beweise, dokumentarische Beweise und Zeugnisbeweise.

Innerhalb dieses Paradigmas gelten elektronisch gespeicherte Informationen (ESI) als dokumentarischer Beweis. Innerhalb der ESI-Welt gibt es zwei Kategorien von Daten: strukturierte Daten und unstrukturierte Daten. Die meisten von uns sind am besten mit unstrukturierten Daten vertraut. Dabei handelt es sich um Freiformdaten mit hochflexiblen Inhalten wie E-Mails, MS-Word-Dokumenten, MS-Excel-Tabellen, MS-PowerPoint-Dateien, Audiodateien, Fotos und Filmen. Alles, wo der Inhalt keinem bestimmten Layout, Format oder einer bestimmten Formel folgt. Daher der Begriff „unstrukturiert“. Das Gegenteil von unstrukturierten Daten sind Felddaten oder Daten, die strukturiert sind. Typischerweise als Datenbanken gedacht, können dies auch Tabellenkalkulationsseiten, Ladedateien oder Protokolldateien sein. Strukturierte Daten können sich auch auf Elemente mit Metadaten beziehen, darunter E-Mails, Microsoft Office-Dokumente und Betriebssystemeinträge.

Ich habe festgestellt, dass viele der strukturierten Daten, mit denen wir umgehen, Tracking, Tracing und Transaktionsdaten sind. Dies sind die Daten, die Ihren Amazon™-Kauf aufzeichnen: was Sie beim Kauf gekauft haben, wie viele Einheiten, Zahlungsinformationen und Versandinformationen. All dies sind strukturierte (Feld-)Daten. Wenn Sie das Produkt erhalten und eine Bewertung abgeben, können Sie eingeben, was Sie möchten. Sie sind normalerweise nicht durch den Inhalt begrenzt, sondern nur durch die Länge. Ihre Bewertung besteht aus unstrukturierten Daten.

Es stellt sich auch heraus, dass Data Scientists alle Daten als strukturiert betrachten. Tatsächlich können drei Strukturachsen verwendet werden, um beliebige Daten zu beschreiben:

  • Wie strukturiert sind die Inhalte?
  • Wie strukturiert ist die Lagerung?
  • Wie strukturiert ist der Abruf?

Alle unsere Datensysteme können entlang dieser drei Achsen gemessen werden. Es gibt also keine unstrukturierten Daten; es gibt nur weniger strukturierte Daten. Das erinnert mich immer an den Film „Matrix“, wenn der Junge zu Neo sagt: „Die Wahrheit ist, es gibt keinen Löffel.“ Durch diese Analogie könnten wir E-Mails als „halbstrukturierte Daten“ betrachten, da sie Felddaten und Freiformdaten kombinieren. Ebenso für Textnachrichten, Instant Messaging, Bilder, Audiodateien usw. Alle Daten neigen dazu, ein gewisses Maß an konsistenten, hochdefinierten, hochstrukturierten Daten zu enthalten, die verschiedene Aspekte der Verfolgung der Erstellung, Speicherung, Verwendung, des Abrufs und sogar der Daten steuern Entsorgung.

Verwenden Sie also Begriffe wie strukturierte Daten und unstrukturierte Daten, wenn alle Daten haben verschiedene Grade der Struktur kann eine falsche Bezeichnung sein.

Einige andere Beschreibungen können hilfreich sein:

Menschlich vs. Instrumental

Subjektiv vs. Zielsetzung

Trat ein vs. Verzeichnet

Handbuch vs. Automatisiert

 Vage vs. Präzise

Analog vs. Quantum

Variable vs. Fest

Freiform vs. Definiert

Inhalt vs. Kontext

Wörter vs. Zahlen

Ideen vs. Metriken

Abstrakt vs. Beton

Sprachlich vs. Mathematisch

Auch andere Merkmale sind zu erkennen. Dazu gehört vor allem die Kostenkurve von strukturierten Daten im Vergleich zu unstrukturierten Daten. Dies verdient ein eigenes Kapitel, aber es genügt zu sagen, dass die Kurven vorerst sehr unterschiedlich sind. Unstrukturierte Daten haben eine lineare Kostenkurve. Je mehr Daten Sie haben, desto mehr kostet es. Auch mit fortschrittlicher Technologie können wir die Neigung der Linie ändern, aber es bleibt eine Linie.

Strukturierte Daten hingegen weisen eine Kurve auf, die beschleunigte Skaleneffekte widerspiegelt und sich fast den Fixkosten nähert. Dies ist eine Vorabinvestition mit geringen bis keinen Grenzkosten für zusätzliche Datensätze pro Datenquelle. Darüber hinaus gibt es einen zusammengesetzten Wert für jede zusätzliche Datenquelle, selbst wenn die inkrementellen Kosten relativ fest sind. Jede neue Datenquelle repräsentiert lineare Kosten, aber einen exponentiellen Wert.

Aus all diesen Gründen schlage ich folgendes Paradigma vor:

AKTION vs. VERBAL

ACTION-Daten konzentrieren sich auf die Transaktion, die Aktivität, die Metadaten und Systemdaten, die dieser Aktivität zugeordnet sind. Diese Daten sind Umgebungs-, Kontext-, Transaktions-, Instrumental-, Betriebs- und Navigationsdaten. Es könnte auch betrachtet werden: zuordenbar, kodifiziert, gezählt, integriert, objektiv und notwendig. Mit anderen Worten, dies ist nicht das, was jemand gesagt hat (das wäre der Inhalt seiner Nachricht, Voicemail, Foto). Stattdessen ist es das, was sie tatsächlich getan haben.

Was ist das Gegenteil von ACTION-Daten? Das wären VERBAL-Daten:

Im Gegensatz zu ACTION-Daten sind VERBAL-Daten variabel, emotional, reflektierend, BLOB, künstlerisch und sprachlich. Optionale Deskriptoren sind Varied, Emotional, Relatable, Basic, Actionable (Articulated und Mehrdeutig, sowie) und Sprache. Es ist hilfreich, sich die Datenwelt in zwei Gruppen vorzustellen: ACTION-Daten und VERBAL-Daten, insbesondere wenn wir erkennen, dass viele Datendateien Elemente von beidem enthalten. Fact Crashing™ konzentriert sich auf ACTION-Daten. Und wenn VERBAL-Daten verfügbar sind, suchen wir nach Möglichkeiten, sie stattdessen in ACTION-Daten umzuwandeln.

Wie verwandeln Sie VERBAL-Daten in ACTION-Daten?

Durch Hinzufügen von Metadaten. Dies erfolgt durch Extrahieren von Metadaten aus VERBAL-Daten oder durch Erstellen von Metadaten aus dem VERBAL-Inhalt. Wir extrahieren Metadaten, wenn wir Felddaten aus E-Mail-Headern ziehen und diese Felder dann verwenden, um diese E-Mails zu filtern. Wir tun dies auch, wenn wir Dateieigenschaften aus MS Office-Dokumenten zeichnen und diese Felder dann verwenden, um diese Dateien zu filtern. Wir erstellen Metadaten, wenn wir den Inhalt von Freiformdateien und -feldern analysieren, um daraus Informationen zu extrahieren. Enthalten sie personenbezogene Daten (PII)? Beziehen sie sich auf die Probleme A, B oder C? Beziehen sie sich auf die Konzepte 1, 2 oder 3? Können sie als Rechnung, Vertrag, Kalendereintrag, SPAM kategorisiert werden? Ist der Inhalt responsiv? Ist es privilegiert? Wenn wir diese Merkmale identifizieren und dann aufzeichnen, erstellen wir Metadaten.

Wann immer wir unstrukturierte Daten analysieren, verlassen sich unsere Computer tatsächlich auf strukturierte Merkmale, selbst wenn diese Merkmale vorübergehend sind oder sich hinter den Kulissen befinden. Beispiel: Wenn Ihnen ein bestimmter Song auf Pandora® gefällt, kann dieses System Ihnen ähnliche Songs empfehlen. Wie macht es das? Pandora hört sich die Musik nicht an, sondern verlässt sich stattdessen auf vorab aufgezeichnete Metadaten. In Pandora wird jeder Song nach Ph.D. kategorisiert. Musikwissenschaftler anhand von 400 verschiedenen Feldmerkmalen, die im Music Genome Project gefunden wurden. Diese umfassen die Qualitäten von Melodie, Rhythmus, Harmonie, Form, Komposition und Text.

Pro Julia Layton bei How Stuff Works:

„Pandora verlässt sich auf ein Musikgenom, das aus 400 musikalischen Zuschreibungen besteht, die die Qualitäten von Melodie, Harmonie, Rhythmus, Form, Komposition und Text abdecken. Es ist ein Projekt, das im Januar 2000 begann und 30 Experten für Musiktheorie fünf Jahre in Anspruch nahm, um es abzuschließen. The Genome basiert auf einer komplizierten Analyse der Musik von 10.000 Künstlern aus den letzten 100 Jahren durch echte Menschen (etwa 20 bis 30 Minuten pro vierminütigem Song). Die Analyse neuer Musik wird seit dem Online-Start von Pandora im August 2005 jeden Tag fortgesetzt. Seit Mai 2006 enthält die Musikbibliothek von Genome 400.000 analysierte Songs von 20.000 zeitgenössischen Künstlern. Sie werden Latin oder Klassik noch nicht finden: Pandora ist dabei, ein spezialisiertes Genom für lateinamerikanische Musik zu entwickeln, und denkt immer noch intensiv darüber nach, wie man sich der Welt der klassischen Komposition nähert.“

Pandora und das Music Genome Project haben etwas, das von Natur aus VERBAL ist, in etwas übersetzt, das jetzt AKTION ist. ACTION-Daten können gemessen, verglichen und eingestuft werden. VERBAL-Daten können in ihrem ursprünglichen Format nur von Menschen gelesen werden. Dies ist kosten- und zeitintensiv. In den frühen Tagen der computergestützten Entdeckung, als wir hauptsächlich mit Papierdokumenten arbeiteten und diese scannten, um Repositories von TIFF-Bildern zu erstellen, schickten wir umfangreiche Sammlungen von Dokumenten an kostengünstigere Überprüfungsteams. Ihre einzige Aufgabe bestand darin, die Dokumente zu „codieren“. Diese bibliografische Kodierung füllte Felder wie Autor, Thema, Datum, Kategorie usw. Diese Felder wurden wiederum zur Grundlage der Suche. Die VERBAL-Daten (die gescannten Bilder) wurden mit ACTION-Daten ergänzt.

Aber können wir uns nicht einfach mit dem Freiformtext befassen? Ja, aber es gibt Einschränkungen.

In der wegweisenden Information Retrieval-Arbeit von Blair und Maron (1985), benutzten die Anwälte die IBM STAIRS-System. Dies war das erste dokumentierte System, das eine boolesche Suche (UND, ODER, NICHT usw.) und eine Näherungssuche (angrenzend an denselben Absatz usw.) ermöglichte. Seitdem haben wir die Volltextsuche mit zusätzlichen erweiterten Funktionen, Verarbeitung natürlicher Sprache, Sprachübersetzern und erweiterten Informationsabruftechniken für Clustering, Raumvektormaschinen, Konzeptsuche usw. stetig verbessert.

Blair und Maron kritisierten das Volltextabrufsystem scharf als unwirksam, um die richtigen Dokumente zu identifizieren. Seitdem haben wir viele Technologien ausgereift, die bei der Handhabung von Freiformdaten helfen. Diese werden normalerweise unter einer Form von künstlicher Intelligenz zusammengefasst. Sie sind viel besser, aber immer noch begrenzt.

Wäre es hilfreich zu wissen, ob Ihre E-Mails personenbezogene Daten (PII) enthalten? Dann können Sie einen Algorithmus verwenden, um diesen Aspekt zu suchen, zu identifizieren und dann aufzuzeichnen. Dabei würden Sie einige ACTION-Daten aus Ihren VERBAL-Daten extrahieren. Wäre es hilfreich, eine große Gruppe von Mitteilungen auf Stimmungen zu analysieren? Wenn ja, können Sie diesen Aspekt mit einem Stimmungsanalysealgorithmus analysieren, zuordnen und aufzeichnen. Sie haben gerade einige ACTION-Daten aus Ihren VERBAL-Daten extrahiert.

Also ja, wir können mit VERBAL-Daten umgehen. Aber es ist arbeitsintensiv, teuer, subjektiv und kann sehr unterschiedliche Genauigkeits- und Abrufgrade aufweisen.

Aus all diesen Gründen ist es angebracht, anderen Quellen Vorrang vor VERBAL-Daten zu geben. Es ist angebracht, ACTION-Daten zu priorisieren und sie zu verwenden, um VERBAL-Daten zu erweitern. Dies zu erkennen ist die Essenz von Fact Crashing™.

In den nächsten Teilen werden wir uns mit der Identifizierung, Qualifizierung und Priorisierung von ACTION-Daten befassen. Sobald Sie sich daran gewöhnt haben, sehen Sie möglicherweise überall ACTION-Daten, so wie Neo die Matrix als Bits und Bytes sah.

Weiter zu Teil V unserer Fact Crashing™-Reihe >>


iDiscovery Solutions ist ein strategisches Beratungs-, Technologie- und Expertendienstleistungsunternehmen, das maßgeschneiderte eDiscovery-Lösungen von digitaler Forensik bis hin zu Expertenaussagen für Anwaltskanzleien und Unternehmen in den Vereinigten Staaten und Europa anbietet.

de_DEDE