Zum Inhalt springen
Fact Crashing™, iDiscovery Solutions, Fact Crashing, Unstrukturierte Daten, Strukturierte Daten, Daten, iDS,

Verwenden Sie Daten, um andere Entdeckungen zu gestalten

Dies ist der zehnte Teil einer Blogserie über Fact Crashing™, die Beschleunigung der Berücksichtigung von ACTION-Daten (Ambient, Contextual, Transactional, IoT, Operational, Navigational) zugunsten der Streitbeilegung.

Es gibt 9 Prinzipien von Fakt Absturz™. Frühere Blogs abgedeckt: 

Grundsatz 1: Daten sind Beweise und auffindbar

Grundsatz 2: Daten sollten frühzeitig adressiert werden

Prinzip 2: Deep Dive

Prinzip 3: Case Issues als datenzentrierte Anfragen formulieren

Prinzip 4: Datenquellen identifizieren, qualifizieren und priorisieren

Grundsatz 5: Daten unterliegen Aufbewahrungs- und Schutzpflichten

Prinzip 6: Datenzuverlässigkeit beginnt mit der richtigen Erfassung

Prinzip 7: Datenverständnis ist für eine ordnungsgemäße Analyse erforderlich

Werfen wir nun einen Blick auf das achte Prinzip.


Eines der interessanten Dinge bei strukturierten Daten ist, dass die Kosten für den Umgang mit strukturierten Daten ganz anders sind als bei unstrukturierten Daten.

Die Kostenkurve unstrukturierter Daten

Bei unstrukturierten Daten (E-Mails und Dokumente) sind wir eine lineare Kostenkurve gewohnt. Jedes Dokument hat ähnliche Kosten – die Kosten der menschlichen Überprüfung. Technologische Effizienz kann die Kostensteigung (weniger Kosten pro Dokument) oder die Kostendauer (früheres Ende der Überprüfung) verändern, aber ansonsten sind die Kosten der Überprüfung (und der privilegierten Überprüfung) linear.


Beispiel der Kostenkurve für unstrukturierte Daten

Um die Dokumentenprüfung noch schlimmer zu machen, ist es bei Rechtsstreitigkeiten nicht ungewöhnlich, zunächst nicht zu wissen, welche Verwalter, welche Ereignisse, welche Daten von größtem Interesse sind. Dies ist der „Nebel des Rechtsstreits“. Um sich in diesem Unbekannten zurechtzufinden, tun Parteien traditionell das, was sie am besten können – sie überprüfen Dokumente und Aufzeichnungen. Sie navigieren durch das institutionelle Wissen des Unternehmens, wie es in E-Mails aufgezeichnet und durch Interviews offenbart wird. Dieser Ansatz ist zwar traditionell, aber teuer. Nicht nur wegen der linearen Kosten der Dokumentenprüfung, sondern wegen des breiten anfänglichen Umfangs, mit dem viele Ermittlungen und Rechtsstreitigkeiten beginnen. Diese linearen Kosten plus breiter Anwendungsbereich erzeugen eine doppelte Wirkung.

Die Kostenkurve strukturierter Daten

Strukturierte Daten haben jedoch ein ganz anderes Kostenprofil. Strukturierte Daten kosten am Frontend mehr als unstrukturierte Daten, um sicherzustellen, dass Sie verstehen, was die Daten darstellen. Gleichzeitig kosten strukturierte Daten nach dieser Initialisierung auf marginaler Basis (Datensatz für Datensatz) viel weniger als unstrukturierte Daten.

Dies liegt teilweise daran, dass strukturierte Datensätze typischerweise von Datensatz zu Datensatz sehr konsistent sind. Nicht im Inhalt, der von Datensatz zu Datensatz variieren kann, sondern in ihrem Format, den Arten von Werten, die sie enthalten, und dem Bereich von Werten, den sie enthalten können (Domäne) oder dem gesamten Spektrum von Werten, die sie enthalten (Bereich).

Sobald die Art und Weise, in der ein bestimmtes Feld ausgefüllt und verwendet wird, verstanden ist, können diese Merkmale leicht antizipiert und schnell auf weitere Datensätze extrapoliert werden. Daher können die Grenzkosten nahe Null sein.

Das anfängliche Erlernen der Art der Bestückung, der Anwendung, des Datentyps, des Formats, der Domäne und des Bereichs kann jedoch teuer sein. Daher können die Anschaffungskosten hoch sein.

Aus diesem Grund ist das Kostenprofil ein rapider Abwärtstrend mit niedrigen bis null Kosten für jeden zusätzlichen Datensatz. Der Umgang mit 10.000 Datensätzen ist nicht viel billiger als der Umgang mit 1.000.000 – zumindest von der Datenverwaltung und -auswertung her.

Beispiel der Kostenkurve für strukturierte Daten

Aufgrund des unterschiedlichen Kostenprofils ist es wirtschaftlich attraktiv, sich zuerst mit strukturierten Daten zu befassen und dann strukturierte Daten zu verwenden, um den Umfang und die Relevanz von unstrukturierten Daten zu verfeinern und zu verdeutlichen.

Beispielsweise können Lohnabrechnungsdaten und die Codierung von Stunden eine Unterrichtsstunde für einen unbezahlten Überstundenfall manchmal besser aufklären. In ähnlicher Weise könnten mutmaßliche Gruppenmitglieder für eine Produkthaftungsangelegenheit besser durch tatsächliche Verkaufsunterlagen als durch interne E-Mail-Kommunikation identifiziert werden.

Weiter – in einigen Fällen können strukturierte Daten nicht nur die Fallgrenzen besser beleuchten als unstrukturierte Daten, sie können auch besser definieren, welche unstrukturierten Daten überhaupt berücksichtigt oder überprüft werden sollten.

Überlegen Sie sich Folgendes: Stellen Sie sich einen Market-Timing-Fall vor, bei dem das Fallteam Hunderttausende von E-Mails überprüft. Sie verwenden diese E-Mails dann, um zu bestimmen, in welche Aktiengeschäfte sie sich einarbeiten müssen. Die Kosten für die Überprüfung dieser Hunderttausenden von E-Mails können Millionen von Dollar betragen. Der alternative Fact Crashing-Ansatz besteht darin, die Aktiengeschäfte zu untersuchen, sogar Hunderte von Millionen von Trades, um festzustellen, welche Transaktionen von Interesse sind, und dann die E-Mails zu überprüfen, die am engsten mit diesen Trades zusammenhängen. Durch die Priorisierung von strukturierten Daten vor unstrukturierten Daten können die Kosten (und die Geschwindigkeit) für das Auffinden und Untersuchen von interessanten Trades und sogar die Beilegung von Streitigkeiten dramatisch beeinflusst werden.

Da das Kostenprofil von strukturierten Daten so unterschiedlich ist, sind die Kosten pro Datensatz vernachlässigbar, der Wert pro Datensatz jedoch nicht. Auf diese Weise werden hochvolumige Datensätze zu einem Vorteil statt zu einem Nachteil. Dies ist ein Vorteil, da jeder einzelne Datensatz einen potenziellen Wert hat und weil große Sammlungen von Datensätzen Trends, Chronologien, statistische Abweichungen und andere Metriken auf eine Weise offenlegen können, die strukturierte Daten nicht können.

„Die Smoking Gun ist jetzt der Smoking Trend“

Infolgedessen können strukturierte Daten verwendet werden, um viele der Dimensionen eines bestimmten Rechtsstreits zu definieren oder zu formen, einschließlich:

  • Die Unterrichtszeit
  • Die mutmaßlichen Klassenmitglieder
  • Die potenzielle Exposition
  • Die jeweiligen Transaktionen, um die es geht
  • Potenzielle Mitarbeiter (oder Verwalter) von Interesse
  • Welche Produktmodelle könnten defekt oder problematisch sein
  • Die wichtigsten Daten der Mitteilungen von Interesse
  • usw. usw. usw.

Im Gegenzug können diese Dimensionen, wenn sie als Filter verwendet werden, zu großer Effizienz bei der Erfassung, Verarbeitung, Kategorisierung und Überprüfung von unstrukturierten Daten aus Memos, E-Mails, Texten, Instant Messaging, Dokumenten und sozialen Medien führen.

Zusammenfassend lässt sich sagen, dass es, da strukturierte Daten eine andere Kostenkurve (und Nutzenkurve) als unstrukturierte Daten haben, nicht nur oft wirtschaftlicher ist, zu versuchen, den gesamten Streit mit strukturierten Daten zu lösen, auch wenn dies nicht möglich ist, Sie können möglicherweise einen Teil lösen des Rechtsstreits, und Sie können möglicherweise den Umfang, die Komplexität und die Kosten Ihrer Dokumentensuche begrenzen (gestalten).


iDS bietet Unternehmen und Anwaltskanzleien auf der ganzen Welt beratende Datenlösungen, die ihnen einen entscheidenden Vorteil verschaffen – sowohl innerhalb als auch außerhalb des Gerichtssaals. Unsere Fachexperten und Datenstrategen sind darauf spezialisiert, Lösungen für komplexe Datenprobleme zu finden und sicherzustellen, dass Daten als Vermögenswert und nicht als Belastung genutzt werden können.

de_DEDE