Aller au contenu
Fact Crashing™, Solutions iDiscovery, Fact Crashing, Données non structurées, Données structurées, Données, iDS,

Utiliser les données pour façonner d'autres découvertes

Ceci est le dixième volet d'une série de blogs sur Fact Crashing™, l'accélération de la prise en compte des données ACTION (Ambient, Contextual, Transactional, IoT, Operational, Navigational) au profit de la résolution des litiges.

Il y a 9 principes de Crash de faits™. Les blogs précédents couvraient : 

Principe 1 : Les données sont des preuves et sont détectables

Principe 2 : Les données doivent être traitées tôt

Principe 2 : Analyse approfondie

Principe 3 : Définir les problèmes de cas comme des requêtes centrées sur les données

Principe 4 : Identifier, qualifier et hiérarchiser les sources de données

Principe 5 : Les données sont soumises aux obligations de conservation et de protection

Principe 6 : La fiabilité des données commence par une collecte appropriée

Principe 7 : La compréhension des données est requise pour une analyse correcte

Maintenant, regardons le principe des huit.


L'un des aspects intéressants des données structurées est que les coûts de traitement des données structurées sont très différents de ceux des données non structurées.

La courbe de coût des données non structurées

Avec des données non structurées (emails et documents) nous sommes habitués à une courbe de coût linéaire. Chaque document a un coût similaire - le coût de l'examen humain. L'efficacité technologique peut modifier la pente des coûts (moins le coût par document) ou la durée des coûts (mettre fin à la révision plus tôt), mais sinon, le coût de la révision (et de la révision privilégiée) est linéaire.


Exemple de courbe de coût pour les données non structurées

Pour aggraver encore l'examen des documents, il n'est pas rare dans les litiges de ne pas savoir, au départ, quels dépositaires, quels événements, quelles dates sont les plus intéressants. C'est le « brouillard du litige ». Pour naviguer dans cet inconnu, les parties font traditionnellement ce qu'elles font le mieux : elles examinent les documents et les dossiers. Ils naviguent à travers les connaissances institutionnelles de l'entreprise telles qu'elles sont enregistrées dans les e-mails et révélées lors d'entretiens. Bien que traditionnelle, cette approche est coûteuse. Non seulement en raison du coût linéaire de l'examen des documents, mais en raison de la vaste portée initiale avec laquelle de nombreuses enquêtes et litiges commencent. Ce coût linéaire, plus large portée crée un double impact.

La courbe de coût des données structurées

Cependant, les données structurées ont un profil de coût très différent. Les données structurées coûtent plus cher que les données non structurées sur le front-end pour vous assurer que vous comprenez ce que les données représentent. Dans le même temps, après cette initialisation, les données structurées coûtent beaucoup moins cher que les données non structurées sur une base marginale (enregistrement par enregistrement).

Cela s'explique en partie par le fait que les enregistrements de données structurées sont généralement très cohérents d'un enregistrement à l'autre. Pas dans le contenu, qui peut varier d'un enregistrement à l'autre, mais dans leur format, les types de valeurs qu'ils contiennent et la plage de valeurs qu'ils peuvent contenir (domaine) ou le spectre complet des valeurs qu'ils contiennent (plage).

Une fois que la manière dont un champ particulier est rempli et utilisé est comprise, ces caractéristiques peuvent être facilement anticipées et rapidement extrapolées à travers des enregistrements supplémentaires. Le coût marginal peut donc être proche de zéro.

Cependant, l'apprentissage initial du mode de remplissage, de l'application, du type de données, du format, du domaine et de la plage peut être coûteux. Par conséquent, le coût initial peut être élevé.

Pour cette raison, le profil de coût est une pente descendante rapide avec un coût faible à nul pour chaque enregistrement supplémentaire. Traiter 10 000 enregistrements n'est pas beaucoup moins coûteux que de traiter 1 000 000, du moins du point de vue de la gestion et de l'évaluation des données.

Exemple de courbe de coût pour les données structurées

En raison du profil de coût différent, il est économiquement intéressant de traiter d'abord les données structurées, puis d'utiliser les données structurées pour affiner et clarifier la portée et la pertinence des données non structurées.

Par exemple, les données de paie et le codage des heures peuvent parfois mieux clarifier une période de classe pour un cas d'heures supplémentaires non payées. De même, les membres présumés du groupe pour une affaire de responsabilité du fait des produits pourraient être mieux identifiés par les registres de vente réels que par les communications internes par courrier électronique.

De plus, dans certains cas, les données structurées peuvent non seulement mieux éclairer les limites du cas que les données non structurées, mais elles peuvent également mieux définir quelles données non structurées doivent même être prises en compte ou examinées.

Considérez ce qui suit - imaginez un cas de synchronisation du marché où l'équipe de cas examine des centaines de milliers d'e-mails. Ils utilisent ensuite ces e-mails pour déterminer dans quelles transactions boursières ils doivent creuser. Le coût de l'examen de ces centaines de milliers d'e-mails peut s'élever à des millions de dollars. L'approche alternative de Fact Crashing consiste à examiner les transactions boursières, voire des centaines de millions de transactions, pour déterminer quelles transactions présentent un intérêt, puis à examiner les e-mails les plus étroitement liés à ces transactions. En donnant la priorité aux données structurées plutôt qu'aux données non structurées, le coût (et la rapidité) de la recherche et de l'examen des transactions intéressantes, et même de la résolution du litige, peuvent être considérablement affectés.

Étant donné que le profil de coût des données structurées est si différent, le coût par enregistrement est négligeable, mais la valeur par enregistrement ne l'est pas. En tant que tels, les ensembles de disques à volume élevé deviennent un avantage plutôt qu'un inconvénient. C'est un avantage car chaque enregistrement individuel a une valeur potentielle et parce que de grandes collections d'enregistrements peuvent révéler des tendances, des chronologies, des variations statistiques et d'autres mesures d'une manière que les données structurées ne peuvent pas révéler.

"Le Smoking Gun est maintenant la tendance du fumeur"

Par conséquent, les données structurées peuvent être utilisées pour définir ou façonner de nombreuses dimensions d'un litige donné, notamment :

  • La période de classe
  • Les membres putatifs de la classe
  • L'exposition potentielle
  • Les transactions particulières en cause
  • Employés potentiels (ou dépositaires) d'intérêt
  • Quels modèles de produits pourraient être défectueux ou en cause
  • Les dates clés des communications d'intérêt
  • Etc. Etc. Etc.

En retour, ces dimensions, lorsqu'elles sont utilisées comme filtres, peuvent conduire à une grande efficacité dans la collecte, le traitement, la catégorisation et l'examen des données non structurées des mémos, des e-mails, des textes, de la messagerie instantanée, des documents et des médias sociaux.

En résumé, étant donné que les données structurées ont une courbe de coûts (et une courbe d'avantages) différente de celle des données non structurées, non seulement il est souvent plus économique d'essayer de résoudre l'intégralité du litige avec les données structurées, même lorsque vous ne pouvez pas, vous pourrez peut-être résoudre une partie du litige, et vous pourrez peut-être limiter (façonner) la taille, la complexité et les coûts de la découverte de vos documents.


iDS fournit des solutions de données consultatives aux entreprises et aux cabinets d'avocats du monde entier, leur donnant un avantage décisif - à la fois dans et hors de la salle d'audience. Nos experts en la matière et nos stratèges de données se spécialisent dans la recherche de solutions aux problèmes de données complexes, garantissant que les données peuvent être exploitées comme un atout et non comme un handicap.

fr_FRFR