Il s'agit d'une introduction en plusieurs parties à Fact Crashing™: L'accélération de la résolution des litiges grâce à la priorisation des preuves basées sur des données (données ACTION).
Il y a 9 principes de Crash de faits™. À partir de la partie III de la série, j'ai discuté:
Principe 1 : Les données sont des preuves et sont détectables
Principe 2 : Les données doivent être traitées tôt
Continuons.
Pour cet article, je répondrai à la question : Qu'est-ce que les données ACTION ?
Traditionnellement, dans la découverte, les parties traitent une grande variété de preuves, mais sans doute seulement quelques catégories qui comptent - preuves matérielles, preuves démonstratives, preuves documentaires et preuves testimoniales.
Dans ce paradigme, les informations stockées électroniquement (ESI) sont considérées comme des preuves documentaires. Dans le monde d'ESI, il existe deux catégories de données : les données structurées et les données non structurées. La plupart d'entre nous connaissent mieux les données non structurées. Il s'agit de données de forme libre qui ont un contenu hautement malléable tel que des e-mails, des documents MS Word, des feuilles de calcul MS Excel, des fichiers MS PowerPoint, des fichiers audio, des photos et des films. Tout ce dont le contenu ne suit pas une mise en page, un format ou une formule particulière. D'où le terme "non structuré". Le contraire de non structuré est, des données sur le terrain ou des données structurées. Généralement considérés comme des bases de données, il peut également s'agir de pages de feuille de calcul, de fichiers de chargement ou de fichiers journaux. Les données structurées peuvent également faire référence à des éléments avec des métadonnées, notamment des e-mails, des documents Microsoft Office et des entrées de système d'exploitation.
J'ai découvert qu'une grande partie des données structurées que nous traitons sont de suivi, de traçage et transactionnelles. Ce sont les données qui enregistrent votre achat Amazon™ : ce que vous avez acheté au moment de l'achat, le nombre d'unités, les informations de paiement et les informations d'expédition. Tout cela est des données structurées (champs). Lorsque vous recevez le produit et publiez un avis, vous pouvez taper ce que vous voulez. Vous n'êtes généralement pas limité par le contenu, seulement par la longueur. Votre avis est constitué de données non structurées.
Il s'avère également que les data scientists considèrent toutes les données structurées. En fait, trois axes de structure peuvent être utilisés pour décrire n'importe quelle donnée :
- Dans quelle mesure le contenu est-il structuré ?
- Quelle est la structure du stockage ?
- Quelle est la structure de la récupération ?
Tous nos systèmes de données peuvent être mesurés selon ces trois axes. Il n'y a donc pas de données non structurées ; il n'y a que des données moins structurées. Cela me rappelle toujours le film "The Matrix" quand le jeune garçon dit à Neo, "La vérité est qu'il n'y a pas de cuillère." Par cette analogie, nous pourrions considérer le courrier électronique comme des "données semi-structurées" car il combine des données de champ et des données de forme libre. De même, pour les messages texte, la messagerie instantanée, les images, les fichiers audio, etc. Toutes les données ont tendance à avoir un certain degré de données cohérentes, hautement définies et hautement structurées qui contrôlent divers aspects du traçage de la création, du stockage, de l'utilisation, de la récupération et même des données. disposition.
Ainsi, en utilisant des termes tels que données structurées et données non structurées lorsque tout les données ont divers degrés de structure peuvent être un terme impropre.
D'autres descripteurs peuvent être utiles :
Humain vs. Instrumental
Subjectif vs. Objectif
Entré vs. Enregistré
Manuel vs. automatique
Vague vs. Précis
Analogique vs. Quantum
Variable vs. Fixé
Forme libre vs. Défini
Contenu vs. Le contexte
Mots vs. Nombres
Idées vs. Métrique
Résumé vs. Béton
Linguistique vs. Mathématique
D'autres caractéristiques sont également essentielles à reconnaître. Le principal d'entre eux est la courbe de coût des données structurées par rapport aux données non structurées. Cela mérite son propre chapitre, mais il suffit de dire que les courbes sont très différentes pour l'instant. Les données non structurées ont une courbe de coût linéaire. Plus vous avez de données, plus cela coûte cher. Même avec une technologie de pointe, nous pouvons changer la pente de la ligne, mais cela reste une ligne.
Les données structurées, en revanche, ont une courbe reflétant des économies d'échelle accélérées, se rapprochant presque des coûts fixes. Il s'agit d'un investissement initial avec peu ou pas de coûts marginaux pour des enregistrements supplémentaires par source de données. De plus, il existe une valeur composée pour chaque source de données supplémentaire, même si le coût différentiel est relativement fixe. Chaque nouvelle source de données représente des coûts linéaires mais une valeur exponentielle.
Pour toutes ces raisons, je propose le paradigme de :
ACTION vs. VERBAL
Les données ACTION se concentrent sur la transaction, l'activité, les métadonnées et les données système associées à cette activité. Ces données sont ambiantes, contextuelles, transactionnelles, instrumentales, opérationnelles et navigables. Il pourrait également être considéré comme : Attribuable, Codifié, Compté, Entier, Objectif et Nécessaire. En d'autres termes, ce n'est pas ce que quelqu'un a dit avoir fait (ce serait le contenu de son message, de sa messagerie vocale, de sa photo). Au lieu de cela, c'est ce qu'ils ont réellement fait.
Quel est le contraire des données ACTION ? Ce serait des données VERBALES :
Contrairement aux données ACTION, les données VERBALES sont variables, émotionnelles, réflexives, BLOB, artistiques et linguistiques. Les descripteurs facultatifs sont Varié, Emotive, Relatable, Basique, Actionnable (articulé et ambigu également) et Langage. Il est utile de penser au monde des données en deux groupes : les données ACTION et les données VERBALES, en particulier lorsque nous reconnaissons que de nombreux fichiers de données contiennent des éléments des deux. Fact Crashing™ se concentre sur les données ACTION. Et, lorsque des données VERBALES sont disponibles, nous cherchons plutôt des moyens de les transformer en données ACTION.
Comment transformer des données VERBALES en données ACTION ?
En ajoutant des métadonnées. Cela se fait en extrayant les métadonnées des données VERBALES ou en créant des métadonnées à partir du contenu VERBAL. Nous extrayons les métadonnées lorsque nous extrayons les données des champs des en-têtes d'e-mails, puis utilisons ces champs pour filtrer ces e-mails. Nous le faisons également lorsque nous dessinons des propriétés de fichier à partir de documents MS Office, puis que nous utilisons ces champs pour filtrer ces fichiers. Nous créons des métadonnées lorsque nous analysons le contenu de fichiers et de champs de forme libre pour en extraire des informations. Contiennent-ils des informations personnellement identifiables (PII) ? Font-ils référence aux problèmes A, B ou C ? Se rapportent-ils aux concepts 1, 2 ou 3 ? Peuvent-ils être classés comme une facture, un contrat, une entrée de calendrier, un SPAM ? Le contenu est-il responsive ? Est-ce privilégié ? Lorsque nous identifions puis enregistrons ces caractéristiques, nous créons des métadonnées.
En fait, chaque fois que nous analysons des données non structurées, nos ordinateurs s'appuient en fait sur des caractéristiques structurées, même lorsque ces caractéristiques sont transitoires ou en coulisses. Par exemple : Lorsque vous aimez une chanson particulière sur Pandora®, ce système peut vous recommander des chansons similaires. Comment fait-il cela ? Pandora n'écoute pas la musique mais s'appuie plutôt sur des métadonnées préenregistrées. Dans Pandora, chaque chanson est classée par doctorat. musicologues utilisant 400 caractéristiques différentes trouvées dans le Music Genome Project. Ceux-ci couvrent les qualités de la mélodie, du rythme, de l'harmonie, de la forme, de la composition et des paroles.
Par Julia Layton à Comment ça marche:
"Pandora s'appuie sur un génome musical composé de 400 attributs musicaux couvrant les qualités de la mélodie, de l'harmonie, du rythme, de la forme, de la composition et des paroles. C'est un projet qui a commencé en janvier 2000 et qui a demandé cinq ans à 30 experts en théorie musicale. Le génome est basé sur une analyse complexe par de vrais humains (environ 20 à 30 minutes par chanson de quatre minutes) de la musique de 10 000 artistes des 100 dernières années. L'analyse de nouvelles musiques se poursuit chaque jour depuis le lancement en ligne de Pandora en août 2005. En mai 2006, la bibliothèque musicale de Genome contient 400 000 chansons analysées de 20 000 artistes contemporains. Vous ne trouverez pas encore de musique latine ou classique : Pandora est en train de développer un génome spécialisé dans la musique latine et réfléchit toujours à la manière d'aborder le monde de la composition classique. »
Pandora et le Music Genome Project ont traduit quelque chose d'intrinsèquement VERBAL en quelque chose qui est maintenant ACTION. Les données ACTION peuvent être mesurées, comparées et classées. Les données VERBALES, dans leur format d'origine, ne peuvent être lues que par des humains. Cela coûte cher et prend du temps. Au début de la découverte assistée par ordinateur, lorsque nous travaillions principalement avec des documents papier et que nous les numérisions pour créer des référentiels d'images TIFF, nous envoyions de vastes collections de documents à des équipes de révision à moindre coût. Leur seul travail consistait à « coder » les documents. Ce codage bibliographique a rempli des champs tels que Auteur, Sujet, Date, Catégorie, etc. Ces champs, à leur tour, sont devenus la base de la recherche. Les données VERBAL (les images numérisées) ont été complétées par des données ACTION.
Mais ne pouvons-nous pas nous contenter du texte libre ? Oui, mais il y a des limites.
Dans le travail séminal de recherche d'information de Blair et Maron (1985), les avocats utilisaient le Système IBM STAIRS. C'était le premier système documenté qui permettait la recherche booléenne (ET, OU, NON, etc.) et la recherche de proximité (adjacent à, même paragraphe, etc.). Depuis lors, nous avons régulièrement amélioré la recherche en texte intégral avec des fonctions avancées supplémentaires, le traitement du langage naturel, des traducteurs de langue et des techniques avancées de récupération d'informations pour le clustering, les machines à vecteurs spatiaux, la recherche de concepts, etc.
Blair et Maron ont vivement critiqué le système de recherche en texte intégral comme étant inefficace pour identifier les bons documents. Depuis lors, nous avons développé de nombreuses technologies pour faciliter la gestion des données de forme libre. Ceux-ci sont généralement regroupés sous une forme d'intelligence artificielle. Ils sont bien meilleurs mais encore limités.
Serait-il utile de savoir si vos e-mails contiennent des informations personnelles identifiables (PII) ? Ensuite, vous pouvez utiliser un algorithme pour rechercher, identifier, puis enregistrer cet aspect. ce faisant, vous extrairiez des données ACTION de vos données VERBALES. Serait-il utile d'analyser un grand groupe de communications pour le sentiment ? Si tel est le cas, vous pouvez utiliser un algorithme d'analyse des sentiments pour analyser, attribuer et enregistrer cet aspect. Vous venez d'extraire des données ACTION de vos données VERBAL.
Alors oui, nous pouvons gérer les données VERBALES. Mais c'est laborieux, coûteux, subjectif et peut avoir des degrés de précision et de rappel très variables.
Pour toutes ces raisons, il convient de privilégier les autres sources avant les données VERBALES. Il est pertinent de prioriser les données ACTION et de les utiliser pour augmenter les données VERBALES. Reconnaître cela est l'essence même de Fact Crashing™.
Dans les prochains épisodes, nous nous pencherons sur l'identification, la qualification et la hiérarchisation des données ACTION. Une fois que vous vous êtes adapté à cela, tout comme Neo a vu la matrice comme des bits et des octets, vous pouvez commencer à voir des données ACTION partout.
Continuez vers la partie V de notre série Fact Crashing™ >>
iDiscovery Solutions est une société de conseil stratégique, de technologie et de services d'experts - fournissant des solutions personnalisées d'eDiscovery allant de la criminalistique numérique au témoignage d'expert pour les cabinets d'avocats et les entreprises aux États-Unis et en Europe.