TAL

2 Introduction Introducción
4 Alain Garnier Alain Garnier
6 Le propre de l'homme, au delà du rire, est bien d'avoir une capacité intellectuelle qui se déploie depuis des millénaires via les langues dites "naturelles". Le langage se retrouve aujourd'hui au coeur de tous les systèmes d'information : sous forme orale quand il s'agit du téléphone, ou écrite pour le mail, les fichiers ou encore le Web. Or la compétition sans cesse croissante des entreprises et des organisations pose la question de l'usage du "langage naturel" au sein des systèmes d'information comme une source de productivité potentielle. Aussi, la diversité à la fois de forme mais aussi de fond donne lieu à un challenge fantastique : faire en sorte que la faculté de langage soit prolongée au sein des machines. C'est un défi technologique qui vise à apporter des réponses concrètes à la gestion sans cesse croissante de textes, documents, mails, productions sonores et vidéo. Comment fournir cette convergence concernant le langage que chacun attend à travers des besoins aussi divers que : rechercher, classer, analyser, diffuser, reproduire, vérifier... ? El propio del hombre, más allá de la risa, es bien tener una capacidad intelectual que se despliega desde milenios mediante las lenguas dichas "naturales". La lengua se encuentra hoy en el centro de todos los sistemas de información: bajo forma oral cuando se trata del teléfono, o escrita para el correo electrónico, los ficheros o también la Red. Ahora bien la competición creciente de las empresas y organizaciones plantea la cuestión del uso del "lenguaje natural" en los sistemas de información como una fuente de productividad potencial. Por ello, la diversidad a la vez de forma y también de fondo da lugar a un desafío fantástico: procurar que la facultad de lengua esté prolongada en las máquinas. Es un reto tecnológico encaminado a establecer respuestas concretas a la gestión creciente textos, documentos, correos electrónicos, producciones sonoras y vídeo. Cómo proporcionar esta convergencia relativa a la lengua que cada uno espera a través de necesidades tan distintas que: buscar, clasificar, analizar, difundir, reproducirse, comprobar... ¿?
8 Le Traitement automatique des Langues (TAL) fédère un ensemble d'acteurs visant à mutualiser les avancées et les capacités des systèmes d'information, dont l'objet est d'apporter un service pour le traitement de l'information non structurée. Or, l'information issue du langage étant présente dans de nombreux systèmes d'information, sans exclusive quant au secteur d'activité c'est fort logiquement que les technologies embarquées sont utilisées dans de nombreux secteurs de l'activité des entreprises. Ces technologies sont également présentes, de manière grandissante, et sans être toujours évidentes pour l'utilisateur, dans divers systèmes grands public. El Tratamiento automático de las Lenguas (TAL) federa un conjunto de protagonistas destinados a mutualizar las proyecciones y las capacidades de los sistemas de información, cuyo objeto es aportar un servicio para el tratamiento de la información no estructurada. Ahora bien, la información resultante de la lengua estando presente en numerosos sistemas de información, sin exclusiva en cuanto al sector de actividad es muy lógicamente que las tecnologías embarcadas se utilizan en numerosos sectores de la actividad de las empresas. Estas tecnologías están también presentes, de manera creciente, y sin ser siempre evidentes para el usuario, en distintos grandes sistemas público.
10 Ce document a pour vocation de fournir aux décideurs qui sont confrontés à une problématique liée à la gestion de l'information des clés de compréhension pour établir en quoi et pour quels usages les technologies du traitement automatique des langues sont utiles et pertinentes. Este documento tiene por vocación de proporcionar a los responsables que se enfrenta a una problemática vinculada a la gestión de la información de las claves de comprensión para establecer en que y para qué usos las tecnologías del tratamiento automático de las lenguas son útiles y pertinentes.
12 Le présent document est décomposé en trois grandes parties. La première établit un panorama de l'usage du traitement automatique des langues aujourd'hui, que ce soit dans les entreprises, dans les services embarqués ou pour les professionnels du domaine. El presente documento se divide en tres grandes partes. La primera establece un panorama del uso del tratamiento automático de las lenguas hoy, tanto en las empresas, en los servicios embarcados como para los profesionales del ámbito.
14 La seconde partie déroule des applications concrètes et instanciées des technologies au sein des entreprises, en donnant, pour chacune d'elles, un exemple concret et une métrique permettant d'évaluer le bien fondé de l'utilisation du TAL dans un projet de ce type. C'est une grille de lecture à la fois didactique et discriminante qui permet à un chef de projet, décideur ou consultant, de mesurer l'impact du traitement automatique des langues, dans des contextes variés. La segunda parte desenrolla aplicaciones concretas e instanciées de las tecnologías en las empresas, dando, para cada una ellas, un ejemplo concreto y una métrica permitiendo evaluar el fundamento de la utilización del TAL en un proyecto de este tipo. Es una rejilla de lectura a la vez didáctica y que discrimina que permite un jefe de proyecto, responsable o asesor, medir el impacto del tratamiento automático de las lenguas, en contextos variados.
16 Enfin, la troisième partie traite des standards qui émergent autour du TAL, notamment le Web Sémantique, afin de coordonner les efforts des industriels mais également des utilisateurs et des chercheurs. Por último, la tercera parte trata de las normas que surgen en torno al TAL, en particular, la Red Semántica, con el fin de coordinar los esfuerzos de los industriales pero también de los usuarios e investigadores.
18 Ce document se veut d'un usage pratique et pragmatique dans un contexte opérationnel. Le TAL qui fête bientôt ses trente ans a l'âge de raison qui permet un tel tour d'horizon sur le chemin accompli et celui qui s'ouvre à lui. Este documento se quiere de un uso práctico y pragmático en un contexto operativo. El TAL que celebra pronto sus treint a años tiene la edad del juicio que permite tal repaso general sobre el camino realizado y el que se abre él. 18
20 Panorama du marché industriel du Traitement Automatique des Langues Panorama del mercado industrial del Tratamiento Automático de las Lenguas
22 Pour fournir un panorama de l'usage et de l'utilisation du traitement automatique des langues, il est nécessaire d'appréhender de manière transverse le "marché" global des technologies de l'information. Para proporcionar un panorama del uso y la utilización del tratamiento automático de las lenguas, es necesario comprender de manera transversa el "mercado" global de las tecnologías de la información.
24 Afin de structurer cette démarche, nous proposons une grille de lecture en trois axes : Le premier axe concerne l'usage in-situ du TAL au sein des acteurs économiques : entreprises ou assimilées (ministères, organismes...). Le deuxième axe concerne le TAL embarqué au coeur des produits, appareils grand public qui nous entourent (téléphones, voitures...). Con el fin de estructurar este planteamiento, proponemos una rejilla de lectura en tres ejes: El primer eje se refiere al uso en- situ del TAL en los protagonistas económicos: empresas o asimiladas (Ministerios, organismos...). El segundo eje se refiere al TAL embarcado en el centro de los productos, aparatos grande público que lo rodean (teléfonos, coches...).
26 Enfin le troisième axe concerne les professionnels de l'information (éditeurs, agences de presse, médias ...) dont le métier est l'information et qui ont donc à traiter systématiquement du langage naturel dans leur chaîne de valorisation de l'information. Finalmente el tercer eje se refiere a los profesionales de la información (editores, agencias de prensa, medios de comunicación...) cuyo oficio es la información y que tienen pues que tratar sistemáticamente del lenguaje natural en su cadena de valorización de la información.
28 Le TAL dans l'entreprise El TAL en la empresa
30 Alain Couillault Alain Couillault
32 Une entreprise est un "corps sociologique" complexe, aux interactions multiples. Le schéma ci-dessous tente de représenter les interfaces qu'une entreprise entretient avec son environnement, chaque interface étant un lieu de circulation d'information, potentiellement non structurée. A ce titre, ces interfaces constituent des applications des Industries de la Langue, et concernent les Industries de l'information. Una empresa es un "cuerpo sociológico" complejo, a las interacciones múltiples. Le schéma ci-dessous tente de représenter les interfaces qu'une ent reprise entretient avec son environnement, chaque interface étant un lieu de circulation d'information, potentiellement non structurée. A este respecto, estos interfaces constituyen aplicaciones de las Industrias de la Lengua, y se refieren a las Industrias de la información.
34 Le centre de ce schéma représente l'entreprise, l'extérieur représente son environnement. Les différents secteurs du schéma listent ainsi différentes activités de l'entreprise : El centro de este esquema representa a la empresa, el exterior representa su medio ambiente. Los distintos sectores del esquema alistan así distintas actividades de la empresa:
36 - en bas, celles qui sont liées à ses moyens de production, qu'ils soient propres ("ressources internes") ou externes ("partenaires") ; - en parte baja, las que están vinculadas a sus medios de producción, que sean propios ("recursos internos") o externos ("socios");
38 - en haut, celles qui sont liées à son marché : son environnement concurrentiel et technologique ("environnement"), ses prospects ("marché") ou ses clients. - en cumbre, las que están vinculadas a su mercado: su medio ambiente competitivo y tecnológico ("medio ambiente"), sus clientes potenciales ("mercado") o sus clientes.
40 Les ressources internes Los recursos internos
42 Les ressources internes sont aujourd'hui une "matière première" pour les entreprises et constituent une part importante de leur "capital intangible". Or, ce capital est composé à 80% de données dites "non structurées". Aussi les processus de gestion, d'optimisation, de création de ces éléments qui forment les ressources internes, utilisent-ils systématiquement, de manière plus ou moins directe, les technologies de la langue. Ces ressources internes peuvent être liées à des moyens de productions spécifiques (processus industriels, centres de services...), pour lesquels les industries de la langue peuvent avoir des applications spécifiques. Les applications sont généralement liées à la gestion de la relation avec les employés. Cela comprend (d'une certaine façon, dans l'ordre des étapes de la relation avec un employé) la recherche et la gestion des curriculum vitae, la formation en ligne (e-learning), la gestion électronique de documents (GED), le travail collaboratif, la gestion de l'innovation ou la collecte des meilleures pratiques. Los recursos internos son una "materia prima hoy" para las empresas y constituyen una parte importante de su "capital intangible". Ahora bien, este capital se compone al 80% de datos dichos "no estructurados". Por eso los procesos de gestión, máximo aprovechamiento, creación de estos elementos que forman los recursos internos, utilizan sistemáticamente, de manera más o menos directa, las tecnologías de la lengua. Estos recursos internos pueden vincularse con medios de producciones específicos (procesos industriales, centros de servicios...), por los cuales las industrias de la lengua pueden tener aplicaciones específicas. Las aplicaciones están generalmente vinculadas a la gestión de la relación con los empleados. Eso incluye (de una determinada manera, en el orden de las etapas de la relación con un empleado) la investigación y la gestión del curriculum vitae, la formación en línea (e-learning), la gestión electrónica de documentos (GED), el trabajo cooperativo, la gestión de la innovación o la recogida de las mejores prácticas.
44 Les partenaires Los socios
46 La gestion des partenaires est semblable, en quelque sorte, à la gestion des ressources internes et à la relation clients : les partenaires sont à la fois des producteurs au service de l'entreprise et, tout en y étant externes, entretiennent une relation contractuelle avec celle-ci. Ainsi, les applications des technologies du traitement automatique des langues comprennent aussi bien la formation en ligne et le travail collaboratif, que le support en ligne. La gestión de los socios es similar, hasta cierto punto, a la gestión de los recursos internos y a la relación clientes: los socios son productores a la vez al servicio de la empresa y, muy siendo externos, mantienen una relación contractual con ésta. Así pues, las aplicaciones de las tecnologías del tratamiento automático de las lenguas incluyen tanto la formación en línea y el trabajo cooperativo, como el apoyo en línea.
48 Les clients Los clientes
50 La gestion de la relation clients (CRM) comprend différents aspects dans lesquels les industries de la langue peuvent être impliquées : e-commerce, support en ligne, traduction automatique pour ne citer que les plus emblématiques. On a choisi, par exemple, d'inclure ici les traductions automatiques et assistées, qui permettent de fournir de la documentation à une clientèle multilingue. Les systèmes d'aide au support comportent différentes fonctions pour lesquelles le traitement de la langue écrite ou orale apportent de réels gains, ou sont nécessaires : automates de reconnaissance et synthèse vocale pour le support automatique par téléphone, le traitement automatique des courriers électroniques (ERMS), ou la constitution et l'interrogation de bases de connaissances qui sont autant d'exemples de ce type d'applications. La gestión de la relación clientes (CRM) incluye distintos aspectos en los cuales las industrias de la lengua pueden implicarse: e-comercio, apoyo en línea, traducción automática no citar más que los más emblemáticos. Se eligió, por ejemplo, incluir aquí las traducciones automáticas y asistidas, que permiten proporcionar documentación a una clientela multilingüe. Los sistemas de ayuda al apoyo implican distintas funciones para las cuales el tratamiento de la lengua escrita u oral aportan verdaderas ganancias, o son necesarios: autómatas de reconocimiento y síntesis vocal para el apoyo automático por teléfono, el tratamiento automático de los correos electrónicos (ERMS), o la constitución y la interrogación de bases de conocimientos que son tantos ejemplos de este tipo de aplicaciones.
52 Les clients potentiels Los clientes potenciales
54 Les technologies du traitement automatique des langues sont utiles à une meilleure relation avec chacun des individus (et les applications se rapprochent alors de la gestion de la relation client) ou avec des nombres importants de prospects (il s'agit alors de marketing) car elles permettent de "parler le langage du client" dans les échanges électroniques qui sont envisagés. Dans la première catégorie se trouvent les applications Las tecnologías del tratamiento automático de las lenguas son útiles a una mejor relación con cada uno de los individuos (y las aplicaciones se acercan entonces de la gestión de la relación cliente) o con granes números de clientes potenciales (se trata entonces de comercialización) ya que permiten "hablar la lengua del cliente" en los intercambios electrónicos que se preven. En la primera categoría se encuentran las aplicaciones
56 liées, globalement, aux moteurs de recherche, qu'elles concernent l'aide à la recherche ou à la compréhension des documents, ou bien à la gestion des profils des utilisateurs ; dans la seconde catégorie se trouvent l'ensemble des applications liées au marketing, qu'elles concernent l'analyse (par exemple, analyse de réponses à des enquêtes) ou la cartographie de réponses et le profiling. vinculadas, globalmente, con los motores de investigación, que se refieren a la ayuda a la investigación o a la comprensión de los documentos, o a la gestión de los perfiles de los usuarios; en la segunda categoría se encuentran el conjunto de las aplicaciones vinculadas a la comercialización, que se refieren al análisis (por ejemplo, análisis de respuestas a investigaciones) o a la cartografía de respuestas y al profiling.
58 L'environnement El medio ambiente
60 Pour l'essentiel, ce secteur est concerné par les différents types de veille (technologique, concurrentielle, légale...). Les capacités d'analyse des technologies de la langue sont essentielles dans ce type d'applications, rendues plus difficiles et onéreuses par la multiplication des données disponibles, notamment sur Internet. Esencialmente, este sector se es referido por los distintos tipos de víspera (tecnológico, competitivo, legal...). Las capacidades de análisis de las tecnologías de la lengua son esenciales en este tipo de aplicaciones, hechas más difíciles y más costosas por la multiplicación de los datos disponibles, en particular, en Internet.
62 Le TAL fournissant des services "embarqués" El TAL que presta servicios "embarcados"
64 Le traitement automatique des langues, qu'il concerne l'oral ou l'écrit, améliore la qualité de divers services d'information, parfois sans que l'utilisateur ou l'usager en ait conscience. Ces services peuvent être "embarqués" dans une variété assez large de systèmes. Le traitement automatique des langues, qu'il concerne l'oral ou l'écri t, améliore la qualité de divers services d'information, parfois sans que l'utilisateur ou l'usager en ait conscience. Estos servicios pueden "ser embarcados" en una variedad bastante amplia de sistemas.
66 Les produits bureautiques Los productos de automatización
68 Les produits bureautiques, extension artificielle de nos capacités de communication, embarquent des fonctions à vocation anthropomorphe, tentant ainsi d'optimiser nos propres actions. Elles simulent alors des activités associées au langage afin de nous soulager de leurs fardeaux. On peut citer dans ce domaine les logiciels de reconnaissance optique de caractères (OCR) qui nous libèrent de la lecture et la saisie des documents, les systèmes de correction orthographique et grammaticale, qui nous soulagent des relectures fastidieuses ou de la consultation des usuels, ainsi que les outils de résumé automatique, de traduction ou les systèmes de dictée vocale... Los productos de automatización, extensión artificial de nuestras capacidades de comunicación, embarcan funciones a vocación antropomórfica, intentando así optimizar nuestras propias acciones. Simulan entonces actividades asociadas a la lengua con el fin de aliviarnos de sus cargas. Se pueden citar en este ámbito los programas informáticos de reconocimiento óptico de caracteres (LOC) que lo liberan de la lectura y la introducción de los documentos, los sistemas de corrección ortográfica y gramatical, que nos alivian de las relecturas aburridas o de la consulta del usuales, así como las herramientas de resumen automático, de traducción o los sistemas de dictado vocal...
70 La téléphonie, fixe ou portable La telefonía, fija o portable
72 La téléphonie bénéficie grandement des traitements automatiques de la parole, qui vont au-delà de la simple possibilité de scander le nom sous lequel a été stocké le correspondant. Les systèmes de reconnaissance vocale indépendante du locuteur (IVR), notamment, alliés à des systèmes de gestion de dialogues plus ou moins sophistiqués, permettent de diminuer les coûts des centres d'appel. La telefonía se beneficia en gran parte de los tratamientos automáticos de la palabra, que van más allá de la simple posibilidad de subrayar el nombre bajo el cual se almacenó el corresponsal. Los sistemas de reconocimiento vocal independiente del orador (IVR), en particular, combinados a sistemas de gestión de diálogos más o menos sofisticados, permiten disminuir los costes de los centros de llamada.
74 Les véhicules Los vehículos
76 Les systèmes d'analyse et de synthèse vocales ont été également mis à contribution pour assister le pilote dans sa tâche, afin d'améliorer son confort ou sa sécurité. Ainsi, les premières tentatives pour embarquer un système de commande vocale dans un avion de chasse datent de 1983. Depuis, les systèmes de GPS (Global Positioning System) sont devenus des accessoires standards des véhicules et fournissent en temps réel un guidage "par la voix" de manière extrêmement fiable. Los sistemas de análisis y síntesis vocales se recurrieron también para asistir al piloto en su tarea, con el fin de mejorar su comodidad o su seguridad. Así pues, las primeras tentativas para embarcar un sistema de pedido vocal en un caza datan de 1983. Desde, los sistemas de GPS (Global Positioning System) se convirtieron en accesorios normales de los vehículos y proporcionan instantáneamente una dirección "por la voz" de manera extremadamente fiable.
78 Chiffres clés du marché industriel des technologies de la langue Cifras clave del mercado industrial de las tecnologías de la lengua
80 Selon une étude réalisée dans le cadre du projet Technolangue1, les années 1990 ont marqué l'avènement de la société de l'information où le traitement du texte est passé dans une phase opérationnelle, et où le traitement de l'image et de la voix apparaît : l'arrivée de nouveaux supports de communication, tels que les téléphones portables, les ordinateurs portables, les bornes interactives, les systèmes embarqués, participe au développement industriel des applications. Les connexions haut débit (connexion réseau câble et satellite) facilitent l'accès à l'information. L'offre devient de plus en plus concurrentielle avec une multitude de nouveaux acteurs : plusieurs jeunes pousses en provenance de centres de recherche publics émergent sur les 9 segments d'application définis (voir schéma ci-dessous). Les pôles de recherche et les programmes européens sont des soutiens à la R&D et à l'industrialisation du secteur. Selon une étude réalisée dans le cadre du projet Technolangue1, les années 1990 ont marqué l'avènement de la société de l'information où le traitement du texte est passé dans une phase opérationnelle, et où le traitement de l'image et de la voix apparaît : l'arrivée de nouveaux supports de communication, tels que les téléphones portables, les ordinateurs portables, les bornes interactives, les systèmes embarqués, participe au développement industriel des applications. Las conexiones alta producción (conexión red telegrafía y satélite) facilitan el acceso a la información. La oferta se vuelve cada vez más competitiva con una multitud de nuevos protagonistas: varios jóvenes crecimientos procedentes de centros de investigación públicos surgen sobre los 9 segmentos de aplicación definidos (que figuran esquema a continuación). Los polos de investigación y los programas europeos son apoyos a la INVESTIGACIÓN Y DESARROLLO y a la industrialización del sector.
82 Les années 2000 marquent l'avènement de la société de la communication avec un traitement du texte, de l'image, de la voix, de la vidéo en phase industrielle. La convergence des technologies est fortement marquée dans le domaine de la communication. Los años 2000 señalan la llegada de la sociedad de la comunicación con un tratamiento del texto, la imagen, la voz, del vídeo en fase industrial. La convergencia de las tecnologías se señala mucho en el ámbito de la comunicación.
84 L'informatique, les télécommunications et l'audiovisuel sont fédérés par la numérisation. La informática, las telecomunicaciones y el sector audiovisual son federadas por la numeración.
86 Le contenu numérique concerne désormais la voix, le son et les images : l'ère du multimédia se concrétise avec le déploiement de kiosques multimédias, des téléphones mobiles de nouvelle génération, des consoles et des terminaux de divertissement, de la domotique. Les connexions aux réseaux à haut à débit se généralisent (ADSL, fibre optique, WIFI...). El contenido numérico se refiere en adelante a la voz, al sonido y a las imágenes: la era de multimedia se concreta con el despliegue de quioscos multimedia, de los teléfonos móviles de nueva generación, consolas y terminales de entretenimiento, de la domótica. Las conexiones a las redes a cumbre a producción se generalizan (ADSL, fibra óptica, WIFI...).
88 Les applications concernent les intranets documentaires multimédia, la gestion de contenu multilingue, le e-business, le vocal/multimodal, le e-learning, la traduction automatique... Les applications concernent les intranets documentaires multimédia, la ge stion de contenu multilingue, le e-business, le vocal/multimodal, le e-learning, la traduction automatique...
90 En plus des sociétés du CAC 40, les clients types sont les firmes multinationales, les PME intervenant dans les nouvelles technologies, le secteur public. La dynamique du marché s'oriente désormais vers une logique de la demande : intégration des outils au sein d'architectures existantes, capitalisation de l'investissement, demande permanente de l'évolution des technologies avec la généralisation du multimédia et de l'Internet mobile, et le besoin de communication multilingue. Además de las sociedades del CAC 40, los clientes modelo son las empresas multinacionales, las PYME interviniendo en las nuevas tecnologías, el sector público. La dinámica del mercado se orienta en adelante hacia una lógica de la demanda: integración de las herramientas en arquitecturas existentes, capitalización de la inversión, solicitud permanente de la evolución de las tecnologías con la generalización de multimedia y el Internet móvil, y la necesidad de comunicación multilingüe.
92 Depuis ces dix dernières années, les fusions et acquisitions sont de plus en plus fréquentes et s'expliquent par : Desde estos diez últimos años, las fusiones y adquisiciones son cada vez más frecuentes y se explican por:
94 - la frénésie du marché de l'Internet dans les années 1990 avec la course au premier entrant qui a permis de développer des partenariats et de valider des fusions entre acteurs concurrents ; - el frenesí del mercado de Internet en los años noventa con el curso al primer entrante que permitió desarrollar asociaciones y de validar fusiones entre protagonistas competidores;
96 - le marasme économique du secteur des NTIC au début des années 2000 avec l'éclatement de la bulle Internet et la perte de valeur de plusieurs acteurs de l'offre ; - el marasmo económico del sector de los NTIC a principios de los años 2000 con el estallido de la burbuja Internet y la pérdida de valor de varios protagonistas de la oferta;
98 - le positionnement stratégique multinational des offreurs de technologie sur le marché des outils linguistiques. Ce marché devient global (interconnexion des acteurs européens et américains), comme en témoigne la pénétration des acteurs américains en Europe ; - la localización estratégica multinacional de los que ofrece de tecnología en el mercado de las herramientas lingüísticas. Este mercado se vuelve global (interconexión de los protagonistas europeos y americanos), como da prueba la penetración de los protagonistas americanos en Europa;
100 - la volonté de contrôler des technologies stratégiques pour la sécurité ou la compétitivité nationales. - la voluntad de controlar tecnologías estratégicas para la seguridad o la competitividad nacional.
102 La demande d'accès à l'information s'oriente vers des solutions en langage naturel qui autorisent l'interrogation multilingue. La diffusion de l'information avec les technologies associées a engendré l'éclatement de la fonction "Gestion de l'Information" : les systèmes de gestion sont orientés vers les utilisateurs finals et non plus ciblés vers les seuls experts de la documentation. L'éparpillement de la demande pose le problème de l'identification des besoins et des attentes des différents groupes d'utilisateurs. En 2002, 377 offreurs de technologies ou services linguistiques étaient présents sur au moins un des 9 segments d'applications retenus dans le cadre de cette étude. La solicitud de acceso a la información se orienta hacia soluciones en lenguaje natural que autorizan la interrogación multilingüe. La difusión de la información con las tecnologías asociadas generó el estallido de la función "Gestión de la Información": los sistemas de gestión se orientan hacia los usuarios finales y no específicos hacia los únicos expertos de la documentación. La dispersión de la demanda plantea el problema de la definición de las necesidades y esperas de los distintos grupos de usuarios. En 2002,.377 que ofrece de tecnologías o servicios lingüísticos estaban presentes al menos sobre uno de los 9 segmentos de aplicaciones elegidos en el marco de este estudio.
104 L'offre se répartit entre le traitement du texte (80%) et le traitement de la voix (20%). Le marché européen était évalué, en 2002, à 510 millions d'euros, dont 60% pour le Royaume-Uni, la France, l'Allemagne et l'Italie. L'offre se répartit entre le traitement du texte (80%) et le traitement de la voix (20%). El mercado europeo se evaluaba, en 2002, en 510 millones de euros, 60% de los cuales para el Reino Unido, Francia, Alemania e Italia.
106 96 sociétés françaises ont été identifiées dans le périmètre de l'ingénierie linguistique, dégageant une chiffre d'affaire de 77 Millions d'euros en 2002, soit 15%du marché européen, la France se plaçant ainsi au deuxième rang des pays de la zone. se identificó a 96 sociedades francesas en el perímetro de la ingeniería lingüística, logrando un volumen de negocios de 77 Millones de euros en 2002, sean 15%du mercado europeo, Francia colocándose así a la segunda fila de los países de la zona.
108 Du coté de la demande, les secteurs les plus représentatifs sont l'industrie, y compris Pharmacie et santé (36%), les services/banques assurances finances (20%), le public (15%) et les transports/tourisme (11%). Del numerado de la demanda, los sectores más representativos son la industria, incluidas Farmacia y salud (36%), los servicios/bancos seguros finanzas (20%), el público (15%) y los transportes/turismo (11%).
110 Les sociétés du CAC 40 et la plupart des administrations publiques représentent la majorité des entités demandeuses de solutions de traitement du langage. Las sociedades del CAC 40 y la mayoría de las Administraciones públicas representan la mayoría de las entidades solicitantes de soluciones de tratamiento de la lengua.
112 0 La répartition de la demande exprimée par segments d'applications se présente ainsi : Las 0 distribuciones de la demanda expresada por segmentos de aplicaciones se presentan así:
114 La répartition de la demande associée aux solutions mises en place est représentée par des applications dédiées à des groupes d'utilisateurs spécifiques au sein des sociétés : 52% des utilisations concernent une cible utilisateur de 100 à 1000 personnes, 12 % une utilisation pour plus de 1000 personnes. Les applications sont de plus en plus orientées réseau (Internet, Intranet, Extranet) avec des architectures client/serveur. La distribución de la demanda asociada a las soluciones establecidas está representada por aplicaciones dedicadas a grupos de usuarios específicos en las sociedades: un 52% de las utilizaciones se refieren a un objetivo usuario de 100 a 1000 personas, el 12% una utilización para a más de 1000 personas. Las aplicaciones red cada vez más se orientan (Internet, Red interna, Red exterior) con arquitecturas cliente/servidor.
116 Elles ciblent un groupe d'utilisateurs de plus en plus large, même si encore 18% des applications mises en place concerne un nombre restreint d'utilisateurs (nombre d'utilisateurs inférieurs à 100) lié à l'étroitesse et à la spécialisation de la cible. Les applications mises en place en univers industriel (hors usage des particuliers) impliquent un processus décisionnel au sein de l'entreprise variant de 12 à 18 mois en moyenne. Plus de 60% des applications déployées datent de moins de 5 ans. Le marché de la demande est encore jeune dans la mesure où les outils déjà mis en place ne permettent pas de capitaliser intégralement la maîtrise de l'information dans l'entreprise. En ce qui concerne les évolutions et les attentes de la demande, elles sont liées pour 82% à l'accroissement du volume des données à traiter et de la montée en puissance des réseaux. Ce qui implique que près de 35% de la demande est intéressé par les systèmes de résumés automatiques, et 41% par la veille automatisée sur Internet. Orientan a un grupo de usuarios cada vez más amplio, aunque aún 18% de las aplicaciones establecidas se refiere a un número limitado de usuarios (numerosos usuarios inferiores 100) a vinculado a la estrechez y a la especialización del objetivo. Las aplicaciones establecidas en universo industrial (fuera del uso de los particulares) implican un proceso de toma de decisiones en la empresa que varía de 12 a 18 meses por término medio. Más del 60% de las aplicaciones desplegadas datan de menos de 5 años. El mercado de la demanda es aún joven en la medida en que las herramientas ya establecidas no permiten capitalizar íntegramente el control de la información en la empresa. Por lo que se refiere a las evoluciones y las esperas de la demanda, se vinculan para un 82% al aumento del volumen de los datos que deben tratarse y de la potenciación de las redes. Lo que implica que cerca del 35% de la demanda es interesados por los sistemas de resúmenes automáticos, y un 41% por la víspera automatizada en Internet.
118 En guise de conclusion, on peut estimer que ce marché mondial des technologies de la langue devrait dépasser les 2 milliards d'euros en 2005 et dépasser les 3 milliards d'euros en 2007. Le marché européen devrait atteindre 1 milliard d'euros en 2007. La progression de l'usage des NTIC laisse présager un élargissement du marché des outils linguistiques vers le grand public. Le besoin est ressenti d'engager des actions marketing pour optimiser l'adéquation de l'offre à la demande. A manera de conclusión, se puede considerar que este mercado mundial de las tecnologías de la lengua debería superar 2 miles millones de euros en 2005 y superar 3 miles millones de euros en 2007. El mercado europeo debería alcanzar mil millones de euros en 2007. La progresión del uso de los NTIC deja predecir una ampliación del mercado de las herramientas lingüísticas hacia la opinión pública. La necesidad se experimenta de iniciar acciones comercialización para optimizar la adecuación de la oferta a la demanda.
120 1 Ainsi, selon cette étude, il ressort que le marché des industries de la langue devrait continuer son évolution spectaculaire. 1 Así, según este estudio, resulta que el mercado de las industrias de la lengua debería seguir su evolución espectacular.
122 Marché des Industries de la langue Marché des Industries de la langue
124 Une brève introduction au Traitement automatique des textes Una breve introducción al Tratamiento automático de los textos
126 Alain Couillault Alain Couillault
128 Ce chapitre se veut une brève introduction au traitement automatique de la langue et des différents niveaux d'analyse d'information textuelle, destiné au béotien et, à ce titre, volontairement simplificateur. Este capítulo quiere ser una breve introducción al tratamiento automático de la lengua y los distintos niveles de análisis de información textual, destinado al beocio y, a este respecto, voluntariamente al simplificador.
130 Pour illustrer notre propos, imaginons que nous soit donnée la tâche d'analyser un bref texte dans une langue qui nous serait inconnue, représenté, par exemple, par la suite de caractères suivante : Para ilustrar nuestra observación, se imaginan que se den la tarea de analizar un breve texto en una lengua que nos sería desconocida, representado, por ejemplo, más tarde de caracteres siguiente:
132 Découper Recortar
134 Pour démêler ce texte sibyllin, il nous faut tout d'abord en connaître les segments qui la composent, c'est à dire y reconnaître ce que l'on appelle habituellement des phrases ou des mots. C'est le rôle des outils de segmentation, dont la complexité peut varier depuis la simple reconnaissance de caractères d'espace ou de ponctuations, à l'utilisation de dictionnaires complets. Un bref inventaire des cas à traiter met assez vite en évidence les limitations du premier. Un segmenteur pourra ainsi proposer le découpage en phrases et mots suivants pour le texte ci-dessus : Para aclarar este texto sibilino, debemos en primer lugar conocer nos los segmentos que lo componen, hay lo que se llama habitualmente de las frases o palabras. Es el papel de las herramientas de segmentación, cuya complejidad puede variar desde el simple reconocimiento de caracteres de espacio o puntuaciones, a la utilización de diccionarios completos. Un breve inventario de los casos que deben tratarse m. bastante rápidamente en evidencia las limitaciones del primero. Un segmenteur podrá así proponer el reparto en frases y palabras siguientes para el texto aquí arriba:
136 Le segmenteur nous indique ainsi que le texte est composé de deux phrases, la première étant constituée de quatre mots et la seconde de trois. Le point n'a ici pas été étiqueté comme un mot. Le segmenteur nous indique ainsi que le texte est composé de deux phrases, la première étant constituée de quatre mots et la seconde de trois. El punto no se etiquetó aquí como un a palabra.
138 Notons que le découpage d'une langue en segments, dans le cadre du TAL, dépend des objectifs de cette segmentation et des ressources dont on souhaite disposer pour effectuer l'analyse. Tengamos en cuenta que el reparto de una lengua en segmentos, en el marco del TAL, depende de los objetivos de esta segmentación y los recursos de los que se desea disponer para efectuar el análisis.
140 Ce niveau de traitement est souvent considéré comme suffisant pour différentes applications du TAL, notamment celles qui concernent les cas simples de recherche plein texte, la fouille de texte ou la cartographie d'information. Este nivel de tratamiento a menudo se da por suficiente para distintas aplicaciones del TAL, en particular, el que se refiere a los casos simples de investigación lleno texto, a la excavación de texto o a la cartografía de información.
142 Etiqueter Etiquetar
144 Evidemment, la langue n'étant pas une suite de borborygmes, l'ensemble des mots qui constituent une phrase ne sont pas équivalents. Ce sont en général des formes particulières d'un certain vocabulaire qui sont porteurs d'informations telles que le nombre, le genre, la personne... L'étiquetage consiste à reconnaître ces informations. Un étiqueteur pourra, par exemple, proposer l'analyse suivante pour la première phrase de l'exemple ci-dessus : Obviamente, la lengua no siendo una consecuencia de ruidos de tripas, el conjunto de las palabras que constituyen una frase no son equivalente. Son en general formas particulares de un determinado vocabulario que son portadora de información como el número, la clase, la persona... El etiquetado consiste en reconocer esta información. Un étiqueteur podrá, por ejemplo, proponer el análisis siguiente para la primera frase del ejemplo aquí arriba:
146 3 Ainsi, dans cet exemple, la chaîne ''Reoiajr oj'' est reconnue comme une forme du verbe ''reoi'', au singulier et au masculin (dans notre Volapuk, les verbes portent la marque du genre). Notons que l'étiqueteur fictif utilisé ici effectue à la fois la reconnaissance de ce qu'on peut appeler les mots du dictionnaire et l'attribution des étiquettes. Cette étape peut d'ailleurs être combinée avec l'étape précédente, la segmentation en mots étant accomplie par le même module. C'est également à cette étape que peut s'effectuer la lemmatisation, qui consiste à reconnaître la forme canonique d'un mot. 3 Así, en este ejemplo, la cadena ' ' Reoiajr orden del día '' se reconoce como una forma del verbo ' ' reoi '', al singular y al masculino (en nuestro Volapuk, los verbos llevan la marca de la clase). Tengamos en cuenta que el étiqueteur ficticio utilizado aquí efectúa a la vez el reconocimiento de lo que se pueden llamar las palabras del diccionario y la atribución de las etiquetas. Esta etapa puede por otra parte combinarse con la etapa anterior, dado que se realizó la segmentación en palabras por el mismo módulo. Es también a esta etapa que puede efectuarse la lematización, que consiste en reconocer la forma canónica de una palabra.
148 Là encore, la manière de procéder à l'étiquetage, le choix des étiquettes et les informations fournies par le module dépendent largement de choix scientifiques, méthodologiques et applicatifs. L'étiquetage est assez souvent une étape vers des traitements plus complexes. Il peut être suffisant pour des environnements de recherche plein texte avancés. Allí aún, la manera de proceder al etiquetado, la elección de las etiquetas y la información proporcionada por el módulo dependen ampliamente de elecciones científicas, metodológicas y aplicativas. El etiquetado es bastante a menudo una etapa hacia tratamientos más complejos. Puede ser suficiente para medio ambiente de investigación lleno texto avanzado.
150 Reconnaître la structure Reconocer la estructura
152 Les mots entretiennent entre eux des relations de différentes natures, comme celles qui existent en un verbe, son sujet et ses compléments, un nom avec son adjectif ou son déterminant. L'analyse syntaxique a pour rôle de reconnaître ces relations, représentées ci-dessous sous la forme d'un arbre. Las palabras mantienen entre ellos relaciones de distintas naturalezas, como las que existen en un verbo, su tema y sus complementos, un nombre con su adjetivo o su determinante. El análisis sintáctico tiene por papel reconocer estas relaciones, que figuran a continuación en forma de un árbol.
154 4 Cet arbre nous indique que la suite "earoij reoa" est un groupe nominal2 constitué d'un nom et de son adjectif. Ce groupe nominal est lui-même le sujet du verbe, le sens de la phrase étant modifié par l'adverbe "e eo ao". Evidemment, nous ne savons encore rien du sens de la phrase. Il n'est pas toujours nécessaire, pour des besoins applicatifs, d'analyser l'ensemble d'une phrase, voire même de décider entre une analyse ou une autre lorsque la phrase paraît ambiguë à un système d'analyse. Reconnaître des expressions, et notamment des groupes nominaux, est utile à des applications de diverses natures : reconnaissance ou élaboration de terminologies, recherche plein texte, reconnaissance d'entités nommées (i.e. reconnaître des noms de lieu, de personnes, des dates...), la fouille ou le résumé de textes... 4 Este árbol nos indica que la consecuencia "earoij reoa" es un grupo nominal2 constituido de un nombre y de su adjetivo. Este grupo nominal es él mismo el tema del verbo, dado que se modificó el sentido de la frase por el adverbio "e eo ao". Obviamente, no sabemos aún nada del sentido de la frase. No es siempre necesario, que necesidades aplicativas, analizar el conjunto de una frase, incluso decidan entre un análisis u otra cuando la frase parece ambigua a un sistema de análisis. Reconocer expresiones, y, en particular, a grupos nominales, es útil a aplicaciones distintas naturalezas: reconocimiento o elaboración de terminologías, investigación lleno texto, reconocimiento de entidades nombradas (i.e. reconocer nombres de lugar, personas, fechas...), lo excava o el resumen de textos...
156 Evaluer le sens Evaluar el sentido
158 La notion de compréhension a fait couler beaucoup d'encre et d'octets, et nous n'y reviendrons pas ici. Disons simplement qu'on peut considérer que la mise en relation d'un texte avec une structure représentant le sens des mots (ce qu'on appelle généralement une base de connaissances) constitue une analyse sémantique. Ces bases de connaissances organisent les mots entre eux, généralement en les associant à des concepts3 et en décrivant la nature des relations qui les unit. Le terme désormais consacré d'ontologie4, tel qu'il est utilisé dans le cadre du W3C, décrit lui aussi une telle structure. El concepto de comprensión hizo pasar mucha tinta y de octetos, y no habrá aquí. Digamos simplemente que se puede considerar que la puesta en relación de un texto con una estructura que representa el sentido de las palabras (lo que se llama generalmente una base de conocimientos) constituye un análisis semántico. Estas bases de conocimientos organizan las palabras entre ellos, generalmente asociándolos a concepts3 y describiendo la naturaleza de las relaciones que las une. El término en adelante consagrado de ontologie4, tal como se utiliza en el marco del W3C, descrito él también tal estructura.
160 Si une base de connaissances existe pour notre fameuse langue de travail, une analyse sémantique de la phrase pourrait être représentée par la figure ci-dessous : Ce schéma nous dit que le verbe de la phrase a un rapport avec la douleur, que le nom dénote cet ''organe dur, blanchâtre, généralement composé d'une couronne libre et d'une (ou de) racine(s) implantée(s) dans la cavité buccale et, plus particulièrement, sur le Si una base de conocimientos existe para nuestra famosa lengua de trabajo, un análisis semántico de la frase podría que figura por la figura a continuación: Este esquema nos dice que el verbo de la frase tiene un informe con el dolor, que el nombre indica este ' ' órgano duro, blancuzco, generalmente compuesto de una corona libre y de una (o de) raíz (s) establecida (s) en la cavidad oral y, más concretamente, sobre el
162 2 "groupe nominal" fait partie de ces expressions mieux connues des jeunes générations que des anciennes, à coté de "console de jeux", ou "mp3" mais pour des raisons différentes. 3 Notons que dans la littérature, ce terme est malheureusement ambigu. A la suite de Salton, les adeptes des approches statistiques en recherche d'information l'utilisent pour dénoter ce que l'on a ici appelé "expression", un autre courant, plus traditionnel, l'utilise au sens classique défini par Platon. 4 Ce terme, de façon assez similaire, est également ambigu. 2 "grupo nominal" forma parte de estas expresiones mejor conocidas de las jóvenes generaciones que antiguas, a numerado de "consola de juegos", o "mp3" pero por razones diferentes. 3 Tienen en cuenta que en la literatura, este término es desgraciadamente ambiguo. Tras Salton, los adeptos de los enfoques estadísticos en búsqueda de información lo utilizan para indicar lo que se llamó aquí "expresión", otro corriendo, más tradicional, se lo utiliza al sentido clásico definido por Platón. 4 Este término, de manera bastante similar, es también ambiguo.
164 5 5
166 rebord libre des maxillaires, et destiné à saisir, retenir et broyer les aliments 5''. Les relations entre les termes ne sont pas représentées dans cette pseudo base de connaissances, mais un vrai système pourrait inclure des liens avec des synonymes (par exemple, en français "être douloureux" pour le verbe), des termes génériques ou spécifiques (par exemple, "molaire" pour "dent") ou d'autres types de relations. Elle peut également décrire des relations avec des termes d'autres langues. borde libre del maxilares, y destinado por coger, por retener y por machacar los alimentos 5 ''. Las relaciones entre los términos no están representadas en esta pseudo base de conocimientos, pero un verdadero sistema podría incluir vínculos con sinónimos (por ejemplo, en francés "ser doloroso" para el verbo), términos genéricos o específicos (por ejemplo, "muela" para "diente") o de otros tipos de relaciones. Puede también describir relaciones con términos de otras lenguas.
168 Ce niveau d'analyse est utile dans deux grands champs applicatifs. Celui de la recherche d'information où, pour l'essentiel, il continue de manière automatique l'usage traditionnel des thésaurus ou des listes d'autorité. Celui également de la traduction automatique, où il permet d'établir le lien entre plusieurs langues. Este nivel de análisis es útil en dos grandes campos aplicativos. El de la búsqueda de información donde, esencialmente, sigue de manera automática el uso tradicional del tesauro o las listas de autoridad. El también de la traducción automática, donde permite establecer el vínculo entre varias lenguas.
170 Mettre en contexte Poner en contexto
172 Nous percevons, à ce stade le sens général de la phrase6, il faut désormais la mettre en contexte pour évaluer son utilité. Ainsi, la phrase peut être prononcée par un patient chez son dentiste (comme illustré ci-dessous), il s'agit alors d'un appel pressant à faire le nécessaire pour que le dentiste fasse son office. Prononcée dans d'autres circonstances, par exemple dans une pharmacie ou auprès des renseignements téléphoniques. Ce domaine de la mise en contexte des phrases est, pour les linguistes, celui de la pragmatique, qui commence à poindre dans le traitement automatique des langues, par le biais d'une plus grande prise en compte des particularités de l'utilisateur (un terme n'a pas le même sens pour un utilisateur ou un autre) ou la recherche d'experts. Percibimos, en esta fase el sentido general del phrase6, él somos necesario en adelante ponerla en contexto para evaluar su utilidad. Así pues, la frase puede ser pronunciada por un paciente en su dentista (como revista siguiente), se trata entonces de una llamada que presiona pendiente lo necesario para que el dentista haga su oficina. Pronunciada en otras circunstancias, por ejemplo en una farmacia o ante la información telefónica. Este ámbito de la puesta en contexto de las frases es, para los lingüistas, el del pragmática, que comienza a amanecer en el tratamiento automático de las lenguas, por medio de una mayor consideración de las particularidades del usuario (un término no tiene el mismo sentido para un usuario u otro) o la búsqueda de expertos.
174 Et dans l'autre sens Y en el otro sentido
176 Ce léger survol s'est intéressé à l'analyse des suites de caractères, les mêmes niveaux peuvent être décrits pour ce que l'on appelle la génération, que ce soit pour des besoins de génération de résumés, de traductions ou de génération de textes, par exemple à partir de bases de données. Este ligero sobrevuelo se interesó por el análisis de las consecuencias de caracteres, los mismos niveles pueden describirse para lo que se llama la generación, tanto para necesidades de generación de resúmenes, traducciones como generación de textos, por ejemplo a partir de bases de datos.
178 5 Source : Le Trésor de la Langue Française 6 Soyons modestes, nous le percevons parce que doués de facultés humaines, ce n'est pas nécessairement le cas de la "machine". 5 Fuente: El Tesoro de la Lengua Francesa 6 sean modestos, lo percibimos porque dotados de facultades humanas, esto no es necesariamente el caso de la "máquina".
180 6 6
182 Quelques applications en détail Algunas aplicaciones con todo detalle
184 L'analyse des langues constitue un élément important, voire essentiel, pour certaines applications industrielles. Les exemples ci-dessous sont tirés de projets réels. Pour chacun sont décrits le contexte de l'entreprise, ses besoins fonctionnels, les fonctionnalités et les retours de la solution mise en oeuvre. El análisis de las lenguas constituye un elemento importante, o incluso parte fundamental, para algunas aplicaciones industriales. Los ejemplos siguientes se toman de proyectos reales. Para cada uno se describen el contexto de la empresa, sus necesidades funcionales, las funcionalidades y las vueltas de la solución aplicada.
186 Veille Víspera
188 Alain Garnier Alain Garnier
190 Mots-clés : Veille, Intelligence économique & stratégique, Stratégie. Contexte, Cas Entreprise Palabras clave: Víspera, Inteligenci a económica y estratégica, Estrategia. Contexto, Caso Empresa
192 Les grandes entreprises et les grosses PME sont aujourd'hui confrontées à une compétition accrue qui les amène à industrialiser leur processus de surveillance du monde extérieur, en particulier de leurs concurrents. Ce processus s'inscrit dans un ensemble de problématiques très large qui englobent la technologie, le positionnement produit ou des questions géostratégiques. Ces responsabilités sont généralement regroupées au sein de cellules dédiées à cette activité, dites "de veille" ou "d'intelligence économique". Se enfrenta a las grandes empresas y hoy las gruesas PYME a una mayor competición que les lleva a industrializar su proceso de vigilancia del mundo exterior, en particular de sus competidores. Este proceso se inscribe en un conjunto de problemática muy amplio que engloba la tecnología, la localización producida o cuestiones geostratégicas. Estas responsabilidades se agrupan generalmente en células dedicadas a esta actividad, dichas "de víspera" o "de inteligencia económica".
194 Description du besoin métier Descripción de la necesidad oficio
196 Une cellule de veille a trois missions principales : La première consiste à suivre sur le long terme les axes de veille qui ont été déterminés par la stratégie de l'entreprise. Elle doit donc constituer un corpus représentatif de l'information disponible autour de ces thèmes et en assurer un suivi puis une synthèse sous forme d'analyses. Una célula de víspera tiene tres misiones principales: La primera consiste en seguir a largo plazo los ejes de víspera que vinieron determinados por la estrategia de la empresa. Elle doit donc constituer un corpus représentatif de l'information disponible autour de ces thè mes et en assurer un suivi puis une synthèse sous forme d'analyses.
198 La deuxième consiste à être en mesure de répondre à tout moment à une crise afin de fournir aux décideurs les bonnes informations pour prendre une décision. La troisième consiste à irriguer l'organisation de ces pratiques afin que l'intelligence économique devienne une habitude de travail pour tous. El segundo consiste en estar en condiciones de responder en cualquier momento a una crisis con el fin de proporcionar a los responsables la buena información para tomar una decisión. El tercero consiste en irrigar la organización de estas prácticas para que la inteligencia económica se convierta en una práctica de trabajo para todos.
200 Description du processus actuel / chaîne de traitement Descripción del proceso actual/encadena de tratamiento
202 Aujourd'hui, le travail consiste pour la majeure partie à collecter l'information disponible sous de multiples formats (papier, CD-ROM, web, bases de données...) afin de constituer des dossiers de veille. Viennent ensuite les missions d'analyse qui sont réalisées "dans le temps qui reste". En la actualidad, el trabajo consiste para la mayor parte en recoger la información disponible bajo múltiples formatos (papel, CD-ROM, red, bases de datos...) con el fin de constituir expedientes de víspera. Vienen a continuación las misiones de análisis que se realizan "en el tiempo que permanece".
204 Description des problèmes actuels Descripción de los problemas actuales
206 Ce processus manuel est très coûteux en temps et en argent. Les conséquences sont notamment : Este proceso manual es muy costoso en tiempo y en dinero. Las consecuencias son en particular:
208 - L'information disponible trop volumineuse conduit à une vision partielle de la réalité, - La información disponible demasiado voluminosa conduce a una visión parcial de la realidad,
210 - La réactivité pour traiter un sujet est «lente", - La reactividad para tratar un tema es "lenta",
212 - L'analyse est réduite à une portion congrue au détriment du travail fastidieux de collecte. - El análisis se reduce a una porción congruente en detrimento del trabajo aburrido de recogida.
214 7 7
216 Analyse Análisis
218 - Les technologies TAL permettent d'automatiser la gestion de ce flux d'information «au delà de la taille humaine" - Las tecnologías TAL permiten automatizar la gestión de este flujo de información "más allá del tamaño humano"
220 - Le TAL permet également de garantir un niveau de fiabilité dans le filtrage qui répond aux exigences de la problématique. - El TAL permite también garantizar un nivel de fiabilidad en el filtrado que responde a las exigencias de la problemática.
222 C'est donc une technologie qui change, au niveau qualitatif, la façon dont le problème est abordé. Es pues una tecnología que cambia, a nivel cualitativo, la forma en que se aborda el problema.
224 Identification du point d'intervention TAL Definición del punto de intervención TAL
226 Le TAL intervient à tous les niveaux de la chaîne de mise en valeur de l'information. Tout d'abord, en phase de collecte, la compréhension en profondeur des documents permet un filtrage efficace pour passer, sur un sujet donné, des quelques milliards de pages sur le web par exemple aux 10 000 documents utiles. El TAL interviene a todos los nivele s de la cadena de desarrollo de la información. En primer lugar, en fase de recogida, la comprensión en profundidad de los documentos permite un filtrado eficaz para pasar, sobre un tema dado, algunos miles millones de páginas en la red por ejemplo a los
228 Ensuite, le TAL permet de ranger l'information dans des catégories très fines auxquelles les utilisateurs vont s'abonner afin de ne recevoir que l'information utile qui les concerne. A continuación, el TAL permite guardar la información en categorías muy finas a las cuales los usuarios van a suscribirse con el fin de no recibir más que la información útil que los concierne.
230 Enfin, le TAL, par sa capacité d'extraction d'information riche (nom de personne, de sociétés etc...), va permettre une analyse fine autour de l'information tout en donnant un accès direct à l'information utile dans un document. Por último, el TAL, por su capacidad de extracción de información rica (nombre de persona, de sociedades etc...), va a permitir un análisis fino alrededor de la información dando al mismo tiempo un acceso directo a la información útil en un documento.
232 Description de la technologie TAL applicable Descripción de la tecnología TAL aplicable
234 Les trois phases du système de veille s'appuient sur une technologie TAL de type analyse sémantique. Las tres fases del sistema de víspera se basan en una tecnología TAL de tipo analizan semántica.
236 Description du gain qualitatif / quantitatif attendu Descripción de la ganancia cualitativa/cuantitativa esperado
238 - D'un point de vue qualitatif : - Desde un punto de vista cualitativo:
240 o le système automatique permet de faire travailler une équipe entière et géographiquement dispersée sur un même dossier ; o el sistema automático permite hacer trabajar a un equipo entero y geográficamente dispersado sobre un mismo expediente;
242 o le système permet d'obtenir en temps réel des informations sélectionnées par les profils de veille ; o el sistema permite obtener instantáneamente información seleccionada por los perfiles de víspera;
244 o le système permet de constituer une mémoire collective autour des sujets stratégiques pour l'entreprise ; o le système permet de constituer une mémoire collective autour des sujets stratégiques pour l'entreprise ;
246 o le système ne "passe pas à côté" de modifications des sites ou des sources d'information. o el sistema "no pasa a de la parte de" de modificaciones de los lugares o fuentes de información.
248 - D'un point de vue quantitatif : - D'un point de vue quantitatif :
250 o Le système gère un volume cent à mille fois supérieur à la même chose effectuée manuellement o el sistema administra un volumen cientos a mil de veces superior a la misma cosa efectuada manualmente
252 o Le temps passé à l'analyse est multiplié par deux o el tiempo pasado al análisis es multiplicado por dos
254 8 8
256 Déploiement et mise en oeuvre Despliegue y aplicación
258 Évolution de la chaîne de traitement Evolución de la cadena de tratamiento
260 Installation Instalación
262 Le logiciel s'installe en une journée pour mettre en place la structure du serveur. Un travail de paramétrage DSI est indispensable pour donner au système et aux utilisateurs les droits d'accès requis. El programa informático se instala en un día para establecer la estructura del servidor. Un trabajo de parametrización DSI es indispensable para dar al sistema y a los usuarios los derechos de acceso requeridos.
264 Utilisation Utilización
266 1. Définition des profils de veille : Il s'agit de paramétrer des sources d'information pertinentes pour les axes de veilles choisis. Le système TAL permet de filtrer au sein des volumes d'informations ceux qui concernent directement les axes choisis. 1. Definición de los perfiles de víspera: Se trata de adaptar fuentes de información pertinentes para los ejes de vísperas elegidos. Le système TAL permet de filtrer au sein des volumes d'informations ceux qui concernent directement les axes choisis.
268 2. Classement de l'information : chaque source peut être classée automatiquement par des technologies sémantiques pour enrichir des catégories de veille très fines. 2. Clasificación de la información: cada fuente puede ser clasificada automáticamente por tecnologías semánticas para enriquecer categorías de víspera muy finas.
270 3. Publication : le résultat de cette mise en valeur de l'information est soit publié dans un portail, soit envoyé en mode "push" vers les utilisateurs 3. Publicación: el resultado de este desarrollo de la información o se publica en un pórtico, o enviado en método "push" hacia los usuarios
272 Description du traitement TAL appliqué Descripción del tratamiento TAL aplicado
274 Le TAL consiste principalement à fournir une "vision" de l'information qui va au-delà du texte. Par exemple, un concurrent est défini dans le système de manière sémantique, ce qui permet par la suite de filtrer selon l'axe "concurrentiel". Le TAL permet donc de regrouper et d'affiner les recherches, filtrages et classements. El TAL consiste principalmente en proporcionar una "visión" de información que va más allá del texto. Por ejemplo, se define a un competidor en el sistema de manera semántica, lo que permite más tarde filtrar según el eje "competitivo". Le TAL permet donc de regrouper et d'affiner les recherches, filtrages et classements.
276 Évaluation ROI Evaluación REY
278 Coûts et délais de mise en oeuvre Costes y plazos de aplicación
280 Le coût de mise en oeuvre se décompose en deux parties : El coste de aplicación se divide en dos partes:
282 1. l'investissement initial consiste en du matériel, du logiciel et du service. Pour le matériel, un serveur sous Windows est préconisé. Le logiciel a un coût d'entrée de gamme de l'ordre de 25 à 50k€. Le service nécessite une vingtaine de jours au départ (formation, mise en place). Le service est en général opérationnel en quelques mois. 1. la inversión inicial consiste en material, del programa informático y el servicio. Para el material, preconiza a un servidor bajo Windows. El programa informático tiene un coste de entrada de gama aproximadamente de 25 a 50k€. El servicio requiere una veintena de días al principio (formación, instauración). El servicio es en general operativo en algunos meses.
284 2. le coût de maintien du service est essentiellement un coût humain constitué d'une part par la DSI associée au système serveur et d'autre part par les personnes qui administrent la solution. 2. el coste de mantenimiento del servicio es un coste esencialmente humano constituido por una parte por la DSI asociada al sistema servidor y por otra parte por las personas que administran la solución.
286 Gains fonctionnels / opérationnels Ganancias funcionales/operativas
288 Nouvelles fonctionnalités fournies par l'outil : Nuevas funcionalidades proporcionadas por la herramienta:
290 - Automatisation de la collecte et de la surveillance notamment du web - Automatización de la recogida y la vigilancia, en particular, de la red
292 - Classement automatique de grands volumes d'informations - Clasificación automática grandes volúmenes de información
294 - Moteur de recherche sémantique multilingue - Motor de investigación semántico multilingüe
296 - Push automatique ciblé à coût très réduit - Push automático orientado a coste muy reducido
298 - Outil de lecture rapide de corpus - Outil de lecture rapide de corpus
300 9 9
302 Gains opérationnels : Ganancias operativas:
304 - Gain pour les veilleurs de 50% de temps de collecte et traitement repositionné pour l'analyse et la diffusion - Gain pour les veilleurs de 50% de temps de collecte et traitement repositionné pour l'analyse et la diffusion
306 - Gain de productivité de l'ordre de 100% (doublement du nombre d'axes de veille à effectif constant). - Ganancia de productividad del orden de un 100% (duplicación del número de ejes de víspera a personal constante).
308 - Gain pour les utilisateurs finaux qui peuvent directement accéder à l'information utile sans perdre de «temps" sur Google. - Ganancia para los usuarios finales que pueden directamente acceder a la información útil sin perder "tiempo" sobre Google.
310 Retours Utilisateurs Vueltas Usuarias
312 Le client utilise la solution depuis maintenant 3 ans et en est pleinement satisfait. Le nombre de profils de veille a doublé et le nombre d'utilisateurs a été multiplié par dix. El cliente utiliza la solución desde hace ahora 3 años y está plenamente satisfecho. El número de perfiles de víspera duplicó y el número de usuarios fue multiplicado por diez.
314 La cellule traite désormais un nombre de demandes beaucoup plus important que par le passé, sans changements organisationnels. La cellule traite désormais un nombre de demandes beaucoup plus important que par le passé, sans changements organisationnels.
316 Enfin, la diffusion au sein du portail de l'entreprise a permis une meilleure visibilité de l'activité. Por último, la difusión en el pórtico de la empresa permitió una mejor visibilidad de la actividad.
318 0 5 0.5
320 1 ) Gestion des demandes 1) Gestión de las solicitudes
322 2) Acquisition Sources Formelles Int/Ext 2) Adquisición Fuentes Formales Int/Extensión
324 3) Acquisition Sources Informelles Int/Ext 3) Adquisición Fuentes Informales Int/Extensión
326 4) Traitement Editorial (Catégorisation...) 4) Tratamiento Editorial (Clasificac ión...)
328 5) Analyse 5) Análisis
330 6) Diffusion Adhoc & Automatisée 6) Difusión Adhoc y Automatizada
332 7) Décision / Valorisation / Action Sans Dispositif % Avec Dispositif % 7) Decisión/Valorización/Acción sin Dispositif% con Dispositif%
334
336 Veille en Intelligence Economique Víspera en Inteligencia Económica
338 Guillaume Mazières Sylvie Guillemin-Lanne Barbilla Mazières Sylvie Guillemin-Lanne
340 Mots-clés : Veille, Intelligence économique & stratégique, Stratégie. Palabras clave: Víspera, Inteligenci a económica y estratégica, Estrategia.
342 Contexte, Cas Entreprise Contexto, Caso Empresa
344 La Direction Veille Information Archives, au sein de la Direction des Ressources Humaines et de la Communication, est en charge de l'information pour l'ensemble du groupe spécialisé dans le domaine pétrolifère, à travers ses différents secteurs d'activité. La Dirección Víspera Información Archivos, en la Dirección de los Recursos Humanos y de la Comunicación, está en carga de la información para el conjunto del grupo especializado en el ámbito conteniendo aceite, a través de sus distintos sectores de actividad.
346 Description du besoin métier Descripción de la necesidad oficio
348 Cette cellule de veille scrute et analyse l'information géopolitique, technique, financière, sociale, micro et macroéconomique de son environnement. Elle a pour mission : Esta célula de víspera explora y análisis la información geopolítico, técnica, financiera, social, micro y macroéconomique de su medio ambiente. Tiene por misión:
350 - de fournir une information de qualité - de proporcionar una información de calidad
352 - de mettre en place des processus opérationnels de collecte et d'analyse. - de establecer procesos operativos de recogida y análisis.
354 Description du processus actuel / chaîne de traitement Descripción del proceso actual/encadena de tratamiento
356 Afin de répondre aux fréquentes demandes de dossiers thématiques relatifs à leur activité, la Direction Veille prend en charge les actions de collecte et d'analyse. Les sources d'information sont nombreuses et variées. Ellles concernent à la fois les fournisseurs de données de presse, tels que Factiva ou Lexis Nexis qui fournissent de l'information segmentée selon différentes thématiques, et les périodiques disponibles sur le portail du groupe, les communiqués de presse ou encore les rapports d'analyse sectorielle de banque. Con el fin de responder a las frecuentes solicitudes de expedientes temáticos relativos a su actividad, la Dirección Víspera asume las acciones de recogida y análisis. Las fuentes de información son numerosas y variadas. Ellles se refieren a la vez a los proveedores de datos de prensa, como Factiva o Lexis Nexis que proporciona información segmentada según distintos temas, y las publicaciones periódicas disponibles sobre el pórtico del grupo, los comunicados de prensa o también los informes de análisis sectorial de banco.
358 La Direction Veille a donc un besoin urgent d'automatisation et de rapidité d'accès à l'information afin d'être capable de restituer une information triée et organisée en vue d'une exploitation efficace. La Dirección Víspera necesita pues urgente automatización y de rapidez de acceso a la información con el fin de ser capaz de devolver una información clasificada y organizada con el fin de una explotación eficaz.
360 Description des problèmes actuels Descripción de los problemas actuales
362 Aujourd'hui, l'accroissement des volumes d'information à traiter, dû à la quantité des sources disponibles et à la diversité des demandes internes, rend les traitements manuels de lecture et de synthèse difficiles et très coûteux. Analyse En la actualidad, el aumento de los volúmenes de información que deben tratarse, debido a la cantidad de las fuentes disponibles y a la diversidad de las demandas internas, hace los tratamientos manuales de lectura y síntesis difíciles y muy costosos. Análisis
364 Identification du point d'intervention TAL Definición del punto de intervención TAL
366 La solution TAL intervient sitôt après la collecte des documents. Le TAL permet de procéder à une analyse textuelle de tous les documents et d'extraire de ceux-ci l'information de veille jugée pertinente par le client. Seront ainsi extraits les noms de sociétés qui intéressent le client et toutes les informations afférentes aux actions de ces sociétés. La solución TAL se produce tan pronto como después de la recogida de los documentos. El TAL permite proceder a un análisis textual de todos los documentos y extraer de éstos la información de víspera juzgada pertinente por el cliente. Así se extraerán los nombres de sociedades que interesan el cliente y toda la información correspondiente a las acciones de estas sociedades.
368 1 1
370 Description de la technologie TAL applicable Descripción de la tecnología TAL aplicable
372 La solution d'extraction d'information enchaîne trois étapes d'analyse linguistique : La solución de extracción de información conecta tres etapas de análisis lingüístico:
374 - analyse morpho-syntaxique : affectation à chaque mot d'un document d'une catégorie grammaticale (nom, adjectif, verbe...) assortie de traits morphosyntaxiques (genre, nombre), - análisis morfosintáctico: asignación a cada palabra de un documento de una categoría gramatical (nombre, adjetivo, verbo...) combinada de características morphosyntaxiques (clase, número),
376 - lemmatisation : retour à la forme canonique de chaque mot (singulier pour un pluriel, infinitif pour un verbe conjugué) pour qu'il soit reconnu indépendamment de sa forme fléchie, - lematización: vuelta a la forma canónica de cada palabra (singular para un plural, infinitivo para un verbo combinado) para que se reconozca independientemente de su doblez,
378 - extraction de connaissance (exécution des règles d'extraction) : identification des entités (noms de personnes, noms de compagnies, valeurs, dates, lieux, etc.), reconnaissance des relations entre les entités (relation d'achat, de cause à effet entre 2 sociétés, etc.). Description du gain qualitatif / quantitatif attendu - extraction de connaissance (exécution des règles d'extraction) : identification des entités (noms de personnes, noms de compagnies, valeurs, dates, lieux, etc.), reconnaissance des relations entre les entités (relation d'achat, de cause à effet entre 2 sociétés, etc.). Description du gain qualitatif / quantitatif attendu
380 - D'un point de vue qualitatif : - Desde un punto de vista cualitativo:
382 o Permettre une analyse fine et homogène des documents o permitir un análisis fino y homogéneo de los documentos
384 o Centraliser la connaissance pour éviter que les documents soient analysés plusieurs fois o centralizar el conocimiento para evitar que los documentos estén analizados varias veces
386 - D'un point de vue quantitatif : - D'un point de vue quantitatif :
388 o Réduire de 50% le temps consacré au quotidien par les veilleurs à l'analyse de documents stratégiques o reducir un 50% el tiempo consagrado al diario por los vigilantes al análisis de documentos estratégicos
390 Déploiement et mise en oeuvre Despliegue y aplicación
392 Évolution de la chaîne de traitement Evolución de la cadena de tratamiento
394 Pour atteindre ces objectifs, il a été développé une application TAL qui repose sur le couplage d'un serveur d'extraction d'information à un composant sémantique dédié à l'Intelligence Economique. Un autre composant adapté au monde de l'industrie pétrolière regroupe l'ensemble des lexiques et des règles d'extraction liée à cette thématique : - Le serveur d'extraction d'information procède à l'analyse des mots d'un document et renvoie pour chacun d'eux leur lemme et leur catégorie grammaticale A l'aide de ces informations, combinées à celles contenues dans les composants sémantiques, il procède à l'extraction d'information. Para lograr estos objetivos, se desarrolló una aplicación TAL que se basa en el acoplamiento de un servidor de extracción de información a un componente semántico dedicado a la Inteligencia Económica. Otro componente adaptado del mundo de la industria petrolífera agrupa el conjunto de los léxicos y normas de extracción vinculada a este temas: - El servidor de extracción de información procede al análisis de las palabras de un documento y los devuelve para cada uno ellos los lema y su categoría gramatical Con ayuda de esta información, combinada a las contenidas en los componentes semánticos, procede a la extracción de información.
396 Utilisation Utilización
398 L'utilisation de cette solution d'Intelligence Economique permet d'extraire instantanément des flux de presse des données concernant des données financières (chiffre d'affaires, rentabilité, croissance), commerciales (parts de marché, nombre de clients), boursières (capitalisation, tendances), mais également toutes les informations concernant les prises de participation, les fusions, les acquisitions, les joint-ventures, les axes de recherche, les innovations... La utilización de esta solución de Inteligencia Económica permite extraer instantáneamente flujos de prensa de los datos que se refieren a datos financieros (volumen de negocios, rentabilidad, crecimiento), comerciales (cuotas de mercado, numerosos clientes), bursátiles (capitalización, tendencias), pero también toda la información refiriéndose las adquisiciones de participación, las fusiones, las adquisiciones, a las empresas conjuntas, los ejes de investigación, las innovaciones...
400 2 2
402 La Direction Veille met ensuite cette information, actualisée quotidiennement, à disposition de ses clients internes sur son portail groupe. La Dirección Víspera pone a continuación esta información, actualizada diariamente, a disposición de sus clientes internos sobre su pórtico agrupa.
404 Description du traitement TAL appliqué Descripción del tratamiento TAL aplicado
406 Analyse morpho-syntaxique, extraction d'information, composant sémantique Análisis morfosintáctico, extracción de información, componente semántico
408 Évaluation ROI Evaluación REY
410 Coûts et délais de mise en oeuvre Costes y plazos de aplicación
412 Gains fonctionnels / opérationnels Ganancias funcionales/operativas
414 Nouvelles fonctionnalités fournies par l'outil : Nuevas funcionalidades proporcionadas por la herramienta:
416 - Gain en fiabilité : Le serveur d'extraction d'information identifie les différents concepts avec précision, le taux de pertinence des informations extraites dépassant les 90%. - Ganancia en fiabilidad: El servidor de extracción de información define los distintos conceptos con precisión, el porcentaje de pertinencia de la información extraída que sobrepasa el 90%.
418 - Gain en flexibilité : Les utilisateurs ont la possibilité de travailler par thématique ou par suivi de société. - Ganancia en flexibilidad: Los usuarios tienen la posibilidad de trabajar por temas o por seguimiento de sociedad.
420 Gains opérationnels : Ganancias operativas:
422 - Gain de temps : La lecture par concept est très rapide et il ne faut plus que 3 clics pour accéder à une information pertinente. - Ahorro de tiempo: La lectura por concepto es muy rápida y ya no es necesario más que 3 chasquidos para acceder a una información pertinente.
424 - Pertinence et flexibilité de la solution proposée : la Skill Cartridge(tm) Competitive Intelligence correspondait bien aux besoins de TOTAL, ne nécessitant que l'ajout de quelques concepts spécifiques (infrastructure pétrolière, chiffres d'import / export, co-marketing...). - Pertinencia y flexibilidad de la solución propuesta: el Skill Cartridge (tm) Competitivo Inteligencia correspondía bien a las necesidades de TOTAL, so'lo requiriendo la adición de algunos conceptos específicos (infraestructura petrolífera, cifras de importaciones/exportación, COCOMERCIALIZACIÓN...).
426 - Capacité d'évolution de la solution permettant à Total d'envisager rapidement l'ajout de nouveaux axes d'analyse stratégique et l'intégration de nouvelles langues. - Capacidad de evolución de la solución que permite a Total prever rápidamente la adición de nuevos ejes de análisis estratégico y la integración de nuevas lenguas.
428 3 3
430 - Gain de productivité : Selon le métier, chaque personne passe entre 15 minutes et une heure à traiter de l'information stratégique. La solution d'extraction automatisée permet au minimum un gain de temps de 50%. Pour 5000 utilisateurs dans le groupe, les gains de productivité représentent plus de 100 jours hommes cumulés par jour d'utilisation du logiciel. - Ganancia de productividad: Según el oficio, cada persona pasa entre 15 minutos y la pro'xima hora de la información estratégica. La solution d'extraction automatisée permet au minimum un gain de temps de 50%. Para 5000 usuarios en el grupo, las ganancias de productividad representan más de 100 días hombres acumulados al día utilización del programa informático.
432 Retours Utilisateurs Vueltas Usuarias
434 Pertinence de l'accès à l'information textuelle proposé pour l'intelligence économique. Pertinencia del acceso a la información textual propuesto para la inteligencia económica.
436 4 4
438 Portail Pórtico
440 Hugues de Mazancourt Hugues de Mazancourt
442 Mot-clé : Fourniture de contenu en ligne. Palabra clave: Suministro de contenido en línea.
444 Contexte, Cas Entreprise Contexto, Caso Empresa
446 Société de services d'aide à l'exportation française (plus de 5 000 entreprises clientes). La société gère un site Web portail présentant un contenu "interne" structuré comme suit : Sociedad de servicios de ayuda a la exportación francesa (a más de 5.000 empresas clientes). La sociedad administra un sitio Web pórtico que presenta un contenido "interno" estructurado del siguiente modo:
448 1. des fiches "pays" décrivant l'activité économique, les principales formalités, les écueils à l'exportation pour la quasi totalité des pays du monde, 1. fichas "país" que describen la actividad económica, los principales trámites, los escollos a la exportación para la casi totalidad de los países del mundo,
450 2. des fiches décrivant les foires et salons, ainsi que les organisations professionnelles dans le monde, 2. fichas por las que se describen las ferias y salones, así como las organizaciones profesionales en el mundo,
452 3. des fiches "opportunités et tendances", rédigées par les analystes en interne, qui décrivent les tendances économiques pour un produit ou secteur d'activité dans un pays (ou groupe de pays), 3. fichas "oportunidades y tendencias", redactadas por los analistas internamente, que describen las tendencias económicas para un producto o sector de actividad en un país (o grupo de países),
454 4. des fiches "études de marché", qui sont collectées par les analystes depuis des sites publics (gouvernementaux ou autres). De plus, le portail présente un contenu "externe" qui est le résultat d'une surveillance de 2 000 sites ciblés par la société et utiles dans le contexte d'une étude sur l'export (sites de douanes, de marketing, d'économie en général pour un pays ou un secteur donné). 4. fichas "estudios de mercado", que son recogidas por los analistas desde lugares públicos (gubernamentales u otros). Además, el pórtico presenta un contenido "externo" que es el resultado de una vigilancia de 2.000 lugares orientados por la sociedad y útiles en el contexto de un estudio sobre la exportación (lugares de aduanas, comercialización, economía en general para un país o un sector dado).
456 Le renouvellement du contenu interne est d'environ 50 fiches "opportunités et tendances" et 50 études de marché par semaine. Le contenu externe évolue au rythme de ses éditeurs et recense environ 600 000 pages. La renovación del contenido interno es de cerca de 50 fichas "oportunidades y tendencias" y 50 estudios de mercado por semana. El contenido externo evoluciona al ritmo de sus editores y contabiliza alrededor de 600.000 páginas.
458 Le site portail compte environ 25 000 visiteurs par mois. Il diffuse des alertes à ses abonnés (service payant), avec le même type de recherche que pour la consultation du site. El lugar pórtico cuenta con alrededor de 25.000 visitantes al mes. Difunde alertas ante sus suscriptores (servicio abonado), con el mismo tipo de investigación que para la consulta del sitio.
460 Description du besoin métier Descripción de la necesidad oficio
462 Le besoin est de fournir un portail simple d'accès aux divers contenus. Si un certain nombre d'éléments (fiches pays, par exemple), peuvent être présentés avec des techniques standard de portail, une fonction de recherche intelligente est nécessaire pour les autres (cf. ci-dessous). Le site est à la fois fournisseur de revenus en tant que tel (certains contenus sont payants) et un point d'entrée vers des services spécialisés proposés par la société. La necesidad es proporcionar un pórtico simple de acceso al distinto contenido. Si una serie de elementos (fichas país, por ejemplo), pueden presentarse con técnicas normales de pórtico, una función de investigación inteligente es necesaria para otros (véase abajo). El lugar es a la vez proveedor de rentas como tal (algún contenido es abonado) y un punto de entrada hacia servicios especializados propuestos por la sociedad.
464 Description du processus actuel / chaîne de traitement Descripción del proceso actual/encadena de tratamiento
466 Le contenu interne est remis à jour une fois par semaine par les analystes de la société. Le contenu externe est mis à jour par un "crawling" régulier des 2 000 sites. El contenido interno es vuelto a poner al día una vez por semana por los analistas de la sociedad. El contenido externo es puesto al día por un "crawling" regular de los 2.000 lugares.
468 L'ensemble des données est stocké dans une base relationnelle. Une interface simple permet d'entrer ces données. Elles sont périodiquement transférées sur le serveur, dans une base de données. El conjunto de los datos se almacena en una base emparentada. Un interfaz simple permite entrar estos datos. Periódicamente se transfieren en el servidor, en una base de datos.
470 Description des problèmes actuels Descripción de los problemas actuales
472 Une fonction de recherche avancée est nécessaire pour mettre en valeur les contenus à la fois externe et interne. En effet, le contenu, même riche, est d'un volume relativement "petit" comparé aux grandes bases de données commerciales ou au Web. On se heurte donc aux problèmes classiques de bruit et (surtout) de silence lors d'une interrogation par mots-clés. Una función de investigación avanzada es necesaria para valorizar el contenido a la vez externo e interno. En efecto, el contenido, incluso rico, es de un volumen relativamente "pequeño" comparado a las grandes bases de datos comerciales o a la Red. Se tropieza pues con los problemas clásicos de ruido y (sobre todo) de silencio en una interrogación por palabras clave.
474 5 5
476 De plus, comme le contenu est bilingue (français et anglais, mais anglais à 80%), l'utilisateur doit faire plusieurs requêtes en fonction des documents interrogés, éventuellement toutes dans des langues différentes de la sienne, dans la mesure où le site existe en version francophone, néerlandophone ou anglophone. Además, como el contenido es bilingüe (francés e inglés, pero inglés al 80%), el usuario debe hacer varias peticiones en función de los documentos preguntados, eventualmente muy en lenguas diferentes de suyo, en la medida en que el lugar existe en versión francófona, neerlandófona o anglófona.
478 Analyse Análisis
480 On va donc opter pour un système qui enrichisse les requêtes de synonymes et mots proches à partir d'un dictionnaire général avec une orientation "business" et éventuellement augmenté de terminologie spécifique, doté de capacités multilingues ("cross-language"). Se va pues a optar por un sistema que enriquezca las peticiones de sinónimos y palabras cercanas a partir de un diccionario general con una orientación "negocios" y eventualmente aumentado en terminología específica, dotado con capacidades multilingües ("cross-language").
482 Identification du point d'intervention TAL Definición del punto de intervención TAL
484 La solution TAL, du point de vue de l'utilisateur, n'intervient qu'au travers de la fonction "rechercher" du portail. Elle est la plus transparente possible. Dans les faits, les contenus textuels sont indexés via le système TAL qui fournit également la solution de recherche dans ces contenus. La fonction d'alerte utilisera la même recherche (avec un filtre sur la date des documents). La solución TAL, desde el punto de vista del usuario, so'lo se produce a través de la función "buscar" del pórtico. Es el más transparente posible. En los hechos, el contenido textual se indexa mediante el sistema TAL que proporciona también la solución de investigación en este contenido. La función de alerta utilizará la misma investigación (con un filtro sobre la fecha de los documentos).
486 Description de la technologie TAL applicable Descripción de la tecnología TAL aplicable
488 - enrichissement de requête - enriquecimiento de petición
490 - expansion à d'autres langues, - extensión a otras lenguas,
492 - détection de la langue des documents (au moment de l'indexation), - detección de la lengua de los documentos (en el momento del ajuste),
494 - "crawling" et conversion de formats (technologies sans lesquelles les solutions TAL ne peuvent être mises en place). - "crawling" y conversión de formatos (tecnologías sin las cuales las soluciones TAL no pueden ponerse en lugar).
496 Description du gain qualitatif / quantitatif attendu Descripción de la ganancia cualitativa/cuantitativa esperado
498 Le gain qualitatif s'exprime en précision ou rappel sur les documents obtenus par la recherche. Typiquement, sur ce type d'applications, le gain va jusqu'à multiplier par 5 ces indicateurs. L'objectif de recette du projet était 80% de précision à 10 réponses sur un corpus de requêtes pré-établi (par rapport au contenu interne). La ganancia cualitativa se expresa en precisión o recordatorio sobre los documentos obtenidos por la investigación. Típicamente, sobre este tipo de aplicaciones, la ganancia llega hasta multiplicarse por 5 estos indicadores. El objetivo de ingreso del proyecto era un 80% de precisión a 10 respuestas sobre un corpus de peticiones preestablecido (con relación al contenido interno).
500 Le gain quantitatif s'évalue par la qualité des réponses et aussi par le fait que le système utilise une seule requête pour interroger des documents dans diverses langues. La ganancia cuantitativa se evalúa p or la calidad de las respuestas y también por el hecho de que el sistema utiliza uno solos peticiones para preguntar documentos en distintas lenguas.
502 Une requête sur les "machines agricoles" trouvera des documents anglais parlant de "harvester". Una petición sobre las "máquinarias agrícola" encontrará documentos ingleses que hablarán de "harve".
504 Une fonction de "dialogue" permet à l'utilisateur de voir comment sa requête a été enrichie et de raffiner les termes utilisés pour la recherche. Una función de "diálogo" permite al usuario ver cómo su petición se enriqueció y de refinar los términos utilizados para la investigación.
506 Déploiement et mise en oeuvre Despliegue y aplicación
508 Évolution de la chaîne de traitement Evolución de la cadena de tratamiento
510 L'interrogation est appelée sous la forme d'un Web Service, qui renvoie les éléments nécessaires (identifiants de documents ou mots utilisés pour la recherche). L'intégration dans le site (développé en ASP) est donc particulièrement souple et aisée. La synchronisation des données vers le système d'indexation se fait par FTP, chaque nuit. La interrogación se llama en forma de una Red Servicio, que devuelve los elementos necesarios (identificadores de documentos o palabras utilizadas para la investigación). La integración en el lugar (desarrollado en ASP) es pues especialmente flexible y fácil. La sincronización de los datos hacia el sistema de ajuste se hace por FTP, cada noche.
512 6 6
514 Description du traitement TAL appliqué Descripción del tratamiento TAL aplicado
516 - analyse syntaxico-sémantique de la requête, - análisis semántico syntaxico de la petición,
518 - désambiguïsation sémantique, - clarificación semántica,
520 - expansion via un dictionnaire multilingue, - extensión mediante un diccionario multilingüe,
522 - interrogation de la base documentaire avec la requête enrichie, - interrogación de la base documental con la petición enriquecida,
524 - utilisation de techniques de recherche linguistique dans des classifications pour identifier le secteur d'activité (dans la nomenclature du client) à partir de cette même requête. - utilización de técnicas de investigación lingüística en clasificaciones para identificar el sector de actividad (en la nomenclatura del cliente) a partir de esta misma petición.
526 Évaluation ROI Evaluación REY
528 Coûts et délais de mise en oeuvre Costes y plazos de aplicación
530 Investissement : coût de la licence du produit + intégration de la fonction de recherche dans le portail (simple). Inversión: coste de la licencia del producto + integración de la función de investigación en el pórtico (simple).
532 L'administration est très simple (synchronisation des fonds) et n'a pas entraîné de surcoût. La administración es muy simple (sincronización de los fondos) y no implicó coste excesivo.
534 Gains fonctionnels / opérationnels Ganancias funcionales/operativas
536 Les gains s'expriment en qualité de recherche. Las ganancias se expresan en calidad de investigación.
538 Pour la société, le fait de disposer d'une interrogation cross-language va lui permettre d'ouvrir des sites présentant le même fonds documentaire dans d'autres pays. Para la sociedad, el hecho de disponer de una interrogación cross-language va a permitirle abrir lugares que presentan el mismo fondo documental en otros países.
540 Retours Utilisateurs Vueltas Usuarias
542 Pas de retour direct de la part de la société. De plus, le service s'est ouvert avec une nouvelle version du portail qui comprenait d'autres améliorations sur le fond et le contenu. Il est donc difficile de mesurer l'impact de la technologie TAL elle-même. No hay vuelta directa por parte de la sociedad. Además, el servicio se abrió con una nueva versión del pórtico que incluía otras mejoras sobre el fondo y el contenido. Es pues difícil medir el impacto de la tecnología TAL ella misma.
544 Toutefois, un bon indicateur est que le service est passé, après quelques mois d'activité, d'un mode "gratuit avec inscription" à un mode "payant", ce qui implique que le nombre de clients et la qualité du service étaient suffisants pour faire accepter de le faire payer. No obstante, un buen indicador es que el servicio pasó, después de algunos meses de actividad, de un método "gratuito con inscripción" a un método "abonado", lo que implica que el número de clientes y la calidad del servicio eran suficientes para hacer aceptar hacerlo pagar.
546 7 7
548 Classification automatique Clasificación automática
550 Guillaume Mazières Sylvie Guillemin-Lanne Barbilla Mazières Sylvie Guillemin-Lanne
552 Mots-clés : Text Mining, Classification automatique, Plan de classement, Verbatims clients. Palabras clave: Text Mining, Clasificación automática, Plan de clasificación, Verbatims clientes.
554 Contexte, Cas Entreprise Contexto, Caso Empresa
556 Les constructeurs automobiles surveillent de près la qualité perçue par leurs clients en recueillant, par le biais d'enquêtes, leurs sentiments sur les véhicules qu'ils viennent d'acquérir. Les propriétaires de nouveaux modèles sont contactés systématiquement 3 mois après leur acquisition. Ces enquêtes sont l'occasion pour les constructeurs de collecter des informations qualitatives et stratégiques. Los fabricantes automóviles supervisan de cerca la calidad percibida por sus clientes recogiendo, por medio de investigaciones, sus sentimientos sobre los vehículos que acaban de adquirir. Se contacta a los proprietarios de nuevos modelos sistemáticamente 3 meses después de su adquisición. Estas investigaciones son la ocasión para los fabricantes de recoger información cualitativa y estratégica.
558 Description du besoin métier Descripción de la necesidad oficio
560 Le Département Qualité, responsable des enquêtes, est chargé de fournir des résultats pertinents et organisés aux différentes entités du groupe intervenant tant au niveau de la production qu'au niveau de la conception. Afin d'exploiter les questions ouvertes des enquêtes de satisfaction, le client recherchait des outils d'analyse afin de : El Departamento Calidad, responsable de las investigaciones, se encarga de proporcionar resultados pertinentes y organizados a las distintas entidades del grupo que intervienen tanto en la producción como en la concepción. Con el fin de explotar las cuestiones abiertas de las investigaciones de satisfacción, el cliente buscaba herramientas de análisis con el fin de:
562 - automatiser la classification des verbatims clients - automatizar la clasificación de los verbatims clientes
564 - obtenir une vision synthétique et structurée qui fasse ressortir les points critiques du ressenti client. - obtener una visión sintética y estructurada que haga resultar los puntos críticos experimentado del cliente.
566 Description du processus actuel / chaîne de traitement Descripción del proceso actual/encadena de tratamiento
568 Jusqu'à ce jour, l'affectation des verbatims clients dans les plans de classement se faisait manuellement, chaque métier possédant son propre plan de classement. Hasta la fecha, la asignación de los verbatims clientes en los planes de clasificación se hacía manualmente, cada oficio poseyendo su propio plan de clasificación.
570 Analyse Análisis
572 Identification du point d'intervention TAL Definición del punto de intervención TAL
574 La solution TAL, intervient dès la phase d'analyse des verbatims. Elle procède, à un premier niveau, à une analyse textuelle de tous les verbatims afin d'extraire de ceuxci les informations nécessaires à la catégorisation. La solution développée intègre, à un second niveau, des technologies de text-mining : La solución TAL, se produce a partir de la fase de análisis de los verbatims. Procede, a un primer nivel, a un análisis textual de los todos verbatims con el fin de extraer de ceuxci la información necesaria para la clasificación. La solución desarrollada justa, a un segundo nivel, de las tecnologías de text-mining:
576 - La classification automatique utilisée en pré-traitement explore automatiquement le contenu des verbatims. - La clasificación automática utilizada en pretratamiento explora automáticamente el contenido de los verbatims.
578 - La catégorisation automatique permet, de classer les verbatims. - La clasificación automática permite, clasificar los verbatims.
580 Description de la technologie TAL applicable Descripción de la tecnología TAL aplicable
582 La solution développée met en oeuvre : La solución desarrollada aplica:
584 - un serveur d'analyse linguistique pour procéder à l'analyse morpho-syntaxique des verbatims (tagging, lemmatisation) et en identifier le ou les thèmes abordés. - un servidor de análisis lingüístico para proceder al análisis morfosintáctico de los verbatims (tagging, lematización) y definir los temas abordados.
586 - un serveur de classification automatique pour procéder à l'analyse typologique des verbatims existants : en explorer le contenu et en proposer une cartographie sous forme de classes. - un servidor de clasificación automático para proceder al análisis tipológico de los verbatims existentes: explorar el contenido y proponer una cartografía en forma de clases.
588
590 8 8
592 - Un serveur de catégorisation automatique de documents pour classer les verbatims suivant les plans de classement définis, après un apprentissage sur un lot de verbatims représentatif. - Un servidor de clasificación automático de documentos para clasificar los verbatims según los planes de clasificación definidos, después de un aprendizaje sobre un lote de verbatims representativo.
594 Description du gain qualitatif / quantitatif attendu Descripción de la ganancia cualitativa/cuantitativa esperado
596 - D'un point de vue qualitatif : - Desde un punto de vista cualitativo:
598 o Analyse plus rapide et plus précise des retours clients o Análisis más rápido y vueltas más precisa clientes
600 o Amélioration de la classification des verbatims o Mejora de la clasificación de los verbatims
602 o Mise en évidence plus rapide des points critiques exprimés dans les verbatims o Puesta en evidencia más rápida de los puntos críticos expresados en los verbatims
604 - D'un point de vue quantitatif : - D'un point de vue quantitatif :
606 o Diminution du temps de traitement des enquêtes qualité. o Disminución del tiempo de tratamiento de las investigaciones calidad.
608 Déploiement et mise en oeuvre Despliegue y aplicación
610 Évolution de la chaîne de traitement Evolución de la cadena de tratamiento
612 Pour atteindre ces objectifs, il a été développé une application TAL qui repose sur le couplage d'une solution de clustering (organisation automatique de documents) et de catégorisation automatisée. Para lograr estos objetivos, se desarrolló una aplicación TAL que se basa en el acoplamiento de una solución de clustering (organización automática de documentos) y clasificación automatizada.
614 - Le serveur de classification a pu organiser un ensemble non structuré de verbatims en une véritable typologie des problèmes rencontrés. Il a ainsi permis d'optimiser le plan de classement initial de l'entreprise en proposant, sur la base de groupes de 300 à 5000 verbatims, 80 plans de classement comportant chacun une dizaine de catégories. Les experts métiers sont ensuite intervenus pour valider ces plans de classement. - El servidor de clasificación pudo organizar un conjunto no estructurado de verbatims en una verdadera tipología de los problemas encontrados. Así permitió optimizar el plan de clasificación inicial de la empresa proponiendo, sobre la base de grupos de 300 a 5000 verbatims, 80 planes de clasificación implicando cada uno una decena de categorías. Los expertos oficios intervinieron a continuación para validar estos planes de clasificación.
616 - Le serveur de catégorisation est ensuite utilisé pour affecter automatiquement les nouveaux verbatims clients dans ces 80 plans de classement, après un apprentissage à partir d'un jeu de verbatims témoin. - Se utiliza al servidor de clasificación a continuación para afectar automáticamente a los nuevos verbatims clientes en estos 80 planes de clasificación, después de un aprendizaje a partir de un juego de verbatims testigo.
618 Utilisation Utilización
620 Aujourd'hui, l'application fonctionne en temps réel et concerne 400 utilisateurs des métiers de la qualité, de la conception et de la production. Les enquêtes ainsi analysées sont directement intégrées dans l'entrepôt de données du client. La simplicité d'utilisation est une des clés de la réussite de ce projet d'intégration d'outils de text-mining. En la actualidad, la aplicación funciona instantáneamente y se refiere a 400 usuarios de los oficios de la calidad, la concepción y la producción. Las investigaciones así analizadas se integran directamente en el depósito de datos del cliente. La simplicidad de utilización es una de las claves del éxito de este proyecto de integración de herramientas de text-mining.
622 Description du traitement TAL appliqué Descripción del tratamiento TAL aplicado
624 Analyse morpho-syntaxique, classification automatique par modèle d'apprentissage Análisis morfosintáctico, clasificación automática por modelo de aprendizaje
626 9 9
628 Évaluation ROI Evaluación REY
630 Coûts et délais de mise en oeuvre Costes y plazos de aplicación
632 Gains fonctionnels / opérationnels Ganancias funcionales/operativas
634 Nouvelles fonctionnalités fournies par l'outil : Nuevas funcionalidades proporcionadas por la herramienta:
636 - Existence d'un module de clustering innovant - Existence d'un module de clustering innovant
638 - Classement automatique de grands volumes de verbatims clients - Clasificación automática grandes volúmenes de verbatims clientes
640 Gains opérationnels : Ganancias operativas:
642 o Gain de temps : diminution du temps de traitement des enquêtes qualité. Les utilisateurs reçoivent instantanément des informations représentatives de la qualité perçue et classées par métier, o Ahorro de tiempo: disminución del tiempo de tratamiento de las investigaciones calidad. Los usuarios reciben instantáneamente información representativa de la calidad percibida y clasificada por oficio,
644 o Amélioration de la connaissance client : les métiers de la conception et de la production ont un accès direct aux ressentis clients relatifs à leur domaine respectif, o Mejora del conocimiento cliente: los oficios de la concepción y la producción tienen un acceso directo experimentados a los clientes relativos a su ámbito respectivo,
646 o Gain de qualité : excellente précision de la catégorisation, traduite par une grande fiabilité de l'affectation des verbatims dans les plans de classement. o Ganancia de calidad: excelente precisión de la clasificación, traducida en una gran fiabilidad de la asignación de los verbatims en los planes de clasificación.
648 Retours Utilisateurs Vueltas Usuarias
650 - Qualité de l'analyse linguistique qui permet d'atteindre une grande précision dans la catégorisation, - Calidad del análisis lingüístico que permite alcanzar una gran precisión en la clasificación,
652 - Facilité d'intégration d'un vocabulaire métier spécifique à l'industrie automobile. - Facilidad de integración de un vocabulario oficio específico a la industria automóvil.
654
656 Gestion des brevets Gestión de las patentes
658 Hugues de Mazancourt Hugues de Mazancourt
660 Mot-clé : Information sur les brevets Palabra clave: Información sobre las patentes
662 Contexte, Cas Entreprise Contexto, Caso Empresa
664 Fournisseur d'information brevet, principalement en ligne. Proveedor de información patente, principalmente en línea.
666 Il s'agit donc d'une entreprise qui intègre le composant TAL dans son offre pour mieux répondre aux attentes de ses propres clients. Se trata pues de una empresa que integra el componente TAL en su oferta para responder mejor a las esperas de sus propios clientes.
668 Description du besoin métier Descripción de la necesidad oficio
670 Fournir aux clients des moyens de lire rapidement un brevet pour identifier s'il est pertinent ou non par rapport à la recherche. Une telle lecture, sans aide, est longue et coûteuse. Par ailleurs, la connaissance du contenu et de l'évolution des brevets dans son domaine est critique pour une entreprise. Proporcionar a los clientes medios de leer rápidamente una patente para definir si es pertinente o no con relación a la investigación. Tal lectura, sin ayuda, es larga y costosa. Por otra parte, el conocimiento del contenido y la evolución de las patentes en su ámbito es crítico para una empresa.
672 Les fournisseurs d'information brevet doivent donc fournir toutes les aides possibles pour une prise de connaissance rapide de ces données. Los proveedores de información patente deben pues proporcionar todas las ayudas posibles para una toma de conocimiento rápida de estos datos.
674 Description du processus actuel / chaîne de traitement Descripción del proceso actual/encadena de tratamiento
676 L'obtention de brevets s'effectue soit par une recherche sur mots-clés, soit via la Classification Internationale des Brevets (environ 60 000 entrées). Une telle recherche sur une base de brevets nationale ou multinationale renvoie habituellement plusieurs centaines de documents. Les aspects importants (procédés innovants, champs d'application particuliers, etc.) ne se trouvent généralement pas dans le champ "Résumé" du brevet, mais quelque part de manière intentionnellement discrète, dans le corps ("texte libre») du brevet, qui fait de 10 à 50 pages. L'obtention de brevets s'effectue soit par une recherche sur mots-clés, soit via la Classifi cation Internationale des Brevets (environ 60 000 entrées). Tal investigación sobre una base de patentes nacional o multinacional devuelve habitualmente varios centenares de documentos. Los aspectos importantes (métodos innovadores, ámbitos de aplicación particulares, etc.) no se encuentra generalmente en el campo "Resumen" de la patente, sino en alguna parte de manera intencionalmente discreta, en el cuerpo ("texto libre") de la patente, que hace de 10 a 50 páginas.
678 Description des problèmes actuels Descripción de los problemas actuales
680 La lecture d'un lot de brevets suite à une recherche (fréquemment dans un contexte de veille technologique) est extrêmement consommatrice de temps et ne peut être confiée qu'à un expert. Par ailleurs, cette activité est aussi cruciale du point de vue de l'entreprise cliente du fournisseur d'informations brevets. La lectura de un lote de patentes a raíz de una investigación (frecuentemente en un contexto de víspera tecnológico) es extremadamente consumidora de tiempo y no puede confiarse sino a un experto. Por otra parte, esta actividad es tan crucial desde el punto de vista de la empresa cliente del proveedor de información patentes.
682 Les aides que propose le fournisseur du point de vue de la recherche ne suffisent généralement pas à réduire de manière significative le nombre de documents à lire. Las ayudas que propone el proveedor desde el punto de vista de la investigación no bastan generalmente a reducir significativamente el número de documentos que deben leerse.
684 Analyse Análisis
686 Le système va fournir une aide à la lecture en extrayant les passages essentiels d'un brevet. El sistema va a proporcionar una ayuda a la lectura extrayendo los pasos esenciales de una patente.
688 Identification du point d'intervention TAL Definición del punto de intervención TAL
690 Le point d'intervention se situe (fonctionnellement) entre la recherche et la fourniture des documents au client : ceux-ci vont être enrichis par une mise en exergue des passages-clés, en identifiant : El punto de intervención se sitúa (funcionalmente) entre la investigación y el suministro de los documentos al cliente: éstos van a ser enriquecidos por una puesta en exergo de los pasos-clave, definiendo:
692 - l'objet précis du brevet, - el objeto preciso de la patente,
694 - les avantages sur les inventions précédentes (aspects innovants), - las ventajas sobre las invenciones anteriores (aspectos innovadores),
696 - les déficits des brevets portant sur le même sujet (critiques), - los déficit de las patentes referentes al mismo tema (críticas),
698 - les "revendications" indépendantes du brevet - las "pretensiones" independientes de la patente
700 Le fournisseur d'information brevets fournit donc, en plus du texte du brevet (et de toutes les données annexes), un "résumé" présentant ces passages-clés. El proveedor de información patentes proporciona pues, además del texto de la patente (y de todos los datos adjuntos), un "resumen" presentando estos pasos-clave.
702 Description de la technologie TAL applicable Descripción de la tecnología TAL aplicable
704 La technologie est essentiellement une technologie de text-mining. Elle s'appuie sur la collecte de formulations récurrentes dans les brevets ainsi que sur des marqueurs lexicaux qui introduisent des éléments rhétoriques précis. Tous ces éléments sont mis en oeuvre dans un système à base de règles exploitant une analyse lexicale du texte et sa structure formelle. La tecnología es una tecnología esencialmente de text-mining. Se basa en la recogida de formulaciones recurrentes en las patentes así como en marcadores léxicos que introducen elementos retóricas resumen. Se aplican todos estos elementos en un sistema a base de normas que explotan un análisis léxico del texto y su estructura formal.
706 Description du gain qualitatif / quantitatif attendu Descripción de la ganancia cualitativa/cuantitativa esperado
708 Le gain s'exprime à la fois en temps d'accès à l'information pertinente et en volume d'information "récupérée", c'est-à-dire l'information qui aurait été ignorée, faute de temps ou par fatigue humaine à prendre en compte tous les documents. La ganancia se expresa a la vez en tiempo de acceso a la información pertinente y en volumen de información "recuperada", es decir, la información que habría sido ignorada, por falta de tiempo o por cansancio humano que debe tenerse en cuenta todos los documentos.
710 Déploiement et mise en oeuvre Despliegue y aplicación
712 La mise en oeuvre s'effectue sous la forme d'un WebService qui prend en entrée le document XML décrivant le brevet et le renvoie avec ses annotations. Ce WebService est intégré à une Interface Homme-Machine (IHM) de visualisation (fonctionnant via un butineur Internet), permettant une navigation rapide dans le texte entre les passages soulignés. La aplicación se efectúa en forma de un WebService que toma en entrada el documento XML que describe la patente y la devuelve con sus anotaciones. Este WebService se integra a un Interfaz Antropomecánico (IHM) de visualización (que funciona mediante un recolector Internet), permitiendo una navegación rápida en el texto entre los pasos destacados.
714 Évolution de la chaîne de traitement Evolución de la cadena de tratamiento
716 Le Professionnel des Industries de la Langue fournit le Web Service qui effectue l'analyse du brevet, le fournisseur d'informations brevet l'intègre dans son offre produit via l'IHM mentionnée ci-dessus. El Profesional de las Industrias de la Lengua proporciona la Red Servicio que efectúa el análisis de la patente, el proveedor de información patente lo integra en su oferta producido mediante la IHM anteriormente mencionada.
718 Description du traitement TAL appliqué Descripción del tratamiento TAL aplicado
720 Analyse textuelle, analyse lexico-sémantique, moteur de règles basé sur la phraséologie recensée pour ce type de documents. Análisis textual, análisis semántico lexico, motor de normas basado en la fraseología contabilizada para este tipo de documentos.
722 Évaluation ROI Evaluación REY
724 Coûts et délais de mise en oeuvre Costes y plazos de aplicación
726 Confidentiel Confidencial
728 Gains fonctionnels / opérationnels Ganancias funcionales/operativas
730 Gain de temps important. Ahorro de tiempo importante.
732 A défaut d'utiliser cet outil, les clients peuvent acheter des résumés de brevets auprès de fournisseurs spécialisés qui sont coûteux (car réalisés à la main) et ne sont disponibles que plusieurs semaines, voire plusieurs mois après la publication du document initial. A falta utilizar esta herramienta, los clientes pueden comprar resúmenes de patentes para proveedores especializados que son costosos (ya que realizados a la mano) y so'lo están disponibles varias semanas, o incluso varios meses después de la publicación del documento inicial.
734 Retours Utilisateurs Vueltas Usuarias
736 Retour utilisateurs très positifs. L'application est en cours d'intégration en version de production. Vuelta usuarios muy positivos. La aplicación está en curso de integración en versión de producción.
738 2 2
740 E-commerce E-comercio
742 Claude de Loupy Claude de Loupy
744 Mots-clés : E-commerce, Logiciel d'analyse. Palabras clave: E-comercio, Programa informático de análisis.
746 Contexte, Cas Entreprise Contexto, Caso Empresa
748 Entreprises de vente par correspondance ayant un catalogue en ligne. Il s'agit d'entreprises ayant un catalogue assez conséquent. Empresas de venta por correspondencia que tiene un catálogo en línea. Se trata de empresas que tienen un catálogo bastante consiguiente.
750 Description du besoin métier Descripción de la necesidad oficio
752 Le but de ces entreprises par rapport à leur site Internet est d'augmenter le volume des ventes. Pour cela deux axes sont privilégiés : El objetivo de estas empresas con relación a su sitio Internet es aumentar el volumen de las ventas. Para eso dos ejes son privilegiados:
754 - permettre au client d'aller au plus vite au produit qui l'intéresse. Il s'agit donc de réduire le nombre d'opérations au maximum entre l'entrée sur le site et la fin de la commande ; - permettre au client d'aller au plus vite au produit qui l'intéresse. Se trata pues de reducir el número de operaciones al máximo entre la entrada sobre el lugar y el final del pedido;
756 - proposer au client des produits du même type ou complémentaires pour pousser les ventes (Push). - proponer al cliente productos del mismo tipo o complementarios para empujar las ventas (Push).
758 Description du processus actuel / chaîne de traitement Descripción del proceso actual/encadena de tratamiento
760 Les catalogues en ligne sont construits sur une base de données de produits avec des informations comme le type de produit, son nom, son prix, généralement du texte libre et des informations dépendant du type de catalogue : marque, couleur, etc. Un site Internet est alors construit à partir du classement de ces produits. Mais il est généralement long de trouver ce que l'on cherche en utilisant la hiérarchie mise en place. Los catálogos en línea se construyen sobre una base de datos de productos con información como el tipo de producto, su nombre, su precio, generalmente del texto libre e información que depende del tipo de catálogo: marca, color, etc. Se construye entonces un sitio Internet a partir de la clasificación de estos productos. Pero es generalmente largo encontrar lo que se busca utilizando la jerarquía establecida.
762 Description des problèmes actuels Descripción de los problemas actuales
764 Certains sites sont très difficiles d'accès pour des personnes n'ayant pas un minimum de connaissance de l'Internet et de l'informatique. Beaucoup de clients potentiels sont découragés par la complexité et la longueur des opérations. Algunos sitios son muy difíciles de acceso para personas que no tienen un mínimo de conocimiento de Internet y la informática. Muchos clientes potenciales son desalientados por la complejidad y la longitud de las operaciones.
766 Le moteur de recherche utilisé peut être très rudimentaire (ne permet pas de profiter du texte libre ou alors génère des réponses confuses). El motor de investigación utilizado puede ser muy rudimentario (no permite aprovecharse del texto libre o entonces genera respuestas confusas).
768 Les liens entre les produits pour le Push sont faits manuellement, ce qui prend beaucoup de temps. Les liens entre les produits pour le Push sont faits manuellement, ce qui prend beaucoup de temps.
770 Analyse Análisis
772 Les technologies du TAL permettent une analyse plus fine des besoins du client en lui donnant la possibilité d'entrer une requête précise ou de comprendre, "intuiter" une question imprécise ou mal formulée, voire mal écrite. Las tecnologías del TAL permiten un análisis más fino de las necesidades del cliente dándole la posibilidad de entrar una petición precisa o de incluir, "intu" formulada una cuestión vaga o mal, o incluso mal escrita.
774 Identification du point d'intervention TAL Definición del punto de intervención TAL
776 L'analyse de la requête permet d'interroger la base de données en extrayant les caractéristiques présentées par l'utilisateur pour les transformer en requête SQL. Ainsi, il est possible d'analyser la requête "pantalon noir en velours à moins de 60 euros" pour en extraire les informations: El análisis de la petición permite preguntar la base de datos extrayendo las características presentadas por el usuario para transformarlos en petición SQL. Así pues, es posible analizar la petición "pantalones negros en terciopelo menos de a 60 euros" para extraer la información:
778 - article : pantalon - artículo: pantalones
780 - couleur : noir - color: negro
782 - matière : velours - materia: terciopelo
784 - prix : < 60 euros
786 3 3
788 Une requête SQL est alors envoyée à la base de données ainsi qu'au moteur de recherche évolué sur le texte libre. Se envía entonces una petición SQL a la base de datos así como al motor de investigación evolucionado sobre el texto libre.
790 Description de la technologie TAL applicable Descripción de la tecnología TAL aplicable
792 Les techniques généralement utilisées pour ce type d'analyse sont des automates dédiés. Il est donc nécessaire de reproduire des automates et des lexiques quand un nouveau type de client demande à disposer de ce module. Las técnicas generalmente utilizadas para este tipo de análisis son autómatas dedicados. Es pues necesario reproducir autómat as y léxicos cuando un nuevo tipo de cliente pide a disponer de este módulo.
794 Par ailleurs, il est possible d'utiliser des fonctions de rapprochement entre les descriptifs des produits. Le Push peut ainsi être amélioré. Por otra parte, es posible utilizar funciones de aproximación entre las descripciones de los productos. Le Push peut ainsi être amélioré.
796 Description du gain qualitatif / quantitatif attendu Descripción de la ganancia cualitativa/cuantitativa esperado
798 Le gain concerne principalement le temps mis par le client potentiel pour trouver un article qui peut l'intéresser. Il en résulte une plus grande satisfaction de ce client et surtout une diminution importante de la perte de clients potentiels (ceux qui se seraient détournés du site parce qu'ils n'auraient pas trouvé un article qui existe pourtant dans la base). La ganancia se refiere principalmente al tiempo puesto por el cliente potencial para encontrar un artículo que puede interesarla. Resulta una mayor satisfacción de este cliente y sobre todo una disminución importante de la pérdida de clientes potenciales (los que se habrían desviado del lugar porque no habrían encontrado un artículo que existe con todo en la base).
800 Par ailleurs, une gestion correcte des fichiers de journalisation (logs) permet de savoir quels sont les produits les plus vendus et ainsi de les mettre en valeur. Por otra parte, una gestión correcta de los ficheros de recogida de datos diaria (registros) permite saber cuáles son los productos más vendidos y así valorizarlos.
802 Déploiement et mise en oeuvre Despliegue y aplicación
804 Évolution de la chaîne de traitement Evolución de la cadena de tratamiento
806 Installation Instalación
808 L'installation d'un tel moteur est relativement simple pour peu qu'il puisse s'interfacer avec une base de données, être lui-même interrogé comme une base de données. La instalación de tal motor es relativamente simple por poco que pueda intercomunicarse con una base de datos, él mismo preguntarse como una base de datos.
810 Le moteur de recherche devra être capable de supporter une charge de travail très lourde lors des interrogations, certains sites de e-commerce recevant plus de 1 million de requêtes par jour. El motor de investigación deberá ser capaz de soportar una carga de trabajo muy pesada en las interrogaciones, algunos sitios de e-comercio recibiendo más de 1 millón de peticiones al día.
812 L'installation se fait généralement sur des PC sous Windows ou Linux. Certaines entreprises travaillent aussi sous Sun Solaris ou sous IBM/AIX. La instalación se hace generalmente sobre PC bajo Windows o Linux. Algunas empresas trabajan también bajo Sun Solaris o bajo IBM/AIX.
814 Utilisation Utilización
816 L'utilisation est totalement transparente pour le client qui ne voit que le résultat des analyses. Il peut cliquer sur tel ou tel lien qui lui est proposé : visualisation du produit proposé, navigation dans des produits similaires (même type de vêtement par exemple) ou liés (un chemisier pour aller avec une jupe), validation de l'achat, etc. La utilización es completamente transparente para el cliente que so'lo ve el resultado de los análisis. Puede presionar tal o cual vínculo que se le propone: visualización del producto propuesto, navegación en productos similares (mismo tipo de prenda de vestir por ejemplo) o vinculados (una blusa para ir con una falda), validación de la compra, etc.
818 Pour l'administrateur, les choses ne sont guère plus complexes. Des logs sont générés à chaque requête, permettant le suivi des opérations et une correction simple des règles d'interrogation en cas de mauvais aiguillage flagrant. Pour l'administrateur, les choses ne sont guère plus complexes. Se generan algunos registros a cada petición, permitiendo el seguimiento de las operaciones y una corrección simple de las normas de interrogación en caso de mala distribución obvia.
820 Description du traitement TAL appliqué Descripción del tratamiento TAL aplicado
822 Les traitements de TAL sont de plusieurs natures : Los tratamientos de TAL son de varias naturalezas:
824 - analyse morpho-syntaxique : afin d'analyser correctement la description des articles, il convient de disposer d'une bonne analyse morpho-syntaxique pour pouvoir repérer des patrons prédéfinis permettant de répondre efficacement à l'utilisateur. - análisis morfosintáctico: con el fin de analizar correctamente la descripción de los artículos, conviene disponer de un buen análisis morfosintáctico para poder situar dueños predefinidos que permiten responder eficazmente al usuario.
826 - transducteurs : des suites de transducteurs (sorte d'automates) permettent d'analyser finement une requête afin d'en extraire les informations capitales qui seront transformées en requête SQL. - transductores: consecuencias de transductores (clase de autómatas) permiten analizar sutilmente una petición con el fin de extraer la información capital que se transformará en petición SQL.
828 4 4
830 - synonymie/dérivation : des liens de synonymie ou de dérivation sont nécessaires dans ce type d'application (lecteur de CD portable --> balladeur CD, tenue de sport --> tenue sportive). - sinonimia/derivación: vínculos de sinonimia o derivación son necesarios en este tipo de aplicación (lector de CD portable --> balladeur CD, tenido de deporte --> tenida deportivo).
832 Évaluation ROI Evaluación REY
834 Coûts et délais de mise en oeuvre Costes y plazos de aplicación
836 Les coûts d'installation sont de quelques jours pour un catalogue de grande taille. Une machine doit être dédiée au moteur de recherche car le traitement des requêtes demande des ressources non négligeables. Los costes de instalación son de algunos días para un catálogo de gran tamaño. Una máquina debe dedicarse al motor de investigación ya que el tratamiento de las peticiones demanda de los recursos no desdeñables.
838 Gains fonctionnels / opérationnels Ganancias funcionales/operativas
840 Nouvelles fonctionnalités fournies par l'outil : Nuevas funcionalidades proporcionadas por la herramienta:
842 - Réponse plus précise aux requêtes des utilisateurs - Respuesta más precisa a peticiones de los usuarios
844 - Transformation d'une requête utilisateur en requête SQL - Transformación de una petición usu ario en petición SQL
846 - Compréhension de requêtes imprécises ou mal formulées - Comprensión de peticiones vagas o mal formuladas
848 - Envoi d'articles similaires (Push) - Envío de artículos similares (Push)
850 - Statistiques sur les logs - Estadísticas sobre los registros
852 Gains opérationnels : Ganancias operativas:
854 Gain important dans l'utilisation du site Internet (multiplication par 4 du nombre d'utilisateurs en 3 mois) du fait de la plus grande facilité de navigation et la satisfaction plus grande des usagers. Gain important dans l'utilisation du site Internet (multiplicatio n par 4 du nombre d'utilisateurs en 3 mois) du fait de la plus grande facilité de navigation et la satisfaction plus grande des usagers.
856 Augmentation du chiffre d'affaires et de la satisfaction des utilisateurs qui trouvent les produits qu'ils cherchent et les achètent donc davantage (amélioration des taux de conversion et de satisfaction). Aumento del volumen de negocios y de la satisfacción de los usuarios que encuentra los productos que los buscan y los compran pues aún más (mejora de los tipos de conversión y satisfacción).
858 Retours Utilisateurs Vueltas Usuarias
860 Dans le cas de plusieurs catalogues en ligne, des demandes ont été faites pour d'autres langues. Ainsi, le système de recherche de catalogue a déjà été déployé, pour une même entreprise, dans 6 langues européennes et 3 langues asiatiques. D'autres langues seront déployées dans les mois qui viennent (7 langues européennes et 1 langue asiatique). En el caso de varios catálogos en línea, se hicieron algunas solicitudes para otras lenguas. Así pues, el sistema de búsqueda de catálogo ya se desplegó, para una misma empresa, en 6 lenguas europeas y 3 lenguas asiáticas. Se desplegarán otras lenguas en los meses que vienen (7 lenguas europeas y 1 lengua asiática).
862 La possibilité de gérer les catalogues de manière transparente (le moteur de recherche est juste une sur-couche) et de profiter des avantages d'une analyse linguistique fine est très appréciée des entreprises de VPC. La posibilidad de administrar los catálogos de manera transparente (el motor de investigación es justo una capa) y de aprovecharse de las ventajas de un análisis lingüístico fino se aprecia muy de las empresas de VPC.
864 5 5
866 Terminologie d'Entreprise Terminología de Empresa
868 Guillaume Mazières Sylvie Guillemin-Lanne Barbilla Mazières Sylvie Guillemin-Lanne
870 Mots-clés : Terminologie d'Entreprise, communication, cohérence. Palabras clave: Terminología de Empresa, comunicación, coherencia.
872 Contexte, Cas Entreprise Contexto, Caso Empresa
874 Les grands groupes automobiles doivent produire et maintenir une documentation technique dans de nombreuses langues. Ils doivent l'adapter à différents environnements réglementaires, répondre rapidement aux conditions sans cesse changeantes du marché, ainsi qu'aux attentes des consommateurs. Los grandes grupos automóviles deben producir y mantener una documentación técnica en numerosas lenguas. Deben adaptarlo a distinto medio ambiente reglamentario, responder rápidamente a las condiciones sin cesar cambiantes del mercado, así como a las esperas de los consumidores.
876 Description du besoin métier Descripción de la necesidad oficio
878 Aujourd'hui, la production de cette documentation technique est rendue complexe du fait de la mondialisation. Pour qu'elle se réalise dans les meilleures conditions, elle doit s'appuyer sur un composant indispensable : une terminologie d'entreprise cohérente. En la actualidad, la producción de esta documentación técnica se dicta compleja a causa de la universalización. Para que se realiza en las mejores condiciones, debe basarse en un componente indispensable: una terminología de empresa coherente.
880 Description du processus actuel / chaîne de traitement Descripción del proceso actual/encadena de tratamiento
882 La mise en place d'une telle terminologie d'entreprise a nécessité l'exploration d'un fonds documentaire multi-sources, contenant des millions de termes candidats. La instauración de tal terminología de empresa requirió la exploración de un fondo documental de fuente múltiple, conteniendo millones de términos candidatos.
884 Le processus de construction de terminologie aurait requis un budget considérable et induit des délais importants s'il n'avait pas été possible de l'automatiser, en facilitant la construction de cette terminologie d'entreprise. El proceso de construcción de terminología habría requerido un presupuesto considerable y habría inducido plazos importantes si no hubiera sido posible automatizarlo, facilitando la construcción de esta terminología de empresa.
886 Description des problèmes actuels Descripción de los problemas actuales
888 Quelle que soit la pièce, le véhicule ou encore le process industriel que décrit un document, il faut s'assurer que le rédacteur et le lecteur auront la même compréhension de chaque terme utilisé. L'utilisation d'une terminologie confuse engendre des coûts élevés de traduction ainsi que des problèmes d'incompréhension, qui peuvent avoir des effets négatifs sur la communication interne et externe. Cualquiera que sea la parte, el vehículo o también el proceso industrial que describe un documento, es necesario garantizar que el redactor y el lector tendrán la misma comprensión de cada término utilizado. La utilización de una terminología confusa genera elevados costes de traducción así como problemas de incomprehensión, que pueden tener efectos negativos sobre la comunicación interna y externa.
890 Analyse Análisis
892 Identification du point d'intervention TAL Definición del punto de intervención TAL
894 La solution TAL, intervient dès l'exploration des fonds collectés. Le TAL permet de procéder à l'analyse morpho-syntaxique des corpus et, d'extraire de ceux-ci des termes candidats. La solución TAL, se produce a partir de la exploración de los fondos recogidos. El TAL permite proceder al análisis morfosintáctico de los corpus y, extraer de éstos de los términos candidatos.
896 Description de la technologie TAL applicable Descripción de la tecnología TAL aplicable
898 La solution de création de terminologie s'appuie sur un moteur linguistique multilingue qui enchaîne les étapes linguistiques suivantes : La solución de creación de terminología se basa en un motor lingüístico multilingüe que conecta las siguientes etapas lingüísticas:
900 ? L'identification de la langue, ¿? La definición de la lengua,
902 ? la lemmatisation, ? la lemmatisation,
904 ? l'analyse morphologique, ¿? el análisis morfológico,
906 ? la désambiguïsation morpho-syntaxique ¿? la clarificación morfosintáctica
908 ? l'extraction d'entités ¿? la extracción de entidades
910 6 Il est disponible en 12 langues (anglais, allemand, espagnol, français, grec, hongrois, italien, néerlandais, polonais, portugais, russe, tchèque). 6 Está disponible en 12 lenguas (inglés, alemán, español, francés, griego, húngaro, italiano, neerlandés, polaco, portugués, ruso, checo).
912 Description du gain qualitatif / quantitatif attendu Descripción de la ganancia cualitativa/cuantitativa esperado
914 - D'un point de vue qualitatif : - Desde un punto de vista cualitativo:
916 o Créer une terminologie d'entreprise homogène et cohérente o crear una terminología de empresa homogénea y coherente
918 o Bénéficier d'une grande qualité de service o beneficiarse de una gran calidad de servicio
920 - D'un point de vue quantitatif : - D'un point de vue quantitatif :
922 o Diminuer les temps de traitement, o disminuir el tiempo de tratamiento,
924 o Réduire l'effort manuel à son minimum o reducir el esfuerzo manual a su mínimo
926 Déploiement et mise en oeuvre Despliegue y aplicación
928 Il a été fourni une solution TAL de création de terminologie d'entreprise en récupérant des données existantes. La construction de la base terminologique a été réalisée à l'aide du moteur d'analyse linguistique multilingue. De grosses volumétries de sources clients ont été explorées afin de proposer des termes candidats et, partant, de construire un thésaurus multilingue cohérent. Se proporcionó una solución TAL de creación de terminología de empresa recuperando datos existentes. La construcción de la base terminológica se realizó con ayuda del motor de análisis lingüístico multilingüe. Se exploraron grandes volumetrías de fuentes clientes con el fin de proponer términos candidatos y, por consiguiente, construir un tesauro multilingüe coherente.
930 Évolution de la chaîne de traitement Evolución de la cadena de tratamiento
932 Installation / Utilisation Instalación/Utilización
934 La solution implémentée présente une chaîne de traitement qui prend en entrée les données existantes du client quel que soit leur format d'origine (base de données, Excel, texte, etc.) et procède à une série de contrôles par des experts et de consolidations afin de réduire le nombre de termes candidats de plusieurs millions à quelques dizaines de milliers et de les présenter dans un format consolidé et vérifié. La solución aplicada presenta una cadena de tratamiento que toma en entrada los datos existentes del cliente cualquiera que sea su formato de origen (base de datos, Excel, texto, etc.) y procede a una serie de controles por expertos y de consolidaciones con el fin de reducir el número de términos candidatos en varios millones a algunas decenas de millares y presentarlos en un formato consolidado y comprobado.
936 Les différents contrôles et consolidations ont pu être effectués grâce aux technologies linguistiques telles que l'analyse morpho-syntaxique multilingue des données fournies en entrée. Les langues impliquées sont l'anglais, l'allemand, le français, l'italien, l'espagnol et le portugais. Los distintos controles y consolidaciones pudieron efectuarse gracias a las tecnologías lingüísticas como el análisis morfosintáctico multilingüe de los datos proporcionados en entrada. Las lenguas implicadas son el inglés, el alemán, el francés, el italiano, el español y el portugués.
938 Description du traitement TAL appliqué Descripción del tratamiento TAL aplicado
940 Analyse morpho-syntaxique, extraction de groupes nominaux, extraction de terminologie multilingue, Análisis morfosintáctico, extracción de grupos nominales, extracción de terminología multilingüe,
942 Évaluation ROI Evaluación REY
944 Coûts et délais de mise en oeuvre Costes y plazos de aplicación
946 Le traitement manuel n'était d'évidence pas une solution réaliste : considérant que la vérification manuelle des différents champs associés à un terme candidat peut prendre jusqu'à 20mn ou plus par terme. Ceci doit être multiplié par le nombre de termes candidats à traiter, soit un plus de 20 moi. El tratamiento manual no era obvio no una solución realista: considerando que la comprobación manual de los distintos campos asociados a un término candidato puede tomar hasta 20mn o más por término. Esto debe ser multiplicado por el número de términos candidatos que deben tratarse, lo que representa un más de 20 mí.
948 Par ailleurs, l'automatisation du processus de constitution de terminologie a permis de d'affiner la méthodologie de traitement des données existantes, les règles d'extraction automatique pouvant être revues et corrigées après chaque étape, afin que le résultat final, la représentation cible des données existantes, soit conforme aux souhaits. Por otra parte, se corregido la automatización del proceso de constitución de terminología permitió de de precisar metodología de tratamiento de los datos existentes, las normas de extracción automática pudiendo ser revisado y después de cada etapa, para que el resultado final, la representación objetivo de los datos existentes, se ajuste a los deseos.
950 7 7
952 Gains fonctionnels / opérationnels Ganancias funcionales/operativas
954 Nouvelles fonctionnalités fournies par l'outil : Nuevas funcionalidades proporcionadas por la herramienta:
956 Etiquetage des termes extraits (genre, nombre, ...) Etiquetado de los términos extraídos (clase, número...)
958 Gains opérationnels : Ganancias operativas:
960 ? Rapidité d'exécution : La solution développée peut traiter plusieurs centaines de milliers de termes par heure. Elle réalise des contrôles et des modifications qui nécessiteraient plusieurs mois d'un traitement manuel attentif. ¿? Rapidez de ejecución: La solución desarrollada puede tratar varios centenares de millares de términos por hora. Realiza controles y modificaciones que requerirían varios meses de un tratamiento manual atento.
962 ? Amélioration de la qualité des documents et de la cohérence des traductions : cette terminologie partagée par l'ensemble du groupe assure une rédaction cohérente, indispensable à la bonne compréhension des lecteurs. ¿? Mejora de la calidad de los documentos y de la coherencia de las traducciones: esta terminología compartida por el conjunto del grupo garantiza una redacción coherente, indispensable para la buena comprensión de los lectores.
964 ? Traduction plus rapide : L'utilisation d'une terminologie validée facilite les travaux de traduction car celle-ci accroît la fréquence de réutilisation des passages déjà traduits. ¿? Traducción más rápida: La utilización de una terminología validada facilita los trabajos de traducción ya que ésta aumenta la frecuencia de reutilización de los pasos ya traducidos.
966 ? Réduction globale des coûts et des délais d'introduction des produits sur le marché : Une terminologie d'entreprise cohérente réduit le risque de rappels de documentation liés à des problèmes de rédaction ou de traduction. Une documentation précise et rapidement disponible participe à la réduction des délais de mise sur le marché des véhicules. ¿? Reducción global de los costes y plazos de introducción de los productos en el mercado: Una terminología de empresa coherente reduce el riesgo de recordatorios de documentación vinculados a problemas de redacción o traducción. Una documentación precisa y rápidamente disponible participa en la reducción de los plazos de comercialización de los vehículos.
968 Retours Utilisateurs Vueltas Usuarias
970 "Il nous est apparu évident que, vu le volume de données que nous avions à prendre en considération, un processus d'automatisation était indispensable. Ce projet nous a permis de réduire l'effort manuel à son minimum et de bénéficier d'une qualité de service incomparable." "Nos pareció evidente que, visto el volumen de datos que teníamos que tener en cuenta, un proceso de automatización era indispensable." Este proyecto nos permitió reducir el esfuerzo manual a su mínimo y beneficiarse de una calidad de servicio incomparable.""
972 8 8
974 Gestion des candidatures Gestión de las candidaturas
976 Fabienne Gire Fabienne Gire
978 Mots-clés : Ressources Humaines, Recrutement, Analyse des candidatures, Gestion des Compétences, E-recrutement. Palabras clave: Recursos Humanos, Contratación, Análisis de las candidaturas, Gestión de las Competencias, E-contratacio'n.
980 Contexte, Cas Entreprise Contexto, Caso Empresa
982 Les grandes entreprises et les grosses PME, qu'elles soient en phase active de recrutement ou non, reçoivent de gros volumes annuels de candidatures (de 20 000 à 200 000 CV) répartis selon des flux web (site de l'entreprise + job boards), mail, et courrier papier. Las grandes empresas y las gruesas PYME, que estén en fase activa de contratación o no, reciben grandes volúmenes anuales de candidaturas (de 20.000 a 200.000 CV) distribuidos según flujos red (lugar de la empresa + trabajo boards), correo electrónico, y correo papel.
984 Description du besoin métier Descripción de la necesidad oficio
986 Les responsables RH doivent traiter toutes ces candidatures : au minimum répondre à l'ensemble des candidats (image de marque de la société), détecter au plus tôt les profils susceptibles de répondre aux attentes de l'entreprise, contacter les candidats, les rencontrer, etc. Los responsables RH deben tratar todas estas candidaturas: como mínimo responder al conjunto de los candidatos (imagen de marca de la sociedad), detectar cuanto antes los perfiles susceptibles de responder a las esperas de la empresa, de contactar los candidatos, encontrarlos, etc.
988 Description du processus actuel / chaîne de traitement Descripción del proceso actual/encadena de tratamiento
990 Aujourd'hui, les chargé(e)s de recrutement et leurs assistant(e)s ouvrent les enveloppes et les e-mails, lisent les CV et lettres de candidatures, saisissent les informations dans la base de données de candidats de l'entreprise, et répondent aux postulants : le travail de réception des candidatures est donc essentiellement manuel. En la actualidad, los chargé(e)s de contratación y suyo assistant(e)s abren los sobres y los correos electrónicos, leen los CV y cartas de candidaturas, entienden la información en la base de datos de candidatos de la empresa, y responden a los aspirantes: el trabajo de recepción de las candidaturas es pues esencialmente manual.
992 Description des problèmes actuels Descripción de los problemas actuales
994 Ce processus manuel est très coûteux en temps et en argent. Este proceso manual es muy costoso en tiempo y en dinero.
996 Les conséquences sont notamment : Las consecuencias son en particular:
998 - Délais trop longs : plusieurs semaines pour envoyer un accusé de réception. - Plazos demasiado largos: varias semanas para enviar a un acuse de recibo.
1000 - Perte de profils potentiellement intéressants pour l'entreprise : la plupart du temps, les RH ne gardent trace que des candidats pouvant correspondre à un profil recherché à un instant donné. - Pérdida de perfiles potencialmente interesantes para la empresa: la mayor parte del tiempo, el RH so'lo guardan rastro de los candidatos que pueden corresponder a un perfil buscado a un momento dado.
1002 - Incomplétude des informations archivées : les chargé(e)s de recrutement n'ont souvent le temps de saisir qu'une petite partie des informations envoyées par le candidat (contact par exemple), ou bien des informations non qualifiées (CV électronique global, sur lequel on ne pourra faire que des recherches texte libre). - Incomplétude de la información arc hivada: los chargé(e)s de contratación so'lo tienen a menudo tiempo de coger una pequeña parte de la información enviada por el candidato (contacto por ejemplo), o de la información no cualificada (CV electrónico global, sobre el cual no se podrá hacer que investigaciones texto libre).
1004 Analyse Análisis
1006 Les technologies TAL permettent : Las tecnologías TAL permiten:
1008 - l'automatisation du processus d'absorption des flux entrants de candidatures, en amont de leur exploitation proprement dite par un logiciel de gestion des CV. - la automatización del proceso de a bsorción de los flujos entrantes de candidaturas, previamente su explotación propiamente dicha por un programa informático de gestión de los CV.
1010 L'étape de saisie manuelle des informations est évitée Se evita la etapa de introducción manual de la información
1012 - l'optimisation de l'utilisation d'un logiciel de gestion de candidatures. - el máximo aprovechamiento de la utilización de un programa informático de gestión de candidaturas.
1014 9 9
1016 Identification du point d'intervention TAL Definición del punto de intervención TAL
1018 Le logiciel d'analyse automatique de CV intègre un module TAL d'extraction d'information qui repère les informations caractéristiques dans le texte original afin de segmenter le CV en zones, puis analyse les informations pertinentes. El programa informático de análisis automático de CV integra un módulo TAL de extracción de información que sitúa la información característica en el texto original con el fin de segmentar el CV en zonas, luego análisis la información pertinente.
1020 Il extrait et qualifie/normalise les données concernant l'état civil, la formation, l'expérience professionnelle, les compétences du candidat... Extrae y califica/normaliza los datos relativas al estado civil, la formación, la experiencia profesional, las competencias del candidato...
1022 Les résultats sont ensuite envoyés à un système expert qui génère les résultats finaux. Los resultados se envían a continuación a un sistema experto que genera los resultados finales.
1024 Description de la technologie TAL applicable Descripción de la tecnología TAL aplicable
1026 Le module d'extraction d'information s'appuie sur un moteur linguistique (détection de la langue des documents, analyse morpho-syntaxique du texte), des lexiques spécialisés ainsi que sur des règles morpho-syntaxiques et sémantiques. El módulo de extracción de información se basa en un motor lingüístico (detección de la lengua de los documentos, análisis morfosintáctico del texto), de los léxicos especializados así como sobre normas morfosintácticas y semánticas.
1028 Description du gain qualitatif / quantitatif attendu Descripción de la ganancia cualitativa/cuantitativa esperado
1030 - reconnaissance, qualification et stockage intelligent et systématique des informations fournies par les candidats, de façon plus exhaustive que ce que permettait le traitement manuel ; - reconocimiento, calificación y almacenamiento inteligente y sistemático de la información proporcionada por los candidatos, de manera más exhaustiva que lo que permitía el tratamiento manual;
1032 - réduction du temps de traitement des candidatures. - reducción del tiempo de tratamiento de las candidaturas.
1034 Déploiement et mise en oeuvre Despliegue y aplicación
1036 Évolution de la chaîne de traitement Evolución de la cadena de tratamiento
1038 Installation Instalación
1040 Le logiciel d'analyse de CV s'installe très facilement sur un ou plusieurs postes de travail. Il surveille automatiquement l'arrivée de nouvelles candidatures dans des répertoires (local, FTP...) ou des boîtes mail (par exemple des adresses spécialisées comme recrutement@monentreprise.com). El programa informático de análisis de CV se instala muy fácilmente sobre uno o más puestos de trabajo. Supervisa automáticamente la llegada de nuevas candidaturas en directorios (local, FTP...) o de las cajas correo electrónico (por ejemplo de las direcciones especializadas como recrutement@monentreprise.com).
1042 Utilisation Utilización
1044 1) Les CV reçus au format électronique sont, plusieurs fois par jour, automatiquement récupérés et analysés par le logiciel. Au format papier, les CV sont, de façon quotidienne ou hebdomadaire, scannés et transmis à un logiciel d'OCR (Reconnaissance Optique de Caractères) avant d'être analysés, ce qui permet de les conserver sur un support numérique. 1) Los CV recibidos al formato electrónico, varias veces al día, son recuperados automáticamente y analizados por el programa informático. Al formato papel, los CV, de manera diaria o semanal, son obtenidos por escáner y transmitidos a un programa informático de LOC (Reconocimiento Óptico de Caracteres) antes de analizarse, lo que permite conservarlos en un soporte numérico.
1046 2) Le logiciel analyse le contenu des textes (CV, lettres de motivation) et génère des résultats (sous plusieurs formats, en particulier XML) qui sont automatiquement injectés dans une base de données de candidatures. 2) El programa informático analiza el contenido de los textos (CV, cartas de motivación) y genera resultados (bajo varios formatos, en particular XML) que se inyectan automáticamente en una base de datos de candidaturas.
1048 3) Le recruteur peut directement interroger cette dernière selon les critères de l'analyse automatique (formation, expérience professionnelle, compétences, localisation géographique...) tout en conservant la possibilité d'accéder au CV original pendant sa recherche multi-critères. 3) El reclutador puede directamente preguntar este último según los criterios del análisis automático (formación, experiencia profesional, competencias, localización geográfica...) conservando al mismo tiempo la posibilidad de acceder al CV original durante su investigación criterios multi.
1050
1052 Description du traitement TAL appliqué Descripción del tratamiento TAL aplicado
1054 La technologie de Text Mining utilisée dans ce type de logiciel procède à : Information extraites : La tecnología de Text Mining utilizada en este tipo de programa informático procede a: Información extraídas:
1056 0 /Date Juin 2002 0/Fecha junio de 2002
1058 (0) 0: ending date Juin 2002 (0) 0: ending data junio de 2002
1060 (0) 0: Year 2002 (0) 0: Year 2002
1062 1 /DegreeOrg DEUG (Diplôme d' études universitaires générales) Sciences et Technologies à l' Université de MONTPELLIER II 1/DegreeOrg DEUG (Título de estudios universitarios generales) Ciencias y Tecnologías a la Universidad de MONTPELLIER II
1064 (1) 0: /Degree Subject DEUG (Diplôme d' études universitaires générales) Sciences et Technologies (1) 0: / Degree Subject DEUG (Título de estudios universitarios generales) Ciencias y Tecnologías
1066 (0) 0: /Degree DEUG ( Diplôme d' études universitaires générales ) (0) 0: / Degree DEUG (Título de estudios universitarios generales)
1068 (0) 0: @Norm@DEUG DEUG (0) 0: @Norm@DEUG DEUG
1070 (0) 1: @Norm@DEUG Diplôme d' études universitaires générales (0) 1: @Norm@DEUG Título de estudios universitarios generales
1072 (0) 1: /Subject Sciences et Technologies (0) 1: / Subject Ciencias y Tecnologías
1074 (1) 1: /Organization Université de MONTPELLIER II (1) 1: / Organización Universidad de MONTPELLIER II
1076 (1) 0: /Place/PlaceNUM MONTPELLIER II (1) 0: /PLACE/PLACENUM MONTPELLIER II
1078 (0) 0: /Loc country.France MONTPELLIER (0) 0: /Loc country. Francia MONTPEL LIER
1080 Ces traitements permettent de repérer et de normaliser les informations pertinentes avant de les renvoyer à un système expert, qui génère des résultats finaux qualifiés importés dans la base de données : Estos tratamientos permiten situar y normalizar la información pertinente antes de de remitirlos a un sistema experto, que genera resultados finales cualificados importados en la base de datos:
1082
1084 2002 2002
1086 DEUG DEUG
1088 Sciences et Technologies Ciencias y Tecnologías
1090 BAC+2 BAC+2
1092 Université de MONTPELLIER II Universidad de MONTPELLIER II
1094
1096 1 Évaluation ROI 1 Evaluación REY
1098 Coûts et délais de mise en oeuvre Costes y plazos de aplicación
1100 Les coûts d'installation d'un logiciel d'analyse automatique de CV sont minimes. Il est préférable, mais non nécessaire, de consacrer un poste de travail à la tâche. L'installation et l'utilisation sont très simples et ne nécessitent pas de formation supérieure à une demi-journée. Il faut compter également une demi-journée pour paramétrer la surveillance automatique des flux de candidatures (obtention des autorisations, etc). Los costes de instalación de un programa informático de análisis automático de CV son minúsculos. Es preferible, pero no necesario, dedicar un puesto de trabajo a la tarea. La instalación y la utilización son muy simples y no requieren formación superior a un medio día. Es necesario pensar también un medio día para adaptar la vigilancia automática de los flujos de candidaturas (obtención de las autorizaciones, etc).
1102 Par conséquent, les délais de mise en production ne dépassent pas une à deux journée(s), une fois le matériel de base disponible. Por lo tanto, los plazos de puesta en producción no sobrepasan el a dos día (s), una vez el material de base disponible.
1104 Gains fonctionnels / opérationnels Ganancias funcionales/operativas
1106 Nouvelles fonctionnalités fournies par l'outil : Nuevas funcionalidades proporcionadas por la herramienta:
1108 - envoi automatique d'un accusé de réception électronique aux candidats, - envío automático de un acuse de recibo electrónico a los candidatos,
1110 - routage automatique des candidatures vers des recruteurs particuliers (en fonction du profil du postulant ou du contenu de sa lettre de motivation), - transporte automático de las candi daturas hacia reclutadores particulares (en función del perfil del aspirante o el contenido de su carta de motivación),
1112 - normalisation et qualification de certaines informations : par exemple, les CV des détenteurs de DEUG, DUT, BTS, Diplôme Préparatoire aux Etudes Comptables et Financières... seront retrouvés par une recherche de candidats ayant un "Bac+2" dans le logiciel de gestion des candidatures, - normalización y calificación de alguna información: por ejemplo, los CV de los tenedores de DEUG, DUT, BAJO CONTENIDO DE AZUFRE, Título Preparatorio a los Estudios Contables y Financieros... serán encontrados por una búsqueda de candidatos que tendrán un "Bac+2" en el programa informático de gestión de las candidaturas,
1114 - possibilité de faire des statistiques sur les profils des candidats de l'entreprise, - posibilidad de hacer estadísticas sobre los perfiles de los candidatos de la empresa,
1116 - si l'entreprise souhaite conserver son système de formulaire web de candidature, génération automatique d'un formulaire à valider par le candidat à partir de l'analyse du CV déposé sur le site... - si la empresa desea conservar su sistema de formulario web de candidatura, generación automática de un formulario que el candidato debe validar a partir del análisis del CV depositado sobre el sitio...
1118 - possibilité de rendre un CV anonyme en ne fournissant au recruteur final que les informations relatives à la formation, l'expérience professionnelle et les compétences du candidat. - posibilidad de dictar un CV anónimo no proporcionando al reclutador final que la información relativa a la formación, a la experiencia profesional y a las competencias del candidato.
1120 Gains opérationnels : Ganancias operativas:
1122 La mise en production d'un logiciel d'analyse automatique de CV montre un gain très important dans le temps de traitement des candidatures. Par exemple, pour environ 160 CV papier reçus par jour, la saisie manuelle des informations dans la base de données d'un grand compte prenait 480 minutes. Le traitement automatique prend 90 minutes. La masse de données traitée est accrue : les entreprises peuvent conserver dans leur base de candidats la totalité des informations contenues dans les CV de tous les postulants. On augmente ainsi le ROI du logiciel de gestion de candidatures. La puesta en producción de un programa informático de análisis automático de CV muestra una ganancia muy importante en el tiempo de tratamiento de las candidaturas. Por ejemplo, para alrededor de 160 CV papel recibidos al día, la introducción manual de la información en la base de datos de una gran cuenta tardaba 480 minutos. El tratamiento automático tarda 90 minutos. La masa de datos tratada se aumenta: las empresas pueden conservar en su base de candidatos la totalidad de la información contenida en los CV de todos los aspirantes. Se aumenta así al REY del programa informático de gestión de candidaturas.
1124 Retours Utilisateurs Vueltas Usuarias
1126 Les DRH ayant déjà adopté un logiciel d'analyse automatique de CV sont très satisfaites du gain de temps, de la couverture accrue et des nouvelles fonctionnalités, car cela leur permet d'une part de gagner en productivité, d'autre part de consacrer plus de temps à la recherche multicritères intelligente et à la rencontre de candidats. En outre, certaines normes qualité exigent que l'entreprise réponde à tous les candidats, que leur profil l'intéresse ou non. Le logiciel d'analyse automatique des CV permet d'effectuer cette tâche de façon systématique et dans les délais les plus brefs. Enfin, les utilisateurs ayant à traiter des CV au format papier sont ravis de la possibilité de dématérialisation, le processus de traitement des CV étant alors intégré à la Gestion Electronique de Documents. Los DRH ya que adoptan un programa informático de análisis automático de CV están muy satisfechos del ahorro de tiempo, de la mayor cobertura y las nuevas funcionalidades, ya que eso les permite por una parte ganar en productividad, por otra parte de dedicar más tiempo a la investigación multicritères inteligente y al encuentro de candidatos. Además algunas normas calidad exigen que la empresa responda a todos los candidatos, que su perfil lo interesa o no. El programa informático de análisis automático de los CV permite efectuar esta tarea de manera sistemática y cuanto antes. Por último, se quita a los usuarios teniendo que tratar de los CV al formato papel de la posibilidad de desmaterialización, dado que entonces se integró el proceso de tratamiento de los CV a la Gestión Electrónica de Documentos.
1128 Dans le cas d'une grande banque française, le processus de traitement du CV papier a été entièrement réorganisé autour de l'usage quotidien d'un analyseur de CV pour un gain de productivité d'un facteur cinq. En el caso de un gran banco francés, el proceso de tratamiento del CV papel se reorganizó enteramente en torno al uso diario de un analizador de CV para una ganancia de productividad de un factor cinco.
1130 2 2
1132 Moteurs de recherche Motores de investigación
1134 Eric Debonne Contexte, Cas Entreprise Eric Debonne Contexte, Caso Empresa
1136 Le moteur de recherche Intranet est devenu un centre d'intérêt, fonctionnant d'abord pour les bases documentaires, il s'est ensuite élargi lors de la mise en place d'Intranet global dans l'entreprise. El motor de investigación Red interna se convirtió en un centro de interés, funcionando en primer lugar para las bases documentales, él se amplió a continuación en la instauración de Red interna global en la empresa.
1138 Une première phase d'équipement a consisté à remplacer des applications en technologies client / serveur ayant un accès à l'information via une hiérarchie de termes pré déterminée et via quelques mots clés à choisir dans une liste. Una primera fase de equipamiento consistió en sustituir a aplicaciones en tecnologías cliente/servidor que tenía un acceso a la información mediante una pre jerarquía de términos determinada y mediante algunas palabras clave que deben elegirse en una lista.
1140 Le besoin actuel est de faire évoluer une application de recherche existante, car elle ne répond plus aux attentes, de nouveaux outils plus riches fonctionnellement existent et l'utilisation de l'application est devenue courante. La necesidad actual es hacer evolucionar una aplicación de investigación existente, ya que no responde ya a las esperas, nuevas herramientas más ricas existen funcionalmente y la utilización de la aplicación se volvió corriente.
1142 Les entreprises sont des grands comptes, cabinets de conseils ou banques. Las empresas son grandes cuentas, gabinetes de consejos o bancos.
1144 Il s'agit d'applications d'accès à l'information d'entreprise caractérisée par : Se trata de aplicaciones de acceso a la información de empresa caracterizada por:
1146 - une majorité d'information interne pour un nombre conséquent d'utilisateurs (ordre de grandeur de 10 000 à 30 000) - una mayoría de información interna para un número consiguiente de usuarios (orden de magnitud de 10.000 a 30 000)
1148 - utilisée par un département gérant une information très ciblée d'un minimum de 10 000 documents et représentant une des principales connaissances liées à leur métier. - utilizada por un departamento que administra una información muy específica de un mínimo de 10.000 documentos y que representa una de los principales conocimientos vinculados a su oficio.
1150 Un des services de quelques centaines d'avocats se base sur l'ensemble de ses expériences afin de répondre mieux et plus rapidement à ses clients dans le cadre des propositions autour de ses différentes prestations. Il s'agit d'un historique de missions de 30 000 à 50 000 documents dont 80% sont rédigés en français et le reste en anglais. Les documents sont gérés dans un environnement GED. Uno de los servicios de algunos centenares de aguacates se basa en el conjunto de sus experiencias con el fin de responder mejor y más rápidamente a sus clientes en el marco de las propuestas en torno a sus distintas prestaciones. Se trata de los antecedentes de misiones de 30.000 a 50.000 documentos 80% de los cuales se redacta en francés y el resto en inglés. Los documentos se administran en un medio ambiente GED.
1152 Le service rendu doit permettre avant tout un gain de temps afin de rendre l'activité plus productive. Le service rendu doit permettre avant tout un gain de temps afin de rendre l'activité plus productive.
1154 Dans un autre cas, le moteur de recherche s'applique sur un environnement Intranet afin de permettre une recherche d'information sur l'ensemble des données publiées. En otro caso, el motor de investigación se aplica sobre un medio ambiente Red interna con el fin de permitir una búsqueda de información sobre el conjunto de los datos publicados.
1156 Description du besoin métier Descripción de la necesidad oficio
1158 Une première application de recherche a été mise en place depuis 2 à 3 ans. Les éléments déclencheurs d'évolutions sont les suivants : Se estableció una primera aplicación de investigación desde 2 a 3 años. Los elementos desencadenantes de evoluciones son los siguientes:
1160 - Une maintenance difficile, - Un mantenimiento difícil,
1162 - Une architecture technique complexe, qui n'a pas forcément évolué, - Una arquitectura técnica compleja, que inevitablemente no evolucionó,
1164 - Une application qui n'a pas été suivie et qui devient obsolète, - Une application qui n'a pas été suivie et qui devient obsolète,
1166 - Une application qui ne correspond plus aux besoins des utilisateurs. - Una aplicación que no corresponde ya a las necesidades de los usuarios.
1168 A partir de ce constat, une étude de besoins est effectuée en parallèle de la question qui se pose : peut-on conserver les solutions logicielles acquises et est-il pertinent de les comparer avec d'autres ? A partir de esta acta, se efectúa un estudio de necesidades en paralelo de la cuestión que se plantea: ¿¿
1170 Voici quelques uns des besoins les plus souvent exprimés : He aquí algunos de las necesidades el lo más a menudo posible expresadas:
1172 - recherche d'une architecture technique simple, - búsqueda de una arquitectura técnica simple,
1174 - la syntaxe de requête doit être libre, - el sintaxis de petición debe ser libre,
1176 - la gestion des dérivés simples est obligatoire, - la gestión de los derivados simples es obligatoria,
1178 - le référentiel terminologique existant doit être ré-utilisé, - debe reutilizarse el referencial terminológico existente,
1180 - la qualité des résultats doit être au moins équivalente ou supérieure selon les cas, - la calidad de los resultados debe ser al menos equivalente o superior según los casos,
1182 - le logiciel doit prendre en compte les documents anglais pour une recherche en anglais et donner les moyens d'une qualité de résultats au moins équivalente à l'existant en français, - el programa informático debe tener en cuenta los documentos ingleses para una investigación en inglés y dar los medios de una calidad de resultados al menos equivalente al existente en francés,
1184 - la qualité des résultats est aussi importante que la convivialité et les fonctionnalités de l'application permettant un accès facile à l'information, - la calidad de los resultados es tan importante que la facilidad de uso y las funcionalidades de la aplicación que permiten un acceso fácil a la información,
1186 3 3
1188 - le suivi qualité de l'application devient un point clef pour la pérennisation de l'investissement dans le temps. - el seguimiento calidad de la aplicación se convierte en un punto clave para la perennización de la inversión en el tiempo.
1190 Description du processus actuel / chaîne de traitement Descripción del proceso actual/encadena de tratamiento
1192 Les documents sont gérés soit au sein d'un logiciel de GED (par exemple Hummingbird DM, Lotus Notes, Documentum), soit au sein d'une base de données, soit sur disque. Les fichiers sont indexés par un moteur de recherche accédant aux données. La recherche est plus ou moins pertinente selon les solutions choisies : chaîne de caractères, mots clés, algorithmes statistiques et/ou linguistiques. La visualisation des documents se fait régulièrement après une conversion en HTML, sinon avec une reprise du format natif. La mise en surbrillance des termes concernés par la recherche est active. Los documentos se administran o en u n programa informático de GED (por ejemplo Hummingbird DM, Lotus Notas, Documentum), o en una base de datos, o sobre disco. Los ficheros son indexados por un motor de investigación que accede a los datos. La investigación es más o menos pertinente según las soluciones elegidas: cadena de caracteres, palabras clave, algoritmos estadísticos y/o lingüísticos. La visualización de los documentos se hace regularmente después de una conversión en HTML, si no con una reanudación del formato nativo. La puesta en surbrillance de los términos afectados por la investigación es activa.
1194 Description des problèmes actuels Descripción de los problemas actuales
1196 Absence de suivi de l'application. Ausencia de seguimiento de la aplicación.
1198 L'application installée n'a pas évolué dans la plupart des cas. Il s'ensuit des problèmes de type : La aplicación instalada no evolucionó en la mayoría de los casos. Se siga de los problemas de tipo:
1200 - maintenance d'une architecture obsolète, - mantenimiento de una arquitectura anticuada,
1202 - pas de compétences pour un paramétrage, une correction ou une évolution, - no hay competencias para una parametrización, una corrección o una evolución,
1204 - contour de l'application ne répondant plus aux besoins de l'utilisateur : mise à jour des bases documentaires pertinentes, ergonomie, - contorno de la aplicación que no responde ya a las necesidades del usuario: actualización de las bases documentales pertinentes, ergonomía,
1206 - qualité de réponse dépréciée : le référentiel terminologique n'est plus à jour, le paramétrage n'est plus adéquat, - calidad de respuesta despreciada: el referencial terminológico no es ya al día, la parametrización no es ya adecuada,
1208 - pas de prise en compte des retours des utilisateurs, - no hay consideración de las vueltas de los usuarios,
1210 - pas de communication d'utilisations. - pas de communication d'utilisations.
1212 L'application ne permet pas un accès facile et rapide à l'information : La aplicación no permite un acceso fácil y rápido a la información:
1214 - moteur d'indexation et de recherche par chaîne de caractères ou mots clés, - motor de ajuste e investigación por cadena de caracteres o palabras clave,
1216 - pas d'utilisation de référentiel terminologique : synonyme, extension des sigles, - no utilización de referencial terminológica: sinónimo, extensión de las siglas,
1218 - pas de prise en compte de pluriels, de mots composés ... - no hay consideración plurales, palabras compuestas...
1220 - manque de fonctionnalité d'aide à la lecture de la liste de résultats : résumé, extrait, - falta de funcionalidad de ayuda a la lectura de la lista de resultados: resumen, extracto,
1222 - manque d'aide à l'affinage ou reformulation de la requête, - falta de ayuda al refinamiento o reformulación de la petición,
1224 - manque d'outils de structuration de la liste de résultats : sélection par attributs : type, date, format, auteur, origine....; catégorisation, clusterisation - falta de herramientas de estructuración de la lista de resultados: selección por atributos: tipo, fecha, formato, autor, origen....; clasificación, clusterisation
1226 - manque d'outils de gestion des informations recherchées et retrouvées (activité post recherche) : requêtes, paniers de documents retrouvés ... - falta de herramientas de gestión de la información buscada y encontrada (actividad post investigación): peticiones, cestas de documentos encontradas...
1228 Analyse Análisis
1230 Identification du point d'intervention TAL Definición del punto de intervención TAL
1232 Voici quelques points sur lesquels le TAL peut s'appliquer : He aquí algunos puntos sobre los cuales el TAL puede aplicarse:
1234 - suivi qualité : identification des expressions et des termes les plus souvent utilisés ou nouvellement utilisés lors de la recherche et identification de termes proches dans le corpus de document ; - seguido calidad: definición de las expresiones y términos el lo más a menudo posible utilizados o recientemente utilizados en la investigación y definición de términos cercanos en el corpus de documento;
1236 - création automatique et utilisation d'un référentiel terminologique ; - creación automática y utilización de un referencial terminológico;
1238 - analyse linguistique de la requête et des documents lors de l'indexation ; - análisis lingüístico de la petición y los documentos en el ajuste;
1240 - complément de qualité par l'analyse de la pertinence des résultats avant l'affichage ; - complemento de calidad por el análisis de la pertinencia de los resultados antes de la visualización;
1242 - suivi qualité et aide à la lecture de la liste de résultats : extraction de termes : noms de personnes, sociétés, chiffre, action du domaine (achats, ventes par exemple) ... - seguido calidad y ayuda a la lectura de la lista de resultados: extracción de términos: nombres de personas, sociedades, cifra, acción del ámbito (compras, ventas por ejemplo)...
1244 - analyse des retours des utilisateurs : demandes fréquentes, éléments d'indice de satisfaction ; - analyse des retours des utilisateurs : demandes fréquentes, éléments d'indice de satisfaction ;
1246 - structuration de la liste de résultats : clusterisation, catégorisation automatique ; - estructuración de la lista de resultados: clusterisation, clasificación automática;
1248 - ajout d'un résumé ou d'un extrait des documents dans la liste de résultats ; - adición de un resumen o de un extracto de los documentos en la lista de resultados;
1250 - correction des fautes de la requête. - corrección de las faltas de la petición.
1252 4 4
1254 Description du traitement TAL appliqué Descripción del tratamiento TAL aplicado
1256 Les technologies TAL peuvent être utilisées seules mais sont souvent couplées à des algorithmes statistiques : Las tecnologías TAL pueden utilizarse solas pero a menudo se acoplan a algoritmos estadísticos:
1258 - analyseurs linguistiques de requêtes, - analizadores lingüísticos de peticiones,
1260 - extraction linguistique de contenu de document : suivi qualité, résumé, analyse de la liste de résultats, indexation linguistique, - extracción lingüística de contenido de documento: seguido calidad, resumen, análisis de la lista de resultados, ajuste lingüístico,
1262 - Text Mining pour la création automatique d'un référentiel terminologique, extraction de données spécifiques : nom de personnes, de sociétés ..., clusterisation, catégorisation. - Text Mining para la creación automática de un referencial terminológico, extracción de datos específicos: nombre de personas, sociedades..., clusterisation, clasificación.
1264 Description du gain qualitatif / quantitatif attendu Descripción de la ganancia cualitativa/cuantitativa esperado
1266 Le gain qualitatif attendu lors de l'utilisation de ces technologies est un accès plus simple et rapide à l'information : l'application présente des résultats plus précis et est capable de trier, structurer, expliciter les résultats afin de visualiser les différentes informations disponibles dans le contexte de l'utilisateur. La ganancia cualitativa esperada en la utilización de estas tecnologías es un acceso más simple y más rápido a la información: la aplicación presente de los resultados más precisos y es capaz de clasificar, de estructurar, de aclarar los resultados con el fin de imaginar la distinta información disponible en el contexto del usuario.
1268 Déploiement et mise en oeuvre Despliegue y aplicación
1270 Dans le contexte d'entreprises visées, la technologie TAL n'est pas une valeur ajoutée en tant que technologie mais pour le service rendu dans l'environnement de recherche. Les composants TAL sont donc soit une base du logiciel mis en oeuvre, soit utilisés par des fonctionnalités du logiciel. En el contexto de empresas contempladas, la tecnología TAL no es un valor añadido como tecnología sino para el servicio prestado en el medio ambiente de investigación. Los componentes TAL son pues o una base del programa informático aplicado, o utilizados por funcionalidades del programa informático.
1272 Le plus couramment, seule la gestion du référentiel terminologique est visible par l'équipe projet client car cette fonctionnalité nécessite des interventions de documentalistes ou d'experts métiers de l'entreprise lors de la mise en oeuvre et du suivi de l'application. El lo ma's general, solamente la gestión del referencial terminológico es visible por el equipo proyecto cliente ya que esta funcionalidad requiere intervenciones de documentalistas o expertos oficios de la empresa en la aplicación y del seguimiento de la aplicación.
1274 Évaluation ROI Evaluación REY
1276 Coûts et délais de mise en oeuvre Costes y plazos de aplicación
1278 Si l'on considère les fonctionnalités utilisant une technologie TAL, le calcul du ROI correspondant à l'apport de cette technologie n'est pas souvent visualisable. En effet, pour une application de recherche globale, il s'agit de l'existence ou non d'un outil d'accès à l'information. Si se consideran las funcionalidades que utilizan una tecnología TAL, el cálculo del REY correspondiendo a la contribución de esta tecnología no es a menudo visualizable. En efecto, para una aplicación de investigación global, se trata de la existencia o no de una herramienta de acceso a la información.
1280 Pour les fonctionnalités directement issues du TAL, il s'agit de gain de temps de recherche, d'exhaustivité, de complétude et de précision de l'information retrouvée. Ces apports sont mesurables dans des environnements où l'utilisateur dispose d'un temps compté et facturé, comme ce peut être le cas d'un avocat. Mais dans d'autres environnements, il faut mesurer le gain de temps obtenu par utilisateur et estimer le coût de ce temps, ce qui est particulièrement complexe. Para las funcionalidades directamente es del TAL, se trata de ganancia de tiempo de investigación, exhaustividad, complitud y precisión de la información encontrada. Estas contribuciones son mensurables en medio ambiente donde el usuario dispone de un tiempo contado y facturado, como puede ser el caso de un aguacate. Pero en otro medio ambiente, es necesario medir el ahorro de tiempo obtenido por usuario y considerar el coste de este tiempo, lo que es especialmente complejo.
1282 Cependant, l'étude initiale du besoin lié à l'application doit révéler le ou les services répondants aux plus fortes valeurs ajoutées de l'application dans son contexte d'utilisation. Ces services sont plus facilement mesurables par le responsable du projet client. Sin embargo, el estudio inicial de la necesidad vinculada a la aplicación debe revelar los servicios fiadores a los más fuertes valores añadidos de la aplicación en su contexto de utilización. Estos servicios son más fácilmente mensurables por el responsable del proyecto cliente.
1284 La mise en oeuvre doit prendre en compte la charge de travail en amont, s'il y a constitution d'un référentiel terminologique, la charge lors de la mise en oeuvre et la maintenance de ce référentiel. Ces tâches peuvent s'effectuer par un service externe. La aplicación debe tener en cuenta la carga de trabajo aguas arriba, si hay constitución de un referencial terminológico, la carga en la aplicación y el mantenimiento de este referencial. Estas tareas pueden efectuarse por un servicio externo.
1286 Différents niveau d'investissements peuvent être effectués selon la particularité du projet : d'une approche très automatisée à une approche très personnalisée par une compétence humaine. Ce choix s'effectue selon les besoins à forte valeur ajoutée identifiés, le public concerné (experts ou non), les documents concernés (métier précis ou Intranet global) et l'apport d'un pourcentage de qualité supplémentaire. Diferentes nivel de inversiones pueden efectuarse según la particularidad del proyecto: de un enfoque muy automatizado a un enfoque muy personalizado por una competencia humana. Esta elección se efectúa según las necesidades de fuerte valor añadido definidas, el público interesado (expertos o no), los documentos en cuestión (oficio preciso o Red interna global) y la contribución de un porcentaje de calidad suplementaria.
1288 La charge de suivi qualité globale (dont les aspects TAL) de l'application est un des centre d'intérêt des entreprises concernées. La carga de seguimiento calidad global (entre los cuales los aspectos TAL) de la aplicación es uno del centro de interés de las empresas en cuestión.
1290 Retours Utilisateurs Vueltas Usuarias
1292 Les retours utilisateurs sont de plus liés à l'utilisation et la fréquence d'utilisation de l'application. Las vueltas usuarias son de más vinculadas a la utilización y la frecuencia de utilización de la aplicación.
1294 5 5
1296 Les standards Las normas
1298 Les applications des industries de la langue interagissent avec l'environnement informatique qui les accueille, et, de plus en plus, interagissent entre elles. La question des standards de représentation des données consommées ou produites dans le cadre des applications traitant de l'information non-structurée a donc une importance particulière. Ainsi, on doit pouvoir garantir l'échange et l'interopérabilité : Las aplicaciones de las industrias de la lengua obran recíprocamente con el medio ambiente informático que las acoge, y, cada vez más, obra recíprocamente entre ellas. La cuestión de las normas de representación de los datos consumidos o producidos en el marco de las aplicaciones que tratan de la información no estructurada tiene pues una importancia particular. Así pues, se debe poder garantizar el intercambio y la interoperatividad:
1300 - des données textuelles, - datos textuales,
1302 - des ressources linguistiques et terminologiques - recursos lingüísticos y terminológicos
1304 - des méta-données. - metadatos.
1306 La première partie de cette section traite des données textuelles et des ressources. La deuxième partie de cette section traite des méta-données et particulièrement du Web sémantique. La primera parte de esta sección trata de los datos textuales y recursos. La segunda parte de esta sección trata de los metadatos y especialmente de la Red semántica.
1308 Standards des données textuelles et des ressources Normas de los datos textuales y recursos
1310 Gil Francopoulo Gil Francopoulo
1312 Alors que les standards ('de facto' ou 'de jure') sont d'un usage répandu depuis longtemps dans les infrastructures informatiques, on observe leur diffusion timide dans les applications TAL. Mientras que las normas (' de facto' o ' de jure ') son de un uso extendido desde hace tiempo en las infraestructuras informáticas, se observa su difusión tímida en las aplicaciones TAL.'
1314 Le besoin d'utiliser des standards existe, et il concerne : La necesidad de utilizar normas existe, y se refiere:
1316 - l'interopérabilité des différents composants au sein d'une application fondée sur les TAL ; - la interoperatividad de los distintos componentes en una aplicación basada en los TAL;
1318 - l'interopérabilité de l'application fondée sur le TAL vis-à-vis des autres applications informatiques qu'elles soient locales ou distantes ; - la interoperatividad de la aplicación basada en el TAL frente a las otras aplicaciones informáticas que sean locales o distantes;
1320 - la gestion cohérente d'environnements multilingues complexes. Citons simplement deux exemples de difficulté : l'Europe comporte maintenant plus de 20 langues très différentes les unes des autres. Quel rapport existe-t-il entre le maltais qui est une langue sémitique (arabe pour faire simple) et l'estonien qui est une langue finno-ougrienne ? L'autre exemple est le chinois qui autorise plusieurs trans-litérations du même mot comme "non-spaced pinyin" par opposition à "spaced pinyin and tone". - la gestión coherente de medio ambiente multilingüe complejo. Citons simplement deux exemples de difficulté : l'Europe comporte maintenant plus de 20 langues très différentes les unes des autres. ¿Qué informe existe entra el maltés que es una lengua semítica (árabe para hacer simple) y la estonio que es una lengua ugrofinesa? El otro ejemplo es el chino que autoriza varios trans-litérations de la misma palabra como "no spaced pinyin" en comparación con "spaced pinyin and tone".
1322 Aucun acteur n'ayant réussi en 30 ans à imposer un standard 'de facto', la seule solution consiste à définir un ou plusieurs standards 'de jure'. Ningún protagonista que no consigue en 30 años imponer una norma ' de facto ', la única solución consiste en definir uno o más normas ' de jure '.
1324 La direction qui a été adoptée récemment à l'ISO consiste à définir une famille de normes destinées au TAL au sein de l'ISO-TC37. Ces normes opèrent à deux niveaux. La dirección que se ha adoptado recientemente a la ISO consiste en definir a una familia de normas destinadas al TAL en el ISO-TC37. Estas normas operan a dos niveles.
1326 Les normes de bas niveau traitent des valeurs constantes et ne sont que faiblement structurées. Ce sont les normes existantes depuis longtemps pour les codes de langues (ISO-639), les codes de scripts (ISO-15924), les codes des pays (ISO-3166) et Unicode pour le codage des caractères. Ces normes sont en train d'être complétées par une norme spécifique aux constantes linguistiques afin de fixer des valeurs comme /feminine/ et de statuer que /grammatical gender/ se définit par /masculine/ et /feminine/ dans la langue française, alors qu'il faut ajouter /neuter/ pour la langue allemande par exemple. Les normes de bas niveau traitent des valeurs constantes et ne sont que faiblement structurées. Son las normas desde hace tiempo existentes para los códigos de lenguas (ISO-639), los códigos de escrituras (ISO-15924), los códigos de los países (ISO-3166) y Unicode para la codificación de los caracteres. Estas normas están siendo sido completadas por una norma específica a las constantes lingüísticas con el fin de fijar valores como/femi/y resolver que/gramatical ge/se define por/masculina/y/femi/en la lengua francesa, mientras que es necesario añadir/ne/para la lengua alemana por ejemplo.
1328 Les constantes en question portent sur la morphologie (comme dans l'exemple) mais aussi sur la syntaxe, la sémantique et l'administration. Elles sont gérées dans un répertoire de catégories de données (Data Category Registry) dans le cadre des travaux de révision de l'ISO-12620. Los constantes en cuestión se refieren a la morfología (como en el ejemplo) y también sobre el sintaxis, semántica y la administración. Elles sont gérées dans un répertoire de catégories de données (Data Category Registry) dans le cadre des travaux de révision de l 'ISO-12620.
1330 6 6
1332 Les normes de haut niveau se fondent sur ces normes de bas niveau mais sont en revanche beaucoup plus structurées. Ce sont TMF, LMF et MAF. La première (i.e. TMF pour Terminological Markup Framework ISO-16642) traite des terminologies d'entreprise qu'elles soient monolingues ou multilingues. La seconde (i.e. LMF pour Lexical Markup Framework ISO-24613) couvre les dictionnaires dans une large mesure, que ce soient les lexiques destinés au traitement automatique du langage ou bien les bases de données éditoriales servant de support de traduction aux grandes administrations. La troisième norme (i.e. MAF pour Morpho-syntactic Annotation Framework ISO-24611) traite de l'annotation des corpus que celle-ci soit effectuée par un être humain ou bien par un programme. Se estructuran mucho más las normas de alto nivel se basan en estas normas de bajo nivel pero en cambio. Son TMF, LMF y MAF. La primera (i.e. TMF pour Terminological Markup Framework ISO-16642) trata de las terminologías de empresa que sean monolingües o multilingües. El segundo (i.e. LMF pour Lexical Markup Framework ISO-24613) cubre los diccionarios en gran parte, que sean los léxicos destinados al tratamiento automático de la lengua o las bases de datos editoriales que sirven de apoyo de traducción a las grandes administraciones. La tercera norma (i.e. MAF pour Morpho-syntactic Annotation Framework ISO-24611) trata de la anotación de los corpus que ésta esté efectuada por un ser humano o por un programa.
1334 Dans la mesure où ces trois normes de haut niveau échangent les même constantes et qu'elles sont définies en XML, l'interopérabilité entre elles est très forte. Les normes de haut niveau sont proches des utilisateurs puisqu'elles enregistrent les pratiques des gens du métier, alors que les normes de bas niveau sont plus du domaine de la "tuyauterie". Mais les unes ne vont pas sans les autres. En la medida en que estas tres normas de alto nivel intercambian los mismos constantes y que se definen en XML, la interoperatividad entre ellas es muy fuerte. Las normas de alto nivel son próximas a los usuarios puesto que registran las prácticas de la gente del oficio, mientras que las normas de bajo nivel forman parte más del ámbito de la "tubería". Pero las unas no van sin otros.
1336 Pour finir, notons que ces normes sont définies par des experts mandatés par leur délégation nationale respective avec une forte implication des pays des continents asiatiques, américains et européens, à raison d'un tiers chacun. En revanche, on peut déplorer que les pays à langue sémitique et africaine (Afrique du Sud exceptée) ne sont pas très impliqués. Ces pays ont évidemment d'autres urgences, on peut le comprendre. Para terminar, tienen en cuenta que estas normas son definidas por expertos designados por su delegación nacional respectiva con una fuerte implicación de los países de los continentes asiáticos, americanos y europeos, en razón de un tercero cada uno. En cambio, se puede deplorar que no se implique a los países a lengua semítica y africana (Sudáfrica excluida) muy. Estos países tienen obviamente otras urgencias, se puede comprenderlo.
1338 Leurs langues n'en sont pas pour autant oubliées : elles sont simplement prises en compte par des experts des autres pays. Et la représentation au sein de l'ISO n'est ni plus ni moins que le reflet du dynamisme (ou de l'attentisme) des différentes nations dans les mécanismes numériques liés à l'information, que ce soient pour des raisons économiques ou politiques. Sus lenguas no son no obstante olvidadas: se tienen simplemente en cuenta por expertos de los otros países. Y la representación en la ISO so'lo es ni cuanto más ni menos el reflejo del dinamismo (o de la política de espera) de las distintas naciones en los mecanismos numéricos vinculados a la información, que sean por razones económicas o políticas.
1340 7 7
1342 Le Web sémantique : principes, applications et perspectives La Red semántica: principios, aplicaciones y perspectivas
1344 Bruno Menon (ce texte est adapté d'un article paru dans Documentaliste - Sciences de l'information, Vol. 40, N° 6) Bruno Menon (este texto se adapta de un artículo parecido en Documentalista - Ciencias de la información, Vuelo. 40, N° 6)
1346 Principes Principios
1348 Le projet du Web Sémantique naît de critiques bien connues adressées au réseau Internet (et, partant, intranet et extranet) sous sa forme actuelle : HTML donne des liens sans sémantique, tissant certes un réseau hypertextuel dense, mais où l'on manque de repères ; les moteurs de recherche laissent beaucoup d'opérations à la charge des internautes et leurs résultats sont souvent hasardeux ; les métadonnées sont limitées dans leur usage comme dans leur portée, peu fiables, peu utilisables et peu utilisées par les moteurs de recherche. Bref, alors que par leur volume et leur diversité, les ressources du Web sont de moins en moins exploitables sans l'aide de logiciels aux fonctions avancées, elles sont à cause de ces faiblesses peu propices aux traitements automatisés. El proyecto de la Red Semántica nace de críticas bien conocidas dirigidas a la red Internet (y, por consiguiente, red interna y red exterior) bajo su forma actual: HTML da vínculos sin semántica, en absoluto tejiendo una red hypertextuel denso, pero dónde se carece de señales; los motores de investigación dejan muchas operaciones a cargo de los internautas y sus resultados son a menudo peligrosos; los metadatos son limitados en su uso como en su alcance, poco fiables, poco utilizables y poco utilizados por los motores de investigación. Resumidamente, mientras que por su volumen y su diversidad, los recursos de la Red son cada vez menos explotables sin la ayuda de programas informáticos a las funciones avanzadas, están debido a estas debilidades poco propicias a los tratamientos automatizados.
1350 On entend donc mettre en place un dispositif permettant de structurer les informations du Web de façon à les rendre manipulables et "compréhensibles" par des agents logiciels. Leur visée : faciliter l'utilisation des informations et services du Web en libérant l'internaute d'une partie de sa charge cognitive, et donner l'impression d'un système homogène et cohérent en mobilisant automatiquement et de manière transparente les multiples ressources, sites et services nécessaires à l'accomplissement d'une tâche. Se propone pues establecer un dispositivo que permite estructurar la información de la Red de tal modo que los dicte manipulable y "comprensible" por agentes informáticos. Su objetivo: facilitar la utilización de la información y servicios del Web liberando el internauta de una parte de su carga cognoscitiva, y dar la impresión de un sistema homogéneo y coherente movilizando automáticamente y de manera transparente los múltiples recursos, sitios y servicios necesarios para la realización de una tarea.
1352 Mais si la vision ultime est celle d'un tout dont l'efficacité serait supérieure à celle de la somme de ses parties, le vocable "Web Sémantique" recouvre en réalité une grande variété de fonctions, dont certaines restent d'ailleurs à imaginer. En voici quelques-unes. Pero si la visión última es la de un conjunto cuya eficacia sería superior a la de la suma de sus partes, la palabra "Red Semántica" cubre realmente una gran variedad de funciones, algunas de las cuales quedan por otra parte por imaginar. He aquí algunos.
1354 - La recherche généraliste bien sûr, avec le moteur de recherche sémantique : doté de capacités de raisonnement, il s'appuie sur la description formalisée et la mise en relation des différentes sources d'information pour traiter intelligemment les requêtes et présenter en une seule étape des résultats complets. - La investigación generalista por supuesto, con el motor de investigación semántico: dotado con capacidades de razonamiento, se basa en la descripción formalizada y la puesta en relación de las distintas fuentes de información para tratar inteligentemente las peticiones y presentar en una única etapa resultados completos.
1356 - L'exploitation et la combinaison de ressources pour accomplir une tâche spécialisée : des outils dédiés associent dialogue avec des sources hétérogènes, description des préférences des utilisateurs et raisonnement basé sur des connaissances métier pour synthétiser l'information requise. - La explotación y la combinación de recursos para realizar una tarea especializada: herramientas dedicadas asocian diálogo con fuentes heterogéneas, descripción de las preferencias de los usuarios y razonamiento basado en conocimientos oficio para sintetizar la información requerida.
1358 - L'offre de services Web plus complets, avec des outils qui identifient, activent et combinent différents services pour mener à bien des opérations plus ou moins complexes de la vie quotidienne ou professionnelle, comme l'organisation d'un voyage, la souscription d'un contrat d'assurance, etc. - La oferta de servicios Red más completos, con herramientas que identifican, activan y combinan distintos servicios para conducir a muchas operaciones más o menos complejas de la vida diaria o profesional, como la organización de un viaje, la suscripción de un contrato de seguro, etc.
1360 - La navigation sémantique, qui profite de la sémantisation des hyperliens pour orienter l'internaute dans son parcours du réseau. - La navegación semántica, que aprovecha del sémantisation de los supervínculos para orientar al internauta en su curso de la red.
1362 Ces différents types de systèmes seront en outre, au moins dans un premier temps, bâtis autour de communautés d'intérêts, dans des domaines bien circonscrits, et pour des portions du Web, publiques ou privées : un "Web Sémantique d'entreprise", par exemple. Estos distintos tipos de sistemas además al menos inicialmente, se construirán alrededor de comunidades de intereses, en ámbitos bien circunscritos, y para porciones de la Red, públicas o privadas: una "Red Semántica de empresa", por ejemplo.
1364 Il serait donc inexact de voir dans le Web Sémantique une entreprise monolithique : on parlera de Webs sémantiques, au pluriel, dès lors que des sites intègrent une ou plusieurs fonctions avancées mettant en jeu les concepts du Web Sémantique, au singulier. Car ce qui fait l'unité du projet est une communauté de principes et de méthodes, une démarche. Sería pues inexacto ver en la Red Semántica a una empresa monolítica: se hablará de Redes semánticas, al plural, en cuanto sitios integran uno o más funciones avanzadas que ponen pendientes los conceptos del Web Semántico, al singular. Ya que lo que hace la unidad del proyecto es una comunidad de principios y métodos, un planteamiento.
1366 8 8
1368 Les métadonnées Los metadatos
1370 L'annotation des ressources du Web par les métadonnées, tout d'abord. La notion de métadonnée n'est pas nouvelle. Mais il va sans dire que nous sommes loin de l'usage plus ou moins anarchique des balises META de HTML ; on s'éloigne même quelque peu du concept élaboré dans le cadre des bibliothèques virtuelles et du Dublin Core. Bien que cette filiation ne soit pas désavouée, le rôle central qu'on entend faire jouer aux métadonnées dans le Web Sémantique laisse supposer que leur portée sera amplifiée par rapport à une approche "catalogage et indexation". La anotación de los recursos de la Red por los metadatos, en primer lugar. El concepto de metadato no es nuevo. Pero ni que decir tiene distamos mucho de el uso más o menos anárquico de las balizas META de HTML; se aleja incluso un tanto del concepto elaborado en el marco de las bibliotecas virtuales y Dublín Core. Aunque esta filiación no esté negada , el papel central que se propone aplicar a los metadatos en la Red Semántica se deja suponer que su alcance se ampliará con relación a un enfoque "catalogación y ajuste".
1372 De ce point de vue, la définition qui en a été proposée, "Information associée à une ressource du Web, permettant d'en favoriser l'utilisation par un agent humain, du fait de son exploitation par un agent logiciel", est révélatrice. Assez large, elle met l'accent sur la finalité des métadonnées, sans vraiment insister sur leur nature descriptive. C'est qu'il y a à ce sujet une ambiguïté : s'agit-il de décrire des ressources numériques ou plutôt de programmer leur utilisation par des logiciels ? En réalité, les fonctions des métadonnées dans le Web Sémantique dépassent les dimensions signalétique et thématique qu'on leur connaissait jusqu'à présent. Selon le contexte et les applications, elles servent aussi de support à la gestion des droits, au recueil d'annotations diverses telles que commentaires et recommandations, à la qualification des hyperliens, à la définition de parcours de lecture ou d'assemblage de documents à la carte, etc. De ce point de vue, la définition qui en a été proposée, "Information associée à une ressource du Web, permettant d'en favoriser l'utilisation par un agent humain, du fait de son exploitation par un agent logiciel", est révélatrice. Bastante amplio, hace hincapié en la finalidad de los metadatos, sin realmente hacer hincapié en su naturaleza descriptiva. Es que hay a este respecto una ambigüedad: ¿se trata de describir recursos numéricos o más bien de programar su utilización por programas informáticos? Realmente, las funciones de los metadatos en la Red Semántica superan las dimensiones descriptivos y temáticos que ellos se conocían hasta ahora. Según el contexto y las aplicaciones, sirven también de apoyo a la gestión de los derechos, a la recopilación de distintas anotaciones como comentarios y recomendaciones, a la calificación de los supervínculos, a la definición de curso de lectura o montaje de documentos a la carta, etc.
1374 Les ontologies Las ontologías
1376 Pour être susceptibles d'être exploitées automatiquement, les métadonnées doivent être entièrement explicites, c'est-à-dire suivre un modèle et être exprimées dans un vocabulaire clairement et formellement définis. Les ontologies, deuxième pilier du Web Sémantique, sont le réceptacle de ces définitions. Elles modélisent les connaissances nécessaires à la description - et au traitement - d'un ensemble de ressources. On y représente les valeurs que l'on peut donner aux métadonnées et l'interprétation que les systèmes peuvent en faire, c'est-à-dire les concepts d'un domaine, les relations qu'ils entretiennent et la sémantique de ces relations, mais aussi les règles de raisonnement qui leur sont applicables. Para para poder explotarse automáticamente, los metadatos deben ser enteramente explícitos, es decir, seguir un modelo y expresarse en un vocabulario clara y formalmente definidos. Las ontologías, segundo pilar de la Red Semántica, son el receptáculo de estas definiciones. Modelan los conocimientos necesarios para la descripción - y al tratamiento - de un conjunto de recursos. Se representan los valores que se pueden dar a los metadatos y la interpretación que los sistemas pueden hacer, es decir, los conceptos de un ámbito, las relaciones que mantienen y semántica de estas relaciones, y también las normas de razonamiento que les son aplicables.
1378 On soulève souvent la question de l'analogie avec les thésaurus : la structuration des concepts en réseau et la normalisation de leur expression sont des points communs indéniables, mais ne doivent pas masquer les spécificités de chacun de ces instruments. Bien sûr, il est possible, et même souhaitable, que l'on tire parti de l'existant et que les thésaurus servent de point de départ à la construction d'ontologies pour le Web Sémantique. Il est toutefois probable qu'ils seront remaniés et étoffés. Par exemple, il est souvent nécessaire d'intégrer aux ontologies des connaissances sur des personnes ou des lieux, pour lesquels d'autres informations que celles portées par les relations classiques des thésaurus sont nécessaires. Se plantea a menudo la cuestión de la analogía con el tesauro: la estructuración de los conceptos en red y la normalización de su expresión son puntos comunes innegables, pero no deben encubrir las especificidades de cada uno de estos instrumentos. Por supuesto, es posible, e incluso deseable, que se saca partido del existente y que el tesauro sirven de inicio a la construcción de ontologías para la Red Semántica. Es no obstante probable que se alterarán y embalado. Por ejemplo, es a menudo necesario integrar a las ontologías conocimientos sobre personas o lugares, para los cuales otra información que la llevada por las relaciones clásicas del tesauro es necesaria.
1380 Ces spécificités dérivent de vocations dissemblables : les thésaurus sont adaptés à leur rôle d'outils de médiation documentaire, les ontologies doivent servir à la représentation de multiples aspects des ressources numériques ; les thésaurus sont destinés avant tout à un usage humain, les ontologies davantage orientées vers un usage par les machines (même si au cours de leur cycle de vie, les consultations humaines sont nécessaires et fréquentes). Estas especificidades derivan de vocaciones diferentes: el tesauro se adapta a su papel de herramientas de mediación documental, las ontologías deben servir a la representación de múltiples aspectos de los recursos numéricos; el tesauro se destinan sobre todo a un uso humano, las ontologías más orientadas hacia un uso por las máquinas (aunque durante su ciclo de vida, las consultas humanas son necesarias y frecuentes).
1382 En conséquence, les normes pour les thésaurus fixent la liste des relations utilisables et la forme des termes, mais laissent un certains souplesse dans les formats et les présentations utilisés ; pour les ontologies, on a en revanche une normalisation très stricte des formats, mais une grande ouverture dans la définition des relations nécessaires aux applications visées et dans le type de termes qui y figurent. En consecuencia, las normas para el tesauro fijan la lista de las relaciones utilizables y la forma de los términos, pero dejan una determinada flexibilidad en los formatos y las presentaciones utilizados; para las ontologías, se tienen en cambio una normalización muy estricta de los formatos, pero una gran apertura en la definición de las relaciones necesarias para las aplicaciones contempladas y en el tipo de términos hay.
1384 9 9
1386 Le raisonnement El razonamiento
1388 Enfin, troisième ensemble de composantes, les méthodes de raisonnement : techniques de déduction et de preuve sont indispensables à la fois pour effectuer les enchaînements impliqués par les règles d'utilisation des concepts des ontologies et expliquer le cas échéant les résultats fournis de façon convaincre l'internaute de leur validité. Le dispositif est complété par des systèmes de cryptage et de certification, qui ne sont pas spécifiques de la démarche du Web Sémantique, mais y ont néanmoins leur place, en contribuant à instaurer une confiance que le Web actuel n'inspire pas toujours. Por último, tercer conjunto de componentes, los métodos de razonamiento: técnicas de deducción y prueba son indispensables a la vez para efectuar las secuencias implicadas por las normas de utilización de los conceptos de las ontologías y explicar cuando proceda los resultados proporcionados de manera convencer al internauta de su validez. El dispositivo es completado por sistemas de cifrado y certificación, que no son específicos del planteamiento de la Red Semántica, hay sin embargo su lugar, contribuyendo a instaurar una confianza que la Red actual no inspira siempre.
1390 Modèles et standards Modelos y normas
1392 On aura reconnu dans ce qui précède une approche similaire à celle de l'intelligence artificielle ; des bases de faits - les méta-données - sont interprétées grâce à des bases de connaissances - les ontologies - par des moteurs d'inférence, qui accomplissent ainsi des tâches complexes en simulant le comportement d'intervenants humains. Les techniques sont analogues, mais se distinguent dans le cas du Web Sémantique par leur contexte de fonctionnement et par l'échelle à laquelle elles doivent s'appliquer, inimaginable il y a vingt ans. De ce fait, l'intégration d'informations provenant de sources hétérogènes et la recherche de l'interopérabilité de sites et de systèmes implantés en divers endroits par différents acteurs revêtent une importance cruciale. D'où une volonté marquée de standardisation, problématique qui occupe une place prépondérante dans les travaux actuels. Se habrá reconocido en lo que precede un enfoque similar a la de la inteligencia artificial; se interpretan algunas bases de hechos - los metadatos - gracias a bases de conocimientos - las ontologías - por motores de inferencia, que realizan así tareas complejas simulando el comportamiento de participantes humanos. Las técnicas son similares, pero se distinguen en el caso de la Red Semántica por su contexto de funcionamiento y por la escala a la cual deben aplicarse, inimaginable hace veinte años. Por lo tanto, la integración de información procedente de fuentes heterogéneas y la búsqueda de la interoperatividad de sitios y sistemas establecidos en distintos lugares por distintos protagonistas revisten una importancia crucial. D'où une volonté marquée de standardisation, problématique qui occupe une place prépondérante dans les travaux actuels.
1394 Standardisation d'abord des formats d'encodage des informations, des méta-données et des ontologies : par son expressivité et sa souplesse, la syntaxe XML est appelée à servir de lingua franca au Web Sémantique. Standardisation également des modèles et langages permettant de décrire de façon entièrement explicite les sources d'informations et les services disponibles, mais aussi de coder dans des ontologies les connaissances nécessaires à ces descriptions. RDF (Resource Description Framework) et OWL (Ontology Web Language) seront sans doute les principaux vecteurs de ce qui constituera le noyau à proprement parler sémantique du Web. Les formalismes de raisonnement et les techniques de preuves semblent pour l'instant moins consensuels. Standardisation d'abord des formats d'encodage d es informations, des méta-données et des ontologies : par son expressivité et sa souplesse, la syntaxe XML est appelée à servir de lingua franca au Web Sémantique. Normalización también de los modelos y lenguas que permiten describir de manera enteramente explícita las fuentes de información y los servicios disponibles, y también cifrar en ontologías los conocimientos necesarios para estas descripciones. RDF (Resource Description Framework) y OWL (Ontology Web Language) serán los principales vectores seguramente de lo que constituirá en realidad el núcleo semántico de la Red. Los formalismos de razonamiento y las técnicas de pruebas parecen menos consensuales por el momento.
1396 Le modèle en couches (layer cake) du Web sémantique El modelo en capas (trazar tarta) de la Red semántica
1398
1400 Applications Aplicaciones
1402 Dans l'entreprise En la empresa
1404 L'exemple des Webs sémantiques d'entreprise illustre l'application de la démarche du Web Sémantique à des contextes plus restreints que le Web "grand public" : les multiples problématiques de gestion des connaissances autour de ressources informationnelles qui sont, dans leur diversité, un modèle réduit de ce que l'on rencontre sur le réseau en font un champ d'expérimentation privilégié. L'échelle relativement réduite et la présence d'une culture d'entreprise rendent plus aisées la création des ontologies et la définition des usages et des utilisateurs. Par rapport à un traitement plus classique de ces problématiques, l'approche du Web Sémantique offre une garantie de stabilité et de compatibilité, du fait de l'utilisation de langages et d'outils standard pour la construction des ontologies et le recueil des annotations. Parmi les systèmes visés figurent des applications de mémoire d'entreprise distribuée, de mémoire de projet avec retour d'expérience, de cartographie de compétences pour l'aide à la recherche de partenaires commerciaux et industriels. El ejemplo de las Redes semánticas de empresa ilustra la aplicación del planteamiento de la Red Semántica a contextos más limitados que la Red "opinión pública": la múltiple problemática de gestión de los conocimientos en torno a recursos informativos que son, en su diversidad, un modelo reduce de lo que se encuentra en la red se hace un campo de experimentación privilegiado. La escala relativamente reducida y la presencia de una cultura de empresa hacen más fáciles la creación de las ontologías y la definición de los usos y usuarios. Con relación a un tratamiento más clásico de esta problemática, el enfoque de la Red Semántica ofrece una garantía de estabilidad y compatibilidad, a causa de la utilización de lenguas y herramientas normales para la construcción de las ontologías y la recopilación de las anotaciones. Entre los sistemas contemplados figuran aplicaciones de memoria de empresa distribuida, de memoria de proyecto con vuelta de experiencia, de cartografía de competencias para la ayuda en busca de socios comerciales e industriales.
1406 Portails touristiques Pórticos turísticos
1408 Pour preuve de la maturité atteinte par les techniques du Web Sémantique, et de l'intérêt qu'il y a à les appliquer à des secteurs fortement demandeurs, on peut évoquer des applications dans le domaine du tourisme, qui est l'industrie la plus numérisée. Les collectivités locales, en particulier, ont beaucoup à gagner, économiquement et en notoriété, en mettant en valeur sur le réseau leurs atouts touristiques. D'où la conception d'un service Web chargé d'organiser et de présenter les ressources documentaires d'une région, issues de sources d'information variées, locales ou non. Ce service réutilise le thésaurus de l'OMT (Organisation Mondiale du Tourisme) et en fait une partie de l'ontologie de l'application, tout en le complétant par des connaissances sur les lieux, les personnes et les objets touristiques pertinents (hébergement, patrimoine, transports). Para prueba de la madurez alcanzada por las técnicas de la Red Semántica, y del interés que hay los que aplicar a sectores muy solicitantes, se pueden mencionar aplicaciones en el ámbito del turismo, que es la industria más convertida. Las colectividades locales, en particular, tienen mucho que ganar, económicamente y en notoriedad, valorizando en la red sus activos turísticos. De ahí la concepción de un servicio Red encargada organizar y presentar los recursos documentales de una región, salidas de fuentes de información variadas, locales o no. Este servicio reutiliza el tesauro d e la OMT (Organización Mundial del Turismo) y en realidad una parte de la ontología de la aplicación, completándolo al mismo tiempo por conocimientos en los lugares, las personas y los objetos turísticos pertinentes (alojamiento, patrimonio, transportes).
1410 Presse et médias Prensa y medios de comunicación
1412 Une autre problématique sectorielle, expérimentée lors de l'Exposition Mondiale 2000 à Hanovre, concerne la presse et les médias. Le problème posé par le traitement intelligent de l'information dans ce secteur est qu'il n'est guère envisageable de décrire ou d'indexer l'intégralité de sa production documentaire : volumes importants, très rapide renouvellement et durée de vie très brève de l'information sont des contreindications du traitement documentaire classique, sur le plan économique comme sur celui de l'efficacité. Il est en revanche possible de capturer à la fois l'univers référentiel, la sémantique et la phraséologie de la presse dans une ontologie, laquelle peut être exploitée pour rechercher intelligemment dans le texte intégral. L'approche défendue est donc celle, un peu paradoxale, d'une application de Web Sémantique sans métadonnées. Otra problemática sectorial, con experiencia en la Exposición Mundial 2000 en Hannover, se refiere a la prensa y a los medios de comunicación. El problema planteado por el tratamiento inteligente de la información en este sector es que apenas es posible describir o indexar la integralidad de su producción documental: volúmenes importantes, muy rápida renovación y duración de vida muy breve de la información son contreindications del tratamiento documental clásico, a nivel económico como sobre el de la eficacia. Es en cambio posible capturar a la vez el universo de referencia, semántica y la fraseología de la prensa en una ontología, la cual puede explotarse para buscar inteligentemente en el texto íntegro. El enfoque defendido es pues el, un poco paradójico, de una aplicación de Red Semántica sin metadatos.
1414 L'idée de déplacer l'essentiel de la charge de travail vers la formalisation des connaissances donne un aperçu de la manière dont pourraient évoluer les missions des professionnels de l'information dans l'avenir. La idea de desplazar la parte fundamental de la carga de trabajo hacia la formalización de los conocimientos reseña de la manera en que podrían evolucionar las misiones de los profesionales de la información en el futuro.
1416 Perspectives Perspectives
1418 Est-ce à dire que nous touchons à l'âge d'or de l'information sur les réseaux ? Pas encore : un certain nombre de problèmes à la fois méthodologiques, techniques et organisationnels demeurent, et appellent à poursuivre les efforts. ¿Debe decirse que afectamos a la edad de oro de la información en las redes? No aún: una serie de problemas a la vez metodológicos, técnicos y organizativos permanecen, y llaman a proseguir los esfuerzos.
1420 1 1
1422 Par exemple, sur le Web, la notion de document est plus ou moins co-extensive à celle de page, ce qui dans beaucoup de cas n'est guère satisfaisant. On sait que tout traitement documentaire suppose la délimitation de l'unité documentaire à traiter, et il n'en ira pas différemment pour le recueil de méta-données. Il importe donc de réfléchir à cette question dans le cas du document numérique sur le réseau. Por ejemplo, en la Red, el concepto de documento es más o menos COEXTENSIVO a la de página, lo que en muchos casos es satisfactorio apenas. Se sabe que todo tratamiento documental supone la delimitación de la unidad documental que debe tratarse, y no irá diferentemente para la recopilación de metadatos. Es importante pues reflexionar sobre la esta cuestión en el caso del documento numérico en la red.
1424 Mais il faudra surtout, lors du passage à la pratique, en grandeur réelle, répondre au double défi que représentent la création et la mise en oeuvre des ontologies et la constitution des méta-données. Pero será necesario sobre todo, en el paso a la práctica, en tamaño real, responder al doble reto que representan la creación y la aplicación de las ontologías y la constitución de los metadatos.
1426 Les ontologies sont en théorie plus complètes, plus détaillées et plus complexes que les thésaurus, et risquent de se révéler encore plus ardues à confectionner et à maintenir. C'est pourquoi des éléments de méthodologie sont indispensables, et commencent à voir le jour. Bien que présentées initialement comme des instruments idéalement formels et raffinés, les ontologies "réelles" sont plus pragmatiquement le résultat de multiples compromis entre fonctionnalité et complexité. Il s'agit donc d'adapter leur niveau de détail à leurs visées opérationnelles, de concilier volume de concepts à représenter avec le maintien de la cohérence, et de garantir le degré de formalisation requis par les capacités des logiciels qui devront les utiliser. Au delà de la mise au point de méthodes pour créer les ontologies, l'ingénierie ontologique doit aussi se préoccuper de divers aspects relatifs à leur exploitation : ainsi, assurer l'interopérabilité de ressources hétérogènes nécessitera de fusionner différentes ontologies du même domaine ou de domaines connexes, en tenant compte de la multiplicité des points de vue possibles sur une même réalité. Las ontologías están en teoría más completos, más detallados y más complejos que el tesauro, y corren el riesgo de revelarse aún más difíciles a hacer y mantener. Esta es la razón por la que elementos de metodología son indispensables, y comienzan a realizarse. Aunque presentadas inicialmente como instrumentos idealmente formales y refinados, las ontologías "reales" son más pragmáticamente el resultado de múltiples compromisos entre funcionalidad y complejidad. Se trata pues de adaptar su nivel de detalle a sus objetivos operativos, de reconciliar volumen de conceptos que debe representarse con el mantenimiento de la coherencia, y de garantizar el grado de formalización requerido por las capacidades de los programas informáticos que deberán utilizarlos. Más allá de la puesta a punto método s para crear las ontologías, la ingeniería ontológica debe también preocuparse de distintos aspectos relativos a su explotación: así pues, garantizar la interoperatividad de recursos heterogéneos requerirá de fusionar distintas ontologías del mismo ámbito o ámbitos conexos, teniendo en cuenta la multiplicidad desde los puntos de vista posibles sobre una misma realidad.
1428 Le deuxième défi du passage à la pratique réside dans l'organisation du recueil des méta-données. Qui les constitue et à quel moment sont-elles créées ? Dans le modèle documentaire traditionnel, elles le sont a posteriori, par des experts de la description des contenus ; les promoteurs du Web Sémantique voient plutôt les méta-données comme sous-produit de l'activité de production d'information. Cette dernière hypothèse est viable tant que l'on se limite à un noyau conventionnel de méta-données, de type Dublin Core, ou dans le cas d'une information produite par l'institution qui l'utilisera ; elle est moins crédible dès lors que les usages de cette information ne sont pas connus à l'avance, et des scénarios intermédiaires de partage des tâches devront être imaginés. Quel que soit le scénario retenu, il est impératif de disposer d'outils de productivité, garantissant la cohérence syntaxique (les méta-données doivent respecter le formalisme voulu), et la pertinence sémantique (les valeurs choisies doivent figurer dans l'ontologie de référence et bien caractériser les objets décrits). Certains de ces outils existent déjà, mais demandent sans doute à être perfectionnés. El segundo reto del paso a la práctica reside en la organización de la recopilación de los metadatos. ¿Se crea quién los constituye y en qué momento? En el modelo documental tradicional, lo son a posteriori, por expertos de la descripción del contenido; los promotores de la Red Semántica ven más bien los metadatos como subproducto de la actividad de producción de información. Esta última hipótesis es viable mientras se se limite a un núcleo convencional de metadatos, de tipo Dublín Core, o en el caso de una información producida por la institución que lo utilizará; es menos creíble en cuanto los usos de esta información no se conocen de antemano, y situaciones intermedias de división de las tareas deberán imaginarse. Cualquiera que sea la situación elegida, es imprescindible disponer de herramientas de productividad, garantizando la coherencia sintáctica (los metadatos deben respetar el formalismo querido), y la pertinencia semántica (los valores elegidos deben figurar en la ontología de referencia y caracterizar bien los objetos descritos). Algunos de estas herramientas ya existen, pero piden seguramente mejorarse.
1430 Il ne fait guère de doute que les technologies de TAL, adaptées à ces diverses problématiques, pourront s'avérer un facteur crucial de réussite au moment de la mise en place d'applications de Web sémantique. Analyse discursive pour la découverte des structures et articulations logiques des documents, extraction de connaissances pour aider à constituer les ontologies, indexation intelligente pour automatiser la création des métadonnées : autant de domaines où les industries de la langue peuvent contribuer à la viabilité technique et économique du concept de Web sémantique. Apenas hace duda que las tecnologías de TAL, adaptadas a esta distinta problemática, podrán resultar un factor crucial de éxito en el momento de la instauración de aplicaciones de Red semántica. Análisis divagador para el descubrimiento de las estructuras y articulaciones lógicas de los documentos, extracción de conocimientos para ayudar a constituir las ontologías, ajuste inteligente para automatizar la creación de los metadatos: tantos ámbitos donde las industrias de la lengua pueden contribuir a la viabilidad técnica y económica del concepto de Red semántico.
1432 2 2
1434 Conclusion Conclusión
1436 Le fait que l'on puisse aujourd'hui parler des industries de la langue est la marque de leur maturité. Tirant ses sources des premières tentatives de formalisation de l'étude de la langue datant du début du XXème siècle, le traitement automatique des langues a évolué et continue d'évoluer, tant du côté de la recherche fondamentale ou appliquée, que de celui de sa réalisation industrielle. El hecho de que se pueda hoy hablar de las industrias de la lengua es la marca de su madurez. Extrayendo sus fuentes de las primeras tentativas de formalización del estudio de la lengua que databa del principio del Siglo XX siglo, el tratamiento automático de las lenguas evolucionó y sigue evolucionando, tanto del lado de la investigación fundamental o aplicada, como del de su realización industrial.
1438 Dans le domaine de la recherche, le traitement automatique des langues possède ses problématiques propres, ses écoles, ses procédures d'évaluation. Dans le domaine industriel, les industries de la langue fournissent des applications mises en oeuvre par des clients qui en tirent profit et en mesurent les retours sur investissement. On constate également que les technologies du traitement automatique des langues se banalisent et s'intègrent dans des applications et des produits grand public à mesure que la société de l'information avance. En el ámbito de la investigación, el tratamiento automático de las lenguas posee su problemática propia, sus escuelas, sus procedimientos de evaluación. En el ámbito industrial, las industrias de la lengua proporcionan aplicaciones aplicadas por clientes que sacan provecho y miden las vueltas sobre inversión. Se constata también que las tecnolog ías del tratamiento automático de las lenguas se trivializan y se integran en aplicaciones y productos grande público a medida que la sociedad de la información avance.
1440 Issues des laboratoires, allant au-delà même de leurs domaines d'application, les industries de la langue se sont adaptées aux standards existants autour de l'information et ont également contribué à les définir. Salidas de los laboratorios, yendo más allá incluso de sus ámbitos de aplicación, las industrias de la lengua se adaptaron a las normas existentes alrededor de la información y contribuyeron también a definirlos.
1442 Ainsi, le Web Sémantique souligne la nécessité de prendre en compte l'organisation liée au contenu des documents. Ce projet ambitieux visant à l'interopérabilité des contenus, comme Internet visait à garantir la diffusion des documents, représente une nouvelle opportunité pour les industries de la langue, qui en sont partie intégrante. Así pues, la Red Semántica destaca la necesidad de tener en cuenta la organización vinculada al contenido de los documentos. Este proyecto ambicioso sobre interoperatividad del contenido, como Internet tenía por objeto garantizar la difusión de los documentos, representa una nueva oportunidad para las industrias de la lengua, que fue integral.
1444 La multi-culturalité et le multilinguisme des personnes, des entreprises et de leurs échanges, la multiplication des langues sur Internet, et la part décroissante de l'anglais dans les documents disponibles, rendent encore davantage nécessaire le recours aux industries de la langue. El multi-culturalité y el multilingüismo de las personas, de las empresas y sus intercambios, la multiplicación de las lenguas en Internet, y la parte decreciente del inglés en los documentos disponibles, hacen aún más necesario el recurso a las industrias de la lengua.
1446 Si, comme le rappelle l'introduction, les industries de la lange ont aujourd'hui l'âge de raison, elles entrent désormais dans leur maturité et comme le dit Bill Waterson : "L'enfance est courte, la maturité infinie." Si, como lo recuerda la introducción , las industrias de ponen los panales tienen hoy la edad del juicio, entran en adelante en su madurez y como el dice Bill Waterson: "la infancia es corta, la madurez infinita."
1448 3 3
1450 Contacts Contactos
1452 Les Auteurs Los Autores
1454 Alain Couillault : Alain Couillault:
1456 Docteur en Sciences du Langage, mention Linguistique et Informatique de l'Université de Clermont-Ferrand. Il a été successivement Directeur de Projets et Directeur de Produits chez LexiQuest et Albert Inc SA, sociétés éditrices de logiciels utilisant les technologies linguistiques. Il est cofondateur, premier président et président d'honneur de l'APIL. Il est également co-fondateur d'Isade, société de conseil en gestion de l'information (www.isade.com). Doctor en Ciencias de la Lengua, mención Lingüística e Informática de la Universidad de Clermont-Ferrand. Fue sucesivamente Director de Proyectos y Director de Productos en LexiQuest y Albert Inc SA, sociedades redactoras de programas informáticos utilizando las tecnologías lingüísticas. Ha cofundador, primer Presidente y preside de honor del APIL. Ha cofundador también de Isade, sociedad de consejo en gestión de la información (www.isade.com).
1458 Eric Debonne : Eric Debonne:
1460 Titulaire du DESS Informatique et Intelligence Artificielle de Luminy, il a été Responsable Service et Directeur avant vente Europe LexiQuest, Solution linguistique d'accès à l'information, et consultant méthodologie Objet durant 3 ans. Il est actuellement Consultant formateur Indépendant (société Solaci). Expert moteur de recherche Intranet et Veille Internet, il a 10 ans d'expérience dans le conseil et l'accompagnement de projets d'entreprises. Titulaire du DESS Inform atique et Intelligence Artificielle de Luminy, il a été Responsable Service et Directeur avant vente Europe LexiQuest, Solution linguistique d'accès à l'information, et consultant méthodologie Objet durant 3 ans. Es actualmente Asesor formativo Independiente (sociedad Solaci). Experto motriz de investigación Red interna y de Víspera Internet, tiene 10 años de experiencia en el consejo y el acompañamiento de proyectos de empresas.
1462 Gil Francopoulo : Gil Francopoulo:
1464 Docteur en mathématiques appliquées de l'Université Paris VI (Jussieu). Il a travaillé une vingtaine d'années dans le TAL chez divers éditeurs. Actuellement, il est directeur de Tagmatica. Après avoir été dans les années 90 l'un des auteurs du modèle de dictionnaire GENELEX, il est maintenant l'éditeur international de la norme ISO dédiée aux dictionnaires électroniques. De plus, il anime la gestion du registre de catégories de données de la morphologie et syntaxe dans le cadre de l'ISO-12620. Doctor en matemáticas aplicadas de la Universidad París VI (Jussieu). Il a travaillé une vingtaine d'années dans le TAL chez divers éditeurs. Actualmente, es director de Tagmatica. Después de haber estado en los años 90 uno de los autores del modelo de diccionario GENELEX, es ahora el editor internacional de la norma ISO dedicada a los diccionarios electrónicos. Además, anima la gestión del registro de categorías de datos de la morfología y sintaxis en el marco del ISO-12620.
1466 Alain Garnier : Alain Garnier:
1468 Ingénieur diplômé de l'IIE, il finalise au sein d'Erli (SPSS-Lexiquest) ses travaux de recherche sur "les systèmes sémantiques d'extraction automatique". Il rejoint ensuite EDS à Dallas, puis Madicia. Il fonde Arisem en 1996, éditeur de logiciel spécialisé dans le traitement de l'information sémantique où il occupe depuis lors le poste de CTO. El ingeniero graduado del IIE, termina en Erli (Spss-Lexiquest) sus labores de investigación sobre "los sistemas semánticos de extracción automática". Se incorpora a a continuación EDS en Dallas, luego Madicia. Se funda a Arisem en 1996, a editor de programa informático especializado en el tratamiento de la información semántica donde ocupa desde entonces el puesto de CTO.
1470 Fabienne Gire : Fabienne Gire:
1472 Diplômée en anglais et en Sciences du Langage, elle est titulaire du DESS ILSI (Ingénierie de la Langue et Société de l'Information) de Paris IV Sorbonne et du DEA Linguistique, Logique et Informatique de l'Université de Clermont Ferrand. Elle a travaillé plusieurs années dans la formation avant d'intégrer le monde du TAL chez un éditeur de logiciels Text Mining, et occupe actuellement le poste de consultante linguiste (responsable du département linguistique) chez KOLTECH, éditeur de Solutions pour les Ressources Humaines. Graduada en inglés y en Ciencias de la Lengua, es titular del DESS ILSI (Ingeniería de la Lengua y Sociedad de la Información) de París IV Sorbona y del DEA Lingüístico, Lógica e Informática de la Universidad de Clermont Ferrand. Ha trabajado varios años en la formación antes de integrar el mundo del TAL en un editor de programas informáticos Text Mining, y ocupa actualmente el puesto de consultando a lingüista (responsable del departamento lingüístico) en KOLTECH, editor de Soluciones para los Recursos Humanos.
1474 4 4
1476 Sylvie Guillemin-Lanne : Sylvie Guillemin-Lanne:
1478 Licenciée en russe (INALCO), elle a obtenu à Paris VII une maîtrise en linguistique & informatique, puis un DEA de linguistique formelle. Elle a travaillé successivement chez IBM France (Centre scientifique et Département des logiciels de communication en français), puis chez IBM US, au Centre de recherche TJ Watson. Actuellement, elle est Project Manager au sein de TEMIS, éditeur de logiciels en text mining, où elle assume la fonction de chef de projet clients. Despedida en ruso (INALCO), obtuvo en París VII un control en lingüística y informática, luego un DEA de lingüística formal. Trabajó sucesivamente en IBM Francia (Centro científico y Departamento de los programas informáticos de comunicación en francés), luego en IBM US, en el Centro de investigación TJ Watson. Actualmente, es Project Jefe en TEMIS, editor de programas informáticos en text mining, dónde asume la función de jefe de proyecto clientes.
1480 Par ailleurs, elle intervient dans différentes cursus de DESS (Institut des Sciences Humaines Appliquées à la Sorbonne, Université de Poitiers) ou Mastère (Faculté d'histoire de la Sorbonne Nouvelle). Vice-présidente de l'APIL. Por otra parte, se produce en distintos cursos de DESS (Instituto de las Ciencias Humano Aplicar a la Sorbona, Universidad de Poitiers) o Mastère (Facultad de historia de la Sorbona Nuevo). Vicepresidenta del APIL.
1482 Claude de Loupy : Claude de Loupy:
1484 Ingénieur et docteur en informatique. Spécialisé dans les moteurs de recherche, l'utilisation de connaissances et de traitements linguistique en gestion de l'information. Ingeniero y doctor en informática. Especializado en los motores de investigación, la utilización de conocimientos y tratamientos lingüística en gestión de la información.
1486 Il a été successivement Ingénieur d'études au CNRS (dans le cadre du projet européen MulText), Ingénieur de Recherche chez Bertin Technologies, puis ATER à l'Université d'Avignon et des Pays de Vaucluse, rattaché au Laboratoire Informatique d'Avignon. Fue un sucesivamente Ingeniero de estudios al CNRS (en el marco del proyecto europeo MulText), Ingeniero de Investigación en Bertin Technologies, luego ATER a la Universidad de Aviñón y los Países de Vaucluse, adjunto al Laboratorio Informático de Aviñón.
1488 Il est actuellement Responsable Recherche chez Sinequa et Maître de Conférence Associé à l'Université de Paris 10. Hugues de Mazancourt : Ha actualmente Responsable Investigación en Sinequa y Maître de Conferencia Asociado a la Universidad de París 10. Hugues de Mazancourt:
1490 Président de l'APIL depuis Avril 2004. Directeur technique et co-fondateur de Lingway en 2001. 39 ans, ingénieur ENSTA, DEA Paris 1989. Expert en Traitement Automatique du Langage Naturel et développement logiciel. A ERLI, puis LexiQuest et maintenant à Lingway, il a coordonné les équipes de développement de parsers, de dictionnaires et de grammaires et a participé à la majorité des méthodes et moteurs linguistiques développés à l'occasion de grands projets comme Genelex, Graal ou le 3611. Presidente del APIL desde abril de 2004. Director técnico y cofundador de Lingway en 2001. 39 años, ingeniero ENSTA, DEA París 1989. Experto en Tratamiento Automático del Lenguaje Natural y desarrollo informático. A ERLI, luego LexiQuest y manteniendo a Lingway, coordinó a los equipos de desarrollo de parsers, diccionarios y gramáticas y participó por mayoría de los métodos y motores lingüísticos desarrollados con motivo de grandes proyectos como Genelex, Graal o el 3611.
1492 Guillaume Mazieres : Barbilla Mazieres:
1494 Vice-président pour les Ventes et le Marketing de TEMIS, éditeur européen de technologies de Text Mining, qu'il a rejoint en 2001 après 8 ans à l'étranger chez le fabricant de solutions de stockage de données LaCie. Après des débuts à Londres en tant qu'Account Manager sur le marché des grands comptes Anglais pendant 2 ans, Guillaume Mazieres prend la direction commerciale puis la direction générale de LaCie Espagne, à Madrid. Il est ensuite nommé à la tête de la filiale canadienne à Toronto, qu'il dirigera pendant 2 exercices, avant de rejoindre le siège social USA à Portland, Oregon, au poste de Vice-Président des Ventes et du Marketing pour l'Amérique du Nord. Vicepresidente para las Ventas y la Comercialización de TEMIS, editor europeo de tecnologías de Text Mining, que juntó en 2001 después de 8 años en el extranjero en el fabricante de soluciones de almacenamiento de datos LaCie. Después de principios en Londres en tanto como Account Jefe en el mercado de las grandes cuentas Inglesas durante 2 años, Barbilla Mazieres toma la dirección comercial luego la dirección general de LaCie España, en Madrid. Se nombra a continuación a la cabeza de la filial canadiense en Toronto, que dirigirá durante 2 ejercicios, antes de incorporarse al domicilio social los EE.UU a Cemento Portland, a Oregon, al puesto de Vicepresidente de las Ventas y de la Comercialización para Norteamérica.
1496 Bruno Menon : Bruno Menon:
1498 Diplômé en Lettres et en Sciences du Langage, et titulaire du DESS de Sciences de l'information et de la documentation (Institut d'études politiques de Paris). Après un passage au centre de documentation contemporaine de Sciences-Po, il rejoint ERLI / LexiQuest, où il contribue à la conception des applications comme des outils et ressources linguistiques. Il a également participé à plusieurs grands projets européens (Genelex, Graal, Transterm). Il intervient dans différents cursus de formation initiale ou continue en TAL et en Gestion des connaissances (Sciences-Po, Poitiers, Paris X, ADBS). Licenciado en Cartas y en Ciencias de la Lengua, y titular del DESS de Ciencias de la información y la documentación (Instituto de estudios políticos de París). Después de un paso al centro de documentación contemporánea de Ciencias-Po, se incorpora a ERLI/LexiQuest, donde contribuye a la concepción de las aplicaciones como las herramientas y recursos lingüísticos. Participó también en varios grandes proyectos europeos (Genelex, Graal, Transterm). Se produce en distintos cursos de formación inicial o continua en TAL y en Gestión de los conocimientos (Ciencias-Po, Poitiers, París X, ADBS).
1500
1501 1 Cette section reprend largement l'étude Technologies de la langue en Europe : marché et tendances réalisée par le Bureau Van Dijk, à la demande du Ministère de la recherche dans le cadre du programme Technolangue et disponible en ligne sur le site www.technolangue.net. 1 Esta sección reanuda ampliamente el estudio Tecnologías de la lengua en Europa: mercado y tendencias realizada por la Oficina Van Dijk, a petición del Ministerio de Investigación en el marco del programa Technolangue y disponible en línea sobre el sitio www.technolangue.net.