Cahier 2012-29

Titre :	Comment tuer les inventeurs: une Ã©valuation de lâAlgorithme MassacratorÂ© pour dÃ©sambiguÃ¯ser les inventeurs
Résumé :	La dÃ©sambiguÃ¯sation de noms des inventeurs est un problÃšme de plus en plus important pour les utilisateurs de donnÃ©es de brevets. Nous proposons et testons un certain nombre d'amÃ©liorations Ã l'algorithme Massacrator Â©, proposÃ© initialement par Lissoni et al. (2006) et maintenant appliquÃ© Ã APE-INV, une base de donnÃ©es en accÃšs libre soutenue par lâEuropean Science Foundation. D'aprÃšs Raffo et Lhuillery (2009), nous dÃ©crivons la dÃ©sambiguÃ¯sation comme un processus en 3 Ã©tapes: nettoyage et analyse, sÃ©lection et filtrage. Par le biais d'une analyse de sensibilitÃ©, basÃ©e sur des simulations MonteCarlo, nous montrons comment divers critÃšres de filtrage peuvent Ãªtre manipulÃ©s afin d'obtenir des combinaisons optimales de prÃ©cision et de recall (type I et type II des erreurs). Nous montrons aussi comment ces combinaisons diffÃ©rentes produisent des rÃ©sultats diffÃ©rents, plus ou moins fiables en fonction des applications prÃ©vues (Ã©tudes sur la productivitÃ©, la mobilitÃ© ou les rÃ©seaux des inventeurs). Les critÃšres de filtrage basÃ©s sur les informations sur les adresses des inventeurs sont sensibles Ã la qualitÃ© des donnÃ©es, alors que celles fondÃ©es sur l'information sur les rÃ©seaux de co-inventeurs sont toujours efficaces. Des dÃ©tails sur l'accÃšs aux donnÃ©es et sur la collecte des retours d'information par les utilisateurs (ayant pour but l'amÃ©lioration de la qualitÃ© des donnÃ©es) sont Ã©galement discutÃ©s.
Mot(s) clé :	donnÃ©es de brevets, inventeurs, dÃ©sambiguÃ¯sation de noms
Title:	How To Kill Inventors: Testing The MassacratorÂ© Algorithm For Inventor Disambiguation
Abstract:	Inventor disambiguation is an increasingly important issue for users of patent data. We propose and test a number of refinements to the MassacratorÂ© algorithm, originally proposed by Lissoni et al. (2006) and now applied to APE-INV, a free access database funded by the European Science Foundation. Following Raffo and Lhuillery (2009) we describe disambiguation as a 3-step process: cleaning&parsing, matching, and filtering. By means of sensitivity analysis, based on MonteCarlo simulations, we show how various filtering criteria can be manipulated in order to obtain optimal combinations of precision and recall (type I and type II errors). We also show how these different combinations generate different results for applications to studies on inventors' productivity, mobility, and networking. The filtering criteria based upon information on inventors' addresses are sensitive to data quality, while those based upon information on co-inventorship networks are always effective. Details on data access and data quality improvement via feedback collection are also discussed.
Keyword(s):	patent data, inventors, name disambiguation
Auteur(s) :	Michele PEZZONI (University of Milano-Bicocca - KiTES-UniversitÃ Bocconi - Observatoire des Sciences et des Techniques), Francesco LISSONI (GREThA, CNRS, UMR 5113 - KiTES), Gianluca TARASCONI (KiTES, UniversitÃ Bocconi)
JEL Class.:	C15, C81, O34
Télécharger le cahier Retour à la liste des Cahier du GRETHA (2012)