La evaluación del trabajo científico: algunas reflexiones. · [Evidence Report 2007, p. 3]...
Transcript of La evaluación del trabajo científico: algunas reflexiones. · [Evidence Report 2007, p. 3]...
José Antonio de la Peña
Centro de Investigación en Matemáticas
Instituto de Matemáticas, UNAM
Enero 2014
Todo debe hacerse tan simple como sea posible, pero no más fácil. Albert Einstein.
La evaluación del trabajo científico:
algunas reflexiones.
Ante la necesidad (de las instituciones, el gobierno o la
sociedad) de evaluar el trabajo científico, tanto el
individual, como el de instituciones y aún el
desempeño de las naciones, se han considerado
gran número de criterios que pretenden entre otras
cosas:
tener validez universal (tanto geográfica, como
temáticamente);
ser objetivos;
ser sencillos de medir;
determinar, en lo posible, la calidad del trabajo.
La práctica de la evaluación
Las prácticas de evaluación del trabajo científico,
generalizadas en nuestros días, tienen una historia
reciente que responde no sólo a necesidades propias
del mundo académico, sino a cambios conceptuales
de carácter político, económico y social.
Dos desarrollos en las prácticas de evaluación del
trabajo académico, tanto en el orden individual como
en el institucional y aún en el orden nacional, son de
particular importancia en este contexto: la evaluación
por pares y la creciente exigencia social por la
rendición de cuentas.
Algo de historia.
El sistema de evaluación por pares fue desarrollado
por fundaciones filantrópicas en los Estados Unidos
antes de la Segunda Guerra Mundial y adoptado
ampliamente para la evaluación de artículos para
revistas y de proyectos sujetos a consideración de
agencias científicas.
Está basado en la idea que los científicos son los más
calificados para evaluar los proyectos de otros
científicos. Antes de los años 50’s del siglo XX, su
aplicación era opcional.
Los artículos revolucionarios de Albert Einstein en el
número de 1905 de Annalen der Physik no fueron
arbitrados. El de Watson y Crick en 1951 tampoco.
Importancia de los índices de citación.
Para evaluar personas, revistas, facultades, países se ha vuelto importante el conocimiento de indicadores de citación:
Número de citas;
Factor de impacto;
Número h
y otros indicadores.
Todos son herramientas útiles para entender mejor el desempeño académico de la entidad estudiada.
SCImago
documents citations Citations per
doc.
h-index
United States 4.307.536 72.315.171 17,29 1.023
United Kingdom 1.242.464 17.140.454 14,78 619
Japan 1.220.415 11.953.831 10,12 480
China 1.217.169 3.969.504 4,61 237
Germany 1.132.583 14.435.211 13,46 542
France 822.978 9.987.207 12,88 497
Canada 628.843 8.371.847 14,84 483
Italy 608.338 6.809.577 12,29 432
Spain 448.240 4.373.765 11,07 338
Russian
Federation 405.278 1.778.817 4,42
Producción científica latinoamericana
Country Docs.Citable Docs.
Cites Self-CitesCites per Doc.
1 Brazil 11.776 11.695 43.909 17.761 4,61
2 Mexico 5.447 5.414 17.479 5.986 4,04
3 Argentina 3.223 3.206 15.245 4.568 5,31
4 Chile 2.352 2.332 8.688 2.495 5,38
5 Venezuela 971 967 2.921 695 3,36
6 Colombia 603 599 2.059 366 4,84
7 Cuba 333 333 672 242 3,04
8 Uruguay 319 318 1.360 235 4,84
9 Puerto Rico 293 293 1.108 198 4,06
10 Peru 58 58 248 137 5,39
11 Costa Rica 58 57 236 53 4,70
Fuente: SCImago
Indicadores 1996-2007
¿Qué tan lejos ir en el uso de los índices?
It is the Government’s intention that the current
method for determining the quality of university
research—the UK Research Assessment Exercise
(RAE)—should be replaced after the next cycle is
completed in 2008. Metrics, rather than peer‐review,
will be the focus of the new system and it is
expected that bibliometrics (using counts of journal
articles and their citations) will be a central quality
index in this system. [Evidence Report 2007, p. 3]
Estudio sobre los índices de citación.
Joint IMU/ICIAM/IMS‐Committee on Quantitative Assessment of Research
Robert Adler, Technion–Israel Institute of Technology
John Ewing (Chair), American Mathematical Society
Peter Taylor, University of Melbourne
Del encargo:
The drive towards more transparency and accountability in the academic world has created a "culture of numbers" in which institutions and individuals believe that fair decisions can be reached by algorithmic evaluation of some statistical data; unable to measure quality (the ultimate goal), decision‐makers replace quality by numbers that they can measure. This trend calls for comment from those who professionally “deal with numbers”— mathematicians and statisticians.
¿Contar el número de artículos?
Probablemente el más simple de los índices de este tipo es
el número de artículos científicos. Sin entrar en una
discusión de las múltiples debilidades de este indicador,
señalaremos algunos puntos casi evidentes:
este índice ignora la corrección, la importancia, la
originalidad o la calidad de los artículos publicados;
muchos científicos notables han publicado un número
reducido de artículos; por ejemplo, uno de los más
grandes matemáticos del siglo XX, Kurt Gödel sólo
publicó 3 artículos formales a lo largo de su vida;
según algunos autores, la evaluación por medio de este
indicador promueve la publicación de resultados
insignificantes, repetitivos o inacabados.
Disciplina
p.10
mejores
/p. EUA
artículos/
investigador
/año
(promedio de
5 años)
citas en
un
periodo
de 5 años
graduados/
investigador
/ año
estudiantes
atendidos/
investigador/ año
duración del
doctora-do (años)
Ingeniería Electrica p10 2.6 55 0.8 8.7 6.9
Ingeniería Eléctrica pEUA 1 14 0.4 3.6 7.8
Matemáticas p10 1.1 17.3 0.3 2.2 6.8
Matemáticas pEUA 0.7 6.7 0.15 1.5 8.1
Materiales p10 4.7 111 0.5 3.3 7
Materiales pEUA 2.4 48 0.4 2.5 7.6
Oceanografía y
Biología Marina p8 1.4 45 0.22 2.2 8.7
Oceanografía y
Biología Marina pEUA 1.1 24 0.18 1.8 9.3
Química p10 3.9 147 1 6.3 6.2
Química pEUA 2.1 56 0.5 4.2 7
Sociología p10 0.7 12.6 0.3 3.6 9.7
Sociologia pEUA 0.4 5.5 0.2 2.5 11.4
Referencias:
Research-Doctorate Programs in the United States: Continuity
and Change
National Research Council y National Academy of Sciences
publicado en 1995
Número de citas ¿un buen indicador?
A cita a B: A B
Juan 1
¿quién es mejor? Juan 2 B o Einstein B
Juan 3
Juan 4
c 1
b 1 c 2 b 1
o simplemente: b 2 a o bien c 3 a
° ° ° c 4 b 2
b 6 c 5
Número de citas ¿un buen indicador?
El factor de impacto vs la importancia de un
artículo. The impact factor is often misused to predict the
importance of an individual publication based on
where it was published. This does not work well since
a small number of publications are cited much more
than the majority - for example, about 90% of Nature's
2004 impact factor was based on only a quarter of its
publications, and thus the importance of any one
publication will be different and on the average less
than the overall number. The impact factor, however,
averages over all articles and thus underestimates the
citations of the top cited while exaggerating the
number of citations of the average publication.
Definición del índice de impacto de una revista. El número de citas promedio (en cualquier revista) de los
artículos publicados en los dos años previos en la revista dada.
¿Qué mide el factor de impacto?
PAMS tiene índice de impacto (en 2004) de 0.434 y
TAMS tiene 0.836. ¿Cuál es la probabilidad de que
mi artículo en TAMS reúna más citas que mi artículo
en PAMS, ambos escritos en 2004?
Sólo 38 % de probabilidades! ¿Porqué?
¿Qué mide el número h?
Por definición h es el número máximo i de artículos que tienen al
menos i citas.
En el artículo dónde definió el número h,
Hirsch dice que el índice “da una
estimación del impacto acumulado de
las contribuciones del científico”.
No se da ningún argumento sobre el
significado del índice, pero es fácil
construir ejemplos que muestran un
comportamiento errático del índice.
A B
Artículos 2 100
Citas 2 c/u 1 c/u
h 2 1
Dos papers en Nature (2006 y 2008)
Compared with the h-index, the mean
number of citations per paper is a superior
indicator of scientific quality, in terms of
both accuracy and precision. The average
assignment of each n-bin is in error by 1.8
percentile points with an associated rms
uncertainty of 9. Similar calculations based
on authors' median citation give an
accuracy of 1.5 and an uncertainty of only
7 percentile points, suggesting that the
median copes better with long-tailed
distributions.
La distribución de citas por número
de papers es igual para cada disciplina
si se normaliza por el número medio de
artículos x investigador. Lo mismo pasa
para el número h.
Sune Lehmann1, Andrew D. Jackson2 & Benny E. Lautrup2
Measures for measures Nature 444 (2006)
Here we use data from the theory section of the SPIRES
database in high-energy physics, which has the requisite
homogeneity. Within this database, the probability
that a paper will receive k citations falls slowly with increasing k
and is described by a power-law distribution, a/kb with b = 2.8,
for large k.
This long-tailed distribution has a number of consequences.
About 50% of all papers have two or fewer citations; the average
number of citations is 12.6. The top 4.3% of papers produces
50% of all citations whereas the bottom 50% of papers yields
just 2.1% of all citations. Measuring an author's mean or median
citation count per paper probe different aspects of their full
citation record: which is better?
Nature 444 (2006)
We analyse three measures of author quality: mean number of citations per
paper, number of papers published per year, and the Hirsch index. A scientist
is said to have Hirsch index h if h of their total, N, papers have at least h
citations each, and the remaining (N-h) papers have fewer than h citations1.
For this study, we adopt Hirsch's assumption that h divided by N "should
provide a useful yardstick". To calibrate our results, we also consider an
obviously meaningless measure; we rank authors alphabetically by name
Impact factors are widely used to introduce a citation measure into calculations
of publication frequency. But the citation rate for individual papers is largely
uncorrelated to the impact factor of the journal in which it was published. The
widespread use of publication frequency — with or without an impact factor — is
disturbing and requires further study
An alphabetical ranking of authors contains no information regarding scientific
quality, and so every author is assigned to every decile with equal probability. The
resulting root-mean-square (rms) uncertainty in author assignment thus
has the maximum value of 29 percentile points. One of the most widely used
measures of scientific quality is the average number of papers published by an
author per year This measure has a similar rms variation to alphabetization.
Nature 444 (2006)
A perfect measure of author quality would place all weight in the diagonal
entries of a plot of m versus n. The better the measure, the more weight
will be found in the diagonal boxes. Figure 1 reveals that both accuracy
and certainty are sensitive to the choice of indicator
Número de citas por area ¿qué es?
A B
A cita a B = B es citado por A
Coathorship networks.
Using the Thompson Reuters Web of Science, it was constructed the
CRI co-author network for 2008.
0k
ii
k
ki cEE A
i
kii
k
nodeat ending) (and
starting length of CWs ofnumber A
iik
ii
k
i ek
EE AA
0 !!
1
kck
jeiEEn
j
ji
2
1
n
j
jeGEE1
)(
Then the measure
accounts for the difference between the perturbations absorbed by a pair
of nodes in a network and that transmitted between them.
In matrix form
The communicability matrix.
Joint work with Ernesto Estrada
The self-communicability function, also known as the subgraph centrality
of a node, is given by
.
where for P= eA and 1 is a vector of ones.
2T T C s1 1s P
diags P
2
1
( ) j
n
pp j
j
G p e
2pq pp qq pqG G G
Illustration of the differences between the shortest path and q-
communicability distances for the airport transportation network in USA.
The shortest path connecting Youngstow to Elko is marked in blue,
while that using the communicability distance is marked in red. The
major hub in these routes is the airport of Dallas/Fort Worth, which is
depicted with a larger radius in the figure.
Referencias:……………………………………………
Evolution of the social network of scientific collaborations
A.L. Barabasi1,2, H. Jeong1, Z. Neda 1,2,∗, E. Ravasz1, A. Schubert3, T.
Vicsek 2,4
1Department of Physics, University of Notre Dame, Notre Dame, IN 46556, USA
2 Collegium Budapest, Institute of Advanced Study, Budapest, Hungary
3 Bibliometric Service, Library of the Hungarian Academy of Sciences, Budapest, Hungary
4Department of Biological Physics, E¨otv¨os Lor´and University, Budapest, Hungary
On the impact of scientific publications.
J. Informetrics vol 5 No.1 (2011). José A, de la Peña
Communicability distance in graphs
E. Estrada and J.A. de la Peña
¿Hay alternativas? ¿Porqué no se cambia?
Evaluar solo algunos
productos
Evaluarlos menos
frecuentemente
Usar otros indicadores
(más sofisticados)
Resistencia de las
comisiones
Resistencia de la
burocracia
Es más caro medir.
Conclusión (como el estudio de IMU)
We do not argue with the effort to evaluate research but
rather with the demand that such evaluations rely
predominantly on "simple and objective" citation‐based
metrics …Citation‐based statistics can play a role in the
assessment of research, provided they are used properly,
interpreted with caution, and make up only part of the
process.
The lure of a simple process and simple numbers
(preferably a single number) seems to overcome common
sense and good judgment. …The sole reliance on citation
data provides at best an incomplete and often shallow
understanding of research—an understanding that is valid
only when reinforced by other judgments. Numbers are not
inherently superior to sound judgments.
Gracias!
José Antonio de la Peña
Todo debe hacerse tan simple como sea posible, pero no más fácil. Albert Einstein.