Problema de especies invisibles

El problema de las especies no observadas en ecología se ocupa de la estimación del número de especies representadas en un ecosistema que no fueron observadas por las muestras. Se relaciona más específicamente con cuántas especies nuevas se descubrirían si se tomaran más muestras en un ecosistema. El estudio del problema de las especies no observadas comenzó a principios de la década de 1940, por Alexander Steven Corbet . Pasó dos años en la Malasia británica atrapando mariposas y tenía curiosidad por saber cuántas especies nuevas descubriría si pasaba otros dos años atrapando. Se han desarrollado muchos métodos de estimación diferentes para determinar cuántas especies nuevas se descubrirían con más muestras.

El problema de las especies no observadas también se aplica de manera más amplia, ya que los estimadores se pueden utilizar para estimar cualquier elemento nuevo de un conjunto que no se haya encontrado previamente en las muestras. Un ejemplo de esto es determinar cuántas palabras conocía William Shakespeare basándose en todas sus obras escritas. ^[1]

El problema de las especies invisibles se puede desglosar matemáticamente de la siguiente manera: si se toman muestras independientes , y luego si se tomaron más muestras independientes, la cantidad de especies invisibles que se descubrirán con las muestras adicionales está dada por siendo el segundo conjunto de muestras. ${\estilo de visualización n}$ $X^{n}\triánguloq X_{1},\ldots ,X_{n}$ ${\estilo de visualización m}$ $U\triangleq U(X^{n},X_{n+1}^{m+n})\triangleq \izquierda|\{X_{n+1}^{m+n}\}\setminus \{X^{n}\}\derecha|,$ $X_{n+1}^{m+n}\triangleq X_{n+1},\ldots ,X_{n+m}$ $m$

Historia

A principios de la década de 1940, Alexander Steven Corbet pasó dos años en la Malasia británica atrapando mariposas. ^[2] Llevó un registro de cuántas especies observó y cuántos miembros de cada especie capturó. Por ejemplo, había 74 especies diferentes de las cuales capturó solo 2 mariposas individuales.

Cuando Corbet regresó al Reino Unido, se acercó al bioestadístico Ronald Fisher y le preguntó cuántas especies nuevas de mariposas podría esperar capturar si seguía cazando durante otros dos años; ^[3] en esencia, Corbet estaba preguntando cuántas especies observó cero veces.

Fisher respondió con una estimación simple: por dos años adicionales de captura, Corbet podría esperar capturar 75 nuevas especies. Lo hizo usando una suma simple (datos proporcionados por Orlitsky ^[3] en la tabla del Ejemplo a continuación: Aquí corresponde al número de especies individuales que se observaron veces. La suma de Fisher fue confirmada posteriormente por Good–Toulmin. ^[2] $U=\sum _{i=1}^{n}(-1)^{i+1}\varphi _{i}=118-74+44-24+\cdots -12+6=75.$ $\varphi _{i}$ $i$

Estimadores

Para estimar la cantidad de especies no observadas, sea la cantidad de muestras futuras ( ) dividida por la cantidad de muestras pasadas ( ), o sea . Sea la cantidad de especies individuales observadas veces (por ejemplo, si hubiera 74 especies de mariposas con 2 miembros observados en todas las muestras, entonces ). $t\triangleq m/n$ $m$ $n$ $m=tn$ $\varphi _{i}$ $i$ $\varphi _{2}=74$

Estimador de Good-Toulmin

El estimador de Good-Toulmin (GT) fue desarrollado por Good y Toulmin en 1953. ^[4] La estimación de las especies no vistas basada en el estimador de Good-Toulmin está dada por Se ha demostrado que el estimador de Good-Toulmin es una buena estimación para valores de El estimador de Good-Toulmin también satisface aproximadamente Esto significa que las estimaciones con un margen de error de hasta $U^{\text{GT}}\triangleq U^{\text{GT}}(X^{n},t)\triangleq \sum _{i=1}^{\infty }(-t)^{i+1}\varphi _{i}.$ $t\leq 1.$ $\operatorname {\mathbb {E} } (U^{\text{GT}}-U)^{2}\lesssim nt^{2}.$ $U^{\text{GT}}$ $U$ ${\sqrt {n}}\cdot t,$ $t\leq 1.$

Sin embargo, para , el estimador de Good-Toulmin no logra capturar resultados precisos. Esto se debe a que, si aumenta en para con lo que significa que si crece de manera superlineal en pero puede crecer como máximo de manera lineal con Por lo tanto, cuando crece más rápido que y no se aproxima al valor verdadero. ^[3] $t>1,$ $t>1,$ $U^{\text{GT}}$ $(-t)^{i}\varphi _{i}$ $i$ $\varphi _{i}>0,$ $\varphi _{i}>0,$ $U^{\text{GT}}$ $t,$ $U$ $t.$ $t>1,$ $U^{\text{GT}}$ $U$

Para compensar esto, Efron y Thisted en 1976 ^[1] demostraron que una transformada de Euler truncada también puede ser una estimación utilizable ( la estimación "ET"): donde y donde es la ubicación elegida para truncar la transformada de Euler. $U^{\text{ET}}\triangleq \sum _{i=1}^{n}h_{h}^{\text{ET}}\cdot \varphi _{i},$ $h_{i}^{\text{ET}}\triangleq (-t)^{i+1}\cdot \mathbb {P} (X\geq i),$ $X\sim \operatorname {Bin} \left(k,{\frac {1}{1+t}}\right),$ $\mathbb {P} (X\geq i)={\begin{cases}\displaystyle \sum _{j=i}^{k}{\binom {k}{j}}{\frac {t^{k-j}}{(1+t)^{k}}}&{\text{ for }}i\leq k,\\0&{\text{ for }}i>k,\end{cases}}$ $k$

Estimador suavizado de Good-Toulmin

Similar al enfoque de Efron y Thisted, Alon Orlitsky , Ananda Theertha Suresh y Yihong Wu desarrollaron el estimador suave de Good-Toulmin. Se dieron cuenta de que el estimador de Good-Toulmin falló debido al crecimiento exponencial, y no a su sesgo. ^[3] Por lo tanto, estimaron el número de especies no vistas truncando la serie Orlitsky, Suresh y Wu también notaron que para distribuciones con , el término impulsor en la estimación de la suma es el término , independientemente del valor de que se elija. ^[2] Para resolver esto, seleccionaron un entero no negativo aleatorio , truncaron la serie en y luego tomaron el promedio sobre una distribución sobre . ^[3] El estimador resultante es Este método fue elegido porque el sesgo de cambia de signo debido al coeficiente. Promediar sobre una distribución de por lo tanto reduce el sesgo. Esto significa que el estimador puede escribirse como la combinación lineal de la prevalencia: ^[2] Dependiendo de la distribución de elegida, los resultados variarán. Con este método se pueden hacer estimaciones para , y ésta es la mejor posible. ^[3] $U^{l}\triangleq -\sum _{i=1}^{l}(-t)^{i}\varphi _{i}.$ $t>1$ $l-{\text{th}}$ $l$ $L$ $L$ $L$ $U^{L}=\operatorname {E} _{L}\left[-\sum _{i=1}^{L}(-t)^{i}\varphi _{i}\right].$ $U^{l}$ $(-t)^{i}$ $L$ $U^{L}=\operatorname {E} _{L}\left[-\sum _{i\geq 1}(-t)^{i}\varphi _{i}\mathbf {1} _{i\leq L}\right]=-\sum _{i\geq 1}(-t)^{i}\Pr(L\geq i)\varphi _{i}.$ $L$ $t\propto \ln n$

Curva de descubrimiento de especies

También se puede utilizar la curva de descubrimiento de especies , que relaciona la cantidad de especies encontradas en un área en función del tiempo. Estas curvas también se pueden crear utilizando estimadores (como el estimador de Good-Toulmin) y trazando la cantidad de especies no observadas en cada valor para . ^[5] $t$

La curva de descubrimiento de especies siempre está aumentando, ya que nunca hay una muestra que pueda reducir el número de especies descubiertas. Además, la curva de descubrimiento de especies también se está desacelerando: cuantas más muestras se toman, menos especies no observadas se espera que se descubran. La curva de descubrimiento de especies tampoco será nunca asintótica, ya que se supone que, aunque la tasa de descubrimiento puede volverse infinitamente lenta, en realidad nunca se detendrá. ^[5] Dos modelos comunes para una curva de descubrimiento de especies son la función logarítmica y la exponencial .

Ejemplo: Las mariposas de Corbet

Como ejemplo, considere los datos que Corbet proporcionó a Fisher en la década de 1940. ^[3] Utilizando el modelo de Good-Toulmin, la cantidad de especies no observadas se encuentra utilizando Esto luego se puede utilizar para crear una relación entre y . $U=-\sum _{i=1}^{\infty }(-t)^{i}\varphi _{i}.$ $t$ $U$

Esta relación se muestra en el gráfico siguiente.

Del gráfico se desprende que en , que era el valor de que Corbet le presentó a Fisher, la estimación resultante de es 75, lo que coincide con lo que descubrió Fisher. Este gráfico también actúa como una curva de descubrimiento de especies para este ecosistema y define cuántas especies nuevas se descubrirán a medida que aumenta (y se toman más muestras). $t=1$ $t$ $U$ $t$

Otros usos

El algoritmo predictivo tiene numerosos usos. Saber que los estimadores son precisos permite a los científicos extrapolar con precisión los resultados de las encuestas realizadas a personas por un factor de 2. Pueden predecir la cantidad de respuestas únicas en función de la cantidad de personas que respondieron de manera similar. El método también se puede utilizar para determinar el grado de conocimiento de una persona.

Ejemplo: ¿Cuántas palabras conocía Shakespeare?

Según la investigación de las obras conocidas de Shakespeare realizada por Thisted y Efron, hay un total de 884.647 palabras. ^[1] La investigación también descubrió que hay un total de palabras diferentes que aparecen más de 100 veces. Por lo tanto, se encontró que el número total de palabras únicas era 31.534. ^[1] Aplicando el modelo de Good-Toulmin, si se descubriera un número igual de obras de Shakespeare, entonces se estima que se encontrarían palabras únicas. El objetivo sería derivar para . Thisted y Efron estiman que , lo que significa que Shakespeare probablemente conocía más del doble de palabras de las que realmente usó en todos sus escritos. ^[1] $N=864$ $U^{\text{words}}\approx 11{,}460$ $U^{\text{words}}$ $t=\infty$ $U^{\text{words}}(t\to \infty )\approx 35{,}000$

Véase también

Referencias

^ abcde Efron, Bradley; Thisted, Ronald (1976). "Estimación del número de especies desconocidas: ¿cuántas palabras conocía Shakespeare?". Biometrika . 63 (3): 435–447. doi :10.2307/2335721. JSTOR 2335721.
^ abcd Orlitsky, Alon; Suresh, Ananda Theertha; Wu, Yihong (22 de noviembre de 2016). "Predicción óptima del número de especies no vistas". Actas de la Academia Nacional de Ciencias . 113 (47): 13283–13288. doi : 10.1073/pnas.1607774113 . PMC 5127330 . PMID 27830649.
^ abcdefgh Orlitsky, Alon; Suresh, Ananda Theertha; Wu, Yihong (23 de noviembre de 2015). "Estimación del número de especies invisibles: más vale pájaro en mano que $tronco$ $volando$ ". arXiv : 1511.07428 [math.ST].
^ Good, IJ; Toulmin, GH (1956). "El número de nuevas especies y el aumento de la cobertura poblacional cuando se aumenta una muestra". Biometrika . 43 (1–2): 45–63. doi :10.1093/biomet/43.1-2.45. ISSN 0006-3444.
^ ab Bebber, D. P; Marriott, FHC; Gaston, K. J; Harris, S. A; Scotland, R. W (7 de julio de 2007). "Predicción de números de especies desconocidas utilizando curvas de descubrimiento". Actas de la Royal Society B: Biological Sciences . 274 (1618): 1651–1658. doi :10.1098/rspb.2007.0464. PMC 2169286 . PMID 17456460.