I. CAPTULO 12 Bioinformtica aplicada a la biotecnologa vegetal N Paniego; R Heinz; P Fernndez; V Lia; C Fusari Introduccin que ha evolucionado rpidamente en los lti- mos aos respondiendo al avance y a las ne- cesidades de procesamiento, almacenamiento y anlisis de datos biolgicos derivados de las micas, para ge- nerar nueva informacin y conocimientos en - mtica es multidisciplinario abarcando el de- sarrollo de bases de datos, el alineamiento de secuencias, la prediccin de estructuras protei- cultivos agronmicos y plantas modelo, con el propsito de guiar al estudiante de un cur- - los conceptos y las herramientas bsicas de la bioinformtica, complementando los conceptos introducidos en la primera edicin de este libro. Este material no pretende cubrir la totalidad de los recursos existentes para la materia, el obje- tivo es motivar el inters de los estudiantes en la exploracin y el uso de recursos y mtodos computacionales bsicos para el desarrollo de ello, describiremos en primer lugar algunas ba- - micas de plantas e introduciremos el concepto de anotacin de datos genmicos. La segunda - mtica aplicada a estudios de expresin, la bsqueda de marcadores moleculares funcio- nales y el anlisis de su variabilidad gentica. de especie - de el inicio de las iniciativas genmicas para fa- cilitar la organizacin y la difusin de los datos. de bases de datos, entre las principales estn aquellas que son repositorios pblicos a gran - vas comunitarias Los repositorios pblicos a gran escala son bases de datos estables, generalmente man- tenidas por agencias gubernamentales, que archivan principalmente informacin esttica, disponible en esa base de datos en particular puede ser accedida a travs de ENTREZ, un buscador que combina la interrogacin simul- tnea de 35 bases de datos disponibles en datos secundarias que agregan informacin a entre las cuales podemos mencionar Gene, UniGene, HomoloGen o RefSeq. Dentro de las bases de datos comunitarias estn aquellas que almacenan datos deriva- dos de estudios sobre especies modelo, gene- ralmente focalizando en una especie o en un grupo de especies relacionadas. La primera informacin asociada a esta especie modelo de genes, anotaciones, disponibilidad de ger- moplasma/semillas y herramientas de anli- sis. En los ltimos aos, ha surgido una nueva generacin de bases de datos que integran la informacin de muchas especies para permitir la comparacin de genomas, entre ellas est Gramene que integra recursos para la compa- la comparacin genmica y de transcriptos de green plant comparative genomics) rene la in- formacin competa de 14 genomas vegetales, agrupamientos de genes ortlogos, parlogos y familias de genes y herramientas de anlisis 171 Biotecnologa y Mejoramiento Vegetal II - tra los proteomas de cada una de las especies representadas en la base de datos. La Tabla 1 condensa un nmero importante de bases de para facilitar la exploracin de las mismas. - cas de patgenos que afectan cultivos agron- micamente importantes. Estas bases aportan informacin sobre la secuencia del genoma de los patgenos, la cual puede ser asociada a la informacin derivada de estudios funcionales de transcriptos inducidos durante la interaccin con la planta husped, permitiendo el diseo de estrategias de mejoramiento de los cultivos para lograr resistencia. Entre estas bases de datos se pueden mencionar a: Phytophthora Functional Genomics Database y PathoPlant. Anotacin funcional de los datos genmicos El proceso de anotacin de los datos gen- deducir a partir de los datos de secuenciacin genoma de un organismo, explorando y descri- biendo los niveles intermedios de organizacin como funciones y procesos moleculares, ce- las funciones, etc. Este proceso de anotacin demanda una gran integracin de los datos e informacin disponible para la especie o para especies relacionadas, haciendo uso de herra- mientas de la bioinformtica para la compara- cin y la extraccin de datos y de las bases - miento biolgico acumulado en publicaciones y de los anlisis transcriptmicos o genmicos disponibles. Una de las primeras etapas en este proceso es la de tratar de asignar una funcin molecu- mediante la comparacin con genes de funcin conocida. La forma ms precisa para hacer esta comparacin es a nivel de productos de genes, o sea, trabajando con las secuencias de aminocidos obtenidas a partir de la tra- seis marcos de lectura posibles. Este mtodo de comparacin de secuencias, que es central en el proceso de anotacin funcional, se basa - mologas de conservar la misma funcin y se sustenta con bases de datos de secuencias de No obstante, puede asumirse en general que organismos modelo se encuentran correcta- mente anotadas y pueden usarse como refe- rencia para inferir posibles funciones molecu- lares. Sin embargo, para que los procesos de anotacin dentro y entre especies en organis- - rable posible, lo ptimo es referir la anotacin asignada a vocabularios estructurados u onto- - tablecer vocabularios controlados, una de las de genes (Gene Ontology, GO), que establece moleculares, (2) los procesos biolgicos y (3) la localizacin sub-celular o componente celular. El proceso de anotacin es un proceso conti- nuo que debe ser constantemente actualizado - nar la informacin existente. Anotacin de secuencias en especies de plantas no-modelo - - yectos y en especial en los proyectos de peque- a envergadura dedicados a la caracterizacin de transcriptos o ESTs, se basan en el uso del en todos los casos depende de los parmetros recomendndose como parmetros ptimos E valores menores de e-10, identidades mayores a 30% y coberturas mayores o iguales a 50%. Las bases de datos contra las cuales se rea- lizan las comparaciones juegan tambin un rol importante en relacin al nmero y calidad de para la anotacin de secuencias de plantas son los ndice de Genes (DFCI: http://compbio.dfci. harvard.edu/tgi/), Unigenes (NCBI) y PlantGDB 172 Biotecnologa y Mejoramiento Vegetal II En base al mejor valor de similitud obteni- do en la comparacin, se asigna una funcin gnica probable a cada secuencia analizada. Posteriormente, dicha anotacin se mapea contra una base de datos de Gene Ontology - nes acorde a las normas del Consorcio de controlados complementarios a GO, son la Comisin de Enzimas (Enzyme Comisin, EC) que adjudica una numeracin basada en una reaccin que se encuentran catalizando y el Genes and Genomes) que genera anotacin que presentan su genoma secuenciado o en - - Expresin de Genes El anlisis de patrones de expresin consis- - tos presentes en una determinada muestra URL NCB Plant Genomes Central www.ncbi.nlm.nih.gov/genomes/PLANTS/PlantList.html PlantGDB: plant genome database www.plantgdb.org MPS plants databases mips.gsf.de/proj/plant/jsf/genomes.jsp Bases de datos muItiespecie para genmica comparativa Phytozome: comparative genomics of plants www.phytozome.net Gramene: a Resource for Comparative Grass Genomics www.gra mene.org LS: Legume nformation System www.comparative -legumes.org SALAD: Surveyed Alignment and Associating Dendrogram salad.dna.affrc.go.jp/salad SGN: Solanaceas genomic network www.sgn.cornell.edu Bases de datos de genomas de iniciativas genmicas compIetas y parciaIes TAR: The Arabidopsis nformation Resource www.arabidopsis.org Rice Annotation Project Database (RAP -DB) rapdb.dna.affrc.go.jp Grain Genes 2.0: a Database for Triticeae and Avena wheat. pw.usda.gov/GG2/index.shtml MaizeDB www.maizegdb.org Medicago truncatula: a model for legume research www.medicago.org Lotus japonicus genome www.kazusa.or.jp/lotus Wheat Applied Genomics masw heat.ucdavis.edu SoyBase and the Soybean Breeder's Toolbox soybase.org SoyMap: An integrated map of soybean for resolution and dissection of multiple www.soymap.org/ Brassica rapa genome www.brassica -rapa.org/BRGP/index.jsp Compositae genomics projec t compgenomics.ucdavis.edu/compositae_index.php Cotton Marker Database www.cottonmarker.org Dendrome: a collection of forest tree genome databases and other forest genetic dendrome.ucdavis.edu nternational Grape Genome Project www.vitaceae.org Popu lus Genome ntegrative Explorer www.popgenie.db.umu.se Bases de datos de diversidad PanZea: Molecular and Functional Diversity of the Maize Genome www.panzea.org ToL: Tree of Life Web Project www.tolweb.org Bases de datos generaIes Tabla 1: 173 Biotecnologa y Mejoramiento Vegetal II procesamiento de datos ha permitido abordar estudios de expresin gnica en forma concer- tada para miles de genes a partir de distintos genotipos en determinados rganos, tejidos, y condiciones de crecimiento. El diseo de los - rramientas de anlisis de la informacin gene- rada constituyen factores claves para obtener Las distintas estrategias que permiten eva- en dos grupos. Un primer grupo corresponde a estrategias en las que la estimacin del ni- vel de la expresin se basa en la intensidad relativa de una seal de hibridacin e incluye los tradicionales experimentos de northern blot toma la intensidad relativa de la seal como medida de la trascripcin. El otro grupo de estrategias se basa en una cuenta directa del nmero de cada transcripto presente en una muestra, incluyendo la secuenciacin de se- cuencias expresadas o Expressed Sequence Tags (ESTs), el anlisis de la expresin gnica o Massively Parallel Signature Sequencing - trategias de anlisis de expresin que permiten la evaluacin concertada de un gran nmero de genes en forma procesiva. Expressed Sequence Tags (ESTs): - lgica en particular, realizada a travs de una nica lectura, da origen a un conjunto de se- cuencias denominadas ESTs, que representan secuencias parciales de las colecciones origi- cuenta con un total aproximado de 6.000.000 secuencias y se encuentran representadas ms de 100 especies de plantas. herramienta alternativa de los proyectos gen- micos para el descubrimiento de nuevos genes para distintas especies, cuando la secuencia- cin de genomas complejos no contaba con las actuales tcnicas de secuenciacin masiva que prometen en un futuro cercano capacidad de procesamiento elevada a costos accesibles - miento de proyectos genmicos de gran esca- - cacin de genes que se expresan en pocos te- jidos y/o su expresin es muy baja, mediante la - zadas o enriquecidas en determinados trans- criptos como las colecciones derivadas de tc- nicas de hibridacin sustractiva o Suppressed - pamiento de ESTs derivados de distintas co- grupos o clusters de secuencias no redundan- tes, utilizando rutinas de anlisis como las es- quematizadas en la Figura 1 permite estimar el nmero de genes de una especie. Respecto al anlisis de expresin gnica, los ESTs contribuyen a estos estudios a travs - pondientes a un determinado gen respecto a un conjunto de ESTs generados en distintas expresin del mismo; y 2) en segundo lugar las bases de ESTs se utilizan para el diseo de oli- gonucletidos en experimentos de microarre- Los experimentos de microarreglos repre- sentan una de las herramientas ms frecuen- tes para aproximarse a los anlisis de expre- sin de genes a gran escala. Una vez que se obtienen los resultados surgen interrogantes como Cules son los genes sobre o sub-ex- presados en el experimento?, Cules son los general a partir de este experimento? En esta para ilustrar el proceso de anlisis utilizando programas de libre distribucin basados en el Castelar (IB) se dise un microarreglo de ESTs previamente desarrollados en base a girasol cultivado). Para la impresin de los mi- - 174 Biotecnologa y Mejoramiento Vegetal II presentativos de los unigenes anotados en las bibliotecas previamente caracterizadas. Estos de plantas crecidas en invernculo y someti- das a dos condiciones de estrs abitico dife- los vidrios fueron escaneados (usando cana- - nes obtenidas fueron analizadas utilizando el - tensidad de seal para cada spot. Luego, se realiz una integracin de los datos de las im- genes escaneadas (Figura 2). Preprocesamiento de los datos La imagen obtenida a partir de un microarre- glo corresponde a la informacin cruda de un que los algoritmos computacionales convierten la imagen en informacin numrica que cuan- en un anlisis de datos de microarreglos, y es fundamental la calidad y la rigurosidad obteni- da de la misma para la posterior interpretacin que se obtendr como resultado. Normalizacin La normalizacin es un trmino genrico que - debido a condiciones experimentales inevita- bles y propias de la plataforma utilizada. La normalizacin y el anlisis de expresin global se realizaron en este caso a travs de pro- gramas generados utilizando el programa R cada vidrio fueron normalizados corrigendo la dependencia por intensidad mediante la utiliza- (regresin local ponderada). Se realiz una in- tegracin de los datos de las rplicas tcnicas dentro de cada soporte (cada spot fue impreso 4 veces) y las rplicas tcnicas entre sopor- dye-swap). Luego de este paso el producto obtenido es una matriz de expresin gnica cuyo anlisis expresiones diferenciales. del programa. 175 Biotecnologa y Mejoramiento Vegetal II Figura 2: Imagen de una micromatriz de dos canales (Bello y col. 2006) 176 Biotecnologa y Mejoramiento Vegetal II Limpieza de datos y transformacin Una vez obtenida la matriz de expresin g- nica, existe una serie de pasos que se llevan a cabo para asegurar una alta calidad en el an- lisis. Ellos son: la remocin de spots dudosos o ), que se resuelve ya sea eliminando los spots con error aparente (con el consiguiente riesgo de prdida de da- tos valiosos), o marcndolos para luego refe- rirlos a la imagen original en el momento de su anlisis; la correccin y/o sustraccin del ruido de fondo (correccin o sustraccin de back- ground). La seal de fondo es indicadora de la intensidad del spot de inters sea mayor que la intensidad del ruido de fondo. Si ocurre al revs, existe la posibilidad que est represen- tando un problema local en el microarreglo y la intensidad del spot se convierta en informacin - la variabilidad a todos los niveles de intensidad detectados. Anlisis estadstico de los datos Evaluacin de consistencia en las repeticiones Para evaluar las diferencias asociadas a las repeticiones biolgicas de este experimento se obtuvo una ordenacin de las mismas en un plano de ordenacin generado mediante an- lisis de componentes principales aplicado a la matriz de expresiones gnicas. Esta aproxima- cin tuvo en cuenta la informacin de todos los genes simultneamente y permiti establecer - pica o no. - sin diferencial. El anlisis de la matriz de expresin gnica - presiones diferenciales. Existen diversas estra- tegias para obtener un listado de genes candi- datos. La estrategia ms sencilla es aplicar una prueba de hiptesis tradicional gen a gen. Esta aproximacin tiene el inconveniente de gene- rar un gran nmero de falsos positivos. Los mtodos correctivos, basados en el control de la tasa de falsos positivos, presentan a su vez utilizada en este trabajo consisti en comple- mentar las tcnicas de inferencia clsicas con un criterio de seleccin basado en el ordena- miento de genes y tratamientos en el espacio generado por los dos primeros ejes principa- les obtenidos de un anlisis de componentes principales de la matriz de expresin gnica. Posteriormente, y dentro del conjunto de genes seleccionados en el paso anterior, se realiz el de expresin similar mediante la aplicacin de k-centroides para nuestro caso de estudio. El anlisis transcripcional mediante la aplicacin de k-centroides permiti detectar 3 grupos de genes bien diferenciados en sus patrones de expresin. Por una parte el Grupo 2, integrado por 126 genes, no mostr variacin en sus ni- veles medios a travs de los tratamientos. En cambio, el Grupo 1 (integrado por 112 genes) evidenci sobre-expresin respecto del control cuando las plantas fueron sometidas a estrs 49 genes conformaron el Grupo 3, pero en este caso se observ una sub-expresin respecto del control en ambos tratamientos. Obtencin de la lista de genes diferencialmente expresados Para combinar esta aproximacin, basada clsico de prueba de hiptesis para igualdad de medias, se consideraron slo aquellos ge- nes que para la prueba clsica de anlisis de la varianza tuvieran un p-valor menor o igual a 0,05 y que estuvieran a un distancia del origen en la Figura 3 mayor que 9 (correspondiente, aproximadamente al percentil 70 de la distribu- cin de distancias al origen). Este criterio de corte se seleccion teniendo en cuenta el gen previamente validado experimentalmente. Para cada uno de los 80 genes seleccio- colores de expresin diferencial (heatmap) de 177 Biotecnologa y Mejoramiento Vegetal II modo de analizar cualitativamente el gradiente diferencial por tratamiento y por gen mediante - les. De estos resultados surgieron genes can- didatos de inters para su anlisis de expresin diferencial, de los cuales 15 fueron selecciona- dos para validar mediante la tcnica de PCR cuantitativa (qPCR). Este ltimo paso de validacin es de una herramienta indispensable en el anlisis de microarreglos ya que por todo lo expuesto anteriormente podemos inferir que los genes obtenidos son producto de transformaciones numricas y una evaluacin subjetiva al crite- - re rigurosidad biolgica a un conjunto de su- puestos genes candidatos obtenidos a partir de una lista de genes diferencialmente expresa- dos para las condiciones evaluadas, producto Bsqueda de marcadores funcionales en bases de datos genmicos Como mencionamos anteriormente, la se- cuenciacin completa de los genomas de es- pecies modelo o parcial de especies de inters ha generado una rpida acumulacin de infor- macin biolgica que es depositada en bases de datos genmicas y es fcilmente accesible a travs de Internet. Esta informacin, que de- riva en muchos casos de la caracterizacin de de un mismo gnero o de distintas fuentes re- lacionadas, constituye el recurso que permite sistematizar el desarrollo de marcadores mo- leculares potencialmente asociados a la varia- Figura 3. Bi-plot que muestra genes con p-valor para un test F<0,05 y con una distancia al origen <per- 178 Biotecnologa y Mejoramiento Vegetal II potencial de descubrir marcadores molecu- lares funcionales analizando las secuencias depositadas en las bases de datos generales, fundamentalmente de ESTs, ha permitido su- perar una de las limitaciones ms importantes - co que es el costo inicial de desarrollo. silico de SNPs (SNPs) o los generados por pequeas inser- ciones/deleciones (Indels) se han convertido en una de las herramientas ms utilizadas para la caracterizacin gentica tanto de plan- tas como de animales debido a su baja tasa de mutacin y a su gran abundancia, ubicuidad y dispersin en los genomas. Su uso se ha ex- tendido a aplicaciones tales como la construc- cin de mapas genticos de alta resolucin, mapeo de asociacin, estudios de diversidad - sis de la estabilidad de cultivares, delimitacin - logenticos, seleccin asistida por marcadores y caracterizacin de recursos genticos. Un SNP representa una diferencia en una y puede ser categorizada como transicin (C/T - da. El uso de marcadores SNP para cualquiera de las aplicaciones mencionadas requiere de una primera etapa de deteccin y desarrollo que puede ser abordada a partir de una estra- tegia de laboratorio (ej. secuenciacin y com- paracin de genes o regiones candidatas en un conjunto de materiales de inters) o bien estar basada en aproximaciones in silico que hacen uso de la informacin de secuencia disponible en las bases de datos biolgicas. En este l- timo caso, el procedimiento de bsqueda ge- neralmente involucra un protocolo de pocos alta similitud entre mltiples individuos a partir de una o varias bases de datos previamente seleccionadas en funcin del organismo o tipo de carcter que se desee estudiar, utilizando habitualmente los algoritmos de bsqueda de se realizan los alineamientos base a base para cada uno de los grupos de secuencias y los mismos son analizados para detectar las dife- detallada evaluacin de esta instancia es fun- damental para encontrar verdaderas variantes allicas dentro de los diferentes grupos. Es por ello que se encuentran disponibles diver- - ferenciar los errores de secuenciacin de las verdaderas variantes allicas basndose en el valor de calidad de la base secuenciada y en medidas de exactitud de la secuencia. Los programas desarrollados para la deteccin de SNPs, tanto para uso acadmico (PolyBayes y PolyPhred) como aquellos sujetos a licen- cias comerciales (Sequencher, Gene Codes Corporation) utilizan los datos de calidad de secuencia para eliminar los falsos positivos o incorporan el concepto de velocidad de muta- ciones esperadas para distinguir los verdade- y pueden ser usados tanto para comparacin de secuencias cortas como para estimar SNPs dentro de largas regiones genmicas. Muchos grupos han explorado adems mtodos alter- nativos de deteccin de SNPs basados en el silico de SSRs Los microsatlites (repeticiones en tandem de mono, di, tri, tetra o pentanucletidos) son herramientas muy tiles como marcadores abundantes, multiallicos (hipervariables con respecto al nmero de repeticiones), hereda- dos en forma estable y codominantes (se dis- tinguen los alelos de un locus), permitiendo distinguir materiales estrechamente relaciona- dos. Desde el punto de vista metodolgico, son fciles de detectar mediante PCR, requiriendo equipamiento. in silico de SSRs a partir de la abundancia de secuencias genmicas dis- ponibles para genomas vegetales, al igual que para los SNPs, se ha convertido en la alterna- tiva ms econmica de desarrollar este tipo de marcadores haciendo uso de herramientas 179 Biotecnologa y Mejoramiento Vegetal II frecuente poder asociar una funcin molecular determinada por similitud a la secuencia que alberga la repeticin convirtindolo en un mar- cador funcional. Existen distintas herramientas computa- - miento de SSRs y el diseo de iniciadores es- Se pueden mencionar como ejemplos el pro- grama SSRPoly accesible desde el sitio http:// acpfg.imb.uq.edu.au/ssrpoly.php, que permite la representacin de tamaos variables del mi- - ples de secuencias representadas en la bases de datos. Otra herramienta valiosa disponible - ). Anlisis de la variabilidad gentica Finalizada la etapa de desarrollo de marca- dores moleculares, la fase siguiente general- - las variantes allicas presentes en cada uno de ellos para cada uno de los marcadores detec- - piada depender de los recursos disponibles y del nivel de procesamiento que se desee al- canzar. Entre las ms utilizadas para el caso de los SNPs pueden mencionarse: secuenciacin - cin en cadena de la polimerasa (PCR), m- todos de digestin enzimtica, hibridacin con las plataformas de microarreglos GoldenGate - - cas que controlan procesos biolgicos comple- jos, como la resistencia a los estreses biticos y abiticos que afectan la productividad de los cultivos. Sin embargo, para ser aprovechado en su totalidad, este potencial debe ser com- - mapeo por asociacin han surgido como com- plemento de las aproximaciones convenciona- les (ej. Mapeo de QTLs) y han ido cobrando cada vez ms importancia como herramientas para alcanzar un mayor grado de resolucin. En pocas palabras, el razonamiento subyacen- te al mapeo de asociacin consiste en utilizar eventos de recombinacin histricos a lo largo de un linaje, y no solamente aquellos ocurridos en una determinada poblacin de mapeo, para establecer posibles relaciones entre genotipo forma directa, si no que surgen a partir de in- de tales correlaciones es la asociacin no alea- (DL) entre las variantes genticas causales de analizados. Previo a cualquier estudio de mapeo por aso- ciacin, y para realizar un diseo experimen- tal apropiado, es necesario conocer el grado y la estructura genmica del DL en la especie a evaluar, ya que ste es variable tanto entre especies como para las diferentes regiones de un mismo genoma. Las dos medidas preferi- y la correlacin de frecuencias allicas al cua- drado (r2). La estimacin del DL generalmente involucra grandes cantidades de marcadores, razn por la cual suelen resultar tiles las he- - zar el clculo de ambas medidas y representar El desarrollo de un estudio de mapeo por del carcter agronmico de inters (ej. peso - conjunto apropiado de SNPs para cada una de - mos a caracterizar depender de la estrategia de anlisis que se haya seleccionado. Si se analysis) el nmero de SNPs ser mucho ma- 180 Biotecnologa y Mejoramiento Vegetal II yor (entre 10.000 y 100.000) que el requerido - pondientes a un grupo de genes candidatos. Sin embargo, en este ltimo caso es necesario un conocimiento previo de la base gentica del importante del diseo experimental es la selec- cin de individuos. En humanos generalmente poblaciones de enfermos vs. controles sanos (case-control) o aquellas que involucran indi- viduos relacionados o familias en donde algn individuo es enfermo (Transmission disequi- librium tests). En plantas, los individuos de la poblacin en estudio usualmente incluyen ger- objeto de abarcar la mayor cantidad posible de asociacin para rasgos continuos son general- mente realizadas a travs de anlisis de regre- sin lineal, si bien tambin son aplicables otras aproximaciones. Dado que existen diversos factores que pueden llevar al establecimiento de asociaciones espurias, se han desarrolla- incorporar las distintas variables intervinien- tes y controlar su efecto en la deteccin de asociaciones. Entre los procesos que pueden interferir en el anlisis se encuentran: la sub- estructuracin de las poblaciones estudiadas, las interacciones epistticas y pleiotrpicas, las interacciones entre genotipo y ambiente, el tamao muestral pequeo, la complejidad del carcter en estudio y la calidad de los registros paquetes ms utilizados para los estudios de asociacin en plantas ya que incluye metodolo- poblacional y el grado de parentesco entre los individuos analizados. En conclusin, el mapeo por asociacin constituye una poderosa herramienta para la diseccin gentica de caracteres complejos, siendo los SNPs marcadores ideales para la implementacin de tales estudios dada su alta frecuencia y ubicuidad en los genomas. Lecturas recomendadas D.J . Lipman. 1990. Basic local alignment search tool. J Mol Biol 215:403-10. Ontologies for biologists: a community model for the annotation of genomic data. Cold Spring Harb Symp Quant Biol 68:227-35. - cation of biology. The Gene Ontology Consortium. Nat Genet 25:25-9. for population association studies. Nat Rev Ge- net 7:781-91. Cervigni, G.D., N. Paniego, M. Diaz, J .P. Selva, D. Zappacosta, D. Zanazzi, I. Landerreche, L. Mar- telotto, S. Felitti, S. Pessino, G. Spangenberg, and V. Echenique. 2008. Expressed sequence tag analysis and development of gene associ- ated markers in a near-isogenic plant system of Eragrostis curvula. Plant Mol Biol 67:1-10. - Genomics. Int J Plant Genomics 2008:619832. Chenchik, F. Moqadam, B. Huang, S. Lukyanov, P.D. Siebert. 1996. Suppression subtractive hy- bridization: a method for generating differentially - libraries in a small scale sequencing project. BMC Genomics 4:40. Fernandez, P., J . Di Rienzo, L. Fernandez, H. Hopp, N. Paniego, and R. Heinz. 2008. Transcriptomic - Biol 8:11. 181 Biotecnologa y Mejoramiento Vegetal II - plants. Curr Sci 80:524-535. - - Martin, D.M., M. Berriman, and G.J . Barton. 2004. function assessed by the annotation of seven ge- nomes. BMC Bioinformatics 5:178. in Plants. Springer Science+Business Media, LLC. polymorphisms in crop genetics. Curr Opin Plant Biol 5:94-100. Stekel, D. 2003. Image Processing, In P. C. Univer- of mixed-model approaches for association map- ping in rapeseed, potato, sugar beet, maize, and methods for functional genomics. Nat Methods 5:19-21. Barker. 2003. The Protein Information Resource.