Explorar

Comunidades em Português

Anuncie na Engormix

Inferência difusa como suporte à descoberta de possíveis SNPs em seqüências de cDNA

Publicado: 17 de fevereiro de 2009
Por: Wagner Arbex , Michel Eduardo Beleza Yamagishi e Marcos Vinícius G. Barbosa da Silva, Empresa Brasileira de Pesquisa Agropecuária -Embrapa-, MG, e Luiz Alfredo Vidal de Carvalho, Centro de Tecnologia, Universidade Federal do Rio de Janeiro -UFRJ-, RJ.
Diferenças pontuais entre pares de bases de diferentes seqüências alinhadas, são o tipo mais comum de variabilidade genética. Tais diferenças, conhecidas como polimorfismos base única (single nucleotide polymorphisms - SNPs), são importantes no estudo da variabilidade das espécies, pois podem provocar alterações funcionais ou fenotípicas, que, por sua vez, podem implicar em conseqüências evolutivas ou bioquímicas nos indivíduos das espécies. A descoberta de SNPs por algoritmos computacionais é uma prática bastante difundida e, nessa área, dois scripts se destacam pelo amplo uso: Polyphred [1] e Polybayes [2].
O Polyphred, analisa diretamente os sinais expressos no seqüenciamento do material genético e detecta SNPs a partir da variação dos sinais de fluorescência dos cromatogramas, procurando por reduções nas regiões do pico do sinal. Se for encontrada uma redução, onde uma segunda base foi detectada, então esse ponto é identificado como potencial heterozigoto. Após o alinhamento das seqüências (reads), as bases dessa seção transversal, que inclui reads e consenso, são comparadas. O Polybayes analisa as bases geradas a partir da "leitura" dos cromatogramas - feita por base-calling [3], que nomeia e atribui um valor de qualidade para cada base (Phred quality score - PQS) - e utiliza um algoritmo de inferência Bayesiana, que procura por seções transversais onde os reads alinhados apresentam bases diferentes entre si. O Polybayes considera o número de reads e, ainda, a taxa a priori de pontos polimórficos, como sendo ( 1-0;003/4 ), ou seja, um SNP para cada 333 pares de bases, dividido pelo número de possíveis diferentes bases - A, T, C ou G - em um ponto. Deve ser notado que, esses dois scripts, têm seus resultados influenciados pelo PQS, obtido durante a leitura dos cromatogramas.
Os referidos scripts trabalham com diferentes metodologias, sobre diferentes atributos, contudo, espera-se que apresentem resultados similares, ao tratarem um mesmo conjunto de seqüências, mas, não é incomum fornecerem resultados diferentes, o que produz incerteza na tomada de decisão, quando os resultados são discordantes.
O presente texto apresenta um modelo que se baseia em lógica difusa (fuzzy logic) para, a partir dos resultados do Polyphred e do Polybayes, auxiliar na tomada de decisão, no caso em que as informações sejam divergentes e, também, na confirmação de informações coincidentes. Ou seja, utiliza a lógica difusa para dar suporte à decisão, avaliando os resultados gerados por dois diferentes métodos e, ainda, incluindo, explicitamente, o PQS das bases do consenso, como um "valorizador" adicional, que reduz os efeitos específicos de cada um dos scripts.
A metodologia aqui apresentada não define nenhum limiar de "corte", no que se refere ao PQS, pois, o modelo de inferência difusa, automaticamente, elimina os pontos de baixa qualidade, não classificando-os como SNPs. Os critérios para a definição das variáveis linguísticas (conjuntos difusos), seus qualificadores e das funções de pertinência (expressões 2, 3 e 4), fundamentaram-se:
  • no índice atribuído pelo Polyphred (Polyphred score - PPS), que estabelece seis classes com intervalos crisps, variando de 1, que indica um PPS ≤ 49 e um taxa de verdadeiros positivos de 1%, sendo improvável a existência de SNPs. Até 6, que indica PPS≥99 e uma taxa de verdadeiros positivos de 97%, sendo altamente provável a existência de SNPs, e, então, a variável linguística probabilidade foi definida nos termos: improvável (PIM), pouco provável (PPP), medianamente provável (PmP), provável (PPR), muito provável (PMP) e altamente provável (PAP);
Inferência difusa como suporte à descoberta de possíveis SNPs em seqüências de cDNA - Image 1
 
  • na qualidade das bases (PQS), que varia entre 4 e 60, separadas, pelo limiar PQS = 20, em duas classes de valores crisps e, então, a variável linguística qualidade foi definida nos termos: ruim (QR), boa (QB) e ótima (QO).
Inferência difusa como suporte à descoberta de possíveis SNPs em seqüências de cDNA - Image 2
 
Assim, no modelo de inferência aqui proposto, os valores discretos de entrada - os PPSs, encontrado pelo Polyphred e pelo seu equivalente no Polybayes, e o PQS - têm seus graus de pertinência estabelecidos pelas expressões 2, 3 e 4, que "disparam" regras difusas, cujo resultado é discretizado pelo método do "Centro do Máximo" (Middle-of-Maxima - MoM), visto que esse considera a ocorrência de múltiplos disparos de regras sobre uma mesma saída, "valorizando" essa saída. Desse modo, como resultado, determina-se um novo valor, mais apurado, indicativo da existência de polimorfismo, para cada SNP anteriormente identificado, onde foram considerados os valores iniciais dos PPSs e da PQS no ponto.
 
Referências
Nickerson, D. A., Tobe, V. O. and Taylor, S. L.. PolyPhred: automating the detection and genotyping of single nucleotide substitutions using fluorescence-based resequencing. Nucleic Acids Research, 25 (14): 2745-2751, 1997.
Marth, G. T., Korf, I., Yandell, M. D., Teh, R. T., Gu, Z., Zakeri, H., Stitziel, N. O., Hillier, L., Kwok, P. Y. and Gish, W. R.. A general approach to single-nucleotide polymophism discovery. Nature Genetics, 23 (4): 452-456, 1999.
Ewing, B., Hillier, L.,Wendl, M. C. and Green, P.. Basecalling of automated sequencer traces using Phred (I). Genome Research, 8 175-185, 1998.
***O trabalho foi originalmente publicado durante o II Encontro Acadêmico de Modelagem Computacional do LNCC - Petrópolis, Rio de Janeiro, Brasil, 13 – 14 de Janeiro de 2009.
Tópicos relacionados:
Autores:
Wagner Arbex
Embrapa
Embrapa
Michel Eduardo Beleza Yamagishi
Embrapa
Embrapa
Luiz Alfredo Vidal de Carvalho
Universidade Federal do Rio de Janeiro
Universidade Federal do Rio de Janeiro
Recomendar
Comentário
Compartilhar
Profile picture
Quer comentar sobre outro tema? Crie uma nova publicação para dialogar com especialistas da comunidade.
Usuários destacados em Pecuária de leite
Alexei Castro
Alexei Castro
MSD - Merck Animal Health
Diretor Comercial
Estados Unidos
Brian Sloan
Brian Sloan
Adisseo
Global Ruminant Business Director
Estados Unidos
Michael Hutjens
Michael Hutjens
University of Illinois
University of Illinois
Estados Unidos
Junte-se à Engormix e faça parte da maior rede social agrícola do mundo.