Diferenças pontuais entre pares de bases de diferentes seqüências alinhadas, são o tipo mais comum de variabilidade genética. Tais diferenças, conhecidas como polimorfismos base única (single nucleotide polymorphisms - SNPs), são importantes no estudo da variabilidade das espécies, pois podem provocar alterações funcionais ou fenotípicas, que, por sua vez, podem implicar em conseqüências evolutivas ou bioquímicas nos indivíduos das espécies. A descoberta de SNPs por algoritmos computacionais é uma prática bastante difundida e, nessa área, dois scripts se destacam pelo amplo uso: Polyphred [1] e Polybayes [2].
O Polyphred, analisa diretamente os sinais expressos no seqüenciamento do material genético e detecta SNPs a partir da variação dos sinais de fluorescência dos cromatogramas, procurando por reduções nas regiões do pico do sinal. Se for encontrada uma redução, onde uma segunda base foi detectada, então esse ponto é identificado como potencial heterozigoto. Após o alinhamento das seqüências (reads), as bases dessa seção transversal, que inclui reads e consenso, são comparadas. O Polybayes analisa as bases geradas a partir da "leitura" dos cromatogramas - feita por base-calling [3], que nomeia e atribui um valor de qualidade para cada base (Phred quality score - PQS) - e utiliza um algoritmo de inferência Bayesiana, que procura por seções transversais onde os reads alinhados apresentam bases diferentes entre si. O Polybayes considera o número de reads e, ainda, a taxa a priori de pontos polimórficos, como sendo ( 1-0;003/4 ), ou seja, um SNP para cada 333 pares de bases, dividido pelo número de possíveis diferentes bases - A, T, C ou G - em um ponto. Deve ser notado que, esses dois scripts, têm seus resultados influenciados pelo PQS, obtido durante a leitura dos cromatogramas.
Os referidos scripts trabalham com diferentes metodologias, sobre diferentes atributos, contudo, espera-se que apresentem resultados similares, ao tratarem um mesmo conjunto de seqüências, mas, não é incomum fornecerem resultados diferentes, o que produz incerteza na tomada de decisão, quando os resultados são discordantes.
O presente texto apresenta um modelo que se baseia em lógica difusa (fuzzy logic) para, a partir dos resultados do Polyphred e do Polybayes, auxiliar na tomada de decisão, no caso em que as informações sejam divergentes e, também, na confirmação de informações coincidentes. Ou seja, utiliza a lógica difusa para dar suporte à decisão, avaliando os resultados gerados por dois diferentes métodos e, ainda, incluindo, explicitamente, o PQS das bases do consenso, como um "valorizador" adicional, que reduz os efeitos específicos de cada um dos scripts.
A metodologia aqui apresentada não define nenhum limiar de "corte", no que se refere ao PQS, pois, o modelo de inferência difusa, automaticamente, elimina os pontos de baixa qualidade, não classificando-os como SNPs. Os critérios para a definição das variáveis linguísticas (conjuntos difusos), seus qualificadores e das funções de pertinência (expressões 2, 3 e 4), fundamentaram-se:
- no índice atribuído pelo Polyphred (Polyphred score - PPS), que estabelece seis classes com intervalos crisps, variando de 1, que indica um PPS ≤ 49 e um taxa de verdadeiros positivos de 1%, sendo improvável a existência de SNPs. Até 6, que indica PPS≥99 e uma taxa de verdadeiros positivos de 97%, sendo altamente provável a existência de SNPs, e, então, a variável linguística probabilidade foi definida nos termos: improvável (PIM), pouco provável (PPP), medianamente provável (PmP), provável (PPR), muito provável (PMP) e altamente provável (PAP);
- na qualidade das bases (PQS), que varia entre 4 e 60, separadas, pelo limiar PQS = 20, em duas classes de valores crisps e, então, a variável linguística qualidade foi definida nos termos: ruim (QR), boa (QB) e ótima (QO).
Assim, no modelo de inferência aqui proposto, os valores discretos de entrada - os PPSs, encontrado pelo Polyphred e pelo seu equivalente no Polybayes, e o PQS - têm seus graus de pertinência estabelecidos pelas expressões 2, 3 e 4, que "disparam" regras difusas, cujo resultado é discretizado pelo método do "Centro do Máximo" (Middle-of-Maxima - MoM), visto que esse considera a ocorrência de múltiplos disparos de regras sobre uma mesma saída, "valorizando" essa saída. Desse modo, como resultado, determina-se um novo valor, mais apurado, indicativo da existência de polimorfismo, para cada SNP anteriormente identificado, onde foram considerados os valores iniciais dos PPSs e da PQS no ponto.
Referências
Nickerson, D. A., Tobe, V. O. and Taylor, S. L.. PolyPhred: automating the detection and genotyping of single nucleotide substitutions using fluorescence-based resequencing. Nucleic Acids Research, 25 (14): 2745-2751, 1997.
Marth, G. T., Korf, I., Yandell, M. D., Teh, R. T., Gu, Z., Zakeri, H., Stitziel, N. O., Hillier, L., Kwok, P. Y. and Gish, W. R.. A general approach to single-nucleotide polymophism discovery. Nature Genetics, 23 (4): 452-456, 1999.
Ewing, B., Hillier, L.,Wendl, M. C. and Green, P.. Basecalling of automated sequencer traces using Phred (I). Genome Research, 8 175-185, 1998.
***O trabalho foi originalmente publicado durante o II Encontro Acadêmico de Modelagem Computacional do LNCC - Petrópolis, Rio de Janeiro, Brasil, 13 – 14 de Janeiro de 2009.