<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">
  <title></title>
</head>
<body>
This method uses an all against all blast comparison as<br>
input to the clustering. Can you really do that 'routinely' <br>
with 500,000 sequences without dedicated hardware?<br>
<br>
I guess once you have your initial 'pairs DB' you can then<br>
add new sequences in without much work, and I guess the <br>
actuall clustering is the 'efficient' part of the method.  <br>
<br>
The handling of multidomain proteins is interesting, <br>
but I don't really see how it differs from demanding<br>
a certain length of allignment within the family. <br>
<br>
Although the technique is mathmatically clean,<br>
it is a bit hazy when it comes to the multi domain<br>
issue. I.e. if we have protein 1 with domains ABC,<br>
what happens to protein 2 with domains AB?<br>
<br>
What happens to the 'families' of type 1 and 2<br>
in this strategy?<br>
<br>
I love the extension of pairwise similarity to <br>
group similarity using the network of blast<br>
hits - that is really nice, but the biological<br>
significance of the r factor (number of clusters)<br>
is not investigated, which is a shame.<br>
<br>
Anyone heard of BAG for domain decomposition<br>
from such a network?<br>
<br>
Thanks for the  info, <br>
Dan. <br>
<br>
Marcos Oliveira de Carvalho wrote:<br>
<blockquote type="cite"
 cite="midPine.LNX.4.44.0308071539520.20297-100000@www.bioinformatics.org">
  <pre wrap="">Hi Carol,
I use TribeMCL software with good results.

Here is the URL -> <a class="moz-txt-link-freetext" href="http://www.ebi.ac.uk/research/cgg/tribe/">http://www.ebi.ac.uk/research/cgg/tribe/</a>

And here is the abstract of the paper about TribeMCL:

TribeMCL is a method for clustering proteins into related groups, which 
are termed 'protein families'. This clustering is achieved by analysing 
similarity patterns between proteins in a given dataset, and using these 
patterns to assign proteins into related groups. In many cases, proteins 
in the same protein familywill have similar functional properties. 
TribeMCL uses a novel clustering method (Markov Clustering or MCL) which 
solves problems which normally hinder protein sequence clustering. These 
problems include: multi-domain proteins, peptide fragments and proteins 
which possess domains which are very widespread (promiscuous domains). The 
efficiency of the method makes it applicable to the clustering of very 
large datasets. We routinely use the algorithm to cluster datasets as 
large as 500,000 peptides. 

Cheers
Marcos

On Thu, 7 Aug 2003, Zheng Fu wrote:

  </pre>
  <blockquote type="cite">
    <pre wrap="">Hi everyone,

Does anyone know how to clustering genes to a gene family based on the
sequence alignments.
For two genes, we can define a threshold to seperate the homolog and
non-homolog. But for three or more genes,how to define the homologs?(Such
as Gene A and Gene B has high alignment score, A and C also has high sore,
but B and C doesn't have high socre, can we say ABC are homologs?

Thank you.

Carol


    </pre>
  </blockquote>
  <pre wrap=""><!---->
  </pre>
</blockquote>
<br>
</body>
</html>