Page 1 of 46 12311 ... LastLast
Results 1 to 10 of 533

Thread: cartes "Multidimensional Scaling" pour génomes diploïdes

Hybrid View

Previous Post Previous Post   Next Post Next Post
  1. #1
    Gold Class Member
    Posts
    7,575
    Sex
    Location
    Normandy
    Ethnicity
    northwesterner
    Y-DNA (P)
    R-BY3604-Z275
    mtDNA (M)
    H5a1

    Normandie Orkney Netherlands Friesland East Frisia Finland

    cartes "Multidimensional Scaling" pour génomes diploïdes

    Juste un petit point sur ce mode de représentation qui pourrait devenir "mon" standard, malgré les conditions drastiques qu'il demande. L'essentiel a été expliqué ici: https://anthrogenica.com/showthread....rn-individuals . Seul ajout: je sais maintenant projeter un individu isolé sur un MDS de référence. Cela règle le problème des individus proches parents (hautement toxiques), mais demande néanmoins que les conditions de qualité soient remplies. Donc vous ne verrez jamais sur ces cartes des génomes avec 90% de no-calls. J'ignore encore ce qu'il en est des haploïdes. Je poste ici un .pdf du MDS obtenu en ajoutant les quelques du forum, plus quelques familiers, au MDS européen déjà vu. Cherchez les noms présents dans la légende (j'ai apparemment oublié dieppe9, mais ce n'est pas grave puisqu'il 'plotte" à quelques microns de mon père "dad").
    basis_mds_1-2.pdf
    Evidemment, posez toutes les questions que vous voulez.
    En North alom, de North venom
    En North fum naiz, en North manom

    (Roman de Rou, Wace, 1160-1170)

  2. The Following 5 Users Say Thank You to anglesqueville For This Useful Post:

     Aben Aboo (02-10-2021),  JMcB (02-10-2021),  mokordo (02-10-2021),  Trelvern (02-11-2021),  xerxez (02-10-2021)

  3. #2
    Registered Users
    Posts
    1,377
    Sex
    Y-DNA (P)
    R1a-Z282>Z91>YP5000
    mtDNA (M)
    H1q2

    Spain Basque Andalucia
    Parfois, en voyant ce que vous faites, j'ai l'impression que vous vous "compliquez la vie" pour obtenir des choses qui n'offrent pas d'améliorations appréciables à ce qui existe déjà.

    Puis, en y repensant, je me rends compte que quiconque veut avoir une connaissance plus approfondie et réelle de ces questions, a besoin de faire exactement ce que vous faites.

  4. The Following User Says Thank You to mokordo For This Useful Post:

     xerxez (02-10-2021)

  5. #3
    Gold Class Member
    Posts
    7,575
    Sex
    Location
    Normandy
    Ethnicity
    northwesterner
    Y-DNA (P)
    R-BY3604-Z275
    mtDNA (M)
    H5a1

    Normandie Orkney Netherlands Friesland East Frisia Finland
    Quote Originally Posted by mokordo View Post
    Parfois, en voyant ce que vous faites, j'ai l'impression que vous vous "compliquez la vie" pour obtenir des choses qui n'offrent pas d'améliorations appréciables à ce qui existe déjà.

    Puis, en y repensant, je me rends compte que quiconque veut avoir une connaissance plus approfondie et réelle de ces questions, a besoin de faire exactement ce que vous faites.
    Mon seul souci est précisément un souci de simplicité. "Simple" ici ne veut pas dire "facile" (ça c'est une définition de lycéen flemmard), mais "au plus proche des données". Les données sont les relevés de génotypes et rien d'autre. Donc, non, je ne me complique pas la vie, je me la simplifie. En particulier en adoptant un workflow extrêmement court. Précisément, quand un problème se présente, je n'ai pas à chercher sa source très loin: elle est dans l'algorithme MDS ou dans les données. Jusqu'à présent, seul le second cas s'est présenté. Reste justement la question des données... J'ai contacté les responsables des grosses banques de génomes allemandes et néerlandaises dans l'espoir de combler ces deux trous. Net, on ne partage pas.

    Pendant que j'y suis, vous avez vu que les trois Xerxez, les deux Helgenes, et Ruderico sont là. A partir d'un fichier vcf post-imputation de dna.land, il est pour moi maintenant très facile et rapide d'arriver à une position dans le MDS de référence. J'ai écrit un petit script en Python qui fait le boulot (je ne le partagerai pas) en moins de deux minutes. Donc si ça vous tente n'hésitez pas à demander. Pourquoi dna.land? Pour un tas de fausses raisons et une vraie: je ne veux plus faire d'imputation moi-même, je déteste trop ça.
    Last edited by anglesqueville; 02-10-2021 at 05:29 PM.
    En North alom, de North venom
    En North fum naiz, en North manom

    (Roman de Rou, Wace, 1160-1170)

  6. The Following 2 Users Say Thank You to anglesqueville For This Useful Post:

     JMcB (02-10-2021),  xerxez (02-10-2021)

  7. #4
    Registered Users
    Posts
    369
    Sex
    Location
    49% Nord France, 18% Bretagne/Basse Normandie, 16% Pologne, 9% Allemagne/Alsace, 7% Hte Normandie
    Ethnicity
    French, Polish and German
    Y-DNA (P)
    I-M72
    mtDNA (M)
    H6a1a

    France Normandie France Bretagne Poland
    Quote Originally Posted by anglesqueville View Post
    Mon seul souci est précisément un souci de simplicité. "Simple" ici ne veut pas dire "facile" (ça c'est une définition de lycéen flemmard), mais "au plus proche des données". Les données sont les relevés de génotypes et rien d'autre. Donc, non, je ne me complique pas la vie, je me la simplifie. En particulier en adoptant un workflow extrêmement court. Précisément, quand un problème se présente, je n'ai pas à chercher sa source très loin: elle est dans l'algorithme MDS ou dans les données. Jusqu'à présent, seul le second cas s'est présenté. Reste justement la question des données... J'ai contacté les responsables des grosses banques de génomes allemandes et néerlandaises dans l'espoir de combler ces deux trous. Net, on ne partage pas.

    Pendant que j'y suis, vous avez vu que les trois Xerxez, les deux Helgenes, et Ruderico sont là. A partir d'un fichier vcf post-imputation de dna.land, il est pour moi maintenant très facile et rapide d'arriver à une position dans le MDS de référence. J'ai écrit un petit script en Python qui fait le boulot (je ne le partagerai pas) en moins de deux minutes. Donc si ça vous tente n'hésitez pas à demander. Pourquoi dna.land? Pour un tas de fausses raisons et une vraie: je ne veux plus faire d'imputation moi-même, je déteste trop ça.
    Très intéressant. Voici quelques observations (me corriger si je raconte des âneries) :

    -Via G25, ma mère originaire du Nord se retrouve généralement située entre les French_Nord et French_Alsace soit plutôt aux limites "septentrionales" du cluster Français tandis qu'ici elle est plutôt au milieu. La différence de position est-elle due au changement d'approche et/ou à une différence d'échantillon pour les français ?

    -Ma demi-soeur, 50% cauchoise, 25% bretagne/basse-normandie, 16% pologne, 9% allemagne se retrouve au "bon endroit" compte-tenu de sa position sur les ACP G25, à savoir entre le cluster français et le cluster NW (scandinaves, îles britanniques). Elle est à côté de Helgi et sa mère (originaires du cotentin c'est ça ?)

    -De mon côté, je me retrouve également à la position attendue compte-tenu de mes origines et de ma position sur G25, entre européens de l'ouest et de l'est

    - les différences entre européens du nord-ouest et du nord-est semblent nettement plus réduites que sur la PCA portant sur coordonnées G25

    - les Finnois sont plus éloignés que via PCA G25. Est-dû à leurs petites proportions d'ancêtres asiatiques qui les écartent plus des autres européens en distance génétique "réelle" ?

    - les dieppois qui étaient déjà pas mal orientés vers le cluster NW dans G25 se retrouvent ici carrément chez les Norvégiens
    Last edited by xerxez; 02-10-2021 at 06:42 PM.

  8. The Following User Says Thank You to xerxez For This Useful Post:

     JMcB (02-10-2021)

  9. #5
    Gold Class Member
    Posts
    7,575
    Sex
    Location
    Normandy
    Ethnicity
    northwesterner
    Y-DNA (P)
    R-BY3604-Z275
    mtDNA (M)
    H5a1

    Normandie Orkney Netherlands Friesland East Frisia Finland
    Quote Originally Posted by xerxez View Post
    Très intéressant. Voici quelques observations (me corriger si je raconte des âneries) :

    -Via G25, ma mère originaire du Nord se retrouve généralement située entre les French_Nord et French_Alsace soit plutôt aux limites "septentrionales" du cluster Français tandis qu'ici elle est plutôt au milieu. La différence de position est-elle due au changement d'approche et/ou à une différence d'échantillon pour les français ?

    -Ma demi-soeur, 50% cauchoise, 25% bretagne/basse-normandie, 16% pologne, 9% allemagne se retrouve au "bon endroit" compte-tenu de sa position sur les ACP G25, à savoir entre le cluster français et le cluster NW (scandinaves, îles britanniques). Elle est à côté de Helgi et sa mère (originaires du cotentin c'est ça ?)

    -De mon côté, je me retrouve également à la position attendue compte-tenu de mes origines et de ma position sur G25, entre européens de l'ouest et de l'est

    - les différences entre européens du nord-ouest et du nord-est semblent nettement plus réduites que sur la PCA portant sur coordonnées G25

    - les Finnois sont plus éloignés que via PCA G25. Est-dû à leurs petites proportions d'ancêtres asiatiques qui les écartent plus des autres européens en distance génétique "réelle" ?

    - les dieppois qui étaient déjà pas mal orientés vers le cluster NW dans G25 se retrouvent ici carrément chez les Norvégiens
    Deux mots sur "G25". G25 lui-même, je sais à peu près ce que c'est: la matrice des 25 premières composantes principales d'un PCA (d'une ACP si tu préfères) sorti de smartpca sur la base d'une énorme matrice de références génétiques. Je dis "à peu près", parce que smartpca n'est pas n'importe quel algorithme de PCA, loin de là. Maintenant quand "on" parle de "G25", ce n'est jamais de cela. Car toujours d'un autre PCA obtenu en appliquant un algo classique (que ce soit Past ou Vahaduo) à une sous-matrice de G25, le plus souvent bricolée (par scaling). Cet objet n'est pas un objet classique, et son lien avec les données est problématique. La phrase que je viens d'écrire n'est pas une critique, mais un relevé de faits objectifs, qui pourra être confirmé par n'importe quel spécialiste d'analyse de données, comme ger Huijbregts. Faire une étude comparative d'un MDS et d'un PCA effectués sur les mêmes données est bien sûr possible, ce qui ne signifie pas que ce soit facile. Comparer un MDS avec un de ces objets flous que l'on range dans la valise "G25", voilà une tâche trop difficile pour moi. Faire une liste de différences, c'est possible (encore que sûrement moins évident qu'il n'y paraît). Trouver la source de ces différences? Trop difficile pour moi.
    Pour ce qui concerne les Européens du NE maintenant, en n'oubliant pas que je n'ai pas de groupe polonais, ni de groupe suédois. Ce qui apparaît ici, c'est un continuum dans lequel les gens de la rive Sud de la Baltique sont des proches parents génétiques des Scandinaves. Cette obervation serait sans le moindre doute confirmée et renforcée par les groupes suédois et polonais. Quand j'ai vu cela se profiler avec mes premiers essais à 6 composantes, j'ai su que je tenais les bons paramètres. L'existence d'une sorte de fracture, d'une discontinuité, entre Nord et Sud de la Baltique est un mythe entretenu par les gens qui veulent à toute force faire coller les groupes génétiques aux groupes linguistiques. Le cas Finlandais doit évidemment recevoir un traitement particulier, en raison de la composante sibérienne. Cela dit, se méfier des surinterprétations (en termes d'éloignements de clusters). Si j'ajoutais des groupes ouralophones autres, et à plus forte raison des groupes Samoyèdes, je suis sûr que le cluster finlandais paraîtrait soudain beaucoup moins éloigné.
    Quant aux "Dieppois", n'oublie pas leur généalogie compliquée, en particulier Dieppe10 qui est à moitié polonaise. Quant à Dieppe20, fils de Dieppe9 (imagine celui-ci non loin de "dad"), il a clairement subi l'attraction du groupe islando-orcadien, ce qui me laisse soupirer après le génome de sa mère, pure Dieppoise, elle, mais non testée.
    En North alom, de North venom
    En North fum naiz, en North manom

    (Roman de Rou, Wace, 1160-1170)

  10. The Following 3 Users Say Thank You to anglesqueville For This Useful Post:

     Agamemnon (02-11-2021),  JMcB (02-11-2021),  xerxez (02-11-2021)

  11. #6
    Registered Users
    Posts
    369
    Sex
    Location
    49% Nord France, 18% Bretagne/Basse Normandie, 16% Pologne, 9% Allemagne/Alsace, 7% Hte Normandie
    Ethnicity
    French, Polish and German
    Y-DNA (P)
    I-M72
    mtDNA (M)
    H6a1a

    France Normandie France Bretagne Poland
    Quote Originally Posted by anglesqueville View Post
    Deux mots sur "G25". G25 lui-même, je sais à peu près ce que c'est: la matrice des 25 premières composantes principales d'un PCA (d'une ACP si tu préfères) sorti de smartpca sur la base d'une énorme matrice de références génétiques. Je dis "à peu près", parce que smartpca n'est pas n'importe quel algorithme de PCA, loin de là. Maintenant quand "on" parle de "G25", ce n'est jamais de cela. Car toujours d'un autre PCA obtenu en appliquant un algo classique (que ce soit Past ou Vahaduo) à une sous-matrice de G25, le plus souvent bricolée (par scaling). Cet objet n'est pas un objet classique, et son lien avec les données est problématique. La phrase que je viens d'écrire n'est pas une critique, mais un relevé de faits objectifs, qui pourra être confirmé par n'importe quel spécialiste d'analyse de données, comme ger Huijbregts. Faire une étude comparative d'un MDS et d'un PCA effectués sur les mêmes données est bien sûr possible, ce qui ne signifie pas que ce soit facile. Comparer un MDS avec un de ces objets flous que l'on range dans la valise "G25", voilà une tâche trop difficile pour moi. Faire une liste de différences, c'est possible (encore que sûrement moins évident qu'il n'y paraît). Trouver la source de ces différences? Trop difficile pour moi.
    Pour ce qui concerne les Européens du NE maintenant, en n'oubliant pas que je n'ai pas de groupe polonais, ni de groupe suédois. Ce qui apparaît ici, c'est un continuum dans lequel les gens de la rive Sud de la Baltique sont des proches parents génétiques des Scandinaves. Cette obervation serait sans le moindre doute confirmée et renforcée par les groupes suédois et polonais. Quand j'ai vu cela se profiler avec mes premiers essais à 6 composantes, j'ai su que je tenais les bons paramètres. L'existence d'une sorte de fracture, d'une discontinuité, entre Nord et Sud de la Baltique est un mythe entretenu par les gens qui veulent à toute force faire coller les groupes génétiques aux groupes linguistiques. Le cas Finlandais doit évidemment recevoir un traitement particulier, en raison de la composante sibérienne. Cela dit, se méfier des surinterprétations (en termes d'éloignements de clusters). Si j'ajoutais des groupes ouralophones autres, et à plus forte raison des groupes Samoyèdes, je suis sûr que le cluster finlandais paraîtrait soudain beaucoup moins éloigné.
    Quant aux "Dieppois", n'oublie pas leur généalogie compliquée, en particulier Dieppe10 qui est à moitié polonaise. Quant à Dieppe20, fils de Dieppe9 (imagine celui-ci non loin de "dad"), il a clairement subi l'attraction du groupe islando-orcadien, ce qui me laisse soupirer après le génome de sa mère, pure Dieppoise, elle, mais non testée.
    Merci pour les précisions. J'espère que tu pourras rajouter d'autres membres/populations sur le graphique, tres curieux de voir ce que ça pourra donner.

  12. The Following User Says Thank You to xerxez For This Useful Post:

     JMcB (02-11-2021)

  13. #7
    Registered Users
    Posts
    369
    Sex
    Location
    49% Nord France, 18% Bretagne/Basse Normandie, 16% Pologne, 9% Allemagne/Alsace, 7% Hte Normandie
    Ethnicity
    French, Polish and German
    Y-DNA (P)
    I-M72
    mtDNA (M)
    H6a1a

    France Normandie France Bretagne Poland
    Quote Originally Posted by anglesqueville View Post
    Deux mots sur "G25". G25 lui-même, je sais à peu près ce que c'est: la matrice des 25 premières composantes principales d'un PCA (d'une ACP si tu préfères) sorti de smartpca sur la base d'une énorme matrice de références génétiques. Je dis "à peu près", parce que smartpca n'est pas n'importe quel algorithme de PCA, loin de là. Maintenant quand "on" parle de "G25", ce n'est jamais de cela. Car toujours d'un autre PCA obtenu en appliquant un algo classique (que ce soit Past ou Vahaduo) à une sous-matrice de G25, le plus souvent bricolée (par scaling). Cet objet n'est pas un objet classique, et son lien avec les données est problématique. La phrase que je viens d'écrire n'est pas une critique, mais un relevé de faits objectifs, qui pourra être confirmé par n'importe quel spécialiste d'analyse de données, comme ger Huijbregts. Faire une étude comparative d'un MDS et d'un PCA effectués sur les mêmes données est bien sûr possible, ce qui ne signifie pas que ce soit facile. Comparer un MDS avec un de ces objets flous que l'on range dans la valise "G25", voilà une tâche trop difficile pour moi. Faire une liste de différences, c'est possible (encore que sûrement moins évident qu'il n'y paraît). Trouver la source de ces différences? Trop difficile pour moi.
    Pour ce qui concerne les Européens du NE maintenant, en n'oubliant pas que je n'ai pas de groupe polonais, ni de groupe suédois. Ce qui apparaît ici, c'est un continuum dans lequel les gens de la rive Sud de la Baltique sont des proches parents génétiques des Scandinaves. Cette obervation serait sans le moindre doute confirmée et renforcée par les groupes suédois et polonais. Quand j'ai vu cela se profiler avec mes premiers essais à 6 composantes, j'ai su que je tenais les bons paramètres. L'existence d'une sorte de fracture, d'une discontinuité, entre Nord et Sud de la Baltique est un mythe entretenu par les gens qui veulent à toute force faire coller les groupes génétiques aux groupes linguistiques. Le cas Finlandais doit évidemment recevoir un traitement particulier, en raison de la composante sibérienne. Cela dit, se méfier des surinterprétations (en termes d'éloignements de clusters). Si j'ajoutais des groupes ouralophones autres, et à plus forte raison des groupes Samoyèdes, je suis sûr que le cluster finlandais paraîtrait soudain beaucoup moins éloigné.
    Quant aux "Dieppois", n'oublie pas leur généalogie compliquée, en particulier Dieppe10 qui est à moitié polonaise. Quant à Dieppe20, fils de Dieppe9 (imagine celui-ci non loin de "dad"), il a clairement subi l'attraction du groupe islando-orcadien, ce qui me laisse soupirer après le génome de sa mère, pure Dieppoise, elle, mais non testée.
    Desole si la question a déjà été probablement abordée, certains sites comme sequencing proposent pour un prix plus élevé un sequencage complet de l'adn. Ça vaut le coup d'essayer selon toi ? Ça donnerait des résultats très différents des résultats imputés via dna land ?

  14. The Following 2 Users Say Thank You to xerxez For This Useful Post:

     Aben Aboo (02-11-2021),  JMcB (02-11-2021)

  15. #8
    Registered Users
    Posts
    371
    Sex
    Location
    Lugdunum, Galliae Caput
    Ethnicity
    Normand mais pas que.....
    Nationality
    française
    Y-DNA (P)
    R1b\DF27\BY27831*
    mtDNA (M)
    T1a1*

    Normandie Scotland Prussia Ukraine France Bretagne Kroaz Du
    Quand tu parles de couverture génomique poussée, il te faut en pratique des résultats de type WGS , oui ? Sinon quoi d'autres ? Big Y700 j'imagine ? d'autres exemples ? j'imagine que des tests de base type 23andMe, MH, LIvingDNA sont insuffisants ?
    YFull : YF83613

    Whats' else ??
    Pangea - Pannotia - Rodinia - Columbia - Kernoland - Ur - Vaalbara - ??

    Gaïa's Haplogroup : G2VR2a1

  16. The Following 2 Users Say Thank You to Dalluin For This Useful Post:

     JMcB (02-11-2021),  xerxez (02-11-2021)

  17. #9
    Gold Class Member
    Posts
    7,575
    Sex
    Location
    Normandy
    Ethnicity
    northwesterner
    Y-DNA (P)
    R-BY3604-Z275
    mtDNA (M)
    H5a1

    Normandie Orkney Netherlands Friesland East Frisia Finland
    Quote Originally Posted by Dalluin View Post
    Quand tu parles de couverture génomique poussée, il te faut en pratique des résultats de type WGS , oui ? Sinon quoi d'autres ? Big Y700 j'imagine ? d'autres exemples ? j'imagine que des tests de base type 23andMe, MH, LIvingDNA sont insuffisants ?
    WGS, aucune analyse de ce type ne prend en compte les Y. En pratique j'ai besoin des 500.000 SNPs (et quelques) qui constituent le panel de référence. Aucune compagnie ne les offre exactement, or j'ai besoin d'un overlapping strict (ou pas loin, pas moins de 0.99) pour être sûr qu'aucun biais ne se cache dans les calculs d'ibs. La seule solution (à moins d'un full genome) est l'imputation. Comme je voulais que toutes les imputations soient faites avec le même pipeline et sur les mêmes références (et que je ne me voyais pas trop le faire moi-même), j'ai proposé à mes ouailles la solution dna.land, sérieuse, rapide, et gratuite.
    En North alom, de North venom
    En North fum naiz, en North manom

    (Roman de Rou, Wace, 1160-1170)

  18. The Following User Says Thank You to anglesqueville For This Useful Post:

     JMcB (02-11-2021)

  19. #10
    Registered Users
    Posts
    371
    Sex
    Location
    Lugdunum, Galliae Caput
    Ethnicity
    Normand mais pas que.....
    Nationality
    française
    Y-DNA (P)
    R1b\DF27\BY27831*
    mtDNA (M)
    T1a1*

    Normandie Scotland Prussia Ukraine France Bretagne Kroaz Du
    Quote Originally Posted by anglesqueville View Post
    WGS, aucune analyse de ce type ne prend en compte les Y. En pratique j'ai besoin des 500.000 SNPs (et quelques) qui constituent le panel de référence. Aucune compagnie ne les offre exactement, or j'ai besoin d'un overlapping strict (ou pas loin, pas moins de 0.99) pour être sûr qu'aucun biais ne se cache dans les calculs d'ibs. La seule solution (à moins d'un full genome) est l'imputation. Comme je voulais que toutes les imputations soient faites avec le même pipeline et sur les mêmes références (et que je ne me voyais pas trop le faire moi-même), j'ai proposé à mes ouailles la solution dna.land, sérieuse, rapide, et gratuite.
    Euh, toujours pas compris ta réponse (A part le passage par l'interface dna.land) !! dslé les néophytes......
    il faut fournir quoi à dna.land comme qualité de données pour arriver au fichier de données souhaité pour cette manip' MDS ?
    YFull : YF83613

    Whats' else ??
    Pangea - Pannotia - Rodinia - Columbia - Kernoland - Ur - Vaalbara - ??

    Gaïa's Haplogroup : G2VR2a1

  20. The Following User Says Thank You to Dalluin For This Useful Post:

     xerxez (02-11-2021)

Page 1 of 46 12311 ... LastLast

Similar Threads

  1. Replies: 7
    Last Post: 11-25-2019, 09:02 AM
  2. "Roman DNA" "Anglo-Saxon DNA" "Viking DNA"
    By RandomUsernameGuy in forum General
    Replies: 53
    Last Post: 12-23-2018, 07:25 PM
  3. Replies: 744
    Last Post: 01-15-2018, 06:54 PM
  4. Replies: 15
    Last Post: 01-30-2017, 09:51 PM
  5. Replies: 4
    Last Post: 01-11-2016, 12:57 AM

Posting Permissions

  • You may not post new threads
  • You may not post replies
  • You may not post attachments
  • You may not edit your posts
  •