PDA

View Full Version : Résultat français avec nMonte



donj
08-26-2016, 01:06 PM
Bonjour à tous, j'avais déjà vu sur des topics vos différents résultats sous nMonte, si vous voulez les poster ici et qu'on puisse les commenter, ce serait bien.
Voici le lien pour un tutoriel en anglais -> ici (http://www.anthrogenica.com/showthread.php?6452-How-to-Use-nMonte) (merci anglesqueville).

Pour ma part, j'ai bien suivi le tutoriel, j'ai pris pour exemple MDLP K13, mais lorsque je lance le script R, je tombe sur cette erreur : In max(myData[1, ] >= 10) : aucun argument pour max ; -Inf est renvoyé
(ligne 39 du script nMonte.R).
Est ce que l'un de vous a déjà eu ce genre d'erreur, et sait d'où ça vient ?

Je vous partage mes 2 .csv, pouvez vous me dire si vous obtenez la même erreur ou non ?
La commande que j'ai lancé est getMonte('popsGdmK13.csv','donjTargetK13.csv')

popsGdmK13.csv (https://www.dropbox.com/s/z6ouhck2cimkrnl/popsGdmK13.csv?dl=0)
donjTargetK13.csv (https://www.dropbox.com/s/ueelsx3zau1mkk3/donjTargetK13.csv?dl=0)

Ce serait gentil sinon si l'un de vous pouvait me partager ses 2 fichiers .csv pour un test qui marche, afin que de mon côté je puisse voir s'il marche aussi chez moi ou non.

anglesqueville
08-26-2016, 01:41 PM
Dans l'expérience que j'en ai, les erreurs sont toujours des conneries de spelling ( je ne vois pas comment appeler cela autrement). Diagnostic détaillé:
1) Tes fichiers sont séparés par des points-virgules, et non des virgules.
2) Ton fichier de pops a une dernière ligne constituée de plusieurs colonnes vides ( séquence de points-virgules)
3) Ton fichier target est incorrect.
a) La première ligne doit commencer par ,pop1,pop2 etc ou X,pop1,pop2 ( X pouvant être n'importe quelle séquence de caractères). N'oublie pas si tu travailles avec bloc-notes que la virgule est un séparateur, donc une virgule est ipso facto suivie par une cellule, même si tu ne la vois pas.
b) La seconde ligne doit commencer comme la première, par une virgule, ou par ton nom (par exemple). Bref: Si tu es sur un K13, le target est un tableau de 2 lignes et 14 colonnes.
Bon, je fais tourner nMonte tout en écrivant. Avec ces rectifications, ça marche.
[1] "2. FULL TABLE nMONTE"
[1] "Ncycles= 1000"
Amerindian ANE Arctic ASI Caucas.Gedrosia EastAsian
donj 0.000000 16.52000 0.000000 0.000000 19.040000 0.000000
fitted 0.020335 16.47977 0.006045 0.077005 19.005695 0.004115
dif 0.020335 -0.04023 0.006045 0.077005 -0.034305 0.004115
ENF NearEast Oceanian Paleo.African Siberian Subsaharian WHG.UHG
donj 40.770000 5.97000 0.000000 0.00000 0.000000 1.440000 16.260000
fitted 40.737705 5.94109 0.015735 0.03096 0.045595 1.407185 16.229745
dif -0.032295 -0.02891 0.015735 0.03096 0.045595 -0.032815 -0.030255
[1] "distance%=0.1279 / distance=0.001279"


donj
"English_Cornwall_GBR" 5.1
"Basque_French" 4.5
"Spanish_Pais_Vasco_IBS" 3.7
"Italy_South" 3.05
"Cretan" 2.9
"Spanish_Castilla_la_Mancha_IBS" 2.9
"Spanish_Aragon_IBS" 2.85
"Welsh" 2.7
"Georgians" 2.6
"Germany_South" 2.55
"Kakheti" 2.4
"Swiss" 2.25
"Spain" 2.15
"Spanish_Iberian" 2.15
"Spanish" 2.1
"Spanish_IBS" 1.9
"Austria" 1.85
"English_GBR" 1.85
"Greek-Islands" 1.75
"Moroccan_Jew" 1.7
"Italy-Friul" 1.6
"Sephardic" 1.6
"Germany_North" 1.55
"Sardinian" 1.5
"Abhkasians" 1.35
"Ashkenazy" 1.35
"Abhkasian" 1.3
"Adygei" 1.25
"Basque_Spanish" 1.25
"France" 1.2
"Italian" 1.2
"Italian_Piedmont" 1.2
"North_European" 1.2
"Georgian_Jews" 1.1
"Icelandic" 1.05
"Spanish_Castilla_y_Leon_IBS" 1.05
"Georgian_Jew" 1
"North_German" 1
"Italian_WestSicilian" 0.95
"Italy_North" 0.95
"Samaritian" 0.95
"South_Greek" 0.95
"English_Kent_GBR" 0.9
"Georgian_Laz" 0.8
"Orcadian" 0.8
"Ashkenazi_Jew" 0.75
"Bosnian" 0.75
"Greek" 0.75
"North_Greek" 0.75
"Syrian_Jew" 0.75
"Corsican" 0.7
"Cypriot" 0.7
"Kosovo" 0.7
"Turk_Trabzon" 0.7
"Gagauz" 0.65
"Italian_Bergamo" 0.6
"Italian_Tuscan" 0.6
"Portugese" 0.6
"Croat_BH" 0.55
"Algerian_Jewish" 0.5
"French" 0.5
"Georgian_Megrel" 0.5
"European_Utah" 0.45
"Bulgaria" 0.4
"Scottish_Argyll_Bute_GBR" 0.4
"Jordanian" 0.35
"Dargins_Urkarah" 0.3
"Lezgin" 0.3
"Chechen" 0.2
"French_South" 0.2
"Hungarian" 0.2
"Moroccan" 0.2
"Morocco_N" 0.2
"Morocco_S" 0.2
"Svan" 0.2
"Croatian" 0.15
"Greek_Comas" 0.15
"Norwegian" 0.15
"Slovenian" 0.15
"Spanish_Cataluna_IBS" 0.15
"Spanish_Extremadura_IBS" 0.15
"Assyrian_WGA" 0.1
"Brahui" 0.1
"Bulgarian" 0.1
"Christian-Arabs-Israel" 0.1
"Czech2" 0.1
"Esan_Nigeria_ESN" 0.1
"Fulani" 0.1
"Greek_Coriell" 0.1
"Greek_WGA" 0.1
"Kalash" 0.1
"Latvia" 0.1
"Libyan" 0.1
"Lithuania" 0.1
"Maltese" 0.1
"Mandenka" 0.1
"Mozabite" 0.1
"Shaigi_WGA" 0.1
"Tunisian" 0.1
"Yemenite_Jew" 0.1
"Yoruban" 0.1
"Czech" 0.05
"Druze" 0.05
"Macedonian" 0.05
"Montenegro" 0.05
"Palestinian" 0.05
"Poland" 0.05
"Sephardi_Jew" 0.05
"Slovak" 0.05
"West-Belarusian" 0.05
[1] "3. RESTRICTED nMONTE"
[1] "Ncycles= 1000"
Amerindian ANE Arctic ASI Caucas.Gedrosia EastAsian ENF
donj 0.00000 16.52000 0.000000 0.000000 19.040000 0.000000 40.77000
fitted 0.00998 16.49586 0.004515 0.046235 19.019075 0.002065 40.74798
dif 0.00998 -0.02414 0.004515 0.046235 -0.020925 0.002065 -0.02202
NearEast Oceanian Paleo.African Siberian Subsaharian WHG.UHG
donj 5.97000 0.000000 0.000000 0.00000 1.44000 16.26000
fitted 5.94933 0.018275 0.027685 0.03127 1.40922 16.24068
dif -0.02067 0.018275 0.027685 0.03127 -0.03078 -0.01932
[1] "distance%=0.0871 / distance=0.000871"


donj
"Moroccan_Jew" 13.05
"Spanish" 11.6
"English_Cornwall_GBR" 10.2
"Swiss" 8.35
"Welsh" 6.05
"Georgians" 5.85
"Spanish_IBS" 5.25
"Spanish_Iberian" 5
"Abhkasian" 4.6

anglesqueville
08-26-2016, 01:48 PM
Pour info: j'ai eu récemment avec Huijbregts ( le seigneur et maître de nMonte) un échange de PMs. Il est dérangé par les distances extrêmement faibles obtenues avec nMonte2, si faibles qu'il les juge impossibles. Je partage son inquiétude, mais je n'ai pas de réponse, si sur la cause du phénomène, ni sur un traitement éventuel.

donj
08-26-2016, 02:40 PM
Merci beaucoup, J'ai lancé le test chez moi

MDLPK13 nMonte2.R

[1] "3. RESTRICTED nMONTE"
[1] "Ncycles= 1000"
Amerindian ANE Arctic ASI Caucas.Gedrosia EastAsian ENF
donj 0.000000 16.52000 0.00000 0.00000 19.04000 0.000000 40.7700
fitted 0.010885 16.49571 0.00426 0.05017 19.01973 0.001935 40.7471
dif 0.010885 -0.02429 0.00426 0.05017 -0.02027 0.001935 -0.0229
NearEast Oceanian Paleo.African Siberian Subsaharian WHG.UHG
donj 5.970000 0.00000 0.000000 0.000000 1.440000 16.26000
fitted 5.949135 0.01873 0.027415 0.028425 1.409375 16.23955
dif -0.020865 0.01873 0.027415 0.028425 -0.030625 -0.02045
[1] "distance%=0.0888 / distance=0.000888"

donj
"Moroccan_Jew" 11.85
"Spanish" 11.4
"English_Cornwall_GBR" 10.1
"Swiss" 9.6
"Welsh" 6.25
"Spanish_Iberian" 5.55
"Spanish_IBS" 5.25
"Abhkasian" 5.2
"Ashkenazy" 4.8
"Georgians" 4.4
"Spanish_Castilla_la_Mancha_IBS" 3.6
"Basque_French" 3.55
"Spanish_Pais_Vasco_IBS" 2.55
"North_European" 2.35
"Cretan" 2.3
"Germany_South" 2.15
"Sephardic" 2.15
"Georgian_Jew" 1.8
"Adygei" 1.65
"English_GBR" 0.95
"Turk_Trabzon" 0.85
"Sardinian" 0.3
"Spanish_Castilla_y_Leon_IBS" 0.3
"Kakheti" 0.2
"Italy_South" 0.15
"Kosovo" 0.15
"English_Kent_GBR" 0.1
"Greek-Islands" 0.1
"Italian" 0.1
"Italy_North" 0.1
"Austria" 0.05
"France" 0.05
"Germany_North" 0.05
"Greek" 0.05
"Basque_Spanish" 0
"Italian_Piedmont" 0
"Italy-Friul" 0
"Spain" 0
"Spanish_Aragon_IBS" 0


Je suppose que plus c'est proche de 0, plus c'est proche de moi.
Mais oui comme tu dis, c'est pas possible que ce soit si proche, après je pense que nMonte est un bon outil pour nous donner des pistes, mais qu'il ne faut pas s'y fier à 100%

C'est normal si avec nMonte.R, il n'y a pas de RESTRICTED nMONTE ?

MDLPK13 nMonte.R

[1] "Ncycles= 1000"
Amerindian ANE Arctic ASI Caucas.Gedrosia EastAsian ENF
donj 0.000000 16.52000 0.000000 0.0000 19.04000 0.00000 40.77000
fitted 0.021025 16.48581 0.005115 0.0688 19.01026 0.00386 40.73878
dif 0.021025 -0.03419 0.005115 0.0688 -0.02974 0.00386 -0.03122
NearEast Oceanian Paleo.African Siberian Subsaharian WHG.UHG
donj 5.97000 0.000000 0.000000 0.000000 1.440000 16.26000
fitted 5.93919 0.014645 0.032085 0.040435 1.410475 16.23061
dif -0.03081 0.014645 0.032085 0.040435 -0.029525 -0.02939
[1] "distance%=0.1175 / distance=0.001175"


donj
"English_Cornwall_GBR" 5.8
"Spanish_Pais_Vasco_IBS" 4.95
"Spanish_Castilla_la_Mancha_IBS" 4.4
"Italy_South" 3.75
"Spanish_Aragon_IBS" 3.35
"Basque_French" 3.1
"Georgians" 2.75
"Cretan" 2.5
"Swiss" 2.4
"English_GBR" 2.35
"Kakheti" 2.35
"Germany_South" 2.3
"Spain" 2.1
"Spanish_Iberian" 1.95
"Welsh" 1.85
"Greek-Islands" 1.8
"Sardinian" 1.7
"Abhkasian" 1.5
"Abhkasians" 1.5
"Sephardic" 1.5
"Samaritian" 1.45
"English_Kent_GBR" 1.35
"Italy_North" 1.35
"Spanish_IBS" 1.35
"Basque_Spanish" 1.3
"Germany_North" 1.3
"Moroccan_Jew" 1.25
"North_German" 1.25
"Scottish_Argyll_Bute_GBR" 1.25
"Adygei" 1.1
"Cypriot" 1.1
"France" 1.1
"Greek" 1.1
"Georgian_Jew" 1.05
"Italy-Friul" 1.05
"Kosovo" 1.05
"Austria" 1
"Italian_Piedmont" 1
"Orcadian" 1
"Ashkenazy" 0.95
"Spanish" 0.95
"North_European" 0.9
"Georgian_Jews" 0.85
"Icelandic" 0.85
"North_Greek" 0.85
"South_Greek" 0.8
"Spanish_Castilla_y_Leon_IBS" 0.8
"Bosnian" 0.75
"Italian_Tuscan" 0.75
"Georgian_Laz" 0.7
"Italian" 0.7
"French_South" 0.65


Bon pour nMonte.R, j'ai pas tout écrit car il doit y avoir 200 lignes avec des 0 donc bon je ne préfère pas spam le forum même si c'est dans un spoiler haha...

Merci beaucoup anglesqueville, je vais pouvoir regarder avec les autres calculateurs GedMatch ce que j'y trouve :) !

anglesqueville
08-26-2016, 02:56 PM
Le "restricted mode" est l'amélioration apportée par nMonte2. Quoiqu'on puisse penser des Oracles en général, et Nmonte est lui-même un oracle, Huijbregts a fait avec ce script un boulot vraiment brillant. Je l'ai déjà fait de nombreuses fois, mais je ne rate aucune occasion de lui lever mon chapeau.

donj
08-26-2016, 03:09 PM
MDLP K23B

[1] "distance%=1.0146 / distance=0.010146"


donj
"Frisian" 37.4
"Christian_Arabs_Israel" 10.9
"Albanian_Tirana" 10.75
"Sicilian_East" 10.3
"Sardinian" 9.7
"English_Kent_GBR" 7
"Adjara" 6.85
"Kashub" 6.15
"Italian_Piedmont" 0.9
"Greek_Thessaly" 0.05
"British" 0
"Croat_BH" 0
"Dutch" 0
"English_Cornwall_GBR" 0
"Georgian_Laz" 0
"Greek_Northwest" 0
"Italian_Bergamo" 0
"Italian_North" 0
"Italian_Tuscan" 0

C'est vraiment bluffant en effet, Je le remercierais si je le croise sur un topic :) !

Sinon, c'est surement une question bête, mais quelle est la différence entre tous les Oracles sur GedMatch, ils regardent les ancêtres par rapport à quand ?
Je ne sais jamais vraiment quel Oracle est un bon indicateur, et quel autre Oracle ne l'est pas.
Gedmatch pour moi je l'avoue c'est assez brouillon, sur 23andme on nous dit que c'est les ancêtres sur 500 ans, mais alors Gedmatch je ne sais pas du tout.

Huijbregts
08-26-2016, 03:32 PM
donj

The full table result of nMonte2 is identical to nMonte. You will probably not get the same result though, because the result is stochastic.
I don't trust your results from MDLP K13. The largest component is small and the distance is less than 0.1%.
The result from MDLP K23B is nice.

anglesqueville
08-26-2016, 03:39 PM
Vaste question. Je veux bien te donner mon avis, mais je dois insister: ce n'est que mon avis. Je ne crois absolument pas à la possibilité pour quiconque d'affirmer que telle ou telle analyse liste les ancêtres à hauteur de 500 ans, de 2000, de 10000, etc. Pour moi l'histoire des 500 ans de 23&me est un coup de bluff commercial destiné aux chalands nord-américains, et rien d'autre. Tous ne font que rapprocher par des algorithmes statistiques/probabilistes des relevés de fréquences individuels de relevés de référence. S'il s'agit de fréquences d'allèles, il faut simplement oublier tout espoir de datation. Les snps n'ont pas d'âge, et il est impossible de dater la dernière apparition d'un allèle dans un génome. Donc toutes ces histoires selon lesquelles tel eurogenes, mdlp, ou autre, viserait une époque plus ou moins reculée, ne sont que des contes pour enfants. 23&me prétend travailler sur des segments. Mais, à moins que je n'aie rien compris aux explications très brumeuses de 23, ces segments sont obtenus par lissage de micro-segments de 100 bp, donc juste au-dessus de la limite au-dessous de laquelle on tombe dans les trous de vers causés par le "Linkage Desequilibrium", autrement dit au-dessous de laquelle les singularités de probabilité de cross-over rendent toute espoir de datation illusoire. Donc ... même chose. Mais alors? Est-ce que cela veut dire que.....? Oui. Les oracles, que ce soit les "ancestral compositions", les "ethnic make-up", ou les oracles de gedmatch, nMonte compris, ne te disent directement rien sur tes ancêtres. J'insiste sur le "directement". Mais indirectement, leur interprétation peut conduire à émettre des hypothèses ancestrales. Imagine un Européen du sud à qui les oracles, obstinément, donneraient un pourcentage signicatif dans une population très inhabituelle, comme la Russie du nord, ou les Han. Lui pourrait au-moins prendre cela comme un signe, et commencer à se poser des questions.

anglesqueville
08-26-2016, 03:46 PM
Huijbregts, did you see the new flag in my avatar?

Donj: pardon si tu as déjà répondu à cette question, est-ce que le mélange nord-sud (pour dire cela très vite) évident sur tes oracles, colle avec les origines de tes parents, ou est-ce qu'il envoie à plus loin?

donj
08-26-2016, 04:50 PM
Huijbregts, thank you very much for your script, it's nicely done, my respects :) !
I have one question about the distance, can we always suppose the result is nice if the distance is > 1% and if the largest component aren"t that close to 0 ?

anglesqueville, merci pour ton explication, ça devient plus claire, en gros tout ce qu'on voit aujourd'hui ne sont que des Oracles, avec des populations "cibles" données à l'intérieur par rapport à des SNPs, et donc l'Oracle donnera
toujours par rapport à nos résultats la population la plus proche selon l'Oracle donné, bien que ce ne soit pas forcément la bonne.
Moi je pensais en fait qu'avec GedMatch, on était capable de remonter nos ancêtres à encore plus loin, par rapport de savoir de quelle population venaient les français de telle ou telle région, idem pour l’Italie, l’Angleterre, la Belgique, tous les pays puisqu'au final tout n'est que métissage de différentes populations pour en créer une nouvelle.

Alors moi concernant mes résultats, il y a toujours les résultats directs concernant mes ancêtres proches Italiens et Bretons (English_Cornwall_GB), après je me disais que les autres résultats étaient en fait un ancêtre bien plus lointain comme par exemple l'Albanie, la Géorgie, La Grèce comme ancêtre plus lointain si l'on prend mes ancêtres Italiens.

Mestace
08-26-2016, 05:17 PM
Il n'y a pas d'espace temps possible à donner. Si je suis Hongrois depuis le mésolithique et que d'un coup je me marrie avec une Anglaise par exemple, mes enfants deviennent Hongrois/Anglais, j'ai été pendant 15 000 ans Hongrois, et seulement Anglais depuis une génération, mais ils sont quand même 50% Anglais maintenant... donc ca veut pas dire grand chose de remonter à x années, l'ancêtre le plus proche est toujours le plus important forcément, donc les 2 parents. Tu es 50% ta mère, 50% ton père et 25% tes 4 grands parents, ca ne peut pas aller plus loin que ça. Si tu remontes 500 ans en arrière peut être qu'il y aura un ancêtre qui vient d'un pays voisin mais ca ne fera jamais plus qu'un pourcentage infime de ton admixture actuelle. L'ethnicité peut changer très vite, ca va parraître évident à tout le monde mais j'ai l'impression que pleins de gens ne se rendent pas bien compte. Si une Japonaise se marrie avec un Europpéen, le premier enfant est déjà 50% Euro, la seconde gen 75, la 3éme 87,5...(en partant du principe que les enfants continuent à faire d'autres enfants avec des Europpéens), et ainsi de suite on tend très rapidement vers les 100%. D'ou les précautions à prendre avec les haplogroupes, au passage. Les influences de certaines régions sont en fait le résultat de mini "founder effect".

Ce que veut dire 23andme par 100% Europpéen c'est déjà quelque chose qui s'arrête on va dire après l'age de Bronze, ensuite ça devient tendancieux de catégoriser ce qui est ethniquement Euro au sens propre cad la continuité paleo/meso HG. On peut le faire, certains calculateurs le font, c'est le WHG tout simplement mais c'est complexe à calculer et trop compliqué à présenter pour le consommateur moyen. L'Americain Joe il commande pas un test pour savoir combien il a de WHG, il veut savoir plus ou moins s'il est Anglais, Allemand, Scandinave,..s'il a de l'Amerindien etc..

Huijbregts
08-26-2016, 07:02 PM
I have one question about the distance, can we always suppose the result is nice if the distance is > 1% and if the largest component aren"t that close to 0 ?

I must admit that I do not completely understand what is happening.
The combination of
1. a large number of small components
2. an implausibly small distance
suggests the model has been overfitted.
Indeed, a mixture of dozens of populations is always overfitted.
That said, there seems to something lurking in some calculator sheets.
With Eurogenes K13/15 I have never seen an overfitting problem. Also the restricted result is just a compressed form of the full table result.
With other calculators I have frequently seen extremely low distances, even in the restricted nMonte.
Judging from my experience with Eurogenes, I would say that 0.5% is safe.

donj
08-26-2016, 07:21 PM
Huijbregts : Thank you for your answer.


Mestace : Je suis tout à fait d'accord avec toi là dessus, ça ne sert à rien de remonter trop en arrière si l'on s'intéresse au pourcentage que l'on peut avoir par rapport a un pays donné puisque effectivement ce pourcentage serait moindre.
Moi ce qui m'intéresse plutôt, c'est de revenir à la source :

- Si l'on prend l'exemple de la matière, on prend un bout de ferraille, que l'on va diviser de plus en plus, pour au final à un moment ne plus pouvoir le diviser et ainsi arriver à l’atome.
- Si l'on prend l'exemple des mélanges de couleurs, on divise les couleurs afin d'arriver au final aux couleurs primaires amenant à ce résultat.
Bleu + Rouge = Violet
Bleu + Jaune = Vert
Jaune + Rouge = Orange
etc etc, on peut aller très loin comme ça avec des mélanges de plus ou moins de couleurs, mais au final, à la source, pour avoir les couleurs il n'en aura fallu que 3.

C'est ce que je voulais savoir sur nous en fait, sur toutes les populations et ethnies, ce qui a fait depuis le début qu'on est ce qu'on est, même si effectivement pour la personne née en 2016, elle n'aura qu'un très faible pourcentage de la population ayant permis de faire de lui ce qu'il est il y a 2500 ans.

Titane
08-26-2016, 08:51 PM
Angles - je pense que Donj aimerait bien un SPA22...

Mestace
08-26-2016, 09:10 PM
Mestace : Je suis tout à fait d'accord avec toi là dessus, ça ne sert à rien de remonter trop en arrière si l'on s'intéresse au pourcentage que l'on peut avoir par rapport a un pays donné puisque effectivement ce pourcentage serait moindre.
Moi ce qui m'intéresse plutôt, c'est de revenir à la source :

- Si l'on prend l'exemple de la matière, on prend un bout de ferraille, que l'on va diviser de plus en plus, pour au final à un moment ne plus pouvoir le diviser et ainsi arriver à l’atome.
- Si l'on prend l'exemple des mélanges de couleurs, on divise les couleurs afin d'arriver au final aux couleurs primaires amenant à ce résultat.
Bleu + Rouge = Violet
Bleu + Jaune = Vert
Jaune + Rouge = Orange
etc etc, on peut aller très loin comme ça avec des mélanges de plus ou moins de couleurs, mais au final, à la source, pour avoir les couleurs il n'en aura fallu que 3.

C'est ce que je voulais savoir sur nous en fait, sur toutes les populations et ethnies, ce qui a fait depuis le début qu'on est ce qu'on est, même si effectivement pour la personne née en 2016, elle n'aura qu'un très faible pourcentage de la population ayant permis de faire de lui ce qu'il est il y a 2500 ans.

C'est exactement ce qu'on arrive à produire sur certains calculateurs, avec seulement quelques branches ancestrales et éventuellement 3-4 autres qui nous concernent moins, mais même dans cette optique tu ne voies que le résultat de ce que tu es maintenant. Théoriquement n'importe qui a très bien pu passer par 3-4 ethnicités dans les 500 dernières années et finir parfaitement dans la moyenne d'un pays aujourd'hui (peu probable mais possible), il suffit de quelques parents récents du coin, voir moins pour des pays proches génétiquement. Dans la plupart des cas ce qu'on voit surtout c'est un drift dans une certaine direction qui peut avoir différentes raisons, parfois le résultat d'influences opposés, d'isolats anciens, etc.. s'il est constant et significatif c'est qu'il y a quelque chose de récent quand même ou propre à un coin en particulier.

L'analogie des couleurs est d'autant plus juste en effet qu'on peut trouver des liens encore plus anciens avec d'autres gradients, le jaune c'est bien du rouge et vert mais qu'est ce que le rouge...du jaune et du magenta, qui est du rouge et du bleu , etc... Exemple l'ANE, en imagineant qu'on arrive à bien le définir (ce qui n'est pas le cas encore), à l'échelle Eurasienne ca pourrait simplement se caractériser par un mix de WHG et paleo Indian/Siberian, c'est plus complexe mais dans l'absolu ethniquement ca peut se retrouver équidistant sur le même axe, donc on pourrait pousser le vice jusqu'à modéliser l'ANE avec 2 couleurs et surement d'autres composants de la même façon, l'E_Asian a de bonnes chances d'être anachroniquement un genre de mix ASE et ANE par exemple. On pousse déjà loin la chose en K6-K7, c'est ce qui est intéressant en low K. Il faut juste comprendre qu'on échange de la précision pour de l'échelle sur des branches qui ont jusqu'à 100ky et plus.


Dans une population régionale, tout dépend des proportions qui ont structuré le substrat de cette population. Un exemple qui pourrait parler à certains, si je prend une pop native d'un village x à un instant t faite de 1000 individus et qu'une autre population y, s'installe sur son territoire avec 300 individus, il suffit de quelques gen pour arriver à ce que toute la population soit plus ou moins x70% + y30%, mais elle peut aussi devenir 50-50% voir inverser cette proportion si la pop y, se reproduit à un rythme plus élevé avant/pendant les premiers mélanges, tout est possible dans un sens ou dans l'autre. En revenant encore 500 ans plus tard, la pop globale aura très bien pu grossir à des centaines de milliers d'habitants elle sera toujours dans les mêmes proportions, l'admixture ne se perd plus une fois qu'elle est stabilisée, alors qu'à la base on a juste quelques centaines d'individus vehiculant une admixture mineure. Ca peut donner de gros founder effect parfois dans des coins isolés avec la moindre influence étrangère même très ancienne.

anglesqueville
08-26-2016, 10:21 PM
Angles - je pense que Donj aimerait bien un SPA22...

J'y penserai, mais demain. Pour l'instant, c'est dodo...

Titane
08-26-2016, 10:37 PM
C'est exactement ce qu'on arrive à produire sur certains calculateurs, avec seulement quelques branches ancestrales et éventuellement 3-4 autres qui nous concernent moins, mais même dans cette optique tu ne voies que le résultat de ce que tu es maintenant. Théoriquement n'importe qui a très bien pu passer par 3-4 ethnicités dans les 500 dernières années et finir parfaitement dans la moyenne d'un pays aujourd'hui (peu probable mais possible), il suffit de quelques parents récents du coin, voir moins pour des pays proches génétiquement. Dans la plupart des cas ce qu'on voit surtout c'est un drift dans une certaine direction qui peut avoir différentes raisons, parfois le résultat d'influences opposés, d'isolats anciens, etc.. s'il est constant et significatif c'est qu'il y a quelque chose de récent quand même ou propre à un coin en particulier.

L'analogie des couleurs est d'autant plus juste en effet qu'on peut trouver des liens encore plus anciens avec d'autres gradients, le jaune c'est bien du rouge et vert mais qu'est ce que le rouge...du jaune et du magenta, qui est du rouge et du bleu , etc... Exemple l'ANE, en imagineant qu'on arrive à bien le définir (ce qui n'est pas le cas encore), à l'échelle Eurasienne ca pourrait simplement se caractériser par un mix de WHG et paleo Indian/Siberian, c'est plus complexe mais dans l'absolu ethniquement ca peut se retrouver équidistant sur le même axe, donc on pourrait pousser le vice jusqu'à modéliser l'ANE avec 2 couleurs et surement d'autres composants de la même façon, l'E_Asian a de bonnes chances d'être anachroniquement un genre de mix ASE et ANE par exemple. On pousse déjà loin la chose en K6-K7, c'est ce qui est intéressant en low K. Il faut juste comprendre qu'on échange de la précision pour de l'échelle sur des branches qui ont jusqu'à 100ky et plus.


Dans une population régionale, tout dépend des proportions qui ont structuré le substrat de cette population. Un exemple qui pourrait parler à certains, si je prend une pop native d'un village x à un instant t faite de 1000 individus et qu'une autre population y, s'installe sur son territoire avec 300 individus, il suffit de quelques gen pour arriver à ce que toute la population soit plus ou moins x70% + y30%, mais elle peut aussi devenir 50-50% voir inverser cette proportion si la pop y, se reproduit à un rythme plus élevé avant/pendant les premiers mélanges, tout est possible dans un sens ou dans l'autre. En revenant encore 500 ans plus tard, la pop globale aura très bien pu grossir à des centaines de milliers d'habitants elle sera toujours dans les mêmes proportions, l'admixture ne se perd plus une fois qu'elle est stabilisée, alors qu'à la base on a juste quelques centaines d'individus vehiculant une admixture mineure. Ca peut donner de gros founder effect parfois dans des coins isolés avec la moindre influence étrangère même très ancienne.

Ah je me dis en lisant ceci, je peux vérifier le modèle, car j'ai les données des 17 familles fondatrices de mon village gaulois sur le St-Laurent que je partage avec Theconqueror et qui a justement environ 1000 habitants. Alors voici, je suis descendante de 13 des familles et sur plus de deux lignées pour trois d'entre elles. Les origines des fondateurs sont 13 Normandie, 10 Poitou - j'ai ôté Paris et la Picardie. Mais, trois de ces mariages sont mixtes Normandie-Poitou et deux des femmes ont eu deux époux.
Ils vécurent plus ou moins heureux, mais eurent beaucoup d'enfants et leurs enfants aussi.
Résultat ? Pour le moment 600 genocousins sur AncestryDNA que l'on dit 4th cousins, mais qui sont plus souvent 6th et plus. Comme le village a rapidement débordé, ces genocousins sont pour la plupart américains depuis 3 ou 4 générations. Theconqueror et moi avons deux segments en commun, mais nos ancêtres communs sont beaucoup plus anciens que 4th cousins qui serait suggéré par les liens ADN.
Quant à pouvoir retracer nos racines Nord/SudOuest?

Agamemnon
08-26-2016, 10:45 PM
Mod: Speak French, don't force me to translate all of your posts, since that's exactly what I will end up doing if this continues.

donj
08-27-2016, 12:51 AM
C'est exactement ce qu'on arrive à produire sur certains calculateurs, avec seulement quelques branches ancestrales et éventuellement 3-4 autres qui nous concernent moins, mais même dans cette optique tu ne voies que le résultat de ce que tu es maintenant. Théoriquement n'importe qui a très bien pu passer par 3-4 ethnicités dans les 500 dernières années et finir parfaitement dans la moyenne d'un pays aujourd'hui (peu probable mais possible), il suffit de quelques parents récents du coin, voir moins pour des pays proches génétiquement. Dans la plupart des cas ce qu'on voit surtout c'est un drift dans une certaine direction qui peut avoir différentes raisons, parfois le résultat d'influences opposés, d'isolats anciens, etc.. s'il est constant et significatif c'est qu'il y a quelque chose de récent quand même ou propre à un coin en particulier.

L'analogie des couleurs est d'autant plus juste en effet qu'on peut trouver des liens encore plus anciens avec d'autres gradients, le jaune c'est bien du rouge et vert mais qu'est ce que le rouge...du jaune et du magenta, qui est du rouge et du bleu , etc... Exemple l'ANE, en imagineant qu'on arrive à bien le définir (ce qui n'est pas le cas encore), à l'échelle Eurasienne ca pourrait simplement se caractériser par un mix de WHG et paleo Indian/Siberian, c'est plus complexe mais dans l'absolu ethniquement ca peut se retrouver équidistant sur le même axe, donc on pourrait pousser le vice jusqu'à modéliser l'ANE avec 2 couleurs et surement d'autres composants de la même façon, l'E_Asian a de bonnes chances d'être anachroniquement un genre de mix ASE et ANE par exemple. On pousse déjà loin la chose en K6-K7, c'est ce qui est intéressant en low K. Il faut juste comprendre qu'on échange de la précision pour de l'échelle sur des branches qui ont jusqu'à 100ky et plus.


Dans une population régionale, tout dépend des proportions qui ont structuré le substrat de cette population. Un exemple qui pourrait parler à certains, si je prend une pop native d'un village x à un instant t faite de 1000 individus et qu'une autre population y, s'installe sur son territoire avec 300 individus, il suffit de quelques gen pour arriver à ce que toute la population soit plus ou moins x70% + y30%, mais elle peut aussi devenir 50-50% voir inverser cette proportion si la pop y, se reproduit à un rythme plus élevé avant/pendant les premiers mélanges, tout est possible dans un sens ou dans l'autre. En revenant encore 500 ans plus tard, la pop globale aura très bien pu grossir à des centaines de milliers d'habitants elle sera toujours dans les mêmes proportions, l'admixture ne se perd plus une fois qu'elle est stabilisée, alors qu'à la base on a juste quelques centaines d'individus vehiculant une admixture mineure. Ca peut donner de gros founder effect parfois dans des coins isolés avec la moindre influence étrangère même très ancienne.

J'y ai pensé aussi concernant ce que tu dis sur le fait que des populations passées par 3-4 différentes ethnies auraient pu au final être dans la moyenne ethnique d'un pays.
Si je prends mon cas, père Français, je suis R1b L51 (le reste étant encore à confirmer pour le moment mais la discussion n'est pas là), mon grand père et ma grand mère maternelle, sont italiens, près de Rome.

Ici ce sont des Composition Ancestry d'Italien du Nord venant de 23andme que j'ai trouvé sur le net :
- Cas 1 (https://postimg.org/image/v50f9bk7d/)
- Cas 2 (https://postimg.org/image/4mmdecavd/)
- Cas 3 (https://postimg.org/image/e9vfs33m1/)
- Cas 4 (https://postimg.org/image/w2us56ozt/)


- Mon Cas (http://www.awesomescreenshot.com/upload/21700/22011/6cff2967-bf29-4810-4454-f1dcfa6317ff.jpg)


Si l'on prend des cas typiques d'Italien du Sud, on tombe souvent là-dessus :
- Cas 1 (http://i58.tinypic.com/ev2is9.jpg)
- Cas 2 (http://i59.tinypic.com/11snthe.jpg)
- Cas 3 (http://i59.tinypic.com/2nuklds.jpg)

On peut voir que même si au départ je ne suis pas Natif d'Italie du Nord, finalement aujourd'hui génétiquement je suis presque similaire à un Natif, sans le vouloir, et c'est donc surement pour ça qu'au final les Oracles me décrivent souvent comme Nord Italien, à cause de mon propre métissage avec Les Bretons - Nord Européens, qui même si différent, ressemble au métissage qu'on subit les Nord Italiens avec les Germaniques et autres Nord Européens

Concernant le Founder Effect, effectivement je n'y avais pas pensé mais il vrai que ce n'est pas parce qu'une population vient d'un pays que toute la population était similaire.
Après je dirais même mieux, à l'inverse, on pourrait en France créer des Mexicains sur le long terme, si l'on décidait d'amener des Amérindiens, Asiatique, Européens à se métisser ensemble,
Exemple de test de Mexicain :
- Cas 1 (https://anthropologywhilewhite.files.wordpress.com/2014/09/rodrigo-23andme.jpg)
- Cas 2 (http://i42.tinypic.com/29foub6.png)

On aurait donc une population similaire à une autre, mais qui ne vivent pas sur le même territoire !

palamede
08-27-2016, 09:17 AM
donj
"Moroccan_Jew" 13.05
"Spanish" 11.6
"English_Cornwall_GBR" 10.2
"Swiss" 8.35
"Welsh" 6.05
"Georgians" 5.85
"Spanish_IBS" 5.25
"Spanish_Iberian" 5
"Abhkasian" 4.6

Je m'attendais à envron 100%. Le total est 69.95%. Comme s'il ne calculait que pour 70%. Est-ce normal.

3 composants Spanish que semble t-il seulement l'origine des échantillons distingue , total 21.85

Morrocan_Jew 13.05 peut être indicatif, mais peut simplement indiquer une fabrication à partir des composants Moyen-orientaux, Berbère et Ibérique. Dans la première passe, il ne faisait que 1.7%.

Je n'ai jamais aimé MDLP et ses mélanges anciens et modernes. J'ai été dégouté quand j'ai fait les résultats MDLP K36 il y a 2 ans, surtout quand j'ai vu
French 4,24% Iberian 16,82% Italian 13,23% alors que je ne me connais aucune origine au sud de la Loire. Je suppose parce que West Med n'était que 3,33% et pas de composants moyen-orientaux (en dehors des faibles North caucasian 2,17%, West Caucasian 3,11%, East-Balkan 2,04%), alors que pour Eurogenes K13 et K15 j'ai 18,68% et 15,00% West Med et 5,92% et 2,14% East_Med + Red Sea.

Je n'ai pas compris l'engouement pour MDLP de certains.

anglesqueville
08-27-2016, 09:34 AM
Je m'attendais à envron 100%. Le total est 69.95%. Comme s'il ne calculait que pour 70%. Est-ce normal.

3 composants Spanish que semble t-il seulement l'origine des échantillons distingue , total 21.85

Morrocan_Jew 13.05 peut être indicatif, mais peut simplement indiquer une fabrication à partir des composants Moyen-orientaux, Berbère et Ibérique. Dans la première passe, il ne faisait que 1.7%.

Je n'ai jamais aimé MDLP et ses mélanges anciens et modernes. J'ai été dégouté quand j'ai fait les résultats MDLP K36 il y a 2 ans, surtout quand j'ai vu
French 4,24% Iberian 16,82% Italian 13,23% alors que je ne me connais aucune origine au sud de la Loire. Je suppose parce que West Med n'était que 3,33% et pas de composants moyen-orientaux (en dehors des faibles North caucasian 2,17%, West Caucasian 3,11%, East-Balkan 2,04%), alors que pour Eurogenes K13 et K15 j'ai 18,68% et 15,00% West Med et 5,92% et 2,14% East_Med + Red Sea.

Je n'ai pas compris l'engouement pour MDLP de certains.

Tiens, je n'ai pas vu cela. C'est peut-être seulement une connerie de copier-coller, je vais vérifier.

anglesqueville
08-27-2016, 09:41 AM
donj
"Moroccan_Jew" 13.05
"Spanish" 11.6
"English_Cornwall_GBR" 10.2
"Swiss" 8.35
"Welsh" 6.05
"Georgians" 5.85
"Spanish_IBS" 5.25
"Spanish_Iberian" 5
"Abhkasian" 4.6
"Ashkenazy" 4.5
"Basque_French" 3.8
"Spanish_Castilla_la_Mancha_IBS" 2.75
"Spanish_Pais_Vasco_IBS" 2.65
"Cretan" 2.4
"North_European" 2.1
"Germany_South" 2.05
"Sephardic" 1.95
"Adygei" 1.9
"Georgian_Jew" 1.5
"English_GBR" 1.35
"Icelandic" 1.2
"Sardinian" 1
"Italy_South" 0.35
"Greek-Islands" 0.15
"Italian" 0.1
"North_German" 0.1
"Abhkasians" 0.05
"Kakheti" 0.05
"Spanish_Aragon_IBS" 0.05
"Spanish_Castilla_y_Leon_IBS" 0.05

Evidemment, il est impossible que le script donne autre chose qu'un total de 100%!

edit: palamede, ce n'est qu'un détail, mais le K36 n'est pas un mdlp, mais un eurogenes. Bon, moi non plus je n'ai pas compris pourquoi David s'est fourvoyé avec ce K36. L'eau a coulé sous les ponts depuis, heureusement.

Huijbregts
08-27-2016, 11:47 AM
Evidemment, il est impossible que le script donne autre chose qu'un total de 100%!

donj
I have run your nMonte on MDLP_K13_ultimate (calculator sheet from GEDmatch).
The results added to 100% (phew).
Because I the restricted results still looked overfitted, I have run nMonte2 with Ncycles=10000.

[1] "distance%=0.0883 / distance=0.000883"
donj
"Algerian_Jewish" 18.05
"English_Cornwall_GBR" 12.95
"Swiss" 12.65
"Spanish" 9.25
"Basque_French" 7.9
"Welsh" 7.75
"Georgians" 5.55
"Spanish_Pais_Vasco_IBS" 4.85
"Germany_South" 3.9
"Georgian_Jew" 3.45
"Adygei" 3.05
"Spanish_Castilla_la_Mancha_IBS" 2.65
"Georgian_Megrel" 2
"Cretan" 1.75
"English_GBR" 1.15
"Moroccan_Jew" 1
"Sardinian" 0.9
"Samaritian" 0.8
"Icelandic" 0.35
"Italy_South" 0.05
"Georgian_Jews" 0
"Greek-Islands" 0
"Italy_North" 0
"Italy-Friul" 0
"Kakheti" 0
"Sephardic" 0
"Spain" 0
"Spanish_Aragon_IBS" 0
"Spanish_Castilla_y_Leon_IBS" 0

Still many small pops and a small distance.
Moreover the list of closest single item item distances starts with three Italian pops, which together only explain 0.05% in the restricted nMonte.

I seems that nMonte and your score on this calculator are not made for each other.

Tolan
08-27-2016, 12:24 PM
Je m'attendais à envron 100%. Le total est 69.95%. Comme s'il ne calculait que pour 70%. Est-ce normal.

3 composants Spanish que semble t-il seulement l'origine des échantillons distingue , total 21.85

Morrocan_Jew 13.05 peut être indicatif, mais peut simplement indiquer une fabrication à partir des composants Moyen-orientaux, Berbère et Ibérique. Dans la première passe, il ne faisait que 1.7%.

Je n'ai jamais aimé MDLP et ses mélanges anciens et modernes. J'ai été dégouté quand j'ai fait les résultats MDLP K36 il y a 2 ans, surtout quand j'ai vu
French 4,24% Iberian 16,82% Italian 13,23% alors que je ne me connais aucune origine au sud de la Loire. Je suppose parce que West Med n'était que 3,33% et pas de composants moyen-orientaux (en dehors des faibles North caucasian 2,17%, West Caucasian 3,11%, East-Balkan 2,04%), alors que pour Eurogenes K13 et K15 j'ai 18,68% et 15,00% West Med et 5,92% et 2,14% East_Med + Red Sea.

Je n'ai pas compris l'engouement pour MDLP de certains.

Je vais défendre le K36 de David, car c'est un calculateur intéressant.
Lorsqu'on a un objet complexe devant les yeux, il vaut mieux le regarder sous plusieurs facettes, plutôt que de le regarder que d'un seul coté...
K36 permet de voir des choses que d'autres calculateurs ne voient pas.

Souvent, les libellés des composants induisent en erreur..
Lorsqu'on passe des anciens génomes dans k36, des choses intéressantes apparaissent.
Par exemple, "Iberian", correspond probablement aux chasseurs-cueilleurs de méditerranée: présent dans les néolithiques espagnols, mais absent des fermiers anatoliens et des chasseurs cueilleurs du continent européen.
"Italian" lui est présent aussi bien dans les néolithiques espagnols que les fermiers anatoliens. Donc peut-être un composant venu d'Anatolie


Iberian et Italian sont parmi les premiers de nos composants, car les composants nord-européens sont divisés en plusieurs composants:
EasternEuro, East-central-Euro, Fenno, North-Atlantic, North-Sea.
Ces composants ont sans doute la même origine (Chasseurs cueilleurs de l'Ouest ou de l'Est de l'Europe), mais se sont un peu diversifier localement.

donj
08-27-2016, 12:26 PM
Huijbregts : The only good MDLP calculator for me then is MDLP 23b ?
I will look for Eurogene what i have and post there the results.

Traduction : Le seul bon calculateur MDLP pour moi est il donc le MDLP23b ?
Je vais regarder ce que j'ai sur Eurogene comme résultats et le poster ici

palamede : Apparemment K13 et K13 ultimate sont faux pour moi, les distances trop courtes, et trop de faible % de populations. Je vais regarder mes résultats sur Eurogene pour comparer.

donj
08-27-2016, 01:27 PM
Huijbregts : here are my results for Eurogene K13, Eurogene K15 and puntDNAL K12. I also wanted to do Dodecad K12b, but i have an error "duplicate 'row.names' are not allowed", i don't know why as their are no duplicates.
Traduction : Voici mes résultats pour Eurogene K13, Eurogene K15 et puntDNAL K12. J'ai aussi voulu tester Dodecad K12b, mais j'obtiens une erreur "duplicate 'row.names' are not allowed".

Eurogenes K13

[1] "3. RESTRICTED nMONTE"
[1] "Ncycles= 1000"
North_Atlantic Baltic West_Med West_Asian East_Med Red_Sea
donj 32.910000 15.320000 19.950000 11.59000 14.740000 3.50000
fitted 32.830465 15.234355 19.858405 11.48177 14.682985 3.37741
dif -0.079535 -0.085645 -0.091595 -0.10823 -0.057015 -0.12259
South_Asian East_Asian Siberian Amerindian Oceanian Northeast_African
donj 0.28000 0.000000 0.00000 0.140000 0.73000 0.84000
fitted 0.59971 0.210395 0.16122 0.271715 0.41368 0.77782
dif 0.31971 0.210395 0.16122 0.131715 -0.31632 -0.06218
Sub.Saharan
donj 0.000000
fitted 0.095355
dif 0.095355
[1] "distance%=0.5957 / distance=0.005957"


donj
"North_Dutch" 30.1
"Central_Greek" 14
"Sardinian" 10.3
"Georgian" 9.65
"Austrian" 7.05
"Southwest_English" 6.95
"French_Basque" 6.75
"Italian_Abruzzo" 5.9
"Tuscan" 5.6
"Saudi" 2.5
"Ethiopian_Tigray" 1.2


Eurogenes K15

[1] "3. RESTRICTED nMONTE"
[1] "Ncycles= 1000"
North_Sea Atlantic Baltic Eastern_Euro West_Med West_Asian East_Med
donj 19.70000 22.970000 10.60000 2.540000 15.470000 11.810000 11.93000
fitted 19.18114 22.724905 9.09754 4.387385 15.279495 11.363685 11.77838
dif -0.51886 -0.245095 -1.50246 1.847385 -0.190505 -0.446315 -0.15162
Red_Sea South_Asian Southeast_Asian Siberian Amerindian Oceanian
donj 3.50000 0.100000 0.00000 0.0000 0.000000 0.560000
fitted 3.17105 0.546965 0.18301 0.1419 0.261435 0.149675
dif -0.32895 0.446965 0.18301 0.1419 0.261435 -0.410325
Northeast_African Sub.Saharan
donj 0.83000 0.000000
fitted 1.17702 0.558035
dif 0.34702 0.558035
[1] "distance%=2.6997 / distance=0.026997"


donj
"Spanish_Castilla_Y_Leon" 55.15
"Georgian" 13.9
"South_Italian" 12.45
"Swedish" 10.75
"Lithuanian" 5.45
"Irish" 2.3
"Abhkasian" 0
"Greek_Thessaly" 0
"North_Dutch" 0


puntDNAL K12

[1] "3. RESTRICTED nMONTE"
[1] "Ncycles= 1000"
Sub.Saharan Amerindian South_Asian Near_East Siberian European_HG
donj 1.42000 0.12000 0.00000 5.880 0.00000 29.55000
fitted 0.44375 0.05775 0.11875 6.101 0.05525 29.71775
dif -0.97625 -0.06225 0.11875 0.221 0.05525 0.16775
Caucasus_HG South_African_HG Anatolian_NF East_Asian Oceanian Beringian
donj 22.49000 0 39.4600 0.46000 0.00000 0.610
fitted 22.67525 0 39.6355 0.62225 0.17175 0.401
dif 0.18525 0 0.1755 0.16225 0.17175 -0.209
[1] "distance%=1.1026 / distance=0.011026"


donj
"Ashkenazi_Jew" 36.05
"Lithuanian" 23.3
"Sardinian" 13.15
"Basque_Spaniard" 12.7
"North_Ossetian" 11.05
"Italian_Bergamo" 3.5
"Dutch_North" 0.25
"Albanian" 0
"Georgian" 0
"Hungarian" 0
"Swedish" 0
"Turkish_Trabzon" 0

anglesqueville
08-27-2016, 03:50 PM
Huijbregts : here are my results for Eurogene K13, Eurogene K15 and puntDNAL K12. I also wanted to do Dodecad K12b, but i have an error "duplicate 'row.names' are not allowed", i don't know why as their are no duplicates.
Traduction : Voici mes résultats pour Eurogene K13, Eurogene K15 et puntDNAL K12. J'ai aussi voulu tester Dodecad K12b, mais j'obtiens une erreur "duplicate 'row.names' are not allowed".

Eurogenes K13

[1] "3. RESTRICTED nMONTE"
[1] "Ncycles= 1000"
North_Atlantic Baltic West_Med West_Asian East_Med Red_Sea
donj 32.910000 15.320000 19.950000 11.59000 14.740000 3.50000
fitted 32.830465 15.234355 19.858405 11.48177 14.682985 3.37741
dif -0.079535 -0.085645 -0.091595 -0.10823 -0.057015 -0.12259
South_Asian East_Asian Siberian Amerindian Oceanian Northeast_African
donj 0.28000 0.000000 0.00000 0.140000 0.73000 0.84000
fitted 0.59971 0.210395 0.16122 0.271715 0.41368 0.77782
dif 0.31971 0.210395 0.16122 0.131715 -0.31632 -0.06218
Sub.Saharan
donj 0.000000
fitted 0.095355
dif 0.095355
[1] "distance%=0.5957 / distance=0.005957"


donj
"North_Dutch" 30.1
"Central_Greek" 14
"Sardinian" 10.3
"Georgian" 9.65
"Austrian" 7.05
"Southwest_English" 6.95
"French_Basque" 6.75
"Italian_Abruzzo" 5.9
"Tuscan" 5.6
"Saudi" 2.5
"Ethiopian_Tigray" 1.2


Eurogenes K15

[1] "3. RESTRICTED nMONTE"
[1] "Ncycles= 1000"
North_Sea Atlantic Baltic Eastern_Euro West_Med West_Asian East_Med
donj 19.70000 22.970000 10.60000 2.540000 15.470000 11.810000 11.93000
fitted 19.18114 22.724905 9.09754 4.387385 15.279495 11.363685 11.77838
dif -0.51886 -0.245095 -1.50246 1.847385 -0.190505 -0.446315 -0.15162
Red_Sea South_Asian Southeast_Asian Siberian Amerindian Oceanian
donj 3.50000 0.100000 0.00000 0.0000 0.000000 0.560000
fitted 3.17105 0.546965 0.18301 0.1419 0.261435 0.149675
dif -0.32895 0.446965 0.18301 0.1419 0.261435 -0.410325
Northeast_African Sub.Saharan
donj 0.83000 0.000000
fitted 1.17702 0.558035
dif 0.34702 0.558035
[1] "distance%=2.6997 / distance=0.026997"


donj
"Spanish_Castilla_Y_Leon" 55.15
"Georgian" 13.9
"South_Italian" 12.45
"Swedish" 10.75
"Lithuanian" 5.45
"Irish" 2.3
"Abhkasian" 0
"Greek_Thessaly" 0
"North_Dutch" 0


puntDNAL K12

[1] "3. RESTRICTED nMONTE"
[1] "Ncycles= 1000"
Sub.Saharan Amerindian South_Asian Near_East Siberian European_HG
donj 1.42000 0.12000 0.00000 5.880 0.00000 29.55000
fitted 0.44375 0.05775 0.11875 6.101 0.05525 29.71775
dif -0.97625 -0.06225 0.11875 0.221 0.05525 0.16775
Caucasus_HG South_African_HG Anatolian_NF East_Asian Oceanian Beringian
donj 22.49000 0 39.4600 0.46000 0.00000 0.610
fitted 22.67525 0 39.6355 0.62225 0.17175 0.401
dif 0.18525 0 0.1755 0.16225 0.17175 -0.209
[1] "distance%=1.1026 / distance=0.011026"


donj
"Ashkenazi_Jew" 36.05
"Lithuanian" 23.3
"Sardinian" 13.15
"Basque_Spaniard" 12.7
"North_Ossetian" 11.05
"Italian_Bergamo" 3.5
"Dutch_North" 0.25
"Albanian" 0
"Georgian" 0
"Hungarian" 0
"Swedish" 0
"Turkish_Trabzon" 0


Si, il y a des duplications de noms de lignes! Par exemple 2 "FRENCH", mais sans doute d'autres. Par ailleurs j'ai fait l'expérience du MDLP K13 avec mon père, et je crois qu'il faut le faire tourner avec N>1000 pour obtenir des résultats acceptables. J'ai essayé avec 10000, mais 5000 suffit peut-être.

donj
08-27-2016, 04:01 PM
Si, il y a des duplications de noms de lignes! Par exemple 2 "FRENCH", mais sans doute d'autres. Par ailleurs j'ai fait l'expérience du MDLP K13 avec mon père, et je crois qu'il faut le faire tourner avec N>1000 pour obtenir des résultats acceptables. J'ai essayé avec 10000, mais 5000 suffit peut-être.

Ok merci je corrigerais ça
D'accord, je le ferais tourner à 10 000 et je le posterais, merci

anglesqueville
08-27-2016, 04:15 PM
donj, hier Titane parlait de SPA22. C'est un petit script que j'ai écrit sur la base du programme SPA. Le résultats de SPA22 est un fichier de coordonnées que tu peux par exemple charger dans mymaps, pour sortir une carte de localisation de tes 22 autosomes. Par exemple:
11218
(c'est quelqu'un de chez moi, peut-être mon père)
Si tu es intéressé, j'ai un dossier SPA22 sur ma dropbox: https://www.dropbox.com/sh/o8899u62d1ugtyz/AAA35hu4ujxAC5gPI0url_gya?dl=0
Tu mets ton génotype standardisé dans le dossier (renommé genotype.txt ), tu ouvres une session R dans ce dossier, tu sources le script ( son nom est simplement script.r ). En principe ça marche: le résultat est le fichier coord.csv complété avec les 22 couples de coordonnées. Je crois que la latitude est en premier, mais vérifie.
Les résultats sont parfois bluffants, parfois décevants. Si tu fais tourner, donne-nous les résultats, je suis curieux de ce que tu obtiens.

Huijbregts
08-27-2016, 05:07 PM
Huijbregts : here are my results for Eurogene K13, Eurogene K15 and puntDNAL K12. I also wanted to do Dodecad K12b, but i have an error "duplicate 'row.names' are not allowed", i don't know why as their are no duplicates.
[/SPOILER]
donj
My advice was about the methodology of nMonte. These three sets of results are technically satisfactory.
I find Eurogenes K13 the easiest to interpret.
The highest calculator score is North_Atlantic=32.91%.
This is in line with the highest nMonte component North_Dutch=30.1%.
Keep in mind that all the populations around the North Sea are lookalikes.
So the component North_Dutch has 'eaten' South_Dutch, Anglo-Saxon, Norman etc.
That is the way this type of software works.

donj
08-27-2016, 06:45 PM
Merci anglesqueville pour ton script, voici ce que j'obtiens:
11219

ça m'a l'air pas mal du tout :) !

Titane
08-27-2016, 08:14 PM
Merci anglesqueville pour ton script, voici ce que j'obtiens:
11219

ça m'a l'air pas mal du tout :) !
Pour ce qu'on connaît de tes origines et le rayon de 500km préconisé par les concepteurs du SPA, je dirais plus, je dirais même, PAS MAL PANTOUTE!
Je suis aussi impressionnée du peu de temps que tu y as mis pour y arriver.

anglesqueville
08-27-2016, 08:29 PM
Oui, bravo! Et décidément, SPA c'est quelque chose! Drôle que ce soit la concurrence ( GPS) qui ait réussi à faire du business...

Titane
08-27-2016, 08:55 PM
Oui, bravo! Et décidément, SPA c'est quelque chose! Drôle que ce soit la concurrence ( GPS) qui ait réussi à faire du business...

Il y en a qui n'ont juste pas le sens des affaires. Ils auraient au moins pu faire une deal avec Gedmatch.

donj
08-28-2016, 02:45 AM
Pour le coup j'ai juste fait tourner le script R, ensuite via le excel coord j'ai récupéré les coordonnées, et j'ai ajouté sur un site les latitude longitude pour avoir tous les marqueurs sur la carte directement.

Il y a cependant quelque chose que je trouve surprenant, lorsque je regarde les coordonnées du fichier 23andMe.loc généré pour me dire d'où viennent mes ancêtres, je tombe sur exactement la latitude et la longitude donnée pour ma 22ème paire de chromosome, au chiffre après la virgule près.

anglesqueville
08-28-2016, 07:03 AM
Pour le coup j'ai juste fait tourner le script R, ensuite via le excel coord j'ai récupéré les coordonnées, et j'ai ajouté sur un site les latitude longitude pour avoir tous les marqueurs sur la carte directement.

Il y a cependant quelque chose que je trouve surprenant, lorsque je regarde les coordonnées du fichier 23andMe.loc généré pour me dire d'où viennent mes ancêtres, je tombe sur exactement la latitude et la longitude donnée pour ma 22ème paire de chromosome, au chiffre après la virgule près.

Normal. Mon SPA22 génère un fichier 23andMe.loc à chaque tour, en écrasant le précédent. Le dernier reste, c'est celui du chrom 22.

donj
08-28-2016, 01:29 PM
anglesqueville, c'était bien ce que je me disais, juste que sur ton topic SPA22 international, je voyais des lieux différents des 22 paires de chromosomes, donc j'avais un doute.

Je viens de recevoir mon résultat DNA.Land, qu'est ce que vaut ce service selon vous ?

11224
11225

- Je ne comprends pas le North Slavic aussi haut chez moi.
- Beaucoup de calculateurs Gedmatch, et maintenant celui-ci, me trouvent du Basque, est ce que c'est un signe ?

Je trouve en cas DNA Land précis sur mes très proches origines bretonnes et italiennes, et aussi le fameux Central IndoEuropean qui est surement la Géorgie trouvée si souvent dans GedMatch.

Mestace
08-28-2016, 03:55 PM
A mon avis, North Slavic c'est une partie pseudo Baltic qui a été extraite du NorthWest European. Par exemple certains Anglais ont 70% NW + SW, leur NW est aussi fait de Baltic qu'on ne voit pas. En général plus il y a de composants modernes ou un peu virtuels (dans le sens, un nord Slavique c'est pas une pop ancestrale de l'holocène), plus il va y avoir de l'overlap de partout, tout est fait d'une grosse soupe de pleins d'élements qui peuvent être re-distribués/balancés d'un component à un autre. Un peu comme des multi pop d'Oracle produisent pleins de fit qui peuvent être très différents tout en recréant les même points s'il étaient vu sur un PCA (à la distance des fit près). Sauf qu'ici les coups de louches sont font sur l'admix, dailleurs différents upload donnaient des résultats différents, ce qui donne déjà une idée de la consistance de ce genre de modèle. L'effet est surement encore plus marqué quand on est un mix récent de 2 pays. Je dis pas que c'est faux dans l'absolu mais tu n'as évidemment pas un grand père et demi Lithuanien et un autre Sarde par exemple, il faut le voir comme une affinité au final qui peut se quantifier dans ces proportions, ou ce que virtuellement ton génome pourrait produire.


Personnellement tout ces calculateurs ne m'intéressent plus trop, dnaland a du succés pour l'aspect visuel et parcequ'il se base sur des groupes modernes étendus, ce qui peut donner quelque chose de satisfaisant pour certains en tombant pil dessus. Avant qu'ils n'élargissent leur références, les scores de dnaland étaient les mêmes que 'K8 AMI', un petit calc DIY assez basique du genre NW/NE/SW/SE/Caucasus + SSA/E_Asian, et qui lui en plus ne variait pas d'un run à l'autre.

donj
08-28-2016, 06:41 PM
Mestace, je commence à comprendre qu'avec les admixtures, on atteint les limites et qu'on tourne juste en rond non ?

Concernant le SPA22 ou tout autre calculateur, comment ça marche exactement ?

Je me suis imaginé un processus, est ce que c'est comme ça que ça fonctionne ?

- On lui donne en entrée notre génome comportant entre 9 et 10 000 SNPs.
- Sachant qu'un SNP est soit Hétérogène (AG), soit Homozygote (AA) / (GG) -> Je mets ici en dehors les SNPs sur la paire de Chromosome XX ou XY puisque pour les hommes on aurait 1 allèle et pas les 2.
- On a 1 allèle père, 1 allèle mère
- Par rapport à des populations dîtes "Cible", on compare plusieurs SNPs afin de donner une origine aux testeurs.

- Dans le cas d'une origine mixte entre 2 pays, cela veut dire que pour les statistiques on ne peut prendre en compte qu'un allèle du père et qu'un allèle de la mère puisqu'on a pas encore leur résultat complet
-> Si par exemple un Français a une suite de AA dans plusieurs SNPs, et qu'un Suedois à un ensemble de GG, alors l'enfant aura des AG partout, et donc en prenant comme hypothèse que A à x% de chance d'appartenir à un Français, et G a y% de chance d'appartenir à un Suedois, alors l'enfant aura z% de chance d'être Franco-Suedois.

- Si le père ou la mère fait à son tour le test sur le calculateur, et que l'on est capable de fusionner les résultats (comme sur 23andme), alors le test trouvera cette fois ci la paire entière du père ou de la mère, et pourra ainsi avoir des tests bien plus précis concernant l'origine d'un parent, et donc pourra facilement savoir quelle origine à été donnée à l'enfant.
-> Cette fois-ci, on aura si l'un des 2 parents est AA, on saura qu'il aura une probabilité plus forte que le test d'avant d'être Français, et s'il a GG, il aura une probabilité plus forte d'être Suedois

- Si les 2 parents font le test et qu'il est possible de fusionner les 3 résultats (Je ne sais pas si sur 23andme c'est possible ou non), alors cette fois, on aurait toutes les infos en main afin de savoir les origines directes d'une personne grâce à ses 2 parents concernant la première génération du moins.

Et donc plus on veut remonter loin dans nos origines, plus on est obligé de devoir faire des choix puisqu'on aura pas les tests ADN de nos arrières arrières ... arrières grands parents sous la main pour être sûr.
La seule chose que l'on puisse faire ici, c'est juste être sûr à 100% de nos origines très proche, et après par rapport à l'histoire, deviner les populations qui ont fondés ce qu'on est aujourd'hui.

Est ce que dans mon idée je suis dans le vrai en disant que jamais de la vie la génétique nous permettra de remonter à nos premières origines par manque d'information, ou alors je suis hors sujet ?

Mestace
08-28-2016, 07:56 PM
En prenant encore un exemple concret, imaginons en théorie que mes 4 grands parents soient identiques, même région, même pays:

Tous 40% WHG, 20% ANE et 40% neolithique, pour prendre un type d'admix simple. On est d'accord que moi je vais obtenir la même admixture qu'eux au final (à 1-2% d'erreur de genotype près)

Maintenant 2 de mes grands parents sont différents, l'un 30% WHG, 25% ANE et 45% neo et l'autre 50% WHG, 15% ANE et 35% neo. Au final j'ai toujours la même admixture et pourtant j'ai 2 grands parents qui ne sont pas du même pays dans un cas.

L'admixture va jamais te dire exactement comment t'en est arrivé là, ou plutôt elle va de moins en moins te le monter plus tu cherches à remonter dans le temps, ca marchera encore très bien surtout avec une différence bien marquée si par exemple tu as une mère Russe et un père Grecque, simplement avec les proportions de l'admix ca peut se voir à l'oeil nu, et l'aglo de l'oracle va facilement détecter le pattern dans les proportions en additionnant ces moyennes/2, peut être pas exactement Russe+Grecque (car tes parents sont surement pas exactement pil dans la moyenne), mais au moins des populations qui gravitent autour génétiquement, l'axe d'influence sera le bon et sur un pca tu sera quasiment pil au millieu des 2 populations. Là ou l'admixture s'arrête de "parler" c'est pour faire la différence entre toi et disons un Croate (au hasard, en gros ils sont par là), car certains populations sont pil entre 2 pays, comme éventuellement ton admixture, même si tu n'as pas d'ancêtre récent de ce dit pays.

D'ou l'interêt de tester ses parents, surtout si on drifte pas mal d'une moyenne, logiquement le drift devrait être 2 fois plus prononcé chez un des parents, il peut s'opposer aussi, ou être réparti, mais ca va quand même te donner une orientation un cran plus profonde sur tes influences. Tu peux en effet phaser tes résultats sur 23andme avec les parents, ce qui permet de rectifier des erreurs ou snps manquants, si je suis AG et que mon père n'a pas de geno sur ce snp et ma mère a GG, mon père est AA. Il faut pas s'attendre à une différence énorme par contre, c'est du peaufinage, par contre je la vois en DIY avec les stats affichés, j'ai moins de snps manquants/no call qu'avec mon génome non phasé.

Dans mon cas, j'ai un abonnement pour les fit du type N.Italie/Norvège ou dans le genre (je crois que Theconqueror a l'abo aussi), ca doit représenter facilement 70% de mes meilleurs fits sur tous les calculateurs. Je suis ni l'un ni l'autre, c'est certain, ni mes parents, mais dans un sens ca peut surement représenter les extrêmes des influences familiales à moyen/long terme. T'as des Français qui vont plutôt avoir du Espagne+Angleterre, Basque+Allemagne, etc.., tout cela est en fait relativement près, c'est une question d'inclinaison, d'axe, mais pas totalement aléatoire.

donj
08-29-2016, 03:50 AM
Merci pour ton message, j'essaie de comprendre le fonctionnement de tout ce système.
En gros a partir du moment où les populations se ressemblent beaucoup, déjà que l'admixture doit faire des choix, et donc part sur des hypothèses, alors à partir de là effectivement elle ne pourra plus vraiment discerner deux populations proches génétiquement.


si je suis AG et que mon père n'a pas de geno sur ce snp et ma mère a GG, mon père est AA.
Si la mère est GG et que le fils est AG,
alors le père peut tout aussi bien avoir AA que AG.
On sait juste que le père ne peut pas être GG.
Dans le cas du AG pour le fils, alors le père avait 50% de chance de donner son A.
C'est pour ça que je me demandais aussi s'il était possible de phaser nos 2 parents à notre compte sur 23andme, car j'ai l'impression que si l'on en phase qu'un seul, l'algorithme sera face à des choix à faire concernant les origines venant de l'autre parent, après heureusement ça restera juste du 50/50 à chaque fois mais quand même ce n'est pas du 100% sûr tant que pas testé.

D'ailleurs, en parlant de génétique, j'avais une question si l'un de vous s'y connait un peu :
11233

En Conservative sur l'image, on peut voir sur ma paire de chromosome 3 qu'il y a énormément d'italien.
Je ne comprends pas comment c'est possible puisque je n'ai qu'un seul parent italien, ici ça voudrait donc dire que les allèles héritées de mon père sur son chromosome3 ressemblent beaucoup à des allèles de population italiennes, même si ça se peut que ce ne soit pas le cas ?

Ou est ce que c'est de la recombinaison génétique comme ici ?
11234