PDA

View Full Version : Un avant-goût d'un test à venir



anglesqueville
08-10-2016, 08:54 PM
Salut à tous! Le "test à venir" est le déjà fameux (avant même sa naissance officielle) Basal-rich K7 de chez Eurogenes. Comme les PCAs postés par David étaient moches (à mes yeux), j'ai téléchargé le fichier pour me faire les miens. Dans un premier temps, pour me faire une idée sur du matériel familier, je n'ai gardé que les européens. L'intérêt d'une telle coupe sombre est qu'elle permet d'obtenir des PCAs pour lesquels les 2 premières composantes captent une grande partie de la variabilité totale. Dans le cas présent, c'est 99%: autant dire qu'un PCA 3d serait sans objet. Là-dessus dans la foulée, je lance un cluster dendrogramme, précisément un "cladogramme", ie un dendrogramme affectant l'apparence d'un arbre phylogénétique. C'est là que cela devient marrant. Cherchez les Français, sans vous soucier de l'origine régionale affichée ( West, North-West, etc ) car il semble que la base de données utilisée soit un grand bordel. Je suis curieux de vos réactions, réflexions, etc.
10906

Titane
08-10-2016, 09:55 PM
Salut à tous! Le "test à venir" est le déjà fameux (avant même sa naissance officielle) Basal-rich K7 de chez Eurogenes. Comme les PCAs postés par David étaient moches (à mes yeux), j'ai téléchargé le fichier pour me faire les miens. Dans un premier temps, pour me faire une idée sur du matériel familier, je n'ai gardé que les européens. L'intérêt d'une telle coupe sombre est qu'elle permet d'obtenir des PCAs pour lesquels les 2 premières composantes captent une grande partie de la variabilité totale. Dans le cas présent, c'est 99%: autant dire qu'un PCA 3d serait sans objet. Là-dessus dans la foulée, je lance un cluster dendrogramme, précisément un "cladogramme", ie un dendrogramme affectant l'apparence d'un arbre phylogénétique. C'est là que cela devient marrant. Cherchez les Français, sans vous soucier de l'origine régionale affichée ( West, North-West, etc ) car il semble que la base de données utilisée soit un grand bordel. Je suis curieux de vos réactions, réflexions, etc.
10906

Les couleurs sont jolies, mais il va y avoir des problèmes avec French Northwest qu'on retrouve soit avec
Albanais et Portugais, Ou Polonais et Ukrainien

Agamemnon
08-10-2016, 11:03 PM
Le placement des Ashkénazes et des Séfarades est très précis sur ce dendrogramme, leur position sur la même branche que les Arméniens et les Chypriotes et l'affinité des Séfarades envers ces derniers est assez claire. Par contre pour les Français, les Ecossais, les Maltais, les Albanais et la plupart des peuplades des Balkans, c'est une toute autre histoire.

anglesqueville
08-11-2016, 06:51 AM
il va y avoir des problèmes avec French Northwest qu'on retrouve soit avec
Albanais et Portugais, Ou Polonais et Ukrainien

Et oui... Les specimens "français" (s'ils le sont vraiment) se retrouvent un peu partout. Si David ne corrige pas cela, comme Helgenes le lui a demandé, et que les moyennes sont calculées sur cette base, les futurs "oracles" risquent d'être rigolos. Cela dit les PCAs semblent plutôt cohérents. Donc on verra. J'avoue que, moi qui ne prends pas tout cela totalement au sérieux, je m'en régale à l'avance. Et puis notre boss Agamemnon a raison, les slaves des Balkans ont eux aussi des problèmes. Et peut-être d'autres aussi, que je n'ai pas vus.

Helgenes50
08-11-2016, 07:03 AM
Et oui... Les specimens "français" (s'ils le sont vraiment) se retrouvent un peu partout. Si David ne corrige pas cela, comme Helgenes le lui a demandé, et que les moyennes sont calculées sur cette base, les futurs "oracles" risquent d'être rigolos. Cela dit les PCAs semblent plutôt cohérents. Donc on verra. J'avoue que, moi qui ne prends pas tout cela totalement au sérieux, je m'en régale à l'avance. Et puis notre boss Agamemnon a raison, les slaves des Balkans ont eux aussi des problèmes. Et peut-être d'autres aussi, que je n'ai pas vus.

C'est beaucoup mieux avec les couleurs, tu as fait un bon boulot !

J'ai comme l'impression qu'il y a un problème avec cette base de données, si elle manque de cohérence pour
les Français, on ne voit pas pourquoi ce serait différent pour d'autres, comme pour les Slaves des Balkans par exemple.

Les Français, tu les retrouves dans tous les coins, avec les Slaves, les Albanais, les Portugais .......

anglesqueville
08-11-2016, 07:31 AM
Regardez ce PCA, sur lequel j'ai fait ressortir les french. Comme je le faisais remarquer, la variabilité prise en compte est énorme, donc si on ne regarde que les points, sans les étiquettes, c'est plutôt un test très spécifiant, et sur lequel la PC1 est très hégémonique. Donc facile à lire. Là encore, je suis curieux de vos réflexions ( ce n'est pas du tout de l'humour: x peut voir un truc que y ne voit pas, donc ma curiosité est sérieuse).
10913

le vfm
10914

Helgenes50
08-11-2016, 08:05 AM
Regardez ce PCA, sur lequel j'ai fait ressortir les french. Comme je le faisais remarquer, la variabilité prise en compte est énorme, donc si on ne regarde que les points, sans les étiquettes, c'est plutôt un test très spécifiant, et sur lequel la PC1 est très hégémonique. Donc facile à lire. Là encore, je suis curieux de vos réflexions ( ce n'est pas du tout de l'humour: x peut voir un truc que y ne voit pas, donc ma curiosité est sérieuse).
10913

le vfm
10914

David m'a envoyé un mail.
IL a aussi constaté de son côté qu'il y avait un problème.
Il avait toute confiance dans cette nouvelle base de données, cette dernière étant d'Harvard ( comme quoi !!!)
En ce moment il est en train d'analyser tous les échantillons.

Massam
08-11-2016, 12:33 PM
Cette base de données n'est pas utilisable en l'état, particulièrement dans la famille des Eurogenes, du moins pas sans que David fasse des coupes. Elle a au moins le mérite de nous informer sur le département "génétique des populations" d'Harvard. Il est tenu par le barman francophile de l'université, spécialiste du Sex on the Beach.
Question subsidiaire pour Anglesqueville, ta branche paternelle a-t-elle servi au French Northwest:French24817 en rouge foncé sur le cladogramme ?

Titane
08-11-2016, 12:36 PM
David m'a envoyé un mail.
IL a aussi constaté de son côté qu'il y avait un problème.
Il avait toute confiance dans cette nouvelle base de données, cette dernière étant d'Harvard ( comme quoi !!!)
En ce moment il est en train d'analyser tous les échantillons.
Le schisme Nord-Sud de la France est assez impressionnant. Je me demande où se situeraient un Lyonnais ou un Poitevin sur le graphique.
Pour Harvard - ils ont pris où leurs échantillons français? Des étudiants aux Etats-Unis?

anglesqueville
08-11-2016, 02:11 PM
Cette base de données n'est pas utilisable en l'état, particulièrement dans la famille des Eurogenes, du moins pas sans que David fasse des coupes. Elle a au moins le mérite de nous informer sur le département "génétique des populations" d'Harvard. Il est tenu par le barman francophile de l'université, spécialiste du Sex on the Beach.
Question subsidiaire pour Anglesqueville, ta branche paternelle a-t-elle servi au French Northwest:French24817 en rouge foncé sur le cladogramme ?

Non. Les données viennent de Lazaridis, pas d'Eurogenes. Je viens seulement de le réaliser (j'ai un cerveau lent, comme l'avait suggéré Titane). De toute manière les génomes que David a, de ma provenance, sont ceux de relatifs côté maternel, mixtes de normands et de bretons ( puisqu'à l'époque je m'étais pris les pieds dans le foutoir des génomes familiaux anonymés). Et puis s'il me prenait l'envie d'envoyer les datas de mon père à quelqu'un, je devrais d'abord lui demander son accord, et je connais d'avance la réponse. Quelqu'un sait-il ce qu'est cette banque genomes-by-blood auquel il est fait référence sur le spreadsheet de Lazaridis? J'ai cherché, y compris dans le texte, mais rien trouvé. Pour en finir avec mon dad, il n'est pas si excentré que cela sur les PCA et dendro de Kurd. Je serais surpris qu'il se balade très loin sur le futur Eurogenes. Mais, bon, patientons.

anglesqueville
08-11-2016, 02:33 PM
We carried out population genetic analysis on two datasets: (i) HO includes 2,583 present day humans genotyped on the Human Origins array including 238 newly reported
(Supplementary Data Table 2; Supplementary Information, section 2), and 281 ancient
individuals on a total of 592,146 autosomal SNPs. (ii) HOIll includes the 281 ancient
individuals on a total of 1,055,186 autosomal SNPs, including those present in both the
Human Origins and Illumina genotyping platforms, but excluding SNPs on the sex
chromosomes or additional SNPs of the 1240k capture array that were included because of
their potential functional importance (Lazaridis)

Référence faite à la banque Human Origins ( http://www.humanoriginsdatabase.org/ accès impossible sans ouvrir un compte) . Genomes_by_blood est peut-être une référence interne... (?) . Au passage, les PCAs de David (et moi-même), collent bien avec ceux de Lazaridis (*) (en beaucoup moins jolis), mais la séparation N-S est moins brutale chez lui. j'imagine que David a fait un choix et, à ce propos, n'accusons pas trop vite les gestionnaires de données génétiques de Harvard, car le souci ne vient peut-être pas d'eux.
(*) Lazaridis (extrait):
10921

Mestace
08-11-2016, 06:24 PM
En se basant sur le PCA ca me parraît correct, qu'est ce que te choque Angles exactement? (je loupe quelque chose aussi peut-être). Sachant que ce qu'ils appellent South_French est en realité "Southwest France", ils sont en gros à moitié Basques dans le coin.

Mestace
08-11-2016, 07:58 PM
Pour le genome_by_blood, je pense que c'est simplement la méthode utilisée pour l'échantillon. Il fut un temps ou la prise de sang donnait de meilleurs résultats en séquençage. A priori cette époque est révolue mais peut être que dans les études pro ils utilisent quelques samples de ce type, au moins pour comparer.

Une étude comparative au passage :

http://bmcgenet.biomedcentral.com/articles/10.1186/1471-2156-8-79


This report demonstrates the utility of buccal brush genomic dsDNA in genome-wide SNP genotyping using the Affymetrix platform. We found buccal cytobrush genomic dsDNA is available in sufficient quantity and quality to be used for genome-wide (~262 K) SNP genotyping. While dsDNA yield and BRLMM call rates are often lower for buccal brushes than blood samples, the buccal brushes nonetheless exceeded 95% call rates in all samples.

anglesqueville
08-11-2016, 08:17 PM
En se basant sur le PCA ca me parraît correct, qu'est ce que te choque Angles exactement? (je loupe quelque chose aussi peut-être). Sachant que ce qu'ils appellent South_French est en realité "Southwest France", ils sont en gros à moitié Basques dans le coin.

Rien ne me choque dans le PCA, au moins au niveau européen. Je n'ai pas étudié le reste, et comme je suis conscient que mes connaissances extra-européennes sont brumeuses, si qq choque me choquait, je me garderais bien d'en faire état. Seule chose frappante pour nous, le cluster français est assez nettement distant des Italiens du Nord, alors que sur tous les PCAs précédents réalisés avec hgdp ils sont en contact. Mais la raison est très probablement dans le sampling. Sinon, le cluster balkano-slave me paraît louche, mais je me réfère à des PCAs réalisés sur des moyennes, donc il est sans doute prématuré de parler de "problème", comme je l'ai fait je crois auparavant. Les problèmes sont les suivants:

1)

French23812 M French French_West France Corse-du-Sud
French23814 M French French_Northwest France Nièvre
French23830 M French French_West France Hérault
French23833 F French French_West France Corse-du-Sud
French23989 F French French_West France Creuse
French24061 M French French_West France Haute-Loire
French24075 F French French_East France Morbihan
French24076 M French French_East France Morbihan
French24090 M French French_West France Creuse
French24118 M French French_East France Côtes-d'Armor
French24120 F French French_West France Corse-du-Sud
French24124 M French French_East France Morbihan
French24144 F French French_Northwest France Nièvre
French24148 M French French_East France Morbihan
French24178 F French French_East France Morbihan
French24247 F French French_West France Creuse
French24381 F French French_West France Corse-du-Sud
French24400 M French French_West France Corse-du-Sud
French24408 F French French_Northwest France Paris
Là il y a clairement un pb d'étiquettes.

2)
Les dendrogrammes. Le cluster français (abstraction faite des étiquettes) semble cohérent. Mais sur le dendrogramme, les français clustérisent un peu n'importe comment. Il faut que je regarde si ce problème subsiste avec une autre méthode de clustering. J'ai utilisé Ward, comme d'habitude, et c'est peut-être lui qui débloque. Ce serait bien la première fois, mais si ce n'est pas cela, je ne comprends pas.

Mestace
08-11-2016, 08:38 PM
Ah oui en effet les label sont délirants... à moins qu'ils se basent sur la position en autosomal, pas intuitif dans ce cas, et un Corse dans l'Ouest autosomalement ca parraît bizarre, tout comme le Morbihan dans l'est. C'est pas très représentatif du pays non plus.

Je me permets de retourner ton pca (il en verra d'autres)

https://i.imgsafe.org/cdede72465.png

-J'aime bien quand le WHG est en haut- ca colle cela dit avec ce qu'on voit d'habitude selon moi, mais on a seulement les moyennes pour certains.


Je suis rarement emballé par les dendrogrammes, j'ai l'impression que l'algo cherche ces fameuses clines sans trop se soucier des valeurs asbsolues en travaillant sur les proportions, je dirais même qu'il cherche exclusivement des lignes verticales (en imaginant un pca). Sans aller plus loin dans la réflexion c'est ce que j'ai remarqué.

anglesqueville
08-11-2016, 08:55 PM
J'ai essayé d'autres méthodes de clustering, qui donnent le même résultat. Je suis chiffonné par un cluster qui contient 4 "français" (dont 2 moyennes), un portuguais et un albanais. Il me semble ne pas coller du tout avec le PCA. Sinon, tout ce qui se passe dans le grand rameau nord européen est normal. J'ai envie de virer les points moyens, pour voir. Sinon, les datas qui clusterisent mal, ça existe. Cela dit, je ne suis pas du tout non plus un grand fan des dendros, surtout sur un gros fichier. Bon, je crois que nous nous sommes un peu emballés, sans doute sous l'émotion causée par les étiquettes. Quant à celles-ci, je suis prêt à parier qu'il s'agit tout bonnement d'une connerie de saisie ou de gestion de base de données, à Harvard, ou chez David.

edit: j'ai viré les points moyens, ça ne change pas grand'chose aux dendros. Bon, les deux "east-french" qui clusterisent avec les portugais sont en fait du Morbihan. Les bretons du forum vont peut-être hurler, mais l'idée que des morbihanais clusterisent avec le Portugal ne me semble pas horrifiante. Ce n'est pas ce que j'aurais dit au vu de leur position sur le PCA, mais à vouloir faire ce genre de devinette on a souvent l'air bête. Quant au français qui flirte avec les polonais et les ukrainiens ( et ce n'est pas mon père), que dire, sinon qu'il y en a...

Mestace
08-11-2016, 09:30 PM
J'ai jeté un coup d'oeil au google sheet du nouveau K7. Les "south French" et Basques modernes ont en fait le plus haut taux de Villabruna (WHG), certains dépassent les 60%, c'est plus que les Baltes. Evidemment il y a moins d'ANE mais je pense qu'on a certains bias quand on regarde les pca ou du moins on les orientent pas toujours comme il faut car tout cela ne colle pas vraiment à la géographie mais génétiquement c'est un réalité, on est pas loin d'être les plus indigènes en Europe, sans E_Asian ni SSA. Ca s'explique aussi du fait que notre néolithique, quasi exclusivement early neo, nous "cache" pas mal de notre WHG (mais pas dans ce test, ce qui est le but, filtrer le basal du WHG).

Le premier West_French24247 est pas loin non plus à 59% (et avec de l'ANE par dessus). Bref si quelqu'un vous sort que la France c'est le sud de l'Europe ou je ne sais quoi, ce spreadsheet devrait suffire.

https://docs.google.com/spreadsheets/d/1tFAa7oxWpcNN-OdMMjBdb4NeWKG7EkpKMzZJVW2_MME/edit#gid=975293849

anglesqueville
08-11-2016, 09:42 PM
Oui, je suis d'accord avec ton analyse. Et après m'être crevé les yeux depuis ce matin sur ce K7 et les 346 commentaires d'eurogenes, je dois dire que j'ai hâte de le voir sortir.

Titane
08-11-2016, 10:05 PM
Rien ne me choque dans le PCA, au moins au niveau européen. Je n'ai pas étudié le reste, et comme je suis conscient que mes connaissances extra-européennes sont brumeuses, si qq choque me choquait, je me garderais bien d'en faire état. Seule chose frappante pour nous, le cluster français est assez nettement distant des Italiens du Nord, alors que sur tous les PCAs précédents réalisés avec hgdp ils sont en contact. Mais la raison est très probablement dans le sampling. Sinon, le cluster balkano-slave me paraît louche, mais je me réfère à des PCAs réalisés sur des moyennes, donc il est sans doute prématuré de parler de "problème", comme je l'ai fait je crois auparavant. Les problèmes sont les suivants:

1)

Là il y a clairement un pb d'étiquettes.

2)
Les dendrogrammes. Le cluster français (abstraction faite des étiquettes) semble cohérent. Mais sur le dendrogramme, les français clustérisent un peu n'importe comment. Il faut que je regarde si ce problème subsiste avec une autre méthode de clustering. J'ai utilisé Ward, comme d'habitude, et c'est peut-être lui qui débloque. Ce serait bien la première fois, mais si ce n'est pas cela, je ne comprends pas.
Moi je ne trouve pas que ce soit louche du tout de voir des liens slaves-balkans - surtout après y avoir été -
Voici ce qu'on trouve sur Wiki sous Slaves.


les Slaves orientaux : Russes (150 millions), Biélorusses (15 millions) et Ukrainiens (45 millions), auxquels s'ajoutent des groupes plus petits comme les Ruthènes (2 millions), les Houtsoules et les Lipovènes (environ 500 000 chacun);
les Slaves occidentaux : Polonais (38 millions), Tchèques (15 millions) et Slovaques (5 millions), auxquels s'ajoutent des groupes plus petits comme les Sorabes, les Kachoubes et les Silésiens (moins de 500 000 chacun);
les Slaves méridionaux : Slovènes (3 millions), Croates (7 millions), Bosniaques (2 millions), Serbes (15 millions), Monténégrins (300 000)[citation nécessaire], Macédoniens (4 millions) et Bulgares (10 millions), auxquels s'ajoutent des groupes plus petits comme les Pomaques et les Carashovènes.
Je ne vais pas tout copier l'article, mais on parle de migrations vers les VI E VIIe siècles et d'une prépondérance de l'haplogroupe I.

anglesqueville
08-12-2016, 06:47 AM
Titane, ce que je trouvais de louche dans le cluster balkanique, Montenegro, etc), c'était sa position. Il me semblait un peu proche du grand cluster nord-européen. Mais, comme je le disais, je jugeais par habitude, et de fait par rapport à des points moyens. Après un moment de réflexion, je suis revenu là-dessus. Non, j'ai encore un peu travaillé cette nuit, en triturant le fichier, et la situation me semble beaucoup plus saine que nous ne le pensions au premier abord. Simplement, comme le disait l'ami Mestace, le rôle directeur de Villabruna modifie vraiment la perspective. Bien sûr, vus de loin, les PCAs semblent vraiment du même tonneau que ceux des vieux calculateurs. Puis on est plus attentif, et on est alors frappé, voire choqué, par la dislocation du continent européen suivant un axe qui n'est pas en fait géographique (Nord-Sud), mais histotique. Cela m'avait sauté à la figure il y a quelques semaines avec le dernier Punt (je crois), et c'est peut-être encore plus vrai pour celui-ci. J'avais alors parlé d'une exagération artificielle causée par l'individuation des composantes "iran_neolithique" et "natufian". Avec ce K7, c'est Villabruna qui intervient diectement, et massivement. Si tu ne vois pas de quoi il s'agit, prend le spreadsheet, et ordonne suivant les valeurs décroissantes de Villabruna, ce sera plus clair que mes bafouillages.

Mestace
08-12-2016, 09:15 AM
Dailleurs le Villabruna n'est même pas à gauche sur le PCA d'origine, mais en bas à gauche. On parle de nord/sud, c'est un peu abstrait en génétique, ce qui est à gauche serait plutôt le Karelien qui est quand même 75% ANE selon le dernier Lazaridis (au bas mot 1/4 Asiatique). C'est pas si étonnant non plus, la référence métrique du Cro-Magnon vient de Dordogne et on sait que le sud ouest de l'Europe était le principal refuge pendant le dernier age de glace. Au passage je ne sais pas si certains ont eu la chance de visiter l'abri Cromag d'Eyzies, ça vaut le détour.

Tolan
08-12-2016, 10:43 AM
J'ai jeté un coup d'oeil au google sheet du nouveau K7. Les "south French" et Basques modernes ont en fait le plus haut taux de Villabruna (WHG), certains dépassent les 60%, c'est plus que les Baltes. Evidemment il y a moins d'ANE mais je pense qu'on a certains bias quand on regarde les pca ou du moins on les orientent pas toujours comme il faut car tout cela ne colle pas vraiment à la géographie mais génétiquement c'est un réalité, on est pas loin d'être les plus indigènes en Europe, sans E_Asian ni SSA. Ca s'explique aussi du fait que notre néolithique, quasi exclusivement early neo, nous "cache" pas mal de notre WHG (mais pas dans ce test, ce qui est le but, filtrer le basal du WHG).

Le premier West_French24247 est pas loin non plus à 59% (et avec de l'ANE par dessus). Bref si quelqu'un vous sort que la France c'est le sud de l'Europe ou je ne sais quoi, ce spreadsheet devrait suffire.

https://docs.google.com/spreadsheets/d/1tFAa7oxWpcNN-OdMMjBdb4NeWKG7EkpKMzZJVW2_MME/edit#gid=975293849

Franchement, j'ai du mal à comprendre tout ces nouveaux calculateurs...
Natufian a 23% de Villabruna!?

Mestace
08-12-2016, 11:47 AM
Franchement, j'ai du mal à comprendre tout ces nouveaux calculateurs...
Natufian a 23% de Villabruna!?

C'est à peu près ce que les dstateurs ont trouvé, et ce que Lazaridis suggère. C'est pas exactement du Villabruna apparemment mais une branche plus vieille, ancestral à tous les WHG. Pour moi, et là c'est une théorie, il y a simplement tout un gradient de WHG qui part de basal Eurasian aux WHG plus récents. Dans Lazaridis si tu regardes le schéma (pas sous la main là) le basal Eurasian split en 2 : Iran_neo et Natufian mais à ce moment là ils ont surement été mixé avec quelque chose de comparable à des paleo WHG (pour Iran_N c'est du MA1/AG2-3). Ensuite t'as dans la branche le Levant_N avec + de WHG et Anat_farmer encore + avec peut être un peu d'ANE via du CHG. Les Basques et SWfr étant quasiment un simple mix de WHG et Anat, au final ca donne un WHG énorme une fois bien filtré.

Possible aussi que Villabruna ait un peu de Basal, mais à un moment faut arrêter de jouer aux poupées Russes je pense, dans l'absolu tout est Basal Eurasian (ou ENA) et on va se coucher. Reste qu'il y a une distance gigantesque entre les 2.

Tolan
08-12-2016, 12:00 PM
C'est à peu près ce que les dstateurs ont trouvé, c'est pas exactement du Villabruna apparemment mais une branche plus vieille, ancestral à tous les WHG. Pour moi, et là c'est une théorie, il y a simplement tout un gradient de WHG qui part de basal Eurasian aux WHG plus récents. Dans Lazaridis si tu regardes le schéma (pas sous la main là) le basal Eurasian split en 2 : Iran_neo et Natufian mais à ce moment là ils ont surement été mixé avec quelque chose de comparable a des paleo WHG. Ensuite t'as dans la branche le Levant_N avec + de WHG et Anat_farmer encore + avec peut être un peu d'ANE via du CHG. Les Basques et SWfr étant quasiment un simple mix de WHG et Anat, au final ca donne un WHG énorme une fois bien filtré.

Possible aussi que Villabruna ait un peu de Basal, mais à un moment faut arrêter de jouer aux poupées Russes je pense, dans l'absolu tout est Basal Eurasian (ou ENA) et on va se coucher. Reste qu'il y a une distance gigantesque entre les 2.

D'où viennent Villabruna/Bichon? Apparemment, ils ne sont pas les descendants de Paléolithiques d'Europe de l'Ouest d'avant la glaciation comme GoyetQ116.
Ils doivent provenir des paléolithiques d'Europe de l'Est? Non?
Dans ce cas, on aurait sans doute une dérive génétique du composant ANE vers EHG/WHG.
Et je ne suis pas sûr que mettre ANE et Villabruna dans le même calculateur soit une bonne idée si on veut avoir un pourcentage ANE qui correspond à quelque chose...

Mestace
08-12-2016, 12:20 PM
D'où viennent Villabruna/Bichon? Apparemment, ils ne sont pas les descendants de Paléolithiques d'Europe de l'Ouest d'avant la glaciation comme GoyetQ116.
Ils doivent provenir des paléolithiques d'Europe de l'Est? Non?
Dans ce cas, on aurait sans doute une dérive génétique du composant ANE vers EHG/WHG.
Et je ne suis pas sûr que mettre ANE et Villabruna dans le même calculateur soit une bonne idée si on veut avoir un pourcentage ANE qui correspond à quelque chose...

Bichon est la référence WHG sans ANE dans Lazaridis, les autres commencent à être mixé avec du ANE, très peu Loschbour, un peu plus Motala (25% d'après Eurogenes) et Karelia est carrément 75% ANE chez Lazaridis (sur Eurogenes à 50%). Pas certains des valeurs exactes pour Villabruna mais Kurd et les autres le mettent dans la catégorie des WHG comme les autres. Kurd expliquait qu'il n'était pas possible de les distinguer plus que ca, dailleurs sur les pca ils sont tous un seul point, même Motala. Il n'y a que Karelia qui est assez distinct et drifte franchement vers les ANE.
Je pense qu'il y a le même phénomène de gradient de l'autre côté Basal>Iran_N>CHG>EHG

Si tu regardes les derniers pca, Goyet est vraiment à l'est, il semble même un peu ANE + African ou WHG + ASE

https://plot.ly/~Urfaust/20.embed

Tolan
08-12-2016, 12:57 PM
Bichon est la référence WHG sans ANE dans Lazaridis, les autres commencent à être mixé avec du ANE, très peu Loschbour, un peu plus Motala (25% d'après Eurogenes) et Karelia est carrément 75% ANE chez Lazaridis (sur Eurogenes à 50%). Pas certains des valeurs exactes pour Villabruna mais Kurd et les autres le mettent dans la catégorie des WHG comme les autres. Kurd expliquait qu'il n'était pas possible de les distinguer plus que ca, dailleurs sur les pca ils sont tous un seul point, même Motala. Il n'y a que Karelia qui est assez distinct et drifte franchement vers les ANE.
Je pense qu'il y a le même phénomène de gradient de l'autre côté Basal>Iran_N>CHG>EHG

Si tu regardes les derniers pca, Goyet est vraiment à l'est, il semble même un peu ANE + African ou WHG + ASE

https://plot.ly/~Urfaust/20.embed

Plusieurs études ont démontré une nette discontinuité chez les paleolithiques d'Europe de l'ouest entre avant et après la dernière grande glaciation, que se soit par les haplogroupes que par l'autosomal.
D'où ma question, d'où viennent-ils, si ce n'est d'Europe de l'est?
Quand on parle d'ANE, on fait référence à une très ancienne population, bien plus ancienne que WHG et EHG.

Pourquoi partir du principe que Bichon n'a pas d'ANE? Et que WHG ne serait pas issu d'ANE alors que EHG en serait issu?
WHG et EHG sont proche sur le plan génétique, donc proche chronologiquement.
Pourquoi vouloir les séparer absolument?
Si WHG et EHG sont issus d'ANE, on doit les considérer comme tel.

Mestace
08-12-2016, 01:12 PM
Plusieurs études ont démontré une nette discontinuité chez les paleolithiques d'Europe de l'ouest entre avant et après la dernière grande glaciation, que se soit par les haplogroupes que par l'autosomal.
D'où ma question, d'où viennent-ils, si ce n'est d'Europe de l'est?
Quand on parle d'ANE, on fait référence à une très ancienne population, bien plus ancienne que WHG et EHG.

Pourquoi partir du principe que Bichon n'a pas d'ANE? Et que WHG ne serait pas issu d'ANE alors que EHG en serait issu?
WHG et EHG sont proche sur le plan génétique, donc proche chronologiquement.
Pourquoi vouloir les séparer absolument?
Si WHG et EHG sont issus d'ANE, on doit les considérer comme tel.


C'est un peu la grande question, ou est ce que les 2 split et comment exactement, pour expliquer que les WHG clusterent plus haut et donc plus loin des Africains, la différence n'est pas énorme avec les ANE/EHG mais elle existe (stat Lazaridis), en plus ces derniers sont aussi plus près d'ASE (Onge, Andamanese). C'est pour ca que tu peux pas trouver d'ANE sur Bichon, ou est la population qui aurait un input d'ANE et qui termine à la position de Bichon, cette population serait en dehors de tout pca (et à une distance encore inimaginable), on définit les limites par rapport à ce que l'on a comme ancients. Ca peut être simplement du drift (sacrée glisse) ou il nous manque peut être encore une population en plus du basal eurasian qui rencontre les paleo hg du centre de l'Eurasie et qui les propulsent en haut à gauche. C'est pas le Neanderthal, trop archaique, pas assez de mix,.. (ils ressemblent encore à des Africans génétiquement)

Theconqueror
08-13-2016, 12:48 AM
Merci pour ces commentaires. Ca m'aide a comprendre.

Agamemnon
08-13-2016, 01:46 AM
ANE se retrouve un peu partout, dans des populations anciennes aussi diverses que Villabruna/WHG, CHG, SHG, EHG, Anatolia_Neolithic, Hotu et Iran_Chl. Je pense que nous avons affaire à plusieurs versions de cette composante, pour faire la différence nous aurons besoin davantage de génomes paléolithiques provenant d'Europe de l'Est, des Balkans, d'Anatolie (même si nous n'avons toujours pas d'ossements datant du paléolithique en Anatolie), d'Iran, et d'Asie Centrale.

Mestace
08-19-2016, 11:46 AM
On ne peut plus clair :


https://i.imgsafe.org/6ef3bd81c9.png


http://eurogenes.blogspot.fr/2016/08/still-seeing-triangle.html



Sur la dstat en pca, on semble avoir un niveau d'ElMiron comparable au nord donc peut-être supérieur à la moyenne, à WHG égal.


edit : 2 cartes bien utiles pour s'y retrouver dans les ancients

http://umap.openstreetmap.fr/en/map/ancient-human-dna_41837#6/45.344/10.063
https://www.google.com/maps/d/viewer?mid=1TYJrkLXUap0Ip-8EIeTH-uzN4V8&hl=en_US

lukaszM
10-09-2017, 11:11 AM
Rien ne me choque dans le PCA, au moins au niveau européen. Je n'ai pas étudié le reste, et comme je suis conscient que mes connaissances extra-européennes sont brumeuses, si qq choque me choquait, je me garderais bien d'en faire état. Seule chose frappante pour nous, le cluster français est assez nettement distant des Italiens du Nord, alors que sur tous les PCAs précédents réalisés avec hgdp ils sont en contact. Mais la raison est très probablement dans le sampling. Sinon, le cluster balkano-slave me paraît louche, mais je me réfère à des PCAs réalisés sur des moyennes, donc il est sans doute prématuré de parler de "problème", comme je l'ai fait je crois auparavant. Les problèmes sont les suivants:

1)

Là il y a clairement un pb d'étiquettes.
French23812 M French French_West France Corse-du-Sud
French23814 M French French_Northwest France Nièvre
French23830 M French French_West France Hérault
French23833 F French French_West France Corse-du-Sud
French23989 F French French_West France Creuse
French24061 M French French_West France Haute-Loire
French24075 F French French_East France Morbihan
French24076 M French French_East France Morbihan
French24090 M French French_West France Creuse
French24118 M French French_East France Côtes-d'Armor
French24120 F French French_West France Corse-du-Sud
French24124 M French French_East France Morbihan
French24144 F French French_Northwest France Nièvre
French24148 M French French_East France Morbihan
French24178 F French French_East France Morbihan
French24247 F French French_West France Creuse
French24381 F French French_West France Corse-du-Sud
French24400 M French French_West France Corse-du-Sud
French24408 F French French_Northwest France Paris
2)
Les dendrogrammes. Le cluster français (abstraction faite des étiquettes) semble cohérent. Mais sur le dendrogramme, les français clustérisent un peu n'importe comment. Il faut que je regarde si ce problème subsiste avec une autre méthode de clustering. J'ai utilisé Ward, comme d'habitude, et c'est peut-être lui qui débloque. Ce serait bien la première fois, mais si ce n'est pas cela, je ne comprends pas.

Hi, do you know where I can find those files for downloading?

anglesqueville
10-09-2017, 12:40 PM
Those files were coming from HumanOrigins ( I believe), or perhaps Simons Genome Diversity Project, in any case from Harvard. As you have seen, there were, at least for the french, grave errors in the localisations, for example the region called "Morbihan" is not at all in the East, but at the extreme opposite, in Brittany. I seem to believe that Generalissimo had planned to inform Harvard of this problem, I don't know what has happened since then. The best you could do is to PM Generalissimo.

edit: if you learn something about this databasis, I'm very interested

Tolan
11-26-2017, 06:33 AM
Those files were coming from HumanOrigins ( I believe), or perhaps Simons Genome Diversity Project, in any case from Harvard. As you have seen, there were, at least for the french, grave errors in the localisations, for example the region called "Morbihan" is not at all in the East, but at the extreme opposite, in Brittany. I seem to believe that Generalissimo had planned to inform Harvard of this problem, I don't know what has happened since then. The best you could do is to PM Generalissimo.

edit: if you learn something about this databasis, I'm very interested

En fait, il y a un décalage entre les numéros des départements et les noms des départements, à partir du numéro 20 (la Corse)
La Corse a deux département, mais qu'un seul numéro, c'est doute la cause de l'erreur
Donc, les départements sont à décalés d'une place dans l'ordre des numéros:
Ainsi, le Morbihan (56) , c'est la Moselle (57)
La Nièvre (58), c'est le Nord (59)
ect...
Mais l'Aisne (03) reste l'Aisne, car c'est avant le numéro 20.

Du coup, les noms des régions sont bonnes, si on accepte que le Nord-Ouest de la France, c'est le nord de la Seine, que la France de l'Ouest, c'est la Bretagne...

EDIT:
J'en profite pour signaler un "outlier" chez les NWFrance, il s'agit du:
French_Northwest:French23821 Il doit être originaire du Sud de la France