Page 1 of 2 12 LastLast
Results 1 to 10 of 18

Thread: G25, nMonte, Vahaduo, Descente par Gradient .... et la Géométrie

  1. #1
    Moderator
    Posts
    6,734
    Sex
    Location
    Normandy
    Ethnicity
    northwesterner
    Y-DNA (P)
    R-BY3604-Z275
    mtDNA (M)
    H5a1

    Normandie Netherlands Friesland Finland Orkney

    G25, nMonte, Vahaduo, Descente par Gradient .... et la Géométrie

    Quelques réflexions sur le problème de déconvolution, sur la base des composantes d'un PCA (en général le G25 d'Eurogenes, mais ce pourrait être n'importe lequel), au travers d'un modèle consistant en une famille de groupes extraits des références de ce PCA.

    Le simple fait que l'énoncé de ce problème fait intervenir une distance (jusqu'à présent la seule distance euclidienne) indique qu'il peut, et à mon avis doit, d'abord être appréhendé comme un problème géométrique. Je supposerai que la dimension est 25, mais cette hypothèse n'interviendra jamais explicitement. J'éditerai en gras les termes dont vous trouverez si besoin une définition dans Wiki.
    1) Le problème géométrique
    Le cadre est celui d'un espace euclidien G de dimension 25 (ici). Soit un point F (la "cible"), et un certain nombre de parties de G (les groupes constituant le "modèle"), que je nommerai A, B, C, etc . Il s'agit de déterminer, s'il existe, un point S (la "solution") tel que:
    (i) S puisse s'écrire sous la forme a1.A1+a2.A2 +...+b1.B1+b2.B2+..., avec A1,A2 ... dans A, B1,B2 ... dans B, etc, et les coefficients a1,a2,...,b1,b2,... positifs et de somme 1.
    (ii) la distance d(F,S) soit minimale.
    Même un étudiant de Licence pas très doué reconnaîtrait immédiatement un problème de projection. Précisément:
    La condition (i) signifie que l'on recherche S sous la forme d'un barycentre de points de la réunion des parties A,B,C... ( AUBUC...), avec coefficients positifs. L'ensemble de ces barycentres est un ensemble convexe connu sous le nom d'"enveloppe convexe de AUBUB...". Le problème consiste donc à minimiser, si cela est possible, sur cette enveloppe convexe, la fonction qui à un point M quelconque associe la distance d(F,M).
    Ce problème est bien connu. David Hilbert l'a résolu, dans un cadre beaucoup plus général, et cette résolution porte le nom de "Théorème de Projection de Hilbert". Il dit précisément que cette fonction d(F,M) a un minimum global sur tout convexe, et qu'elle atteint son minimum. La dernière partie de cet énoncé signifie que ce minimum est réalisé par un point, et la convexité assure que ce point est unique (la démonstration de l'unicité est élémentaire. Je vous la laisse à titre d'exercice). Ce point est appelé "projeté de F". Notre problème a donc toujours une solution unique, à savoir le projeté du point cible sur l'enveloppe convexe des points du modèle.
    2) Remarques
    a) La facilité avec laquelle le théorème de Hilbert résout le problème confirme la nature foncièrement géométrique de celui-ci. Il est certainement possible de le traduire dans d'autres langages, comme par exemple celui des Statistiques. Mais de telles manières de l'aborder seraient dérivées, voire biaisées. Cela dit:
    b) Le théorème de Hilbert ne donne aucun moyen effectif de construire le projeté. Outre que son cadre extrêmement général ne le lui permettrait pas, tel n'est pas son propos: il s'agit d'un théorème d'existence-unicité.
    c) Il est important d'insister sur le fait que les "éléments" du théorème de Hilbert sont les POINTS. Il nous assure de l'existence et de l'unicité d'un POINT-solution. Il ne nous dit pas que ce point s'exprimera d'une manière unique comme barycentre des points du modèle. Il ne nous le dit pas parce que c'est faux. Ainsi un collégien (ou un collégien du XIXième siècle) sait que si ABCD est un parallélogramme (diagonales AC et BD) et G son "isobarycentre" ( son "centre de gravité), alors G = 0.25.A+0.25.B+0.25.C+0.25D = 0.5.A+0.5.C = 0.5.B+0.5.D et d'une infinité d'autres manières. Je m'appuie plus loin sur ce cas du parallélogramme pour investiguer le comportement de deux algorithmes de déconvolution.
    d) Aucune hypothèse sur les parties du modèle A,B,C,etc n'a été demandée. Appréhendé comme géométrique, le problème est absolument indifférent à toutes considérations d'overlapping ou autres. Ces considérations ne regardent que le traitement algorithmique d'un problème dérivé, celui de la construction de la solution et de son expression comme barycentre.
    En North alom, de North venom
    En North fum naiz, en North manom

    (Roman de Rou, Wace, 1160-1170)

  2. The Following 3 Users Say Thank You to anglesqueville For This Useful Post:

     Finn (04-09-2020),  JMcB (01-26-2020),  Ruderico (01-26-2020)

  3. #2
    Moderator
    Posts
    6,734
    Sex
    Location
    Normandy
    Ethnicity
    northwesterner
    Y-DNA (P)
    R-BY3604-Z275
    mtDNA (M)
    H5a1

    Normandie Netherlands Friesland Finland Orkney
    2) Constructions algorithmiques
    Comme on l'aura noté, le problème est double: (1) la détermination d'un POINT, déterminé par ses 25 coordonnées (2) l'expression barycentrique de ce point. J'ignore comment les algorithmes positionnent leur traitement vis-à-vis de ces deux versants. Ce que je sais c'est qu'il existe des algorithmes qui savent parfaitement construire le projeté d'un point sur un convexe en dimension quelconque avec une précision arbitraire. Il est donc parfaitement possible de rencontrer des cas où la distance au modèle est très faible, sans que cela soit le signe d'un cas de "surajustement" (overfitting). On peut même imaginer que dans le cas où le point cible est dans l'enveloppe convexe des sources, et donc coïncide avec son projeté, la distance au modèle soit virtuellement nulle. J'en donnerai des exemples dans la suite ce de texte.
    En tous cas, dans une situation de simplicité maximale des hypothèses ( ensemble des sources séparable en deux groupes d'enveloppes convexes disjointes par exemple), il est naturel de s'attendre à un accord assez étroit entre les algorithmes. Si de plus les points-sources sont peu nombreux, ce qui doit réduire la complexité de l'expression barycentrique du point-solution, cet accord pourrait même être plus "qu'assez étroit". Voilà, quoiqu'il en soit, ce que me disait mon intuition en s'appuyant sur le caractère géométriquement simple du problème posé. Cette intuition s'est trouvée vérifiée dans tous les tests que j'ai faits, et au-delà de ce que je prévoyais. Voici l'exemple de mon père, avec pour sources les groupes anglais et finlandais (composantes "unscaled" toujours). Je ne m'intéresserai ici qu'à Vahaduo et "adaGrad" (l'algorithme de descente par gradient avec l'optimiseur adaGrad présenté par Randwulf). En effet Vahaduo et nMonte (non pénalisé) donnent toujours les mêmes résultats, à une lointaine décimale près, sans doute parce qu'ils sont tous deux basés sur l'algorithme de Monte-Carlo.
    GD
    Distance: 0.8038842073411888%

    English: 75.6%
    Finnish: 24.4%
    Other: 0.0

    Vaha
    Distance: 0.8031% / 0.00803077
    75.6 English
    24.4 Finnish

    L'accord entre les deux programmes s'étend aux points utilisés pour ces expressions barycentriques, comme on pouvait s'y attendre au vu des coefficients:

    GD
    English1: 22.8%
    HG01790: 20.5%
    England14: 14.8%
    English3: 12.0%
    HG00277: 10.3%
    HG00350: 8.2%
    HG00183: 5.8%
    England8: 5.3%
    Other: 0.4%

    Vaha
    22.8 English:English1
    20.6 English:HG01790
    14.8 English:England14
    12.0 English:English3
    10.4 Finnish:HG00277
    8.2 Finnish:HG00350
    5.8 Finnish:HG00183
    5.4 English:England8
    En North alom, de North venom
    En North fum naiz, en North manom

    (Roman de Rou, Wace, 1160-1170)

  4. The Following User Says Thank You to anglesqueville For This Useful Post:

     JMcB (01-26-2020)

  5. #3
    Moderator
    Posts
    6,734
    Sex
    Location
    Normandy
    Ethnicity
    northwesterner
    Y-DNA (P)
    R-BY3604-Z275
    mtDNA (M)
    H5a1

    Normandie Netherlands Friesland Finland Orkney
    On peut se demander comment les deux programmes réagissent à un point-cible a priori "inadapté" à un tel modèle, par exemple un point représentatif d'un individu espagnol, masai, ou chuvash. Mais que signifie "inadapté"? Dans notre espace euclidien de dimension 25, il n'y a pas d'individus ou d'ancestralités, il n'y a que des points, qui tous ont un projeté sur le convexe "anglo-finlandais". Il n'est pas évident de se représenter ce convexe. Sa projection dans l'espace des trois premières dimensions ressemble à un boudin, allongé dans la direction de la PC1. Ce qui est sûr, c'est que ce convexe est enfermé dans une hypersphère de rayon relativement petit. Bref, dehors il y a du monde. Chaque point, en particulier chaque point de ce "monde" se projette sur ce convexe, en un point plus ou moins proche des Anglais et des Finlandais. Cela est seulement question de géométrie, et pas du tout "d'ancestralité". Ainsi:
    Target: Spanish_Alacant:ALE005
    Distance: 2.6378% / 0.02637836
    100.0 English (Vahaduo)

    Distance: 2.638026085577999%
    English: 100.0%
    Other: 0.0% (Randw)

    Target: Chuvash:564_R01C01
    Distance: 4.5436% / 0.04543600
    100.0 Finnish (Vahaduo)

    Distance: 4.543641315722058%
    Finnish: 100.0%
    Other: 0.0% (Randw)

    On dira que c'était prévisible. Oui, mais qui serait capable de prévoir le "résultat" d'un Masai? Réponse:
    Target: Masai:Ayodo_101M
    Distance: 9.0608% / 0.09060843
    54.0 Finnish
    46.0 English (Vahaduo)

    Distance: 9.07351802398019%
    English: 58.6%
    Finnish: 41.4%
    Other: -0.0% (Randw)
    Pour prévoir, il faudrait être capable d'imaginer la position du point "Masai:Ayodo_101M" par rapport au convexe anglo-finlandais dans leur espace de dimension 25. Car, encore un fois, rien de ceci n'a de rapport direct avec aucune donnée génétique. Pour en finir avec ce petit jeu, qui est capable de prévoir comment un "point chinois" se projettera? Quelqu'un? Réponse:
    Target: Han:HGDP00774
    Distance: 8.2373% / 0.08237315
    72.4 English
    27.6 Finnish (Vahaduo)

    Distance: 8.237585844206212%
    English: 73.0%
    Finnish: 27.0%
    Other: -0.0% (Randw)
    En North alom, de North venom
    En North fum naiz, en North manom

    (Roman de Rou, Wace, 1160-1170)

  6. The Following User Says Thank You to anglesqueville For This Useful Post:

     JMcB (01-26-2020)

  7. #4
    Moderator
    Posts
    6,734
    Sex
    Location
    Normandy
    Ethnicity
    northwesterner
    Y-DNA (P)
    R-BY3604-Z275
    mtDNA (M)
    H5a1

    Normandie Netherlands Friesland Finland Orkney
    On pourrait, à l'inverse, se demander comment ces programmes réagissent à un point cible situé DANS le convexe anglo-finlandais, et de ce fait coïncidant avec son projeté. Un tel point est élémentaire à construire. Il suffit de prendre un point du convexe anglais, un du convexe finlandais, et de prendre un barycentre quelconque (avec coefficients positifs) de ces deux points. C'est ce que j'ai fait, en choisissant comme coefficients 2/3 et 1/3 (en fait j'ai choisi un point "anglais" et un point "finlandais" pour aller vite). Intuitivement le modèle résultant doit afficher des coefficients pas très éloignés de 0.66 et 0.33, et une distance très proche de 0.
    C'est ce que renvoie Vahaduo (paramètres par défaut):
    Distance: 0.0047% / 0.00004661
    66.6 English
    33.4 Finnish
    Notons bien que si quelqu'un, ayant bien appris sa leçon, qualifiait ce modèle de "surajusté", il serait à côté de la plaque. La distance du point cible à son projeté est ici NULLE, donc aucun surajustement statistique n'a rien à voir avec la situation, et il n'est pas excessif d'attendre d'un algorithme qu'il soit capable d'approximer la valeur 0 à 4/100.000 près. Anecdotiquement, j'avais défini le point cible comme 2/3.English:English7 + 1/3.Finnish:HG00183. Si l'on affiche le détail du modèle Vahaduo, on lit:
    Distance: 0.0047% / 0.00004661
    66.4 English:England7
    33.0 Finnish:HG00171
    0.4 Finnish:HG00183
    0.2 English:England13
    C'est pour le moins satisfaisant. Qu'en est-il de l'agorithme de Randwulf?
    Avec les paramètres par défaut, on obtient:
    Distance: 0.3589347864742837%
    English: 70.7%
    Finnish: 29.3%
    Other: 0.0%
    Ce qui choque, ou devrait choquer ici, c'est la distance. Elle est conforme aux habitudes, mais pas du tout à la réalité (je répète que dans le modèle théorique, qui donne le projeté lui-même, cette distance est NULLE). Avec le paramétrage par défaut cet algorithme tape à côté de la cible. Pourquoi? Parce que le learning rate (100 par défaut) est bien trop élevé pour un modèle aussi simple. En baissant le learning rate à 10 et imposant 10.000 étapes, on obtient:
    Distance: 0.02296218405043108%
    English: 66.5%
    Finnish: 33.5%
    Other: 0.0%
    En North alom, de North venom
    En North fum naiz, en North manom

    (Roman de Rou, Wace, 1160-1170)

  8. The Following User Says Thank You to anglesqueville For This Useful Post:

     JMcB (01-26-2020)

  9. #5
    Moderator
    Posts
    6,734
    Sex
    Location
    Normandy
    Ethnicity
    northwesterner
    Y-DNA (P)
    R-BY3604-Z275
    mtDNA (M)
    H5a1

    Normandie Netherlands Friesland Finland Orkney
    Une dernière petite expérience avec ce modèle binaire très simple. Je reviens au cas de mon père. Les modèles exposés au début de ce texte donnent un point P situé à une distance de 0.008 du projeté. J'appelle D le point de mon père (donné par les 25 coordonnées G25), et je construis le point D' défini par l'égalité vectorielle (ajoutez les flèches si vous voulez):
    PD'=10.PD
    On calcule très simplement les coordonnées de D' par l'égalité (je vous renvoie à votre classe de seconde ou première): D' = 10.D -9.P. Faites un petit dessin. Ce point D' doit se projeter à une distance presque nulle du projeté de mon père, et à une distance 10 fois supérieure. On doit donc s'attendre à un modèle presque identique, assorti d'une distance de l'ordre de 8%. Regardons:
    Vahaduo
    Target: monster
    Distance: 8.0115% / 0.08011529
    75.2 English
    24.8 Finnish
    Randw (LR = 10, 5000 steps)
    Distance: 8.012715443661987%
    English: 74.9%
    Finnish: 25.1%
    Other: -0.0%
    C'est clair. j'ai baptisé ce point "monster" car, analysé sur un modèle généralisé, je m'attendais à quelque chose de très farfelu. On obtient, avec Randw par défaut:
    Distance: 5.984260713927703%
    Sardinian: 52.0%
    Even: 17.5%
    Basque_French: 2.4%
    Ju_hoan_North: 2.1%
    German: 0.5%
    Other: 25.5%
    Comme j'étais un peu déçu, j'ai repris sa construction en remplaçant 10 par 20. On doit donc s'attendre à un modèle anglo-finlandais semblable au précédent, avec une distance doublée, donc de l'ordre de 16%. Voyons (Vahaduo):
    Target: monster
    Distance: 16.0210% / 0.16020982
    74.6 English
    25.4 Finnish
    Ce nouveau monstre est un poil plus monstrueux que son prédécesseur:
    Target: monster
    Distance: 12.3046% / 0.12304577
    60.2 Sardinian
    22.4 Even
    7.0 Yemenite_Jew
    6.8 Ogiek
    3.6 Ju_hoan_North
    J'espère vous avoir convaincus du caractère foncièrement géométrique du problème. Suite à venir...
    En North alom, de North venom
    En North fum naiz, en North manom

    (Roman de Rou, Wace, 1160-1170)

  10. The Following User Says Thank You to anglesqueville For This Useful Post:

     JMcB (01-26-2020)

  11. #6
    Moderator
    Posts
    6,734
    Sex
    Location
    Normandy
    Ethnicity
    northwesterner
    Y-DNA (P)
    R-BY3604-Z275
    mtDNA (M)
    H5a1

    Normandie Netherlands Friesland Finland Orkney
    Expérience du parallélogramme

    Je prends 4 individus du groupe Irish, 4 individus du groupe Italian_Bergamo. Je construis le point milieu de leurs points moyens respectifs,T. Je prends 4 individus du groupe Spanish_castilla, et je construis le symétrique de leur point moyen par rapport à T. Je nomme ce point "ghost_center" (vous allez comprendre pourquoi). J'impose aux composantes de ce ghost_center de petites fluctuations symétriques, de manière à obtenir un petit cluster, très serré, dont ghost_center est le point moyen. Je nomme bien sûr ce cluster "ghost". Faites un dessin. Vous voyez que j'obtiens un quadruple de groupes sources, centrés sur les sommets d'un parallélogramme, dont le centre est T. Je vais m'intéresser aux modèles de T.
    Géométriquement ce cas ne pose aucun problème. T appartient, par construction, à l'enveloppe convexe des sources, donc il coïncide avec son projeté. On doit donc, indépendamment des expressions barycentriques, obtenir des distances très proches de 0, malgré qu'il n'y ait aucun overlapping des sources. En revanche il va être intéressant de voir comment les choses se passent avec les expressions barycentriques. En effet, alors même qu'il n'y a pas overlapping des sources, il y a overlapping/redondance des hypothèses. Car T peut s'écrire indifféremment 0.5.Irish+0.5.Bergamo, 0.5.Spanish+0.5.Ghost, 0.25.Irish+0.25.Bergamo+0.25.Spanish+0.25.Ghost, et d'une infinité d'autres manières. Vérifions d'abord les modèles à deux groupes sources:


    Irish + Lombardy

    Randw
    Distance: 1.782951107306476e-7%
    Irish: 50.0%
    Italian_Lombardy: 50.0%
    Other: -0.0


    Vaha
    Distance: 0.0000% / 0.00000000
    50.0 Irish
    50.0 Italian_Lombardy

    Castilla + Ghost

    Randw
    Il a fallu réduire le LR à 50 pour éviter l'overtraining. On obtient alors:
    Distance: 6.344584975441887e-7%

    Spanish_Castilla_La_Mancha: 50.0%
    ghost: 50.0%
    Other: -0.0

    Vaha
    Distance: 0.0025% / 0.00002484
    50.0 Spanish_Castilla_La_Mancha
    50.0 ghost

    Les 4 sources:
    a) Ghost = 4 points

    GD
    Distance: 0.000021957406442536037%
    Italian_Lombardy: 26.3%
    Irish: 26.3%
    ghost: 23.7%
    Spanish_Castilla_La_Mancha: 23.7%
    Other: -0.0%

    Vaha
    Distance: 0.0072% / 0.00007228
    26.2 ghost
    25.8 Spanish_Castilla_La_Mancha
    24.0 Irish
    24.0 Italian_Lombardy

    b) Ghost: le point exact ghost_center seulement

    GD
    Distance: 0.000019608763167861618%
    Irish: 33.5%
    Italian_Lombardy: 33.5%
    Spanish_Castilla_La_Mancha: 16.5%
    ghost_center: 16.5%
    Other: -0.0%

    Vaha
    Distance: 0.0065% / 0.00006466
    38.2 Italian_Lombardy
    38.0 Irish
    12.0 Spanish_Castilla_La_Mancha
    11.8 ghost_center

    Attention! Ces deux modèles ne sont pas "FAUX". Un petit dessin vous convaincra que les points obtenus sont bien (à la distance près) le bon point T. Mais ces modèles brisent la symétrie naturelle. Pourquoi? La seule chose qui ait changé, c'est la taille du cluster Ghost, réduit ici à son point moyen. Il apparaît ici une hypersensibilité à la taille des groupes sources, parfois suspectée, jamais explorée sérieusement.

    Pour rigoler, voici comment la cible T est modélisée avec les références G25 par défaut:

    adaGrad

    Distance: 0.3109162711306841%

    French_Brittany: 23.0%
    Irish: 16.7%
    Spanish_Peri-Barcelona: 7.2%
    Belgian: 7.1%
    Sardinian: 5.2%
    German: 5.1%
    English_Cornwall: 3.5%
    Dutch: 1.4%
    French_Occitanie: 0.8%
    French_Alsace: 0.7%
    Scottish: 0.7%
    French_Nord: 0.6%
    Other: 28.1%

    Vaha:

    Distance: 0.0123% / 0.00012261
    17.4 Irish
    7.6 German
    7.4 Italian_Lombardy
    6.8 French_Rennes_Bretagne
    6.2 Scottish
    5.8 Dutch
    4.6 Spanish_Peri-Barcelona
    4.0 Belgian
    3.0 Sardinian
    2.6 French_Nord
    2.4 Basque_Spanish
    2.2 Italian_Veneto
    2.2 Welsh
    2.0 Italian_Northeast
    1.6 English_Cornwall
    1.6 French_Alsace
    1.2 English
    1.2 French_Corsica
    1.2 French_Prov_Marseille
    1.2 Spanish_Terres_de_l'Ebre
    1.0 French_Occitanie
    1.0 Italian_Naples
    1.0 Kubachinian
    1.0 Spanish_Girona
    1.0 Spanish_Menorca
    0.8 French_Auvergne
    0.8 Italian_Abruzzo
    0.8 Italian_Piedmont
    0.8 Lak
    0.8 Spanish_Mallorca
    0.6 Italian_Bergamo
    0.6 Italian_Marche
    0.6 Spanish_Catalunya_Central
    0.4 Berber_MAR_ERR
    0.4 Darginian
    0.4 French_South
    0.4 Greek_Trabzon
    0.4 Italian_Molise
    0.4 Italian_Trentino-Alto-Adige
    0.4 Italian_Tuscany
    0.4 Kaitag
    0.4 Moroccan_North
    0.2 Basque_French
    0.2 Chechen
    0.2 Eskimo_Sireniki
    0.2 French_Paris
    0.2 Georgian_Imer
    0.2 German_East
    0.2 Greek
    0.2 Greek_Crete
    0.2 Ingushian
    0.2 Italian_Apulia
    0.2 Moroccan
    0.2 Serbian
    0.2 Shetlandic
    0.2 Spanish_Penedes
    0.2 Spanish_Valencia
    0.2 Swedish
    0.2 Swiss_German
    En North alom, de North venom
    En North fum naiz, en North manom

    (Roman de Rou, Wace, 1160-1170)

  12. The Following 5 Users Say Thank You to anglesqueville For This Useful Post:

     Camulogène Rix (02-10-2020),  fabrice E (01-30-2020),  JMcB (01-26-2020),  kerbal (02-14-2020),  palamede (01-27-2020)

  13. #7
    Incompréhensible.

  14. #8
    Registered Users
    Posts
    1,189
    Sex
    Location
    France
    Ethnicity
    Franchouillard
    Y-DNA (P)
    G2a2b2a1b1a2a1-S2808
    mtDNA (M)
    H2a2a1

    Normandie Wallonia
    Quote Originally Posted by Logistic View Post
    Incompréhensible.
    Je crois que Angles a fait un bel effort d'explication mais quand on a vécu dans les mathématiques (même appliquées) pendant des années, il est difficile de ressentir les insuffisances des profanes. De toute façon il y a un niveau d'explication qu'on ne peut plus guère améliorer, sinon à organiser un stage de plusieurs jours pour faire entrer les bases.

    J'ai lu le texte d'Angles jusqu'ici qu'une fois et je compte le reprendre. Alors que j'ai eu quelques bases mathématiques, étant étudiant en maitrise de physique mais ceci il y a 50 ans. il me semblait vaguement comprendre au début, mais à un moment mon esprit s'est obscurci et a laché.
    Etant un esprit facilement stressé et fatigué, il était rare que je comprenais un cours jusqu'à la fin; dans les 5-10 dernières minutes, je notais simplement et je reprenais un ou 2 jours après souvent sans trop de difficultés si j'avais noté correctement.
    Je vais reprendre en seconde lecture, mais de toute façon, je n'ai pas une obligation de résultat, c'est simplement pour ma culture générale.

    Merci Angles !

  15. The Following 5 Users Say Thank You to palamede For This Useful Post:

     anglesqueville (01-30-2020),  fabrice E (01-30-2020),  ffoucart (01-31-2020),  Helgenes50 (01-30-2020),  Ruderico (02-06-2020)

  16. #9
    Moderator
    Posts
    6,734
    Sex
    Location
    Normandy
    Ethnicity
    northwesterner
    Y-DNA (P)
    R-BY3604-Z275
    mtDNA (M)
    H5a1

    Normandie Netherlands Friesland Finland Orkney
    A la recherche du meilleur modèle possible (avec G25 individus modernes, unscaled, et nMonte/Vahaduo), sans overfitting.

    J'ai repris le principe exposé dans le post #5, en choisissant comme groupe majeur le groupe German (sans German_East). Si j'appelle D le point cible (mon père donc) et P son projeté sur le convexe germano-finlandais, je calcule les coordonnées du point M tel que PM = k.PD (vecteurs) pour k =0,1,2,etc. Pour k = 0 M=P, pour k = 1 M=D. Tous ces points ont, à une légère erreur près, le même modèle, tout simplement parce que tous se projettent en P (cette erreur porte sur P lui-même, donc la déviation augmente à mesure qu'on s'éloigne de P, donc quand k augmente):
    k distance
    coefficients (Finnish / German)
    0 0.00010185 le projeté
    21.8 78.2
    1 0.00368408 la cible (mon père)
    21.8 78.2
    2 0.00736728
    21.8 78.2
    3 0.01105054
    22.4 77.6
    4 0.01473404
    22.6 77.4
    5 0.01841777
    22.6 77.4
    6 0.02210153
    22.6 77.4
    7 0.02578534
    23.0 77.0
    8 0.02946918
    22.6 77.4
    9 0.03315305
    22.6 77.4
    10 0.03683690
    22.8 77.2
    11 0.04052074
    23.2 76.8
    12 0.04420462
    23.0 77.0
    13 0.04788850
    23.2 76.8
    14 0.05157239
    23.2 76.8
    15 0.05525627
    23.4 76.6
    16 0.05894017
    23.2 76.8
    17 0.06262406
    23.4 76.6
    18 0.06630794
    23.6 76.4
    19 0.06999185
    23.6 76.4
    20 0.07367574
    23.6 76.4
    21 0.07735963
    23.8 76.2
    22 0.08104353
    24.0 76.0
    23 0.08472743
    24.0 76.0
    24 0.08841133
    24.2 75.8
    25 0.09209523
    24.2 75.8
    26 0.09577913
    24.4 75.6
    27 0.09946303
    24.4 75.6
    28 0.10314694
    24.4 75.6

    Ces points sont alignés sur une demi-droite (D). Mon idée était de voir si (D) intersecte le convexe d'un groupe (choisi sans overlapping avec le convexe germano-finlandais). Si oui, en ajoutant ce groupe au groupe germano-finlandais, je devais pouvoir construire un convexe contenant le point D, donc obtenir pour celui-ci un modèle avec une distance nulle (aux erreurs près, disons de l'ordre de 1/10.000). Comment trouver ce convexe? En regardant? Où? Réponse simple: sur les représentations du PCA global. Ainsi par exemple sur le plan PC1-PC2.
    targets_12.jpg
    Oui, mais ce n'est pas si simple. Ce que l'on voit là, ce n'est PAS la demi-droite (D), mais sa projection sur le plan PC1-PC2. Ainsi, si j'édite la représentation sur PC1-PC3, j'obtiens tout autre chose:
    targets_13.jpg
    J'ai édité toutes les représentations PC1-PCn jusqu'à n=12, sans voir clairement un groupe se proposer. Mais "voir" est ici bien difficile. Je suis donc revenu aux mathématiques.

    Il va falloir faire un effort d'abstraction. Mettons-nous dans un espace de dimension 3. Donnons-nous un point et un vecteur non nul (une direction, donc). Cette donnée définit un plan passant par le point (orthogonal au vecteur), qui sépare deux demi-espaces. En dimension 25, c'est la même chose. Le vecteur est le vecteur PD. Par le point D il passe un seul hyperplan (un sous-espace de dimension 24)orthogonal à ce vecteur, lequel sépare l'espace en deux demi-espaces. Ces demi-espaces sont simplement définis par le signe du produit scalaire PD.DM. Le demi-espace qui contient les points M pour lesquels ce produit est négatif est celui qui contient le convexe germano-finlandais. J'ai des chances de pouvoir agrandir ce convexe si l'autre demi-espace contient des points de référence. J'ai fait calculer sous R ce produit scalaire, non sur les références individuelles, mais sur la feuille de moyennes. J'ai cherché, donc, les groupes dont la moyenne donne un produit positif. Je n'en ai trouvé que deux, sur toute la feuille: les Basques (français et espagnols), et, très loin de là, les Nenets et les Nganassans.

    J'ai ajouté aux sources les Basques (français seulement) et les Nganassan. J'obtiens, avec Vahaduo:

    Target: dad
    Distance: 0.2546% / 0.00254566
    63.2 German
    18.0 Finnish
    17.0 Basque_French
    1.8 Nganassan

    au lieu de (rappel):

    Target: dad
    Distance: 0.3684% / 0.00368445
    78.6 German
    21.4 Finnish

    Je gagne donc 1/1000 sur la distance, avec des groupes sources disjoints deux à deux, donc en évitant un overfitting consécutif à l'overlapping des sources. Je pense pouvoir déduire de tout cela que
    1) Le point D (mon père) est extérieur au convexe des sources (mondiales). Mon intuition est que c'est le cas général, mais ce n'est qu'une intuition.
    2) A moins d'une erreur de raisonnement quelque part, ce modèle à 4 groupes n'est pas perfectible plus qu'à la marge, et sans injection d'overlapping.
    3) Pour l'anecdote. Le modèle global atteint la distance de 0.0017. MAIS: la différence, de l'ordre de 8/10.000, est dans l'intervalle de fluctuation de Vahaduo. De surcroît il fait intervenir, comme d'habitude, une soupe imbuvable de groupes en situation d'overlapping inextricable:

    Target: dad
    Distance: 0.1760% / 0.00176023
    18.2 German
    11.8 Spanish_Peri-Barcelona
    10.8 Finnish
    9.8 Belgian
    7.6 Dutch
    7.4 English
    4.8 Basque_Spanish
    4.6 Scottish
    4.4 Latvian
    4.0 Swedish
    3.8 French_Occitanie
    3.6 Basque_French
    2.0 Polish
    1.6 German_East
    1.6 Lithuanian_PZ
    1.6 Nganassan
    1.0 French_Auvergne
    0.8 Lithuanian_VA
    0.2 Finnish_East
    0.2 Ju_hoan_North
    0.2 Papuan

    note: avec randwulf's gradient descent (AdaGrad default), j'obtiens:
    Distance: 0.262687352971249%

    German: 63.3%
    Basque_French: 17.3%
    Finnish: 17.2%
    Nganassan: 2.2%
    Other: -0.0%

    Avec Adam:
    Distance: 0.25629167321540847%

    German: 63.8%
    Finnish: 17.5%
    Basque_French: 16.8%
    Nganassan: 1.8%
    Other: -0.0%
    Last edited by anglesqueville; 02-10-2020 at 07:54 AM.
    En North alom, de North venom
    En North fum naiz, en North manom

    (Roman de Rou, Wace, 1160-1170)

  17. The Following 2 Users Say Thank You to anglesqueville For This Useful Post:

     Camulogène Rix (02-10-2020),  Kellebel (02-12-2020)

  18. #10
    Moderator
    Posts
    6,734
    Sex
    Location
    Normandy
    Ethnicity
    northwesterner
    Y-DNA (P)
    R-BY3604-Z275
    mtDNA (M)
    H5a1

    Normandie Netherlands Friesland Finland Orkney
    Juste une petite info à propos de ces convexes qui constituent le fond de réalité de G25. Il existe dans le package "geometry" de R une fonction qui calcule, en dimension quelconque, l'enveloppe convexe d'une famille de points ( "convhulln"). Comme je suis un crétin, je l'ai lancée en dimension 25 sur la feuille de références de G25. J'ai bloqué mon PC. Obligé d'éteindre et de redémarrer, l'enfer. Alors j'ai réduit mon ambition, et ai recommencé sur un fichier plus petit, celui que j'avais sous la main, à savoir les références finales de l'expérience précédente (Finnish, German, Basque_French, Nganassan, 114 lignes): même chose. Alors j'ai réduit le nombre de dimensions. Je suis allé jusqu'à 10. J'aurais dû commencer par ça, cela m'aurait évité d'avoir à appuyer sur l'interrupteur.

    convhulln sort les hyperplans des facettes (pour employer un vocabulaire simple), en les définissant par un nombre minimal de points de la famille. En dimension 3 convhulln sortira donc une matrice à 3 colonnes, chaque ligne définissant un plan. Si les points sont choisis sur et dans un cube, sommets compris, convhulln sortira une matrice à 6 lignes. En dimension 10 convhulln sortira une matrice à 10 colonnes, et le nombre de lignes donnera le nombre de faces. En dimension 10, sur la toute petite feuille de références choisie, il y en a 688134.

    Cela vous donnera peut-être une petite idée de la simplification que nous faisons tous quand nous regardons la représentation des 2 premières composantes de G25...
    En North alom, de North venom
    En North fum naiz, en North manom

    (Roman de Rou, Wace, 1160-1170)

  19. The Following 6 Users Say Thank You to anglesqueville For This Useful Post:

     damblef (05-23-2020),  fabrice E (02-11-2020),  JMcB (02-11-2020),  Kellebel (02-12-2020),  palamede (02-12-2020),  Theconqueror (02-14-2020)

Page 1 of 2 12 LastLast

Similar Threads

  1. Replies: 403
    Last Post: 05-10-2020, 09:37 AM
  2. Replies: 35
    Last Post: 03-16-2020, 06:12 PM
  3. How to use vahaduo?
    By miarosie in forum Autosomal (auDNA)
    Replies: 9
    Last Post: 02-29-2020, 01:34 AM
  4. Replies: 874
    Last Post: 01-09-2020, 02:32 AM
  5. Replies: 528
    Last Post: 12-19-2019, 03:52 AM

Posting Permissions

  • You may not post new threads
  • You may not post replies
  • You may not post attachments
  • You may not edit your posts
  •