PDA

View Full Version : Modelos com o G25 comparando-me aos users portugueses



Caius Agrippa
03-30-2020, 07:50 AM
Aproveitando o tédio da quarentena, fiz alguns modelos com o G25 (unscaled) usando algumas populações Ibéricas, Italian_Veneto, Yukpa/Karitiana/Surui para o nativo-americano e Yoruba para o subsaariano. Comparei meus resultados com o de users portugueses que deixaram suas coordenadas por aqui. Meu objetivo principal era estimar as afinidades de ADN entre mim e os diversos users portugueses e a quantidade de europeu/africano/nativo que herdei. Como em todos os modelos de testes DIY (G25, GEDmatch etc), acabo tendo mais italiano do que ibérico, por isso seria interessante ver quais users portugueses têm mais afinidades italianas (não usei todos os users portugueses, apenas os que encontrei as coordenadas postadas e parecem ser ativos no fórum).

Vejamos os resultados.

Usando Italian_Veneto e Portuguese.

Target: Ruderico
Distance: 1.9282% / 0.01928235
100.0 Portuguese

Target: Gil_Vicente
Distance: 1.4907% / 0.01490745
80.0 Portuguese
16.6 Italian_Veneto
3.4 Yoruba

Target: Arrifes (este disse ser açoriano em outro thread)
Distance: 1.1347% / 0.01134700
65.4 Portuguese
31.8 Italian_Veneto
2.0 Yoruba
0.8 Surui

Target: rxavierflima
Distance: 1.6513% / 0.01651277
90.8 Portuguese
9.2 Italian_Veneto

Target: Endovelicus
Distance: 1.3869% / 0.01386942
78.4 Portuguese
17.0 Italian_Veneto
4.0 Yoruba
0.6 Surui

Agora meus resultados:

Target: CA
Distance: 1.0017% / 0.01001716
69.8 Italian_Veneto
16.4 Portuguese
11.2 Yoruba
2.6 Yukpa

Usando Italian_Veneto e Spanish_Castilla_Y_León

Target: Ruderico
Distance: 1.3571% / 0.01357091
100.0 Spanish_Castilla_Y_Leon

Target: rxavierflima
Distance: 1.3147% / 0.01314684
94.8 Spanish_Castilla_Y_Leon
5.2 Italian_Veneto

Target: Gil_Vicente
Distance: 1.2758% / 0.01275756
81.2 Spanish_Castilla_Y_Leon
14.8 Italian_Veneto
3.6 Yoruba
0.4 Karitiana

Target: Endovelicus
Distance: 1.1455% / 0.01145545
80.2 Spanish_Castilla_Y_Leon
14.8 Italian_Veneto
4.0 Yoruba
1.0 Surui

Target: Arrifes
Distance: 1.0525% / 0.01052479
62.6 Spanish_Castilla_Y_Leon
34.2 Italian_Veneto
2.2 Yoruba
1.0 Surui

Meus resultados:

Target: CA
Distance: 1.0253% / 0.01025286
75.6 Italian_Veneto
11.4 Yoruba
10.4 Spanish_Castilla_Y_Leon
2.6 Yukpa


Usando Italian_Veneto e Spanish_Baleares (melhor fit que obtive)

Target: Ruderico
Distance: 2.2741% / 0.02274149
99.2 Spanish_Baleares
0.8 Yoruba

Target: rxavierflima
Distance: 2.0111% / 0.02011051
99.2 Spanish_Baleares
0.8 Yoruba

Target: Gil_Vicente
Distance: 1.7560% / 0.01755981
95.0 Spanish_Baleares
4.8 Yoruba
0.2 Karitiana

Target: Endovelicus
Distance: 1.6814% / 0.01681441
93.8 Spanish_Baleares
5.4 Yoruba
0.8 Surui

Target: Arrifes
Distance: 1.3234% / 0.01323398
88.4 Spanish_Baleares
7.2 Italian_Veneto
3.4 Yoruba
1.0 Surui


Meus resultados:

Target: CA
Distance: 0.9377% / 0.00937718
45.4 Italian_Veneto
40.0 Spanish_Baleares
12.0 Yoruba
2.6 Yukpa

Estas são apenas algumas amostras, tentei o mesmo modelo combinando todas as possíveis populações ibéricas com Italian_Veneto, apenas as Baleares me dão algo de ibérico significativo (quando uso outros italianos do norte as porcentagens não mudam muito). Pelo que vi das diferentes amostras, Spanish_Baleares já possui uma boa afinidade italiana, mais do que todas as outras populações ibéricas, o que no fim das contas não muda muito os resultados. Quando uso apenas Italian_Veneto + ameríndios/africanos isto é que obtenho:

Target: CA
Distance: 1.1934% / 0.01193363 | ADC: 0.5x
92.2 Italian_Veneto
7.2 Yoruba
0.6 Yukpa


Target: CA
Distance: 1.0616% / 0.01061598 | ADC: 0.25x
88.0 Italian_Veneto
10.0 Yoruba
2.0 Yukpa


Target: CA
Distance: 1.0484% / 0.01048380
86.0 Italian_Veneto
11.4 Yoruba
2.6 Yukpa

Todos a boas distâncias, parece que posso tranquilamente ser modelado sem referência a populações ibéricas. Estimo que sou pelo menos 60% português (entre 60% e 65%) com o restante sendo na maior parte norte-italiano + algum africano e nativo, o pouco de suíço que carrego (~3% do bisavô de minha avó) era metade alemão e metade italiano. Por esses modelos, as estimativas médias intercontinentais de ancestralidade recente que obtenho nos testes comerciais são bem razoáveis (87-88 de Europa/Eurásia, 9-10 de África, 2 de América).

Qual o motivo da afinidade italiana tão forte no G25? Reparei que o user açoriano é o que tem mais afinidades com a Itália, boa parte da minha ancestralidade portuguesa vem dos Açores segundo minhas pesquisas genealógicas, seria esse o motivo? Quando incluo populações norte-europeias, judias ou ciganas para ver se ''capturam'' alguma coisa os modelos continuam imóveis, sempre com o Vêneto dominante.

Tudo que consegui concluir disso é que o Ruderico é extremamente ibérico. Minhas distâncias para os users portugueses testados:

Distance to: CA
0.02124147 Arrifes
0.02386986 Gil_Vicente
0.02476409 Endovelicus
0.02753398 rxavierflima
0.03175264 Ruderico

JJJ
03-30-2020, 11:30 AM
Com portugues e veneto.

Target: Juan
Distance: 2.1267% / 0.02126704
80.6 Portuguese
19.4 Italian_Veneto

Com Castilla y León e veneto.

Target: Juan
Distance: 1.7837% / 0.01783699
91.2 Spanish_Castilla_Y_Leon
8.8 Italian_Veneto

Com Baleares e veneto.

Target: Juan
Distance: 2.1239% / 0.02123919
100.0 Spanish_Baleares

O Yoruba aparece quando eu coloco o basco, curioso.

Target: Juan
Distance: 1.9787% / 0.01978676
65.0 Spanish_Baleares
33.6 Basque_French
1.4 Yoruba

Ruderico
03-30-2020, 12:18 PM
O Yoruba aparece quando eu coloco o basco, curioso.

Target: Juan
Distance: 1.9787% / 0.01978676
65.0 Spanish_Baleares
33.6 Basque_French
1.4 Yoruba

É para compensar a falta de referência Africana, as outras referências têm pouco a comparar com Ibéricos ocidentais

Token
03-30-2020, 01:02 PM
Já comentei em outro tópico que não sou fã de escalamento de dados, mas eu diria que no seu caso o ideal seria utilizar coordenadas escaladas pelo fato de possuíres ancestralidade não-europeia. Componentes africanos e ameríndios sendo subestimados podem causar problemas nas outras referências. Também alertaria sobre a grande justaposição entre as populações europeias usadas nos seus modelos, causando sobreajuste dos dados. O ideal seria utilizar populações mais distantes e tentar achar padrões por aí. No mais, diria que você mostra uma forte tendência italiana, o que faz sentido baseado na sua ancestralidade.

JJJ
03-30-2020, 01:02 PM
É para compensar a falta de referência Africana, as outras referências têm pouco a comparar com Ibéricos ocidentais

O que há de novo? algo relevante para nós em termos de genes?

Ruderico
03-30-2020, 01:53 PM
O que há de novo? algo relevante para nós em termos de genes?

De novo não vejo nada, é só o que já sabiamos mas feito de outra forma

Caius Agrippa
03-30-2020, 02:03 PM
Já comentei em outro tópico que não sou fã de escalamento de dados, mas eu diria que no seu caso o ideal seria utilizar coordenadas escaladas pelo fato de possuíres ancestralidade não-europeia. Componentes africanos e ameríndios sendo subestimados podem causar problemas nas outras referências. Também alertaria sobre a grande justaposição entre as populações europeias usadas nos seus modelos, causando sobreajuste dos dados. O ideal seria utilizar populações mais distantes e tentar achar padrões por aí. No mais, diria que você mostra uma forte tendência italiana, o que faz sentido baseado na sua ancestralidade.

Usando as escaladas e um spreadsheet semelhante os resultados são quase iguais, mas a distância aumenta:


Target: CA_scaled
Distance: 1.7816% / 0.01781640
56.0 Italian_Veneto
26.8 Portuguese
12.4 Yoruba
2.8 Yukpa

A ideia deste modelo era usar somente populações que fazem algum sentido para a minha genealogia conhecida. Seria este o ponto do G25, não? Pois não tenho interesse algum em saber se meu aDNA pode ser modelado como um misto de francês com grego + marroquino, Yoruba e Karitiana. Isto é basicamente irrelevante. Meu interesse é na ancestralidade recente e não em modelagem pela modelagem. Outra coisa que noto, é que usando as escaladas, o nativo-americano se mantém praticamente idêntico, mas existem variações no SSA. Ao adicionar ''Basque_Spanish'' e as Baleares os resultados mudam:

Target: CA_scaled
Distance: 1.6732% / 0.01673219
48.2 Spanish_Baleares
34.6 Italian_Veneto
14.4 Yoruba
2.8 Yukpa

Isto é que os users portugueses obtém em comparação (que era o objetivo deste thread):

Target: Ruderico_scaled
Distance: 3.2155% / 0.03215540
74.6 Spanish_Baleares
22.8 Basque_Spanish
2.6 Yoruba


Target: Gil_Vicente
Distance: 2.2954% / 0.02295417
59.0 Italian_Veneto
37.0 Basque_Spanish
4.0 Yoruba


Target: Endovelicus_scaled
Distance: 2.3994% / 0.02399415
50.6 Italian_Veneto
24.2 Basque_Spanish
20.2 Spanish_Baleares
5.0 Yoruba

Target: rxavierflima_scaled
Distance: 2.6692% / 0.02669162
52.6 Spanish_Baleares
24.0 Basque_Spanish
21.8 Italian_Veneto
1.6 Yoruba

Desta vez, alguns users portugueses têm mais italiano do que ibérico. Meu objetivo com a análise é entender porque tenho mais italiano do que ibérico nestas estimativas, por isso comparar com portugueses é fundamental, para ver o que eles obtêm nos resultados utilizando o mesmo spreadsheet.

Ao adicionar ''Bantu_SW'' os resultados mudam para mim e ficam a mesma coisa para os users portugueses:

Target: CA_scaled
Distance: 1.5202% / 0.01520182
47.8 Spanish_Baleares
34.8 Italian_Veneto
8.8 Bantu_S.W.
5.8 Yoruba
2.8 Yukpa

Qual seria a diferença entre as escaladas e não-escaladas no meu caso? O que noto é que os resultados se mantém semelhantes na ''big picture'' quando uso as escaladas, mas o SSA basicamente aumenta consideravelmente a depender do modelo, por isso julguei que não fossem os melhores, já que nunca obtenho estimativas tão altas (~14%) de SSA nos testes convencionais, raramente passa de 10% e quando o faz fica em torno de 10.4 ou 10.5.

Por via das dúvidas, joguei referências balcânicas e norte-africanas ''gerais'' retiradas de uma outra calculadora e o resultado melhorou, mas sem absorver o balcânico:

Target: CA_scaled
Distance: 1.2298% / 0.01629813
55.0 Italian_Veneto
27.6 Portuguese
9.0 Bantu_S.W.
4.2 North African
2.8 Yukpa
1.2 Yoruba

Quando uso apenas componentes ''gerais'' e bem distintos, como na calculadora G25 Beta do Vahaduo, a distância diminui, mas os resultados deixam de fazer sentido para propósitos genealógicos:

Target: CA_scaled
Distance: 0.8373% / 0.00837274
23.9 Balkan
20.4 Sardinian
16.8 Scandinavia
10.5 Subsaharan_Africa
8.4 Southern_Euro
6.4 North_Africa
5.6 Western_Euro
4.4 British_Isles
3.0 Native_American
0.6 Levant

O que acha dos resultados? Via de regra, as não escaladas se aproximam mais do que obtenho em outros testes, por isso julguei que fossem mais relevantes ainda que os resultados não mudem radicalmente.

Token
03-30-2020, 02:43 PM
Usando as escaladas e um spreadsheet semelhante os resultados são quase iguais, mas a distância aumenta:


Target: CA_scaled
Distance: 1.7816% / 0.01781640
56.0 Italian_Veneto
26.8 Portuguese
12.4 Yoruba
2.8 Yukpa

A ideia deste modelo era usar somente populações que fazem algum sentido para a minha genealogia conhecida. Seria este o ponto do G25, não? Pois não tenho interesse algum em saber se meu aDNA pode ser modelado como um misto de francês com grego + marroquino, Yoruba e Karitiana. Isto é basicamente irrelevante. Meu interesse é na ancestralidade recente e não em modelagem pela modelagem. Outra coisa que noto, é que usando as escaladas, o nativo-americano se mantém praticamente idêntico, mas existem variações no SSA. Ao adicionar ''Basque_Spanish'' e as Baleares os resultados mudam:

Target: CA_scaled
Distance: 1.6732% / 0.01673219
48.2 Spanish_Baleares
34.6 Italian_Veneto
14.4 Yoruba
2.8 Yukpa

Isto é que os users portugueses obtém em comparação (que era o objetivo deste thread):

Target: Ruderico_scaled
Distance: 3.2155% / 0.03215540
74.6 Spanish_Baleares
22.8 Basque_Spanish
2.6 Yoruba


Target: Gil_Vicente
Distance: 2.2954% / 0.02295417
59.0 Italian_Veneto
37.0 Basque_Spanish
4.0 Yoruba


Target: Endovelicus_scaled
Distance: 2.3994% / 0.02399415
50.6 Italian_Veneto
24.2 Basque_Spanish
20.2 Spanish_Baleares
5.0 Yoruba

Target: rxavierflima_scaled
Distance: 2.6692% / 0.02669162
52.6 Spanish_Baleares
24.0 Basque_Spanish
21.8 Italian_Veneto
1.6 Yoruba

Desta vez, alguns users portugueses têm mais italiano do que ibérico. Meu objetivo com a análise é entender porque tenho mais italiano do que ibérico nestas estimativas, por isso comparar com portugueses é fundamental, para ver o que eles obtêm nos resultados utilizando o mesmo spreadsheet.

Ao adicionar ''Bantu_SW'' os resultados mudam para mim e ficam a mesma coisa para os users portugueses:

Target: CA_scaled
Distance: 1.5202% / 0.01520182
47.8 Spanish_Baleares
34.8 Italian_Veneto
8.8 Bantu_S.W.
5.8 Yoruba
2.8 Yukpa

Qual seria a diferença entre as escaladas e não-escaladas no meu caso? O que noto é que os resultados se mantém semelhantes na ''big picture'' quando uso as escaladas, mas o SSA basicamente aumenta consideravelmente a depender do modelo, por isso julguei que não fossem os melhores, já que nunca obtenho estimativas tão altas (~14%) de SSA nos testes convencionais, raramente passa de 10% e quando o faz fica em torno de 10.4 ou 10.5.

Por via das dúvidas, joguei referências balcânicas e norte-africanas ''gerais'' retiradas de uma outra calculadora e o resultado melhorou, mas sem absorver o balcânico:

Target: CA_scaled
Distance: 1.2298% / 0.01629813
55.0 Italian_Veneto
27.6 Portuguese
9.0 Bantu_S.W.
4.2 North African
2.8 Yukpa
1.2 Yoruba

Quando uso apenas componentes ''gerais'' e bem distintos, como na calculadora G25 Beta do Vahaduo, a distância diminui, mas os resultados deixam de fazer sentido para propósitos genealógicos:

Target: CA_scaled
Distance: 0.8373% / 0.00837274
23.9 Balkan
20.4 Sardinian
16.8 Scandinavia
10.5 Subsaharan_Africa
8.4 Southern_Euro
6.4 North_Africa
5.6 Western_Euro
4.4 British_Isles
3.0 Native_American
0.6 Levant

O que acha dos resultados? Via de regra, as não escaladas se aproximam mais do que obtenho em outros testes, por isso julguei que fossem mais relevantes ainda que os resultados não mudem radicalmente.
Dados não-escalados produzem resultados que não condizem com a realidade para africanos quando comparados a métodos estatísticos formais. Por conta disso, o componente africano tende a ser subestimado em indivíduos com ancestralidade africana, e acredito que esse também seja o caso aqui. Seu resultado no K15 seria uma boa comparação.

Meu conselho é que não uses populações com muito overlap, a ideia seria utilizar populações mais distais como Italian_Northeast + algo do sul ao invés de Veneto ou Bergamo, o que ainda faria algum sentido genealógico. Também evite as referências bascóides, pois elas podem causar alguns outcomes bizarros para ibéricos ocidentais. Não menos importante, lembre-se de testar as referências ameríndias para ancestralidade européia antes de usá-las. Algumas possuem mistura bem óbvia, como Amerindian_North e as amostras bolivianas.

Sobre as distâncias serem menores quando usadas as coordenadas não-escaladas, isso decorre do fato de que todas as populações são mais próximas umas das outras nesse contexto. Não significa que os modelos sejam melhores. O ponto do G25 é aproximar a sua ancestralidade. Quando jogas Italian_Veneto + North African, isto pode absorver parte do seu ibérico e até melhorar o fst, mas não tem sentido genealógico. Um sobreajuste saudável seria jogar todas as amostras do spreadsheet das referências escolhidas ao invés das médias, talvez consiga capturar maior amplitude desta forma.

Caius Agrippa
03-30-2020, 02:58 PM
Dados não-escalados produzem resultados que não condizem com a realidade para africanos quando comparados a métodos estatísticos formais. Por conta disso, o componente africano tende a ser subestimado em indivíduos com ancestralidade africana, e acredito que esse também seja o caso aqui. Seu resultado no K15 seria uma boa comparação.

Meu conselho é que não uses populações com muito overlap, a ideia seria utilizar populações mais distais como Italian_Northeast + algo do sul ao invés de Veneto ou Bergamo, o que ainda faria algum sentido genealógico. Também evite as referências bascóides, pois elas podem causar alguns outcomes bizarros para ibéricos ocidentais. Não menos importante, lembre-se de testar as referências ameríndias para ancestralidade européia antes de usá-las. Algumas possuem mistura bem óbvia, como Amerindian_North e as amostras bolivianas.

Sobre as distâncias serem menores quando usadas as coordenadas não-escaladas, isso decorre do fato de que todas as populações são mais próximas umas das outras nesse contexto. Não significa que os modelos sejam melhores. O ponto do G25 é aproximar a sua ancestralidade. Quando jogas Italian_Veneto + North African, isto pode absorver parte do seu ibérico e até melhorar o fst, mas não tem sentido genealógico. Um sobreajuste saudável seria jogar todas as amostras do spreadsheet das referências escolhidas ao invés das médias, talvez consiga capturar maior amplitude desta forma.

Excelente! Este é o tipo de resposta que estava a buscar, mas ninguém conseguia me responder por aqui.

Os resultados da K15

# Population Percent
1 Atlantic 20.75
2 North_Sea 17.98
3 West_Med 17.48
4 East_Med 15.20
5 Sub-Saharan 11.29
6 Baltic 6.63
7 Amerindian 3.17
8 West_Asian 2.92
9 Northeast_African 2.63
10 Southeast_Asian 0.98


Finished reading population data. 207 populations found.
15 components mode.

--------------------------------

Least-squares method.

Using 1 population approximation:
1 North_Italian @ 15.288081
2 Portuguese @ 16.417282
3 Spanish_Extremadura @ 16.978487
4 Tuscan @ 16.982700
5 Spanish_Galicia @ 17.048018
6 Spanish_Murcia @ 17.060198
7 Spanish_Castilla_Y_Leon @ 17.643301
8 Spanish_Cataluna @ 17.951139
9 Spanish_Andalucia @ 18.560223
10 Spanish_Valencia @ 19.148897
11 Spanish_Castilla_La_Mancha @ 20.202169
12 West_Sicilian @ 20.842110
13 Spanish_Cantabria @ 20.902824
14 Greek_Thessaly @ 20.970901
15 French @ 21.165697
16 Romanian @ 21.481922
17 Bulgarian @ 21.547400
18 Serbian @ 21.689098
19 Spanish_Aragon @ 21.872822
20 Italian_Abruzzo @ 21.999392

Então o SSA realmente está em ~14% e não nos 9-10% dos testes comerciais, correto? E por qual motivo eles subestimam o SSA? Tenho uma estimativa, no LivingDNA, que me dá até mesmo apenas 4.5% (e 8% norte-africano, o que me parece irreal).

É possível dizer então que todo o SSA que vejo nas calculadoras vem exclusivamente de ancestrais africanos recentes e nada de ancestrais ibéricos (ouvi dizer que o componente ibérico nas calculadoras comerciais ''esconde'' um pouco de SSA)? Não que faça muita diferença, ainda é SSA, mas estou mais interessado em genealogia do que em modelagem pura.

Posso enviar-lhe minhas coordenadas também, caso tenha interesse em me ajudar.

Token
03-30-2020, 03:11 PM
Excelente! Este é o tipo de resposta que estava a buscar, mas ninguém conseguia me responder por aqui.

Os resultados da K15

# Population Percent
1 Atlantic 20.75
2 North_Sea 17.98
3 West_Med 17.48
4 East_Med 15.20
5 Sub-Saharan 11.29
6 Baltic 6.63
7 Amerindian 3.17
8 West_Asian 2.92
9 Northeast_African 2.63
10 Southeast_Asian 0.98


Finished reading population data. 207 populations found.
15 components mode.

--------------------------------

Least-squares method.

Using 1 population approximation:
1 North_Italian @ 15.288081
2 Portuguese @ 16.417282
3 Spanish_Extremadura @ 16.978487
4 Tuscan @ 16.982700
5 Spanish_Galicia @ 17.048018
6 Spanish_Murcia @ 17.060198
7 Spanish_Castilla_Y_Leon @ 17.643301
8 Spanish_Cataluna @ 17.951139
9 Spanish_Andalucia @ 18.560223
10 Spanish_Valencia @ 19.148897
11 Spanish_Castilla_La_Mancha @ 20.202169
12 West_Sicilian @ 20.842110
13 Spanish_Cantabria @ 20.902824
14 Greek_Thessaly @ 20.970901
15 French @ 21.165697
16 Romanian @ 21.481922
17 Bulgarian @ 21.547400
18 Serbian @ 21.689098
19 Spanish_Aragon @ 21.872822
20 Italian_Abruzzo @ 21.999392

Então o SSA realmente está em ~14% e não nos 9-10% dos testes comerciais, correto? E por qual motivo eles subestimam o SSA? Tenho uma estimativa, no LivingDNA, que me dá até mesmo apenas 4.5% (e 8% norte-africano, o que me parece irreal).

É possível dizer então que todo o SSA que vejo nas calculadoras vem exclusivamente de ancestrais africanos recentes e nada de ancestrais ibéricos? Não que faça muita diferença, ainda é SSA, mas estou mais interessado em genealogia do que em modelagem pura.

Posso enviar-lhe minhas coordenadas também, caso tenha interesse em me ajudar.

Estranhamente seu africano parece realmente estar na casa dos 10%. Sobre parte do africano ser ibérico, assumi que fosses um colega meu de outro forum pelo fato de sua ancestralidade ser muito semelhante à dele então pensei que já estivesse ciente do problema com o iberomaurusiano. Pois bem, um dos problemas das calculadoras antigas do GEDmatch é o fato de não incluírem uma referência que englobe ANA (Ancient North African). Em decorrência disso, é normal que ibéricos e norte-africanos pontuem um pouco de SSA, então é seguro deduzir que parte do seu SSA no K15 é ibérico. Isso pode até superestimar a sua ancestralidade africana em modelos de G25 no seu caso, se incluir referências bascóides, que não cobrem o norte-africano elevado dos ibéricos ocidentais.

Poderia sim correr alguns modelos para você, me envie as coordenadas por PM.

Caius Agrippa
03-30-2020, 03:33 PM
Estranhamente seu africano parece realmente estar na casa dos 10%. Sobre parte do africano ser ibérico, assumi que fosses um colega meu de outro forum pelo fato de sua ancestralidade ser muito semelhante à dele então pensei que já estivesse ciente do problema com o iberomaurusiano. Pois bem, um dos problemas das calculadoras antigas do GEDmatch é o fato de não incluírem uma referência que englobe ANA (Ancient North African). Em decorrência disso, é normal que ibéricos e norte-africanos pontuem um pouco de SSA, então é seguro deduzir que parte do seu SSA no K15 é ibérico. Isso pode até superestimar a sua ancestralidade africana em modelos de G25 no seu caso, se incluir referências bascóides, que não cobrem o norte-africano elevado dos ibéricos ocidentais.

Poderia sim correr alguns modelos para você, me envie as coordenadas por PM.

Vou enviar as coordenadas.

Li aqui neste fórum sobre este problema, também o user Ruderico me ajudou nesta questão. Outras calculadoras do GEDmatch, que não as da Eurogenes, me dão até menos africano que a K15. Na puntDNAL K15, por exemplo, tenho 11% de subsaariano total e vi no spreadsheet que os portugueses também têm algum SSA nesta calculadora, o que provavelmente aumenta o meu SSA. Não acho que as estimativas dos testes comerciais estejam longe da realidade, por mais que tenham problemas, eles não se enganariam tanto no breakdown continental.

Foi por isso mesmo que julguei as coordenadas não escaladas mais acuradas, geralmente obtenho resultados coerentes com isto ao usá-las. Com as coordenadas escaladas, o subsaariano aumenta. Isso estava me deixando bem confuso, pois ouvi dizer que o G25 sempre conseguia separar bem o SSA do norte-africano, mas não parece ser sempre o caso porque até alguns users portugueses podem atingir 4% ou 5% Yoruba usando modelos do G25 e sabemos que isto é impossível.

JJJ
03-30-2020, 06:00 PM
Estranhamente seu africano parece realmente estar na casa dos 10%. Sobre parte do africano ser ibérico, assumi que fosses um colega meu de outro forum pelo fato de sua ancestralidade ser muito semelhante à dele então pensei que já estivesse ciente do problema com o iberomaurusiano. Pois bem, um dos problemas das calculadoras antigas do GEDmatch é o fato de não incluírem uma referência que englobe ANA (Ancient North African). Em decorrência disso, é normal que ibéricos e norte-africanos pontuem um pouco de SSA, então é seguro deduzir que parte do seu SSA no K15 é ibérico. Isso pode até superestimar a sua ancestralidade africana em modelos de G25 no seu caso, se incluir referências bascóides, que não cobrem o norte-africano elevado dos ibéricos ocidentais.

Poderia sim correr alguns modelos para você, me envie as coordenadas por PM.

Eu sempre recebo uma porcentagem indiana ou do sul da Ásia, pode ser verdade ou é falsa? Não é comum entre os ibéricos.

Comparado com as coordenadas indianas e ciganas, Shahr_Sokhta e Dravidian:

https://i.postimg.cc/B65bcDSR/gitanosyyo.png

https://i.postimg.cc/6QgYWpHq/yoygitanos.png

Unscaled, south central asia:

https://i.postimg.cc/NMfNrc6W/Anotaci-n-2020-03-30-194240.png

Defski
03-30-2020, 10:06 PM
Recebi agora o G25 da minha mãe (Regina), vejam lá o que conseguem descobrir :)

Defski_scaled,0.110408,0.144205,0.036204,-0.000323,0.037545,0.000279,0.000705,-0.000923,0.023725,0.033531,-0.005846,0.001349,-0.006095,-0.023121,0.0038,0.00769,0.000782,0.00228,-0.009553,-0.004127,0.002995,-0.007543,-0.000986,-0.008073,-0.002634
Defski,0.0097,0.0142,0.0096,-0.0001,0.0122,0.0001,0.0003,-0.0004,0.0116,0.0184,-0.0036,0.0009,-0.0041,-0.0168,0.0028,0.0058,0.0006,0.0018,-0.0076,-0.0033,0.0024,-0.0061,-0.0008,-0.0067,-0.0022

Regina_scaled,0.108132,0.14319,0.029415,-0.001615,0.037238,-0.001952,0.00282,-0.003692,0.022907,0.03426,-0.012666,0.003297,-0.012487,-0.013487,0.005972,0.013657,0.004824,-0.001267,-0.006662,-0.001126,0.007112,0.00136,-0.001725,-0.00253,0.000359
Regina,0.0095,0.0141,0.0078,-0.0005,0.0121,-0.0007,0.0012,-0.0016,0.0112,0.0188,-0.0078,0.0022,-0.0084,-0.0098,0.0044,0.0103,0.0037,-0.001,-0.0053,-0.0009,0.0057,0.0011,-0.0014,-0.0021,0.0003

Token
03-31-2020, 02:40 PM
Eu sempre recebo uma porcentagem indiana ou do sul da Ásia, pode ser verdade ou é falsa? Não é comum entre os ibéricos.

Comparado com as coordenadas indianas e ciganas, Shahr_Sokhta e Dravidian:

Unscaled, south central asia:

Não tenho certeza. Sou alemão do norte e também exibo considerável mistura indiana (mais que você por sinal) e não sei até que ponto isto é real, pode ser ruído ou alguma ancestralidade cigana que desconheço.

Ruderico
03-31-2020, 02:56 PM
Muito provavelmente é só ruído, o G25 deveria ter menos dimensões

JJJ
03-31-2020, 08:17 PM
Essa mistura da Índia é muito sólida e aparece em todas as calculadoras onde está a referência indiana (é por isso que me impressiona), diferente da SSA que, dependendo da calculadora, desaparece.
Também recebo barulho do leste asiático, deve ser algo antigo.

Mas se isso acontecer com Token também, não será necessariamente algo especial.

Caius Agrippa
04-10-2020, 05:48 PM
Depois de ler um pouco mais sobre os métodos do G25 e consultar os ''entendidos'' como David e outros (agradeço ao membro Token pelas runs), acho que finalmente consegui montar um ''sensible model'' com coordenadas escaladas que funcione para mim no G25, um que não contradiz os resultados que obtenho em outras plataformas e ainda por cima as refina.

O resultado obtido é o seguinte:

Target: CA_scaled
Distance: 0.7983% / 0.00798282
18.8 Spanish_Girona
12.6 Spanish_Castello
10.2 Italian_Campania
9.2 German
7.6 Bantu_S.E.
7.6 Spanish_Mallorca
6.4 Berber_Algeria
5.8 Greek_Central_Macedonia
4.2 Spanish_Terres_de_l'Ebre
3.2 French_Corsica
2.8 Portuguese
2.6 Yukpa
2.4 Spanish_Galicia
2.0 Spanish_Murcia
2.0 Spanish_Peri-Barcelona
1.6 Bantu_S.W.
1.0 Italian_Lombardy

1) Incluí no spreadsheet todos os ibéricos, italianos, gregos, alemães, suíços, franceses, usei Aymará, Surui e Yukpa para o nativo brasileiro. Quanto ao africano, incluí todas as amostras berberes (testei antes para ver quais tinham mais SSA e as removi, para evitar confusões) e excluí africanos ocidentais por um motivo: me disseram que os africanos ocidentais possuem forte drift iberomaurusiano e poderiam ''roubar'' um pouco do norte-africano quando misturados a outros componentes. Como todas as runs do G25 estavam me dando baixíssimo norte-africano e sobrevalorizando o yoruba/mende/gambian (e contradizendo resultados que eu havia obtido em outros testes), resolvi testar com as amostras Bantu. O nível do africano, tanto do norte de África quanto SSA, ficou próximo ao que obtenho nos outros testes.

Não sei até que ponto isso faz sentido genealógico, mas considerando que 70%+ dos africanos escravizados trazidos ao Brasil eram Bantus centro-africanos, não é um modelo absurdo. Provavelmente o africano ''real'' tem Bantu e Yoruba/Oeste Africano e até África Oriental, mas como o componente é muito misturado e existe esse problema com os africanos ocidentais, Bantus talvez sejam a melhor referência africana.


2) Modelando meu ibérico apenas como português eu nunca conseguiria obter um resultado coerente com minha genealogia, por isso usei as amostras espanholas também, e quando elas são utilizadas num bom spreadsheet, o resultado faz muito mais sentido e deixo de exibir um italiano completamente dominante.

Na verdade, o italiano diminui até quando uso apenas os franceses ao invés dos espanhóis:

Target: CA_scaled
Distance: 0.9784% / 0.00978408
19.4 Portuguese
11.8 French_Occitanie
8.8 French_Auvergne
8.6 Bantu_S.E.
8.4 French_Provence
8.4 Italian_Campania
6.8 Berber_Algeria
6.4 French_South
6.2 Italian_Tuscany
4.8 French_Corsica
3.2 Swiss_French
2.6 Yukpa
2.4 Italian_Veneto
1.2 Greek_Central_Macedonia
0.8 German
0.2 Bantu_S.W.

Certamente algumas destas populações francesas exibem similaridade com ''Italian_Veneto'', ''Italian_Northeast'' e ''Italian_Trentino_Alto_Adige'', mas isto apenas mostra como a tendência dos meus resultados europeus corre rumo ao norte e não ao sul, como eu imaginava. É interessante que o Token apontou que minha ancestralidade italiana parece ter um drift em direção à Europa Central e ser pouco mediterrânea.

O italiano fica mais forte quando removo os franceses, mas deve ser levada em conta a similaridade com ibéricos:

Target: CA_scaled
Distance: 1.0376% / 0.01037609
22.0 Portuguese
14.8 Italian_Lombardy
12.4 Italian_Veneto
9.8 Bantu_S.E.
9.4 Swiss_French
7.6 German
6.8 Greek_Central_Macedonia
6.0 Berber_Algeria
4.8 Italian_Tuscany
3.0 Swiss_German
2.6 Yukpa
0.6 Italian_Aosta_Valley
0.2 Berber_MAR_TIZ


A tendência mediterrânea é explicável pela pequena quantidade siciliana que eu carrego e, principalmente, por uma possível ancestralidade de grupos conversos, investiguei os matches no MH e no FTDNA e pareço ter alguns matches com judeus norte-africanos e ashkenazis. O norte-europeu pode vir em parte de ibéricos, norte-italianos e do pequeno suíço. Talvez de mais alguma fonte desconhecida que ainda estou para descobrir. Mas pelos modelos que andei construindo, imagino que sem o SSA + nativo (na verdade só sem o SSA, a quantidade de nativo-americano é muito pequena para influenciar significativamente os resultados gerais) eu 'plotaria' ao norte das referências ibéricas e norte-italianas.

Usando as coordenadas não-escaladas, o resultado é quase igual, mas o SSA é bastante subestimado e o Norte Africano inflado:

Target: CA
Distance: 0.4463% / 0.00446338
17.8 Spanish_Girona
14.2 Italian_Campania
12.6 French_Corsica
11.8 Spanish_Mallorca
9.6 German
8.0 Spanish_Terres_de_l'Ebre
7.8 Berber_MAR_TIZ
5.6 Bantu_S.E.
4.8 Spanish_Castello
3.0 French_Paris
2.4 Yukpa
1.4 Bantu_S.W.
1.0 Italian_Northeast

De qualquer forma, não parece ser verdade que o SSA sempre será subestimado com as não-escaladas. Segundo o David, isso pode ocorrer como pode não ocorrer, é possível também que ele seja superdimensionado a depender do modelo e da referência utilizada. Testei alguns brasileiros dos quais tenho as coordenadas e para alguns deles o SSA aumenta usando as não-escaladas. Claro que depende das referências africanas utilizadas.

A única coisa certa é que não posso usar apenas amostras portuguesas para modelar o ibérico e que meu norte-italiano certamente tem afinidades centro-europeias ou francesas. Faz sentido considerando que o G25 ainda tem bem poucas amostras da maior parte dos grupos étnicos.