Desativar Tocar e Pausar |
[1] 00:15Erez Lieberman Aiden: Everyone knows
Erez Lieberman Aiden: Todos sabem
[2] 00:17that a picture is worth a thousand words.
que uma imagem vale mil palavras.
[3] 00:22But we at Harvard
Mas nós em Harvard
[4] 00:24were wondering if this was really true.
estávamos questionando se é mesmo verdade.
[6] 00:29So we assembled a team of experts,
Assim montamos uma equipe de peritos,
[7] 00:33spanning Harvard, MIT,
desde Harvard, MIT,
[9] 00:38and even our proud sponsors,
e mesmo nossos orgulhosos patrocinadores,
[10] 00:40the Google.
o Google.
[11] 00:43And we cogitated about this
E pensamos sobre isto
[12] 00:45for about four years.
por cerca de 4 anos.
[13] 00:47And we came to a startling conclusion.
Chegamos a uma surpreendente conclusão.
[15] 00:55In fact, we found some pictures
De fato, encontramos algumas imagens
[16] 00:57that are worth 500 billion words.
que valem 500 bilhões de palavras.
[18] 01:04So Erez and I were thinking about ways
Erez e eu pensávamos em maneiras
[19] 01:06to get a big picture of human culture
de obter uma grande imagem da cultura e
[20] 01:08and human history: change over time.
história humana: a mudança através dos tempos.
[23] 01:15is to read all of these millions of books.
é ler todos estes milhões de livros.
[25] 01:20that has to rank extremely, extremely high.
teria que ser colocado lá em cima.
[26] 01:23Now the problem is there's an X-axis for that,
O problema é que existe um eixo-X para isso,
[27] 01:25which is the practical axis.
que é o eixo da praticidade.
[28] 01:27This is very, very low.
Que é muito, muito baixa.
[29] 01:29(Applause)
(Aplausos)
[33] 01:39What you really want to do
O que realmente se quer fazer
[37] 01:50that might just enable this approach.
que poderia viabilizar este método.
[38] 01:52They have digitized millions of books.
Eles haviam digitalizado milhões de livros.
[41] 01:59That's very practical and extremely awesome.
Isso é muito prático e extremamente incrível.
[45] 02:11And this became considerably easier
O que se tornou consideravelmente mais fácil
[47] 02:15Since then, the authors have won
Desde então, os autores venceram
[48] 02:18on 129 million distinct occasions,
em 129 milhões de ocasiões distintas,
[49] 02:20publishing books.
publicando livros.
[51] 02:24then they are somewhere in a library,
então eles estão em algum lugar em uma biblioteca,
[53] 02:29and digitized by Google,
e digitalizados pelo Google,
[54] 02:31which has scanned 15 million books to date.
que escaneou 15 milhões de livros até agora.
[58] 02:41who was the author, when was it published.
quem era o autor, quando foi publicado.
[61] 02:50What we're left with
O que permanece
[62] 02:52is a collection of five million books,
é uma coleção de 5 milhões de livros,
[63] 02:55500 billion words,
500 bilhões de palavras,
[64] 02:58a string of characters a thousand times longer
uma sequência de caracteres mil vezes maior
[65] 03:00than the human genome --
que o genoma humano --
[66] 03:03a text which, when written out,
um texto que, quando escrito,
[67] 03:05would stretch from here to the Moon and back
se estenderia daqui até a Lua e de volta
[68] 03:0710 times over --
mais de 10 vezes --
[69] 03:09a veritable shard of our cultural genome.
um verdadeiro fragmento de nosso genoma cultural.
[70] 03:13Of course what we did
Claro que fizemos
[71] 03:15when faced with such outrageous hyperbole ...
quando encaramos tal ultrajante hipérbole...
[74] 03:23would have done.
teria feito.
[75] 03:26We took a page out of XKCD,
Pegamos uma webcomic do XKCD,
[76] 03:28and we said, "Stand back.
e dissemos, "Afastem-se.
[77] 03:30We're going to try science."
Vamos tentar a ciência."
[79] 03:34JM: Now of course, we were thinking,
JM: Naturalmente, nós pensamos,
[80] 03:36well let's just first put the data out there
primeiro vamos mostrar os dados
[81] 03:38for people to do science to it.
para que as pessoas façam ciência com eles.
[83] 03:42Well of course, you want to take the books
Naturalmente, você quer pegar os livros
[85] 03:46Now Google, and Jon Orwant in particular,
Aí o Google, e Jon Orwant em especial,
[92] 04:03Now again, we kind of caved in,
Então, nós meio que nos aprofundamos,
[96] 04:12So take for instance "A gleam of happiness."
Peguem por exemplo "Um brilho de felicidade."
[97] 04:14It's four words; we call that a four-gram.
São 4 palavras: nós chamamos de 4-grama.
[99] 04:18appeared in books in 1801, 1802, 1803,
apareceu nos livros em 1801, 1802, 1803,
[100] 04:20all the way up to 2008.
até chegar em 2008.
[101] 04:22That gives us a time series
Isso nos dá uma linha de tempo
[106] 04:34ELA: So those two billion lines,
ELA: Essas 2 bilhões de linhas,
[107] 04:36we call them two billion n-grams.
nós chamamos de 2 bilhões de n-gramas.
[108] 04:38What do they tell us?
O que eles nos dizem?
[110] 04:42Let me give you an example.
Permitam-me dar um exemplo.
[111] 04:44Let's suppose that I am thriving,
Suponhamos que eu esteja prosperando.
[113] 04:48And so I might say, "Yesterday, I throve."
Em inglês eu diria, "Ontem, eu 'throve'."
[115] 04:54Well which one should I use?
Qual deles eu deveria usar?
[116] 04:57How to know?
Como saber?
[117] 04:59As of about six months ago,
Como cerca de 6 meses atras,
[118] 05:01the state of the art in this field
o estado de arte nesta matéria
[119] 05:03is that you would, for instance,
seria, por exemplo,
[121] 05:07and you'd say,
e dizer,
[123] 05:12What should I do?"
O que eu devo fazer?"
[125] 05:16but some people say throve."
mas algumas diriam 'throve'."
[126] 05:19And you also knew, more or less,
E vocês também sabem, talvez,
[127] 05:21that if you were to go back in time 200 years
que se voltassem no tempo 200 anos
[130] 05:30"Tom, what should I say?"
"Tom, o que devo falar?"
[132] 05:34but some thrived."
mas alguns 'thrive'."
[135] 05:43What you're seeing is year by year frequency
O que estão vendo é a frequencia ano a ano
[136] 05:45of "thrived" and "throve" over time.
de "thrived" e "throve" através dos tempos.
[137] 05:49Now this is just two
Isso são apenas duas
[138] 05:51out of two billion rows.
de 2 bilhões de linhas.
[139] 05:54So the entire data set
Assim o conjunto completo de dados
[142] 06:01(Applause)
(Aplausos)
[144] 06:07For instance, this one.
Por exemplo, esta aqui.
[145] 06:09If you just take influenza,
Se você escolher influenza,
[146] 06:11you will see peaks at the time where you knew
verá picos nas épocas onde se sabe
[148] 06:16ELA: If you were not yet convinced,
ELA: Se vocês ainda não se convenceram,
[149] 06:19sea levels are rising,
o nível dos mares está subindo,
[156] 06:38For instance, let me tell you the history
Por exemplo, permitam-me contar a história
[157] 06:40of the year 1950.
do ano de 1950.
[158] 06:42Pretty much for the vast majority of history,
Durante todo o transcurso da história,
[159] 06:44no one gave a damn about 1950.
ninguém dava a mínima para 1950.
[160] 06:46In 1700, in 1800, in 1900,
Em 1700, em 1800, em 1900,
[161] 06:48no one cared.
ninguém ligava.
[162] 06:52Through the 30s and 40s,
Nos anos 30 e 40,
[163] 06:54no one cared.
ninguém ligava.
[164] 06:56Suddenly, in the mid-40s,
De repente, no meio dos anos 40,
[165] 06:58there started to be a buzz.
começou um rumor.
[166] 07:00People realized that 1950 was going to happen,
As pessoas perceberam que 1950 viria,
[167] 07:02and it could be big.
e que seria algo grande.
[169] 07:07But nothing got people interested in 1950
Nada interessou tanto às pessoas em 1950
[170] 07:10like the year 1950.
como o ano 1950.
[172] 07:16People were walking around obsessed.
As pessoas caminhavam obcecadas.
[173] 07:18They couldn't stop talking
Não podiam parar de falar
[174] 07:20about all the things they did in 1950,
sobre as coisas que fizeram em 1950,
[175] 07:23all the things they were planning to do in 1950,
tudo o que estavam planejando para 1950,
[177] 07:31In fact, 1950 was so fascinating
De fato, 1950 foi tão fascinante
[178] 07:33that for years thereafter,
que nos anos seguintes,
[180] 07:38in '51, '52, '53.
em 51, 52, 53.
[181] 07:40Finally in 1954,
Finalmente em 1954,
[182] 07:42someone woke up and realized
alguém acordou e percebeu
[183] 07:44that 1950 had gotten somewhat passé.
que 1950 tinha ficado algo 'passé'.
[185] 07:50And just like that, the bubble burst.
E de repente, a bolha estourou.
[187] 07:54And the story of 1950
A história de 1950
[194] 08:12and the net result
e o resultado líquido
[196] 08:17with each passing year.
a cada ano que passa.
[198] 08:24JM: Now a little piece of career advice.
JM: Agora uma dica para a carreira.
[199] 08:26So for those of you who seek to be famous,
Aqueles de vocês que procuram ser famosos,
[201] 08:30authors, actors and so on.
políticos, autores, atores e demais.
[204] 08:37you're still young, it's really great.
você ainda é jovem, é muito bom.
[206] 08:41because then you rise to very great heights,
porque assim você alcançará grandes alturas,
[208] 08:45But if you want to reach the very top,
Mas se você quiser alcançar mesmo o topo,
[209] 08:47you should delay gratification
deveria postergar o reconhecimento
[210] 08:49and, of course, become a politician.
e, claro, tornar-se um político.
[212] 08:53and become very, very famous afterward.
e se torna muito, muito famoso depois.
[214] 08:58Like for instance, biologists and physics
Por exemplo, biólogos e físicos
[215] 09:00tend to be almost as famous as actors.
tendem a ser tão famosos quanto atores.
[218] 09:07If you do that,
Se fizerem isso,
[220] 09:12But guess what, nobody will really care.
Mas olha só, ninguém quer saber.
[222] 09:17ELA: There are more sobering notes
ELA: Existem notas mais sérias
[223] 09:19among the n-grams.
entre os n-gramas.
[225] 09:23an artist born in 1887.
artista nascido em 1887.
[227] 09:28He gets more and more and more famous,
Ele fica mais e mais e mais famoso,
[228] 09:32except if you look in German.
exceto se pesquisar em alemão.
[230] 09:36something you pretty much never see,
algo que nunca se vê,
[231] 09:38which is he becomes extremely famous
que é ele se tornar extremamente famoso
[232] 09:40and then all of a sudden plummets,
e de repente despenca,
[233] 09:42going through a nadir between 1933 and 1945,
chegando ao fundo do poço entre 1933 e 1945,
[234] 09:45before rebounding afterward.
antes de retornar com tudo.
[235] 09:48And of course, what we're seeing
Naturalmente, o que vemos
[236] 09:50is the fact Marc Chagall was a Jewish artist
é o fato de que Chagall era um artista judeu
[237] 09:53in Nazi Germany.
na Alemanha nazista.
[238] 09:55Now these signals
Estes sinais
[239] 09:57are actually so strong
são na verdade tão fortes
[241] 10:02We can actually figure it out
Podemos ter uma ideia
[242] 10:04using really basic signal processing.
usando até um básico processamento de sinais.
[243] 10:06Here's a simple way to do it.
Eis um modo simples de fazer.
[244] 10:08Well, a reasonable expectation
Uma expectativa razoável
[247] 10:14and their fame after.
e da fama depois.
[248] 10:16So that's sort of what we expect.
É algo assim o que esperamos.
[250] 10:21And we just divide one by the other
E dividimos uma pela outra
[253] 10:28then you very well might be being suppressed.
você pode muito bem estar sendo suprimido.
[255] 10:34JM: Now you can actually look at
JM: Agora vocês podem até mesmo ver
[257] 10:39So for instance, here --
Por exemplo, aqui --
[258] 10:41this suppression index is for 5,000 people
este índice é para 5.000 pessoas
[262] 10:49This is distribution as seen in Germany --
Esta é a distribuição vista na Alemanha --
[263] 10:51very different, it's shifted to the left.
bem diferente, é desviada para a esquerda.
[268] 11:04But then also many people on the far right
E também muitas pessoas bem à direita
[269] 11:06who seem to benefit from propaganda.
que parecem ter se beneficiado da propaganda.
[271] 11:11ELA: So culturomics
ELA: Cultorômica
[272] 11:13is what we call this method.
é como chamamos este método.
[273] 11:15It's kind of like genomics.
É como se fosse a genômica.
[274] 11:17Except genomics is a lens on biology
Só que a genômica é uma lente para que a biologia
[276] 11:22Culturomics is similar.
Cultorômica é parecido.
[278] 11:27to the study of human culture.
para estudo da cultura humana.
[281] 11:34The great thing about culturomics
O bom da culturômica
[282] 11:36is that everyone can do it.
é que todos podem participar.
[283] 11:38Why can everyone do it?
Por que todos podem?
[284] 11:40Everyone can do it because three guys,
Todos podem porque três caras,
[286] 11:45saw the prototype of the Ngram Viewer,
viram o protótipo do Visualizador de N-Gramas,
[287] 11:47and they said, "This is so fun.
e disseram, "Isso é bem divertido.
[288] 11:49We have to make this available for people."
Temos que disponibilizar para as pessoas."
[292] 12:00and see its n-gram immediately --
e imediatamente podem ver o n-grama --
[294] 12:04in which your n-gram appears.
nos quais o seu n-grama aparece.
[296] 12:08and this is really the best of all the queries.
e é de fato a melhor de todas as procuras.
[301] 12:22It's not that strove for mediocrity,
Não é um esforço pela mediocridade,
[305] 12:33But it turns out this is just a reminder
Mas se tornou um lembrete
[306] 12:35that, although this is a lot of fun,
de que, mesmo sendo muito divertido,
[311] 12:52Actually, we're not going to have to talk,
Na verdade, não precisaremos falar,
[314] 13:00There's various types of frustration.
Existem vários tipos de frustração.
[316] 13:06If the planet Earth is annihilated by the Vogons
Se a Terra é aniquilada pelos Vogons
[317] 13:08to make room for an interstellar bypass,
pra dar lugar à um atalho interestelar,
[318] 13:10that's an eight A "aaaaaaaargh."
é um "aaaaaaaai" com 8 'A's.
[319] 13:12This person studies all the "arghs,"
Esta pessoa estudou todos os "ais",
[320] 13:14from one through eight A's.
de 1 até 8 'A's.
[321] 13:16And it turns out
E acontece
[322] 13:18that the less-frequent "arghs"
que os "ais" menos frequentes
[324] 13:23except, oddly, in the early 80s.
exceto, curiosamente, no começo dos anos 80.
[327] 13:30JM: There are many usages of this data,
JM: Existem muitos usos para estas informações,
[331] 13:40It's a sizable chunk of human culture.
É um pedaço considerável da cultura humana.
[334] 13:48These all happen to be on our computers,
Acontece que estes estão em nossos computadores,
[335] 13:50on computers across the world.
em computadores ao redor do mundo.