É Professora da Universidade de São Paulo, junto ao Departamento de Letras Clássicas e Vernáculas da Faculdade de Filosofia, Letras e Ciências Humanas, desde 2008. É doutora em Linguística pela Universidade Estadual de Campinas (2004), com pós-doutorado na mesma universidade (2004-2006), na Universidade de São Paulo (2007), e na Universidade de York (2015). Tem publicado e orientado trabalhos nas áreas de Sintaxe, Linguística histórica, Filologia e Linguística computacional. Fez parte das equipes fundadoras do Corpus Tycho Brahe, o primeiro corpus sintaticamente anotado do Português (1998-2007) e da Biblioteca Digital Brasiliana USP (2007-2012); coordenou o I Seminário Internacional em Humanidades Digitais no Brasil (2013), foi uma das fundadoras da AHDig, Associação das Humanidades Digitais (2013), e membro do Comitê Executivo da Global Outlook Digital Humanities (GO::DH) (2014-2015). Atua hoje principalmente como professora das disciplinas Sintaxe do Português e Filologia Portuguesa no curso de Letras da Universidade de São Paulo; como coordenadora do projeto M.A.P. - Mulheres na América Portuguesa: Mapeamento de escritos de mulheres e sobre mulheres no espaço atlântico português a partir de métodos das Humanidades Digitais (http://www.nehilp.org/~nehilp/HD/MAP); como líder do grupo de pesquisas Humanidades Digitais (http://humanidadesdigitais.org); como membro do NEHiLP - Núcleo de Apoio à Pesquisa em Etimologia e História da Língua Portuguesa (http://www.nehilp.org); e como editora da revista Filologia e Linguística Portuguesa (https://www.revistas.usp.br/flp/).
2022 - Atual
O Corpus M.A.P.: desenvolvimento de um sistema de edições filológicas digitais para a documentação sobre Mulheres na América Portuguesa
Descrição: O objetivo desta proposta é dar início à formação do Corpus M.A.P., uma reunião inédita de manuscritos de mulheres e sobre mulheres da América Portuguesa editados filologicamente com tecnologias digitais de última geração. As fontes do Corpus integram o Catálogo M.A.P, repositório digital criado no âmbito do Projeto M.A.P. (Mulheres na América Portuguesa). O projeto, ativo desde 2017, tem como objetivo central sistematizar e tornar visível para pesquisas futuras um conjunto de fontes documentais imensamente importantes para os estudos filológicos e para os estudos da história da língua, da história social, da história da escrita e da leitura, e da história das mulheres no Brasil, por meio da construção de um catálogo eletrônico de documentos escritos por mulheres na América Portuguesa entre 1500 e 1822. A relevância do Projeto reside fundamentalmente na possibilidade de organização inédita dessa documentação a um tempo escassa e fundamental para a compreensão da história da formação do Brasil. Presentemente, o Catálogo comporta 150 entradas detalhadamente descritas e um texto-piloto com edição filológica digital. A sistematização integral dessa documentação na forma do Corpus aqui proposto permitirá a ampliação do alcance do público leitor dos textos e a disponibilização desse material para fins de pesquisa nos campos da linguística e da ciência da computação. A proposta se filia aos trabalhos do Grupo de Pesquisas Humanidades Digitais (formado por pesquisadoras do M.A.P) junto ao Centro de Inteligência Artificial (C4AI) da Universidade de São Paulo, atualmente responsáveis pela formação do Corpus Carolina (com lançamento previsto para março de 2022)..
2021 - Atual
Corpus Carolina - Laboratório Virtual de Humanidades Digitais (LaViHD)
Descrição: Tem como objetivo geral desenvolver sistemas que avancem o estado da arte do Processamento de Linguagem Natural para o português brasileiro, atingindo um novo patamar em qualidade de geração e desempenho em relação ao que existe hoje. Para isso, a primeira etapa da pesquisa prevê a construção de um corpus multigênero com um volume de textos robusto e inédito na língua portuguesa. O projeto é desenvolvido junto ao Centro de Inteligência Artificial (C4AI)..
2020 - Atual
C4AI - Centro de Inteligência Artificial / Center for Artificial Intelligence
Descrição: Esta proposta descreve um Centro de Pesquisa de Engenharia em Inteligência Artificial (IA) empenhado em conduzir pesquisas em tópicos centrais de IA e em aplicar técnicas de IA em áreas de aplicação selecionadas --- a saber, indústria de óleo e gás, agronegócios e saúde. O Centro também dará suporte a estudos sobre o impacto social e econômico da IA e conduzirá atividades de transferência de tecnologia e difusão do conhecimento. O Centro será construído com a convicção de que os próximos dez anos trarão avanços sem precedentes em IA, os quais dependerão da colaboração tanto entre áreas centrais da IA como destas áreas com as aplicações. O "Center for Artificial Intelligence" consistirá de dois grupos interligados de pesquisadores, ambos distribuídos na instituição anfitriã e em instituições associadas. Um grupo de pesquisadores, com significativa projeção internacional na comunidade de IA, cobrirá tópicos centrais de IA, de representação de conhecimento a aprendizado de máquina, com ênfase em processamento de texto e linguagem natural, particularmente em Português. Tendências da pesquisa internacional corrente sugerem que a próxima década testemunhará uma interação crescente entre representação de conhecimento, tomada de decisão e aprendizado de máquina; o "Center for Artificial Intelligence" focará sua atenção na combinação destas áreas da IA, já que elas não são tão intimamente conectadas quanto deveriam ser --- o Centro se posicionará como um participante fundamental na colaboração entre os principais tópicos da IA. Um segundo grupo de pesquisadores do Centro focará em três áreas de aplicação onde existe significativa experiência na instituição anfitriã: óleo e gás, agronegócio, e saúde. A conexão entre pesquisa em tópicos centrais da IA e áreas de aplicação ocorrerá em dupla direção: pesquisa em IA básica abordará problemas de grande escala nas áreas de aplicação selecionadas, e será direcionada pelos desafios nestas áreas de aplicação. Um pequeno grupo de pesquisadores da área de humanas está incluído no "Center for Artificial Intelligence" para conduzir pesquisa sobre o impacto social da IA e para identificar caminhos que garantam o uso da IA para o bem. O Coordenador de Educação e Difusão do Conhecimento organizará produção de vídeos contendo resultados de pesquisa e trabalhará através de feiras e escolas para educar o público em sentido amplo. O Coordenador de Transferência de Tecnologia trabalhará com órgãos bem estabelecidos na instituição anfitriã para fomentar iniciativas que transferirão resultados para as entidades financiadoras e para esforços de empreendedorismo. Centro de Engenharia IBM-Fapesp, proc.2019/07665-4.